
HLE“人类最后考试” 首次突破 60 分!Eigen-1 基于 DeepSeek V3.1 显著领先 Grok4、GPT-5
就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA 万冠呈,牛津大学尹榛菲,Eigen AI 金帝、王瀚锐等团队联合开发的 Eigen-1 多智能体系统实现了历史性突破——在 HLE Bio/Chem Gold 测试集上,Pass@1 准确率达到 48.3%,Pass@5 准确率更是飙升至 61.74%,首次跨越 60 分大关。这一成绩远超谷歌 Gemini 2.5 Pro、OpenAI GPT-5 和 Grok 4。最令人振奋的是,这一成就并非依赖闭源超大模型,而是完全基于开源的 DeepSeek V3.1 搭建。