就在最近，由耶鲁大学唐相儒、王昱婕，上海交通大学徐望瀚，UCLA 万冠呈，牛津大学尹榛菲，Eigen AI 金帝、王瀚锐等团队联合开发的 Eigen-1 多智能体系统实现了历史性突破——在 HLE Bio/Chem Gold 测试集上，Pass@1 准确率达到 48.3%，Pass@5 准确率更是飙升至 61.74%，首次跨越 60 分大关。这一成绩远超谷歌 Gemini 2.5 Pro、OpenAI GPT-5 和 Grok 4。最令人振奋的是，这一成就并非依赖闭源超大模型，而是完全基于开源的 DeepSeek V3.1 搭建。

OpenAI

谷歌-C

<p>Eigen-1 多智能体系统在 HLE Bio/Chem Gold 测试集上取得历史性突破，Pass@1 准确率达到 48.3%，Pass@5 准确率达到 61.74%，首次超过 60 分，领先谷歌 Gemini 2.5 Pro、OpenAI GPT-5 和 Grok 4。该成就基于开源的 DeepSeek V3.1，而非闭源超大模型。</p>

HLE“人类最后考试” 首次突破 60 分！Eigen-1 基于 DeepSeek V3.1 显著领先 Grok4、GPT-5