就在最近，由耶魯大學唐相儒、王昱婕，上海交通大學徐望瀚，UCLA 萬冠呈，牛津大學尹榛菲，Eigen AI 金帝、王瀚鋭等團隊聯合開發的 Eigen-1 多智能體系統實現了歷史性突破——在 HLE Bio/Chem Gold 測試集上，Pass@1 準確率達到 48.3%，Pass@5 準確率更是飆升至 61.74%，首次跨越 60 分大關。這一成績遠超谷歌 Gemini 2.5 Pro、OpenAI GPT-5 和 Grok 4。最令人振奮的是，這一成就並非依賴閉源超大模型，而是完全基於開源的 DeepSeek V3.1 搭建。

OpenAI

谷歌-C

<p>Eigen-1 多智能體系統在 HLE Bio/Chem Gold 測試集上取得歷史性突破，Pass@1 準確率達到 48.3%，Pass@5 準確率達到 61.74%，首次超過 60 分，領先谷歌 Gemini 2.5 Pro、OpenAI GPT-5 和 Grok 4。該成就基於開源的 DeepSeek V3.1，而非閉源超大模型。</p>

HLE“人類最後考試” 首次突破 60 分！Eigen-1 基於 DeepSeek V3.1 顯著領先 Grok4、GPT-5