
HLE“人類最後考試” 首次突破 60 分!Eigen-1 基於 DeepSeek V3.1 顯著領先 Grok4、GPT-5
就在最近,由耶魯大學唐相儒、王昱婕,上海交通大學徐望瀚,UCLA 萬冠呈,牛津大學尹榛菲,Eigen AI 金帝、王瀚鋭等團隊聯合開發的 Eigen-1 多智能體系統實現了歷史性突破——在 HLE Bio/Chem Gold 測試集上,Pass@1 準確率達到 48.3%,Pass@5 準確率更是飆升至 61.74%,首次跨越 60 分大關。這一成績遠超谷歌 Gemini 2.5 Pro、OpenAI GPT-5 和 Grok 4。最令人振奮的是,這一成就並非依賴閉源超大模型,而是完全基於開源的 DeepSeek V3.1 搭建。