--- title: "HLE“人类最后考试” 首次突破 60 分!Eigen-1 基于 DeepSeek V3.1 显著领先 Grok4、GPT-5" description: "Eigen-1 多智能体系统在 HLE Bio/Chem Gold 测试集上取得历史性突破,Pass@1 准确率达到 48.3%,Pass@5 准确率达到 61.74%,首次超过 60 分,领先谷歌 Gemini 2.5 Pro、OpenAI GPT-5 和 Grok 4。该成就基于开源的 DeepSeek V3.1,而非闭源超大模型。" type: "news" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/259215649.md" published_at: "2025-09-28T11:59:11.000Z" --- # HLE“人类最后考试” 首次突破 60 分!Eigen-1 基于 DeepSeek V3.1 显著领先 Grok4、GPT-5 > Eigen-1 多智能体系统在 HLE Bio/Chem Gold 测试集上取得历史性突破,Pass@1 准确率达到 48.3%,Pass@5 准确率达到 61.74%,首次超过 60 分,领先谷歌 Gemini 2.5 Pro、OpenAI GPT-5 和 Grok 4。该成就基于开源的 DeepSeek V3.1,而非闭源超大模型。 就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA 万冠呈,牛津大学尹榛菲,Eigen AI 金帝、王瀚锐等团队联合开发的 Eigen-1 多智能体系统实现了历史性突破——在 HLE Bio/Chem Gold 测试集上,Pass@1 准确率达到 48.3%,Pass@5 准确率更是飙升至 61.74%,首次跨越 60 分大关。这一成绩远超谷歌 Gemini 2.5 Pro、OpenAI GPT-5 和 Grok 4。最令人振奋的是,这一成就并非依赖闭源超大模型,而是完全基于开源的 DeepSeek V3.1 搭建。 ### Related Stocks - [OpenAI.NA - OpenAI](https://longbridge.com/zh-CN/quote/OpenAI.NA.md) - [GOOG.US - 谷歌-C](https://longbridge.com/zh-CN/quote/GOOG.US.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | 馬斯克旗下 Grok 美國市佔升至近 18% 未受傳播色情內容影響 | 馬斯克旗下的 AI 聊天機器人 Grok 在美國的市場份額已升至近 18%,成為第三大聊天機器人,僅次於 ChatGPT 和 Google Gemini。儘管 Grok 捲入生成色情內容的爭議,但其使用率未受影響。分析師認為,社交媒體平台 | [Link](https://longbridge.com/zh-CN/news/275965405.md) | | ChatGPT 開始測試投放廣告 | OpenAI 開始在 ChatGPT 的免費版和最低付費版中測試廣告,旨在增加收入以應對成本上升。測試面向美國成年用户,涵蓋免費和 Go 訂閲方案(每月 8 美元)。儘管大多數用户未付費,OpenAI 承諾廣告不會影響回答內容,用户對話內容 | [Link](https://longbridge.com/zh-CN/news/275484431.md) | | GPT-5 在法律對決中勝過人類評委 | 法律學者發現,OpenAI 的 GPT-5 在遵循法律方面的表現優於人類法官,合規率達到 100%,而法官的合規率僅為 52%。在一項研究中,GPT-5 在法律場景中進行了測試,顯示沒有邏輯錯誤,這與之前的 AI 模型不同。這些發現引發了關 | [Link](https://longbridge.com/zh-CN/news/276008190.md) | | 一切向 “錢” 看!ChatGPT 正式開測廣告,網上罵聲一片 | OpenAI 開始對免費與低價訂閲用户測試廣告功能,以緩解高昂運營成本。此舉引發用户強烈反對,被批損害體驗與信任。競爭對手 Anthropic 藉機諷刺,OpenAI CEO 則激烈回擊。此舉背後是為支撐其千億美元級融資談判,向資本市場證明 | [Link](https://longbridge.com/zh-CN/news/275435957.md) | | OpenAI 首款硬件據報今年推 類似 AirPods 受累記憶體短缺要「降格」 | OpenAI 計劃推出首款硬體「Dime」,類似 AirPods,預計今年發布。因內存短缺,原本的高規格設計被簡化,最終產品將為簡單耳機。該產品原定搭載高性能 Exynos 晶片,具備獨立計算能力,但因成本問題調整。預計由富士康在越南生產, | [Link](https://longbridge.com/zh-CN/news/275219739.md) | --- > **免责声明**:本文内容仅供参考,不构成任何投资建议。