终极测试成绩创新高,谷歌 Gemini 3 深度思考模型重大升级,瞄准科研与工程应用

华尔街见闻
2026.02.12 19:11
portai
我是 PortAI,我可以总结文章信息。

在无工具辅助情况下,该模型在 “人类的最后考试”(HLE)基准测试中取得取得 48.4% 的正确率,在在 ARC-AGI-2 测试中获得 84.6% 的成绩;2025 年国际物理奥林匹克和化学奥林匹克的笔试部分均达到金牌水平。谷歌称,新模型在推动发现并帮助研究人员解决 “不可解” 的问题——从发现研究论文中的缺陷到优化半导体晶体生长。