
GPT5 昨晚发布,对$英伟达(NVDA.US)的影響还不确定,但見到一 D 評價,在此分享:
#比较超预期的点
1) 大幅减少幻觉,幻觉也是现在我个人使用 AI 工具最大的问题
联网搜索时 5 的回答出现事实错误的概率比 4o 低了 45%。独立思考时,出错概率 o3 低 80%
2)价格定的比预期要低
GPT5 对所有人包括免费用户开放,Pro 用户可获得 GPT-5 Pro(更智能版本)
A 价格接口输入 1.25 美元/百万 token,输出 10 美元/百万 token
#比较符合预期的点(尤其和 information 等剧透的口径相比
1)确实提升了代码能力
SWE-Bench, SWE-Lancer, Aider Polyglot 等 SOTA。人类最终测试 42%,SWE 75%。
根据后续实测,代码能力确实提升了,#部分任务超过了 Claude
2)数学能力提升 AIME 94.6%,推理能力提升 GPQA 88.4% 达到 SOTA
3)统一了模型的入口,GPT5 自行判断是否需要开启深度思考,之前的模型版本被认为过于复杂
#比较低预期的
1)ARC-AGT-2 LEADERBOARD 没有超过 grok4,只略微由于 Claude Opus 4
(ARC 任务覆盖了各种抽象逻辑,涵盖多种思维方式,另外 IQ 测试,人类可以轻松解决但是此前 LLM 表现不佳)
2)多模态能力只着重加强了语音,之前有部分预期可以输入连贯视频
3)知识截至到 2024,而不是更新到 2025 最新
4)根据后续部分测评,创意写作能力低于前代模型,指令遵循能力一般
本文版权归属原作者/机构所有。
当前内容仅代表作者观点,与本平台立场无关。内容仅供投资者参考,亦不构成任何投资建议。如对本平台提供的内容服务有任何疑问或建议,请联系我们。

