Wealth By Relaxing
2025.08.08 04:15

GPT5 昨晚發佈,對$英偉達(NVDA.US)的影響還不確定,但見到一 D 評價,在此分享:

#比較超預期的點

1) 大幅減少幻覺,幻覺也是現在我個人使用 AI 工具最大的問題

聯網搜索時 5 的回答出現事實錯誤的概率比 4o 低了 45%。獨立思考時,出錯概率 o3 低 80%

2)價格定的比預期要低

GPT5 對所有人包括免費用户開放,Pro 用户可獲得 GPT-5 Pro(更智能版本)

A 價格接口輸入 1.25 美元/百萬 token,輸出 10 美元/百萬 token

#比較符合預期的點(尤其和 information 等劇透的口徑相比

1)確實提升了代碼能力

SWE-Bench, SWE-Lancer, Aider Polyglot 等 SOTA。人類最終測試 42%,SWE 75%。

根據後續實測,代碼能力確實提升了,#部分任務超過了 Claude

2)數學能力提升 AIME 94.6%,推理能力提升 GPQA 88.4% 達到 SOTA

3)統一了模型的入口,GPT5 自行判斷是否需要開啓深度思考,之前的模型版本被認為過於複雜

#比較低預期的

1)ARC-AGT-2 LEADERBOARD 沒有超過 grok4,只略微由於 Claude Opus 4

(ARC 任務覆蓋了各種抽象邏輯,涵蓋多種思維方式,另外 IQ 測試,人類可以輕鬆解決但是此前 LLM 表現不佳)

2)多模態能力只着重加強了語音,之前有部分預期可以輸入連貫視頻

3)知識截至到 2024,而不是更新到 2025 最新

4)根據後續部分測評,創意寫作能力低於前代模型,指令遵循能力一般

本文版權歸屬原作者/機構所有。

當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。