OpenAI 表示,GPT-5 在廣泛的工作領域中表現得與人類相當

TechCrunch
2025.09.25 16:17
portai
我是 PortAI,我可以總結文章信息。

OpenAI 推出了一個新的基準測試 GDPval,以評估其 GPT-5 模型在各個行業與人類專業人士的表現。結果顯示,GPT-5 在 40.6% 的任務中表現與行業專家相當,而 Anthropic 的 Claude Opus 4.1 得分為 49%。儘管該基準目前涵蓋的任務有限,OpenAI 計劃擴展其範圍,以更好地反映現實世界的工作職能。GDPval 所顯示的進展表明,人工智能可以幫助專業人士專注於更有意義的工作,並預計人工智能能力將持續改善