OpenAI 表示,GPT-5 在广泛的工作领域中表现得与人类相当

TechCrunch
2025.09.25 16:17
portai
我是 PortAI,我可以总结文章信息。

OpenAI 推出了一个新的基准测试 GDPval,以评估其 GPT-5 模型在各个行业与人类专业人士的表现。结果显示,GPT-5 在 40.6% 的任务中表现与行业专家相当,而 Anthropic 的 Claude Opus 4.1 得分为 49%。尽管该基准目前涵盖的任务有限,OpenAI 计划扩展其范围,以更好地反映现实世界的工作职能。GDPval 所显示的进展表明,人工智能可以帮助专业人士专注于更有意义的工作,并预计人工智能能力将持续改善