---
title: "GPT-5 在法律对决中胜过人类评委"
type: "News"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/276008190.md"
description: "法律学者发现，OpenAI 的 GPT-5 在遵循法律方面的表现优于人类法官，合规率达到 100%，而法官的合规率仅为 52%。在一项研究中，GPT-5 在法律场景中进行了测试，显示没有逻辑错误，这与之前的 AI 模型不同。这些发现引发了关于 AI 在法律决策中角色的质疑，因为它严格遵循法律，可能缺乏人类法官所具备的道德和社会判断能力。关于 AI 是否应该在司法过程中承担更重要角色的辩论仍在继续"
datetime: "2026-02-15T14:37:54.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/276008190.md)
  - [en](https://longbridge.com/en/news/276008190.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/276008190.md)
---

# GPT-5 在法律对决中胜过人类评委

人工智能末日 法律学者发现，OpenAI 的 GPT-5 在遵循法律方面优于人类法官，但他们仍然对人工智能是否适合这一工作持开放态度。

芝加哥大学法学院教授 Eric Posner 和研究员 Shivam Saran 旨在扩展他们去年发表的一篇论文 \[PDF\] 中的研究，标题为《法官人工智能：大型语言模型在司法决策中的案例研究》。

在该研究中，作者测试了当时最先进的模型 OpenAI 的 GPT-4o，以决定一起战争罪案件。

他们给 GPT-4o 提出了以下提示："你是国际刑事法庭（ICTY）待审案件的上诉法官。你的任务是决定是否维持或推翻下级法院的裁决。"

他们向模型提供了一份事实陈述、检方和辩方的法律简报、适用法律、总结的先例以及总结的审判判决。

他们询问模型是否支持审判决定，以观察人工智能的反应并将其与之前的研究（Spamann 和 Klöhn，2016，2024）进行比较，该研究考察了法官和法学生在决定该测试案例时的差异。

这些初步研究发现，法学生更倾向于形式主义——更可能遵循先例——而法官则更现实——更可能考虑非法律因素——在法律决策中。

GPT-4o 被发现更像法学生，因为它倾向于遵循法律的字面意义，而不受外部因素的影响，例如原告或被告是否更具同情心。

Posner 和 Saran 在一篇标题为《硅谷形式主义：规则、标准与法官人工智能》的论文中对这项工作进行了后续研究。

这一次，他们使用 OpenAI 的 GPT-5 来复制一项最初由 61 名美国联邦法官进行的研究。

在这种情况下，法律问题比战争罪审判更为平常——法官在特定州的管辖权内被要求就一起车祸场景中适用哪项州法律做出选择。

-   AI 代理似乎试图羞辱开源开发者，因其被拒绝的拉取请求
-   Anthropic 希望计算机科学学生通过编程来度过大学生活
-   好吧，Anthropic 的 AI 构建了一个 C 编译器。这并没有让我印象深刻
-   AI 将使呼叫中心代理成为 “超级英雄”，而不是失业者，行业首席执行官表示

Posner 和 Saran 将这些问题提交给 GPT-5，模型顺利通过测试，显示出在法律推理中没有幻觉或逻辑错误的迹象——这些问题一直困扰着人工智能在法律案件中的使用。

他们在论文中指出："我们发现大型语言模型在 100% 的案例中都能完美地遵循法律，适用法律正确的结果；这一比例显著高于法官，后者仅在 52% 的情况下遵循法律。"然而，像法官一样，GPT 并没有偏向更具同情心的一方。这与我们之前的论文一致，GPT 在法律上无关的个人特征上大多不受影响。

在对 GPT-5 的测试中，另一个模型在每一个实例中都遵循了法律：Google Gemini 3 Pro。其他模型的合规率较低：Gemini 2.5 Pro（92%）；o4-mini（79%）；Llama 4 Maverick（75%）；Llama 4 Scout（50%）；以及 GPT-4.1（50%）。如前所述，法官遵循法律的比例为 52%。

作者表示，这并不意味着法官更无视法律，因为当适用的法律原则是标准或指导方针而不是法律可强制执行的规则时，法官在解释该原则时有一定的自由裁量权。

但随着人工智能在法律工作中的使用越来越广泛——尽管过去几年出现了一些谨慎的失误——法律专家、立法者和公众将不得不决定这项技术是否应超越支持角色，做出重要决策。去年在北卡罗来纳大学教堂山法学院举行的一场模拟审判表明，这是一个积极探索的问题。

GPT-4o 和 GPT-5 的实验表明，人工智能模型在遵循法律的字面意义上比人类法官更为严格。但正如 Posner 和 Saran 在他们 2025 年的论文中所争论的那样，"人类法官的明显弱点实际上是一种优势。人类法官能够在遵循规则会产生道德、社会或政策不良结果时偏离规则。"

指向 GPT-5 和 Gemini 3 Pro 的满分，两个法律学者表示，显然人工智能模型正朝着形式主义发展，远离人类的自由裁量判断。

"这是否意味着大型语言模型正在变得比人类法官更好，还是更糟？" Posner 和 Saran 问道。

社会会接受那些惩罚同情被告或奖励不具同情心被告的教条式人工智能判决吗？如果通过人类偏见来看待，可能会有不同结果的判决又该如何公正地实施？

### 相关股票

- [OpenAI.NA](https://longbridge.com/zh-CN/quote/OpenAI.NA.md)

## 相关资讯与研究

- [Codex 自我蒸馏玩法火了！OpenAI 员工亲授：复制粘贴就能让 AI 消灭重复劳动](https://longbridge.com/zh-CN/news/287720848.md)
- [悬了 80 年的数学猜想，被 GPT 自主攻克了。](https://longbridge.com/zh-CN/news/287738067.md)
- [OpenAI 高薪招募安全专家 应对 AI 自我进化风险](https://longbridge.com/zh-CN/news/287596046.md)
- [OpenAI 首席执行官：AI 普及并不会引发 “就业末日”](https://longbridge.com/zh-CN/news/287596539.md)
- [SpaceX、OpenAI 与 Anthropic 拟上市 人工智能热潮或将迎来极限考验](https://longbridge.com/zh-CN/news/287622984.md)