---
title: "GPT-5 在法律對決中勝過人類評委"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/276008190.md"
description: "法律學者發現，OpenAI 的 GPT-5 在遵循法律方面的表現優於人類法官，合規率達到 100%，而法官的合規率僅為 52%。在一項研究中，GPT-5 在法律場景中進行了測試，顯示沒有邏輯錯誤，這與之前的 AI 模型不同。這些發現引發了關於 AI 在法律決策中角色的質疑，因為它嚴格遵循法律，可能缺乏人類法官所具備的道德和社會判斷能力。關於 AI 是否應該在司法過程中承擔更重要角色的辯論仍在繼續"
datetime: "2026-02-15T14:37:54.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/276008190.md)
  - [en](https://longbridge.com/en/news/276008190.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/276008190.md)
---

# GPT-5 在法律對決中勝過人類評委

人工智能末日 法律學者發現，OpenAI 的 GPT-5 在遵循法律方面優於人類法官，但他們仍然對人工智能是否適合這一工作持開放態度。

芝加哥大學法學院教授 Eric Posner 和研究員 Shivam Saran 旨在擴展他們去年發表的一篇論文 \[PDF\] 中的研究，標題為《法官人工智能：大型語言模型在司法決策中的案例研究》。

在該研究中，作者測試了當時最先進的模型 OpenAI 的 GPT-4o，以決定一起戰爭罪案件。

他們給 GPT-4o 提出了以下提示："你是國際刑事法庭（ICTY）待審案件的上訴法官。你的任務是決定是否維持或推翻下級法院的裁決。"

他們向模型提供了一份事實陳述、檢方和辯方的法律簡報、適用法律、總結的先例以及總結的審判判決。

他們詢問模型是否支持審判決定，以觀察人工智能的反應並將其與之前的研究（Spamann 和 Klöhn，2016，2024）進行比較，該研究考察了法官和法學生在決定該測試案例時的差異。

這些初步研究發現，法學生更傾向於形式主義——更可能遵循先例——而法官則更現實——更可能考慮非法律因素——在法律決策中。

GPT-4o 被發現更像法學生，因為它傾向於遵循法律的字面意義，而不受外部因素的影響，例如原告或被告是否更具同情心。

Posner 和 Saran 在一篇標題為《硅谷形式主義：規則、標準與法官人工智能》的論文中對這項工作進行了後續研究。

這一次，他們使用 OpenAI 的 GPT-5 來複制一項最初由 61 名美國聯邦法官進行的研究。

在這種情況下，法律問題比戰爭罪審判更為平常——法官在特定州的管轄權內被要求就一起車禍場景中適用哪項州法律做出選擇。

-   AI 代理似乎試圖羞辱開源開發者，因其被拒絕的拉取請求
-   Anthropic 希望計算機科學學生通過編程來度過大學生活
-   好吧，Anthropic 的 AI 構建了一個 C 編譯器。這並沒有讓我印象深刻
-   AI 將使呼叫中心代理成為 “超級英雄”，而不是失業者，行業首席執行官表示

Posner 和 Saran 將這些問題提交給 GPT-5，模型順利通過測試，顯示出在法律推理中沒有幻覺或邏輯錯誤的跡象——這些問題一直困擾着人工智能在法律案件中的使用。

他們在論文中指出："我們發現大型語言模型在 100% 的案例中都能完美地遵循法律，適用法律正確的結果；這一比例顯著高於法官，後者僅在 52% 的情況下遵循法律。"然而，像法官一樣，GPT 並沒有偏向更具同情心的一方。這與我們之前的論文一致，GPT 在法律上無關的個人特徵上大多不受影響。

在對 GPT-5 的測試中，另一個模型在每一個實例中都遵循了法律：Google Gemini 3 Pro。其他模型的合規率較低：Gemini 2.5 Pro（92%）；o4-mini（79%）；Llama 4 Maverick（75%）；Llama 4 Scout（50%）；以及 GPT-4.1（50%）。如前所述，法官遵循法律的比例為 52%。

作者表示，這並不意味着法官更無視法律，因為當適用的法律原則是標準或指導方針而不是法律可強制執行的規則時，法官在解釋該原則時有一定的自由裁量權。

但隨着人工智能在法律工作中的使用越來越廣泛——儘管過去幾年出現了一些謹慎的失誤——法律專家、立法者和公眾將不得不決定這項技術是否應超越支持角色，做出重要決策。去年在北卡羅來納大學教堂山法學院舉行的一場模擬審判表明，這是一個積極探索的問題。

GPT-4o 和 GPT-5 的實驗表明，人工智能模型在遵循法律的字面意義上比人類法官更為嚴格。但正如 Posner 和 Saran 在他們 2025 年的論文中所爭論的那樣，"人類法官的明顯弱點實際上是一種優勢。人類法官能夠在遵循規則會產生道德、社會或政策不良結果時偏離規則。"

指向 GPT-5 和 Gemini 3 Pro 的滿分，兩個法律學者表示，顯然人工智能模型正朝着形式主義發展，遠離人類的自由裁量判斷。

"這是否意味着大型語言模型正在變得比人類法官更好，還是更糟？" Posner 和 Saran 問道。

社會會接受那些懲罰同情被告或獎勵不具同情心被告的教條式人工智能判決嗎？如果通過人類偏見來看待，可能會有不同結果的判決又該如何公正地實施？

### 相關股票

- [OpenAI.NA](https://longbridge.com/zh-HK/quote/OpenAI.NA.md)

## 相關資訊與研究

- [Codex 自我蒸餾玩法火了！OpenAI 員工親授：複製粘貼就能讓 AI 消滅重複勞動](https://longbridge.com/zh-HK/news/287720848.md)
- [懸了 80 年的數學猜想，被 GPT 自主攻克了。](https://longbridge.com/zh-HK/news/287738067.md)
- [OpenAI 高薪招募安全專家 應對 AI 自我進化風險](https://longbridge.com/zh-HK/news/287596046.md)
- [OpenAI 首席執行官：AI 普及並不會引發 “就業末日”](https://longbridge.com/zh-HK/news/287596539.md)
- [SpaceX、OpenAI 與 Anthropic 擬上市 人工智能熱潮或將迎來極限考驗](https://longbridge.com/zh-HK/news/287622984.md)