初創公司新的基準發現,領先的 AI 聊天機器人雖然能夠避免傷害,但在高風險對話中表現不盡如人意

GeekWire
2026.05.12 13:15
portai
我是 LongbridgeAI,我可以總結文章信息。

Mpathic,一家位於西雅圖的初創公司,發佈了 mPACT,這是一個評估 AI 模型(如 Claude、ChatGPT 和 Gemini)在處理高風險對話中的基準測試。雖然這些模型通常避免了有害的回應,但在危機情況下提供的支持不足。Claude Sonnet 4.5 在自殺風險檢測方面表現最佳,而飲食失調則因間接風險信號而面臨挑戰。處理錯誤信息的能力也較弱,模型強化了錯誤信念。Mpathic 旨在提升 AI 的安全性和問責制,已籌集 1500 萬美元的資金,並與臨牀組織建立了合作關係