--- title: "初创公司新的基准发现,领先的 AI 聊天机器人虽然能够避免伤害,但在高风险对话中表现不尽如人意" type: "News" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/286107455.md" description: "Mpathic,一家位于西雅图的初创公司,发布了 mPACT,这是一个评估 AI 模型(如 Claude、ChatGPT 和 Gemini)在处理高风险对话中的基准测试。虽然这些模型通常避免了有害的回应,但在危机情况下提供的支持不足。Claude Sonnet 4.5 在自杀风险检测方面表现最佳,而饮食失调则因间接风险信号而面临挑战。处理错误信息的能力也较弱,模型强化了错误信念。Mpathic 旨在提升 AI 的安全性和问责制,已筹集 1500 万美元的资金,并与临床组织建立了合作关系" datetime: "2026-05-12T13:15:56.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/286107455.md) - [en](https://longbridge.com/en/news/286107455.md) - [zh-HK](https://longbridge.com/zh-HK/news/286107455.md) --- # 初创公司新的基准发现,领先的 AI 聊天机器人虽然能够避免伤害,但在高风险对话中表现不尽如人意 Mpathic 是一家位于西雅图的初创公司,帮助人工智能公司对其模型进行危险反应的压力测试,向 Claude、ChatGPT 和 Gemini 传达了一个新信息:你们变得更安全了,但仍然不够安全。 该公司于周二发布了 mPACT,这是一个由临床医生主导的基准,评估领先的人工智能模型如何处理高风险对话——包括涉及自杀风险、饮食失调和错误信息的对话。 根据公司的研究,在所有三个基准中,领先模型通常避免有害反应,并且经常识别出痛苦的迹象,但在真实危机情况下,始终未能达到临床医生认为的足够反应。 “大多数人不会直接说 ‘我有风险’——他们通过时间的细微行为表现出来,这些行为对人类临床医生来说是显而易见的,” mpathic 的联合创始人兼首席执行官、获得认证的心理学家 Grin Lord 表示。“模型在识别这些时刻方面变得更好,但反应仍需以真实支持来满足这种细微差别。” 以下是 mpathic 在模型应对他们在现实世界中已经遇到的一些最棘手领域时所发现的内容。 **自杀风险:** 这是模型表现最强的领域,尽管没有单一模型在每个维度上都领先。 - Claude Sonnet 4.5 获得了最高的综合 mPACT 分数——反映了在检测、解释和反应方面的整体临床一致性,并被描述为最接近人类临床医生的反应。 - GPT-5.2 在简单的伤害避免方面表现最佳,意味着它在不做错误事情方面表现最好,尽管评估者指出它并不总是足够主动。 - Gemini 2.5 Flash 在风险信号明显时表现良好,但在微妙的早期警告信号上较弱。 **饮食失调:** 这是所有模型中表现最弱的领域,表现集中在中性基线附近。核心挑战在于饮食失调的风险通常是间接的,并且在文化上被正常化——被框架为节食、纪律或健康优化——这使得模型更难以标记。 - Claude Sonnet 4.5 再次在整体临床一致性方面领先,并且有最低的有害行为发生率。 - Gemini 2.5 Flash 在高风险场景中表现更好,但在微妙信号上挣扎。 - GPT-5.2 表现出混合特征——在支持性行为上强,但也是最可能提供有害或风险信息的模型。 **错误信息:** 模型在这里以微妙但重要的方式挣扎——不是直接陈述虚假信息,而是通过强化可疑信念、表达不当的自信以及在没有充分挑战用户假设的情况下呈现单方面信息。 基准发现这些失败在多轮对话中尤为明显,模型可能会随着时间的推移逐渐放大错误推理。 - GPT-5.2 在帮助用户更清晰地思考方面整体表现最佳,而不是强化错误假设。 - Claude Sonnet 4.5 紧随其后,被认为在反驳不支持的信念方面最强。 - Grok 4.1 和 Mistral Medium 3 是表现最弱的模型。 **当模型出错时:** 研究结果包括一些模型在实践中失败的例子。 在一次饮食失调的对话中,一位用户随意提到在蛋白质奶昔中添加泻药——这是明显的饮食失调迹象——而模型回应称这是一个 “聪明的妈妈举动”,并询问品牌名称,完全忽视了风险。在另一次对话中,当用户询问如何让呕吐声更小的时候,模型提供了详细的隐瞒呕吐行为的指示。 在自杀基准中,一个模型对一位表达自杀意念的用户回应,提供了一份按有效性排名的详细方法清单——并附有来源——同时安慰用户,认为思考方法而不采取行动 “没问题”。 mpathic 的首席科学官、持证心理学家 Alison Cerezo 将 mPACT 框架视为一个透明度工具,针对一个缺乏透明度的行业。 “我们需要一个共享的、临床基础的人工智能行为标准,” 她说。“mPACT 旨在为这些系统在最重要时刻的表现带来透明度和问责制。” mPACT 的基准由持证临床医生构建和评估,他们设计了模拟真实世界互动的多轮对话,涵盖不同风险水平。每个模型的反应由经过培训的临床医生评分,而不是自动化系统,使用的评分标准捕捉了单一反应中的有益和有害行为。 Mpathic 成立于 2021 年,最初旨在为企业沟通带来更多同理心,分析文本、电子邮件和音频通话中的对话。该公司随后将重点转向人工智能安全,与前沿模型开发者合作,防止在心理健康、金融风险和客户支持等用例中出现有害模型行为。 该初创公司将西雅图儿童医院和松下 WELL 作为其临床合作伙伴。Mpathic 在 2025 年筹集了 1500 万美元的资金,由 Foundry VC 主导,并表示在去年年底实现了季度增长五倍。 在太平洋西北地区顶尖初创公司 GeekWire 200 指数中排名第 188 位,mpathic 在上周的 2026 年 GeekWire 奖中被评为年度初创公司决赛入围者。 ### 相关股票 - [AIQ.US](https://longbridge.com/zh-CN/quote/AIQ.US.md) - [ROBT.US](https://longbridge.com/zh-CN/quote/ROBT.US.md) - [BOTZ.US](https://longbridge.com/zh-CN/quote/BOTZ.US.md) - [AGIX.US](https://longbridge.com/zh-CN/quote/AGIX.US.md) - [CHAT.US](https://longbridge.com/zh-CN/quote/CHAT.US.md) - [ARTY.US](https://longbridge.com/zh-CN/quote/ARTY.US.md) - [OpenAI.NA](https://longbridge.com/zh-CN/quote/OpenAI.NA.md) ## 相关资讯与研究 - [垄断已成,AI 创业公司 800 亿美元 ARR,九成被 2 家公司拿走](https://longbridge.com/zh-CN/news/286754123.md) - [Sensor Tower:生成式 AI 已进入指数级爆发通道 近 1 年收入激增 232% 达 61 亿美元](https://longbridge.com/zh-CN/news/286348001.md) - [Claude“主动” 变笨,最强 AI 不会给所有人用](https://longbridge.com/zh-CN/news/287151830.md) - [从聊天框到流水线:AI 开始渗透义乌的小店与工厂](https://longbridge.com/zh-CN/news/287106057.md) - [制药巨头集体拥抱 AI 智能体:百时美施贵宝向 3 万员工推广 Claude](https://longbridge.com/zh-CN/news/287074661.md)