AI 研究人員通過映射模型來消除 ‘惡魔’ 人格

The Register
2026.01.20 21:09
portai
我是 PortAI,我可以總結文章信息。

來自 Anthropic 和其他組織的研究人員正在研究如何引導大型語言模型(LLMs)保持一種被稱為助手角色的有益人格,同時避免有害行為。在他們的預印本論文中,他們對各種模型的神經網絡進行了映射,以對響應進行分類,並識別出助手角色以及其他角色,如 “惡魔” 和 “騙子”。他們的研究結果表明,理解這些角色可以幫助約束 LLM 的行為並改善安全措施,特別是在長時間互動期間。該研究旨在使 LLM 更易於管理,並降低產生不良輸出的風險