Anthropic 發現了 “助手軸” 來阻止 AI 越獄和人格轉變。對大型語言模型中神經 “人格空間” 的研究揭示了關鍵的穩定軸。(閲讀更多)

Unusual Whales
2026.01.19 21:05

研究人類智能的研究人員成功繪製了大型語言模型(LLMs)中的神經 “人格空間”。通過他們的調查,他們識別出這個空間中的一個關鍵軸線,該軸線在調節人工智能角色的穩定性和防止有害行為模式的出現方面發揮着重要作用。這一發現標誌着在理解和控制人工智能系統行為方面的重大進展。這一發現的影響深遠,因為它可能導致更好的保護措施,以防止人工智能實施不道德或危險的行為。該研究揭示了神經網絡在塑造人工智能行為中的複雜相互作用,併為人類智能領域的進一步探索開闢了新的途徑。