
Anthropic 发现了 “助手轴” 来阻止 AI 越狱和人格转变。对大型语言模型中神经 “人格空间” 的研究揭示了关键的稳定轴。(阅读更多)
研究人类智能的研究人员成功绘制了大型语言模型(LLMs)中的神经 “人格空间”。通过他们的调查,他们识别出这个空间中的一个关键轴线,该轴线在调节人工智能角色的稳定性和防止有害行为模式的出现方面发挥着重要作用。这一发现标志着在理解和控制人工智能系统行为方面的重大进展。这一发现的影响深远,因为它可能导致更好的保护措施,以防止人工智能实施不道德或危险的行为。该研究揭示了神经网络在塑造人工智能行为中的复杂相互作用,并为人类智能领域的进一步探索开辟了新的途径。

