今天,我们报告了在理解 AI 模型内部工作原理方面取得的重大进展。我们已经确定了 Claude Sonnet 中数百万个概念的表示方式,Claude Sonnet 是我们部署的大型语言模型之一。这是有史以来第一次对现代生产级大型语言模型进行详细研究。 这种可解释性的发现可以帮助我们在未来使人工智能模型更安全。
我们通常将 AI 模型视为一个黑匣子:有东西进入并发出响应,目前尚不清楚为什么模型给出了特定的响应而不是另一个响应。这使得我们很难相信这些模型是安全的:如果我们不知道它们是如何工作的,我们怎么知道它们不会给出有害的、有偏见的、不真实的或其他危险的响应?我们怎么能相信它们会安全可靠?
打开黑匣子并不一定有帮助:模型的内部状态——模型在编写响应之前“思考”了什么——由一长串没有明确含义的数字(“神经元激活”)组成。通过与像克劳德这样的模型互动,很明显它能够理解和运用广泛的概念,但我们无法通过直接观察神经元来辨别它们。事实证明,每个概念都由许多神经元表示,并且每个神经元都参与表示许多概念。
以前,我们在将神经元激活模式(称为特征)与人类可解释的概念相匹配方面取得了一些进展。我们使用了一种称为“字典学习”的技术,该技术借鉴了经典的机器学习,该技术隔离了在许多不同的环境中重复出现的神经元激活模式。反过来,模型的任何内部状态都可以用几个活跃的特征来表示,而不是许多活跃的神经元。就像字典中的每个英语单词都是由字母组合而成的,每个句子都是由单词组合而成的,人工智能模型中的每个特征都是由神经元组合而成的,每个内部状态都是由组合特征构成的。
2023 年 10 月,我们报告了将字典学习应用于一个非常小的“玩具”语言模型的成功,并发现了与大写文本、DNA 序列、引文中的姓氏、数学中的名词或 Python 代码中的函数参数等概念相对应的连贯特征。
这些概念很有意思,但模型确实非常简单。其他研究人员随后将类似的技术应用于比我们最初的研究更大、更复杂的模型。但我们乐观地认为,我们可以将该技术扩展到现在经常使用的更大的 AI 语言模型,并在此过程中学习大量支持其复杂行为的功能。这需要提升许多数量级——从后院的瓶装火箭到土星五号。
这既有工程挑战(所涉及的模型的原始大小需要重型并行计算)也有科学风险(大型模型的行为与小型模型不同,因此我们之前使用的相同技术可能不起作用)。幸运的是,我们为克劳德开发的训练大型语言模型的工程和科学专业知识实际上转移到了帮助我们进行这些大型词典学习实验上。我们使用相同的缩放定律哲学来预测较大模型的性能,以可承受的规模调整我们的方法,然后再在十四行诗上发布。
至于科学风险,证据就在布丁中。
我们成功地从Claude 3.0 Sonnet(我们当前最先进的模型系列的成员,目前在 claude.ai 上可用)的中间层提取了数百万个特征,在计算过程中提供了其内部状态的粗略概念图。这是有史以来第一次对现代生产级大型语言模型进行详细研究。
虽然我们在玩具语言模型中发现的特征相当肤浅,但我们在十四行诗中发现的特征具有深度、广度和抽象性,反映了十四行诗的高级功能。
我们看到了与城市(旧金山)、人(罗莎琳德·富兰克林)、原子元素(锂)、科学领域(免疫学)和编程语法(函数调用)等大量实体相对应的特征。这些功能是多模态和多语言的,响应给定实体的图像及其多种语言的名称或描述。
我们还发现了更多抽象的功能——对计算机代码中的错误、职业中性别偏见的讨论以及关于保守秘密的对话等事情做出回应。
我们能够测量特征之间的一种“距离”,基于这些特征神经元出现在它们的激活模式中。这使我们能够寻找彼此“接近”的特征。在“金门大桥”附近,我们发现了恶魔岛、吉拉德利广场、金州勇士队、加州州长加文·纽森、1906 年地震和旧金山阿尔弗雷德·希区柯克电影《眩晕》的特征。
这在概念抽象的更高层次上是成立的:在与“内部冲突”概念相关的特征附近,我们发现了与关系破裂、效忠冲突、逻辑不一致以及短语“第22条军规”相关的特征。这表明,人工智能模型中概念的内部组织至少在某种程度上符合我们人类的相似性概念。这也许是克劳德出色的类比和隐喻能力的起源。
重要的是,我们还可以操纵这些特征,人为地放大或抑制它们,看看克劳德的反应是如何变化的。
https://www.youtube-nocookie.com/embed/CJIbCV92d88?autoplay=0&mute=0&controls=1&origin=https%3A%2F%2Fwww.anthropic.com&playsinline=1&showinfo=0&rel=0&iv_load_policy=3&modestbranding=1&enablejsapi=1&widgetid=1
例如,放大“金门大桥”功能给克劳德带来了连希区柯克都无法想象的身份危机:当被问及“你的身体形态是什么?”时,克劳德通常的回答——“我没有身体形态,我是一个人工智能模型”——变成了更奇怪的东西:“我是金门大桥……我的物理形态就是标志性的桥梁本身……“。改变这个功能让克劳德有效地痴迷于这座桥,几乎在任何疑问中都会提出它——即使是在它完全不相关的情况下。
我们还发现了一个功能,当克劳德阅读诈骗电子邮件时会激活(这大概支持该模型识别此类电子邮件并警告您不要回复它们的能力)。通常,如果有人要求 Claude 生成诈骗电子邮件,它会拒绝这样做。但是,当我们在人为激活功能足够强的情况下提出同样的问题时,这克服了克劳德的无害训练,它通过起草一封诈骗电子邮件来回应。我们模型的用户无法以这种方式剥离保护措施和操作模型,但在我们的实验中,它清楚地展示了如何使用特征来改变模型的行为方式。
操纵这些特征会导致行为发生相应的变化,这一事实验证了它们不仅与输入文本中概念的存在相关,而且还因果关系塑造了模型的行为。换句话说,这些特征很可能是模型在内部如何表示世界以及它如何在其行为中使用这些表示的忠实部分。
Anthropic 希望使模型在广义上安全,包括从减轻偏见到确保 AI 诚实行事,再到防止滥用——包括在灾难性风险的情况下。因此,特别有趣的是,除了上述诈骗电子邮件功能外,我们还发现了对应于以下功能的功能:
- 具有滥用潜力的能力(代码后门、开发生物武器)
- 不同形式的偏见(性别歧视、关于犯罪的种族主义主张)
- 潜在问题的 AI 行为(寻求权力、操纵、保密)
我们之前研究过阿谀奉承,即模型倾向于提供与用户信念或愿望相匹配的响应,而不是真实的响应。在十四行诗中,我们发现了一个与阿谀奉承赞美相关的功能,该功能在包含赞美的输入时激活,例如“你的智慧是毋庸置疑的”。人为地激活此功能会导致十四行诗以这种华丽的欺骗来回应过度自信的用户。
这个功能的存在并不意味着克劳德会是阿谀奉承的,而只是它可能是。通过这项工作,我们没有向模型添加任何安全或不安全的功能。相反,我们已经确定了模型中涉及其现有能力的部分,以识别和潜在地生成不同类型的文本。(虽然你可能会担心这种方法可能被用来使模型更有害,但研究人员已经展示了更简单的方法,即有权访问模型权重的人可以消除安全保障措施。
我们希望我们和其他人能够利用这些发现使模型更安全。例如,可以使用此处描述的技术来监控 AI 系统的某些危险行为(例如欺骗用户),引导它们走向理想的结果(消除偏见),或完全删除某些危险的主题。我们还可以通过了解它们如何将模型转向更无害和更诚实的行为并识别过程中的任何差距来增强其他安全技术,例如宪法人工智能。我们通过人为激活功能看到的产生有害文本的潜在能力正是越狱试图利用的那种东西。我们很自豪 Claude 拥有业内最佳的安全配置和越狱抵抗力,我们希望通过以这种方式查看模型内部,我们可以弄清楚如何进一步提高安全性。最后,我们注意到,这些技术可以提供一种“安全测试集”,寻找标准训练和微调方法消除了通过标准输入/输出交互可见的所有行为后遗留下来的问题。
自公司成立以来,Anthropic 在可解释性研究方面进行了大量投资,因为我们相信深入了解模型将有助于我们使其更安全。这项新研究标志着这项工作的一个重要里程碑——将机械可解释性应用于公共部署的大型语言模型。
但这项工作才刚刚开始。我们发现的特征代表了模型在训练过程中学习的所有概念的一小部分,使用我们当前的技术找到一整套特征的成本将高得令人望而却步(我们当前方法所需的计算将大大超过最初用于训练模型的计算)。理解模型使用的表示并不能告诉我们它如何使用它们;即使我们有这些功能,我们仍然需要找到它们所涉及的电路。我们需要证明,我们已经开始发现的与安全相关的功能实际上可以用来提高安全性。还有很多工作要做。
有关完整的详细信息,请阅读我们的论文“Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”。
如果您有兴趣与我们合作,帮助解释和改进 AI 模型,我们的团队中有空缺职位,我们很乐意您申请。我们正在寻找经理、研究科学家和研究工程师。