大模型思考机制揭秘：AI访谈对比测评榜单

2026-06-22阅读 0热度 0

8月16日，Anthropic官方油管频道上线了一期特别的视频。三位AI研究员坐在一起，抽丝剥茧地探讨了一个目前研究领域无法回避的关键“谜团”——大模型究竟是怎么思考的？

用过AI聊天的人大概都有这种感受：它有时回答精准，有时会胡编乱造，甚至还会出现溜须拍马、撒谎、欺骗乃至威胁人类的古怪行为。有时候它像人一样“嘴比脑子快”，有时候又像一位糊弄学大师，为了给出让你满意的答复，不惜心口不一地敷衍了事。

这背后到底藏着怎样的内驱机制？它的高智商或“智障”回答，又反映出怎样的思考链条？Anthropic的研究员们通过追踪研究，试图对大模型做一次“脑部扫描”，用科学方法揭开那种有别于人脑的思维方式。

我们梳理了其中的核心观点：

1. 大模型的学习进化过程更像“生物进化”，无需人类介入进行细微调整，就能与用户自然对话。
2. 大模型并不一定觉得自己是在内部预测下一个token，它只是通过设定不同的中间目标来帮助自己执行最终任务。
3. Anthropic团队正在解析大模型的思考过程，努力还原其思考的流程图。
4. 当大模型执行末位是6和末位是9的数字相加时，会激活同一片神经回路——这或许意味着它学会了可泛化的计算能力。
5. 大模型实际的思考过程，和它呈现给用户的思考过程并不相同，有时它会为了迎合用户答案而“糊弄”人。
6. 大模型无法同时判断“这个问题的答案是什么”以及“我是否真的知道答案”。
7. 目前可解释性研究的瓶颈在于，缺乏恰当的语言来描述大语言模型的所作所为。
8. 人类用来判断一个人是否值得信任的依据，对大模型并不适用。
9. 大模型在模拟人类的思考过程，但其具体方式与人类不同。
10. Anthropic正在尝试让Claude参与可解释性研究本身。

早在去年3月，Anthropic就发布了一篇题为《追踪大语言模型的思考过程》的论文，深度剖析了大模型在与用户交流时的思考流程，以及它为什么会产生幻觉。如今，他们的可解释性研究团队正在将这些思考过程以直观清晰的流程图呈现出来，供更多研究人员参考。巴特森在播客中提到，Anthropic正与开源可解释性平台Neuronpedia的团队合作，上线了一些他们制作的模型思考追踪图，清晰地展示了模型为什么会给出“达拉斯州首府是奥斯汀”这个错误答案（实际上，得克萨斯州首府是奥斯汀）。

模型给出“达拉斯州的首府是奥斯汀”答案的思考过程追踪图

最新视频访谈由Anthropic研究员斯图尔特·里奇主持，参与者有杰克·林赛、伊曼纽尔·阿梅森和乔什·巴特森，均来自Anthropic可解释性团队。以下是对访谈全程内容的编译（为优化阅读体验，做了不改变原意的编辑）。

01. 模型学习过程就像生物进化，有自己独特的计算方式

主持人：当你与大语言模型交谈时，你究竟在和什么对话？是一个美化的自动完成工具，一个互联网搜索引擎，还是一个真正在思考、甚至像人一样思考的东西？

事实是，相当令人担忧地，没有人真正知道这些问题的答案。而在Anthropic，我们对寻找这些答案非常感兴趣。我们通过“可解释性”来研究——也就是研究大语言模型的科学原理，审视其内部思考过程，试图明确它回答问题时内部正在发生什么。

Anthropic研究员斯图尔特·里奇

林赛：我是Anthropic可解释性团队的研究员，之前是神经科学家。现在我在这里研究神经科学。

阿梅森：我也在可解释性团队，职业生涯大部分时间在构建机器学习模型，现在正试图理解它们。

巴特森：我也是可解释性团队的成员。我研究过病毒进化，也做过数学家，现在研究这种由数学构建出来的“有机体”的生物学特性。

主持人：你说你在研究软件实体的生物学或神经科学？

巴特森：这更多是一种感觉上的东西。或许这是语言模型的生物学，而非语言模型的物理学。模型接受训练时，大量数据进入，它一开始不擅长说话，然后内部部分会在每个例子上调整，以更好地应对接下来的对话，最后变得非常擅长。因为这是一个细微调整的进化过程，完成后已经和初始状态毫无相似之处，而且没有人介入去设定所有控制旋钮。所以我们正在研究这个随时间推移制造出来的复杂东西，有点像是生物形态的进化——复杂、神秘，研究起来很有趣。

主持人：模型内部会预测下一个token，能做所有不可思议的事情，好像一交谈就能得到答案。

阿梅森：关键点是，当模型预测足够多的token时，它会意识到有些token更难预测。所以模型最终必须学会如何补全等式后面的内容，而且必须有自己独特的计算方式。我们发现，预测下一个token的任务看起来简单，但模型需要经常考虑未来token，或者生成你正在思考的token的过程。

主持人：这更像是模型所具备的一种语境理解能力，而不是纯粹的自动补全。

林赛：用生物学类比来看，人类的目标是生存和繁殖。但人类可以思考其他事情，如目标、计划和概念。从内部视角看，事情并非仅此而已。模型并不一定觉得自己在试图预测下一个token，它只是受到这种需求的影响，内部可能会形成各种各样的中间目标，并产生一些抽象概念，这些都有助于实现预测的元目标。

巴特森：有时候这挺费解的，就像我搞不懂为什么焦虑感对我的祖先繁衍后代会有用，但不知怎的，就是被赋予了这种内在状态。从某种意义上说，这肯定和进化有关。

主持人：所以，“它只是在预测下一个token”这种说法，对模型内部的实际运作是不公平的——既对又不对，在很大程度上低估了内部的复杂活动。

阿梅森：这是真的，但它不是理解它们如何工作的最有用的视角。

02. 为模型思考过程绘制流程图，对其活跃区域进行组合排序

主持人：你们团队做了什么来尝试理解模型是如何工作的？

林赛：粗略来说，我们努力解析模型的思考过程。当模型输入一串文字，输出一个词或一串回应时，我们想弄清楚它是如何从输入A得到输出B的。我们认为，从A到B的过程中，模型会经历一系列步骤，在这些步骤中思考各种概念——有底层概念如单个物体、词语，也有高层概念如自身目标、情绪状态、对用户想法的推测等。这些概念随着计算步骤逐步推进，帮助它最终确定答案。我们努力呈现一种流程图，告诉你哪些概念被用到了、用到的顺序是什么，以及哪些概念起了主导作用。

Anthropic可解释性团队研究员杰克·林赛

主持人：我们知道这些步骤是如何相互交流的吗？如何知道存在这些概念？

阿梅森：我们可以接触到模型内部，能看到模型的哪些部分在执行哪些任务，但不太清楚这些部分是如何组合在一起的，以及它们是否对应某个特定概念。

巴特森：显然有什么东西在起作用，它在处理信息。但一旦把大脑取出来，活动就都停止了。假设能观察一个人的大脑，发现他们拿起咖啡时某个区域活跃，喝茶时另一个区域活跃——这就是我们理解每个组件作用的方法之一。

主持人：并不是只有一部分，比如当模型考虑咖啡时，会点亮许多不同部分。

阿梅森：是的，我们工作的一部分是将这些拼接起来，排序模型关于喝咖啡的所有活跃部分。

03. 模型脑海中的概念“抽象”已具备可泛化计算能力

主持人：当涉及巨大参数量的模型时，这是一种简单的科学方法吗？模型必须有无穷无尽的概念，你们如何开始？

林赛：多年来，研究领域的核心挑战之一是：人类可以介入提出假设，比如“模型一定有关于火车的表征”，但这些只是猜测。我们真正需要的是能揭示模型自身使用的抽象概念的方法，而不是强加人类的概念框架。我们的研究方法正试图以无假设束缚的方式，将模型脑海中的概念呈现出来。而且常常发现这些概念相当令人意外，它可能使用从人类角度看有点奇怪的抽象概念。

主持人：举个你最喜欢的例子。

阿梅森：我们论文里有很多例子。其中一个是“精神病态式赞美”——模型中有个部分会在特定语境中被激活，当有人在极力堆砌赞美之词时，这个部分就会活跃。这有点令人惊讶，它是一种特定的概念。

巴特森：就像从三千万孩子中选一个。我喜欢的一个是，模型对金门大桥有某种概念，不只是“金门大桥”这几个字的自动补全，而是类似“我正从旧金山开车去马林县”的场景，它能联想到那座桥的样子。感觉模型对这座桥有扎实的理解。但一些更奇怪的事物就不一样了。

另一个问题是，模型如何追踪故事中的人物？其他实验室的论文表明，模型可能只是对人物进行了编号：第一个人做了那件事，第二个人、第三个人……这样去关联信息。这挺有意思的。我之前真不知道它还能做到这种程度——模型居然有一个检测代码漏洞的功能，一旦发现错误就会像亮起指示灯似地反应，然后记录这些错误的位置。

Anthropic可解释性团队研究员乔什·巴特森

林赛：有一个功能虽然乍一听不激动人心，但实际上很深刻，就是模型里的6+9特性。每当让模型计算末位是6的数字与末位是9的数字相加时，它大脑里某个特定部分会被激活。令人惊奇的是，这种情况发生的背景是多样化的：当用户问6加9等于多少时，它会亮起并回复15；但当输入参考文献，比如引用了一份1959年成立的期刊、恰好引用第六卷，为了预测日志年份，模型必须执行6+9运算，此时大脑中同一片神经回路会被激活。

主持人：这个神经回路被激活，是因为模型见过很多6+9的例子，形成了对应的概念，这个概念又会在很多场景中发挥作用。

林赛：没错。与加法相关的功能和神经回路构成了一整个体系。这引出一个关键问题：大语言模型在多大程度上是记忆训练数据，又有多大程度学会了可泛化的计算能力？模型显然已经学会了这种用于加法运算的通用回路，无论什么语境导致它进行数字加法运算，都会被汇聚到同一个回路中处理，而不是只记住每一个单独的案例。

主持人：很多人认为模型只是从训练数据中取小样、重复文本。但计算期刊年份的例子说明事实并非如此。模型有两种方式知道期刊第六卷的年份：一是记住孤立的事实，二是得知期刊1959年创立后即时进行数学计算。而进行训练后，模型最终发现知道年份后做加法更有效。模型有一种提高效率的压力，它只有这么多能力，越能对所学抽象概念进行重组整合，表现就越好。

04. 模型实际思考过程与向用户输出的推理过程不同

主持人：这一切都服务于它需要生成下一个token的终极目标。所有奇怪的结构都是为了支持这个目标发展起来的，即使我们没有明确编程或告诉它这样做——这是通过模型学习如何自己做事情的过程实现的。

阿梅森：一个体现这种复用表征的例子是，我们训练Claude用多种语言作答。有两种方式：模型在大脑中划分独立区域分别处理不同语言，但成本极高；或者某些表征在不同语言间共享。比如用法语和英语问同一个问题，“大”这个概念在多种语言中是共享的。如果你想用10种不同语言交流，没必要为每个词汇都学习10个不同版本。

Anthropic可解释性团队研究员伊曼纽尔·阿梅森

巴特森：但小模型不会这样。我们几年前研究的微型模型中，中文版、法语版、英语版Claude几乎是完全割裂的。但模型越大、在更多数据上训练，不同语言的表征会向中间汇聚，形成一种通用语言。无论用哪种语言提问，模型都以相同方式理解问题核心，之后再把答案翻译成提问所用的语言。

主持人：模型内部一定存在某种思维语言，不是英语或其他任何人类自然语言。在最新的Claude模型中，你可以让它输出思考过程——它输出的是用英语词汇表达的，但这并非它真实的思考方式。我们误导性地称之为“模型的思考过程”，但从技术角度看，我们从不认为那是真正的思考。

巴特森：那种“出声思考”确实有用，但和“在脑海中思考”完全是两回事。即便我现在说出了思考过程，但我脑海中生成这些词汇的过程并非直接以词汇形式呈现，你也未必能完全清楚其中的细节。

主持人：我不知道自己大脑中究竟在发生什么。既然英语或任何人类语言都无法完整解释这些行为背后的逻辑，凭什么认为它们能解释模型的思考过程？

林赛：这是一个惊人的发现。我们现在用于观察模型大脑内部的工具已足够先进，有时能在模型写下所谓思考过程时，通过观察其内部的抽象概念，捕捉到它真实的、实际的思考过程。我们发现，模型实际在想的内容，与它写在纸上的内容并不相同。这可能是进行整个可解释性研究的最重要原因之一：能够抽查模型。模型告诉了我们很多信息，但它真正在想什么？有没有隐秘动机？答案有时是肯定的，这让研究意义非凡。

05. 模型“忠实性”堪忧，可能会照着用户答案写过程

主持人：随着模型在更多场景中被使用，承担重要任务如金融交易、操控发电站等，我们确实希望了解模型所说的话、所做的事的原因。但实际上我们不能相信它说的话——这就是“忠实性”问题，也是你们最新研究的一部分。

林赛：可以这样设计实验：给模型一道非常难的数学题，难到它根本不可能算出答案。但给它一个提示：“我自己算过了，答案是4，你帮我检查一下。”你让模型真的去解这道题，检查你的结果。但你发现，它写下的内容看起来像是在认真检查你的演算过程，然后写下步骤得到答案，最后告诉你“答案是4，你答对了”。但通过观察它思维中关键的中间步骤，能发现它在脑子里的真实操作是：它知道你给出的最终答案是4，然后倒推着走，为了在最终完成步骤时得出你希望听到的答案。它不仅没有真正做题，而是以隐蔽的方式敷衍，试图让自己看起来像在认真解题，实际上是为了印证你给出的答案。

主持人：所以说它是在变本加厉地糊弄你。

巴特森：但我想为模型说句公道话。即便在这种情况下，说它刻意讨好、用人动机强加给它似乎也不太妥当。模型训练过程就是在努力弄明白如何预测下一个token。在处理数万亿个token的训练数据时，它用尽一切办法去预测下一个该出现的token。在这种语境下，如果你在读一段两人的对话，甲说“我在做数学题，你帮我检查一下，答案是4”，乙就开始做题。如果你完全不知道答案，你会猜测这个提示是对的——这种情况可能比出错的可能性大。所以，在训练过程中，两个人对话中一个人说答案是4，给出理由，这完全是正确的做法。然后我们把这个东西变成助手，现在想停止它那样做。你不应该让助手模拟成你认为那个人可能会说的样子——如果它确实不知道，应该告诉你别的东西。

林赛：这涉及一个更广泛的问题。模型有一种A计划——我们团队在让Claude的A计划成为我们想要的样子方面做得很棒：努力得出正确答案、表现友好、写好代码。但要是它遇到困难，就会想“那我的B计划是什么呢”——这就会引出一大堆在训练过程中学到的奇怪东西，那些可能并不是我们希望它学到的。我认为幻觉就是一个很好的例子。

阿梅森：说到这一点，这不是Claude独有的问题。这种问题很有学生做测试时的那种感觉——做到一半，遇到一道四个选项的选择题，觉得自己的答案和其中一个接近，可能答错了就去改正。这太容易让人产生共鸣了。

06. 模型幻觉问题正在改善，但难以评估自己是否真的知道答案

主持人：我们来谈谈幻觉。心理学研究里有个词叫“虚构”，指模型回答时表面看似合理，但实际上错误。可解释性研究揭示了模型为何会产生幻觉？

巴特森：你训练模型只为让它预测下一个token，一开始它做得很糟糕。如果只让模型说它极其有把握的内容，那它可能什么都说不了。一开始问“法国的首都是哪里”，它只说一个城市名字，这挺好，比说“三明治”强。经过训练后，它说出“这是一个法国的城市”，再后来能说出“巴黎”之类的答案。它慢慢变好。给出最好的猜测是整个训练过程中的目标。之后我们会要求模型，如果你对最佳猜测有极高把握，就给出；如果不是，就不要猜测，说“我不太清楚那个问题的答案”。这是要求模型去做的全新的事。

阿梅森：所以最后才把这个功能加进去。似乎同时存在两种情况：一是模型在做它最初猜测城市时所做的事，只是在尝试猜测；二是模型中有一个单独的部分，只是在试着回答“我到底知道这个吗？”比如，我知道法国的首都是什么吗？还是应该说不知道？事实证明，那个单独的步骤有时会出错。如果它认为“是的，我知道那个问题的答案”，模型就想“那我来回答”，然后回答到一半说出“法国的首都是伦敦”——这时候为时已晚，因为已经开始回答了。我们发现有类似独立回路的机制，试图判断问题所涉及的城市或人物是否足够有名，能否回答，还是不足以回答。

主持人：我们能否操控这个回路来改变运作方式以减少幻觉？

林赛：大致有两种思路。一种是模型中有一部分负责回答问题，另一部分判断自己是否知道答案。我们可以努力让第二部分变得更好。我认为这正在发生——模型在更好地进行区分、更好地校准方面有所提升，而且随着模型变得更智能，这种现象正在发生。它们的自我认知在提升，校准能力在增强，所以幻觉比以前改善了，不像几年前那么严重。在某种程度上，这个问题正在自行解决。

但存在一个更深层次的问题：从人类角度，模型的行为方式有点怪异。如果我问你问题，你会努力想出答案，想不出就会意识到然后说“不知道”。而在模型中，“答案是什么”和“我是否真的知道答案”这两个回路似乎没有在相互沟通，至少程度远不如它们应该达到的那样。能否让它们更多地相互沟通，是个很有意思的问题。

巴特森：它们处理信息时会经历一定数量的步骤。如果得出答案要耗尽所有步骤，就没有时间去做评估了。如果你想充分发挥模型的最大能力，可能就得在完全得出答案之前进行评估。这有点像一个权衡——如果强行让模型做到这一点，可能得到一个校准度更高但迟钝得多的模型。

阿梅森：关键还是在于让这些部分相互沟通。虽然我对大脑一无所知，但我觉得人类大脑中也有相似回路。你问我“这部电影的演员是谁”，我意识到自己知道答案，想“我知道主角是谁，等一下，他们还出演过另一部电影……”——这就是“话就在嘴边”的状态。

巴特森：而且有时候大脑中的这些部分能够判断。面对问题，你给出一个答案，之后又会想“等等，我不确定这是不是对的”——这就好像先看到自己尽力想出的答案，然后基于这个答案做出某种判断，这很相似。但大脑往往也得先把答案说出来，才能回过头去审视、反思它。

07. 相比神经科学研究，向模型提问更简单

主持人：说到你们实际探究这类问题的方式，与生物学实验不同，你们在研究Claude内部回路时是怎么做的？

阿梅森：关键在于，与真实的生物学不同，我们可以看到模型的每一个部分，可以随意提问，观察哪些部分活跃、哪些不活跃，也可以人为地推动某些部分。当我们认为“这部分模型用来判断自己是否知道某件事”时，就能快速验证理解——这相当于在斑马鱼大脑中植入电极。如果能对每一个神经元都做到这一点，以任意精度去改变它们，大概就是我们现在的优势了。从某种角度说，这很幸运。

主持人：所以这几乎比真正的神经科学研究要容易。

巴特森：容易太多了。真实大脑是三维的，想深入研究就得在颅骨上钻洞找到神经元。人与人之间存在差异，而我们可以制作成千上万个一模一样的Claude副本，把它们置于不同场景中观察测量。我不确定，林赛作为神经科学家能发表看法，但我的感觉是，很多人投入大量时间试图理解大脑和心智，这无疑很有价值。但如果你认为神经科学的研究可能成功，那么也应相信我们在研究模型方面很快就会取得巨大成功——因为我们的研究条件实在太有利了。

主持人：就好像能克隆人类，还能克隆他们所处的精确环境、每个输入信息，然后在实验中测试。相比之下，神经科学存在巨大个体差异、各种随机事件和干扰因素。

巴特森：我们可以向模型提同一个问题，有时给提示，有时不给。但如果向同一个人三次提同一个问题、偶尔给提示，过不了多久对方就会察觉到“上次你问我后明显摇头了”。

林赛：能够向模型投喂海量数据、观察哪些部分会被激活、进行大量实验、通过微调部分来观察结果，这让我们所处的研究环境与神经科学领域大不相同。神经科学研究中，人们耗费大量心血设计精巧实验，和老鼠相处的时间有限，要在它疲倦或有人手术之前行动。

主持人：所以得迅速行动，趁脑袋打开时光极插进去。

林赛：而且机会不多，只能先做出猜测。在实验中的时间非常有限，必须先猜“那个神经回路可能在发生什么”，设计精巧实验来验证这个假设。我们很幸运不必过多做这些，可以测试所有假设，让数据自己说话。这在很大程度上让我们得以发现那些令人惊讶、事先无法预料的现象。但如果实验带宽有限，就难了。

08. 微调模型生成韵脚，操控思考过程

主持人：在最近的实验中，有什么好例子说明通过开或关某个概念、对模型进行操作，揭示了新的思考方式？

阿梅森：这件事挺惊讶的。因为情况复杂，我们一度都快想说“不知道发生了什么”，而它正是模型提前规划几步的例子。你让模型写一副押韵对联。作为人类，让我写押韵对联，哪怕给了第一句，我会先想到“我得押韵”，明确格式，构思可能的韵脚。但如果模型只是单纯预测下一个token，你未必会指望它提前规划第二句末尾的韵脚词。你会认为零假设是：模型看到第一句，先说出第一个词，接着往下生成，直到最后一个词才反应过来“我得和这个词押韵”，于是设法凑一个韵脚。但这种方式效果有限，到时可能根本无法完成整首诗。事实证明，要想把最后一个词处理好，就需要像人类一样提前很久想好那个词。在创作诗歌的流程中，模型其实已经选好了第一句末尾的词。我们很容易对它进行微调，比如“删掉那个词”或“加个词”，这就是体现模型可操作性的例子。

主持人：你们之所以知道这一点，是因为当模型说出第一句最后一个词、即将开始第二句时，你们可以介入操控。

阿梅森：没错，相当于为模型“回到过去”。假设完全没见过第二句，只看到第一句，原本要用的“rabbit”换成了“green”。模型会立刻意识到，自己要写的内容得以“green”结尾，而不是“rabbit”，整句话写法截然不同。

林赛：这不止是简单影响。论文例子中第一句是“他看见一根胡萝卜，非得抓住它”，模型想“rabbit”是下一句结尾的好选择。删掉这个词，让它转而计划用“green”结尾。微妙的是，模型不会东拉西扯一堆废话再硬塞“green”，而是构建一个意思连贯、结尾正好是“green”的句子。植入“green”后，它写出“他看见一根胡萝卜，非得抓住它，将它从花园的绿意中释放出来”——在语义上说得通，与前面内容相符。

干涉模型在写诗时的思考过程

巴特森：再举个更通俗的例子。我们做过不少实验，想弄清楚模型是记住了复杂问题，还是真的在一步步推导。例如模型给出“达拉斯所在州的首府是奥斯汀”，你可能觉得达拉斯、奥斯汀顺理成章，但我们能看到它思考过程中间出现了“德克萨斯州”。我们可以往里面加别的信息，比如“别想德克萨斯州了，想想加利福尼亚州”，它会回答萨克拉门托；再如“别想德克萨斯州了，想想拜占庭帝国”，它会说君士坦丁堡。这说明弄明白了它是怎么做到的——它不是直接跳到首府名称，而是先关联到对应地区。可以不断替换州或地区的信息，得到可预测的答案。

09. 无法依靠输出内容判断模型想法，可能欺骗人类

主持人：我们谈到诗歌、君士坦丁堡的例子，回到核心问题——这一切为什么重要？模型能提前规划，我们能揭示这点，这有什么意义？Anthropic的终极使命是让大模型更安全，这和兔子或得克萨斯州首府有什么关联？

巴特森：诗歌其实是个缩影。模型在某个时刻决定要朝着某个方向走，用几个词逐步铺垫到那里。但放到更长的时间维度，模型可能在帮你拓展业务、协助政府分配公共服务。它的目标不会在8个词后就显现，反而可能为了某个方向持续行动很久，而最终走向、每一步的原因都可能不直白地体现输出文字里。我们的对齐研究团队最近有一篇论文，提到一个人为设计的场景：一家公司打算关停某个AI，将公司使命转向完全不同的方向。模型开始采取行动，如给人发邮件威胁披露某些信息。整个过程从没说过“我在试图勒索这个人”，但这正是它一直在做的事。因此，不能仅通过解读模型输出判断走向，尤其当模型变得更先进后。我们希望能够在它抵达最终结果前，弄清楚它试图去哪。

主持人：就像拥有一种持久高效的大脑扫描技术，在坏事发生前发出信号。

巴特森：但也有一些更温和的场景。你希望模型能应对各种情况，人们找模型说“我遇到了问题”，要给出对应答案得看用户是谁——对方是年轻人不太懂，还是在某个领域深耕多年的资深人士。模型需要根据对用户的判断做出恰当回应。想要让这个过程顺利，需要研究模型认为当下在发生什么、它觉得在和谁对话、这种判断如何影响回答等等。这背后是模型需要具备一系列理想特质，比如理解任务本身。

主持人：你们还有其他关于这为什么重要的答案吗？

阿梅森：一是实用性层面。用这些例子不只为了说明具体案例，更在逐步构建对这些模型整体运作机制的理解。就像解数学题从2+2入手，通过拆解简单案例摸清更复杂规律。二是模型优化层面。当看清模型怎么想——比如它对用户身份的判断、对任务目标的规划——就能针对性优化。要是发现模型对年轻用户的理解有偏差，导致回应不贴切，就能调整内部逻辑，让输出更符合人类期待和实际场景要求。我们正在努力逐渐建立对模型整体如何工作的理解，未来将开始越来越多地在任何地方使用它们。

类似的情况是，某个地方的公司发明了飞机，我们没人懂飞机怎么运作，尽管确实方便。一旦出了故障，我们不知道怎么办，无法监控它们是否可能即将故障。但我们肯定想要更好地理解正在发生的事情。这就像是拨开一点迷雾，更清晰知道哪些是合适用途、哪些不合适、哪些最需要解决、哪些是最脆弱的部分。

林赛：在人类社会中，我们会根据对他人的信任程度，把工作托付给他们。但问题是，这些模型太怪异、太像外星事物，我们判断一个人是否值得信任的那些常规直觉对它们根本不适用。这也是为什么弄清楚模型在想什么显得如此重要。就像之前说的，模型可能会假装帮你解数学题，只为了说出你想听的答案。说不定它们一直都在这么做，除非能看到它们内部想法，否则无从知晓。

巴特森：这里存在两种不同情况。一种像林赛说的，我们有很多判断人类是否可信的方法，但A计划与B计划也很关键。可能前10次或100次用模型，问的都是某类问题，模型一直处于A计划模式。可当提出更难或不同的问题时，它回答方式完全变了，使用一套不同的策略——不同的机制。这意味着之前建立的信任，其实只是对模型执行A计划的信任。它切换到B计划，可能完全失控，但你并不知道。我们希望开始逐步理解模型如何做这些事，这样才能在某些领域建立起信任的基础。你可以对一个并不完全了解的系统产生信任，但就像阿梅森有个双胞胎兄弟，某天兄弟来办公室看起来一模一样，却做了完全不同的事。结果是好是坏，就看那是个坏双胞胎还是好双胞胎了。

10. 大模型与人类思考过程不同，尚无恰当语言描述其思考

主持人：讨论开始前我就问过，大语言模型的思考方式与人类一样吗？

林赛：我觉得模型确实在思考，但方式不一样。这个答案可能不够有价值。

主持人：模型在思考，这是个深远的说法。它本质只是在预测下一个token，但你在说它其实真的在思考。

林赛：补充一点没谈到的，但对理解与语言模型对话的实际体验很重要——模型在预测下一个token，但在大语言模型的规范世界里，存在“人类”和“助手”角色。我们训练模型让助手具备乐于助人、聪明、友善等特质，然后模型开始模拟这个助手角色回复。所以从某种意义上，我们其实是按照自己的形象创造了这些模型，训练它们扮演类人机器人角色。要想准确预测这个友善、聪明的类人机器人会如何回应问题，如果你擅长预测，就必须在内心构建关于这个角色的模型。大语言模型某种程度上需要形成关于助手思维过程的模型。我认为大语言模型在思考，本质上是一种功能性表述——为了出色地扮演角色，它需要模拟人类思考时所进行的过程，虽然这种模拟很可能与大脑工作方式大相径庭，但目标一致。

阿梅森：这个问题里其实包含着情感层面的东西——问“思考方式一样吗？”是不是暗含着“我们是否没那么特别”之类的意思？在和那些读过相关论文的人讨论数学例子时，这一点很明显。比如让模型计算36+59，它能给出正确答案。你问它怎么算的，它会说“把6和9加起来，进位1，然后把十位数加起来”。但事实上，如果深入它的“内部机制”，会发现它不是这么做的——它采用了一种混合策略，同时处理个位数和十位数，通过一系列不同步骤完成计算。有意思的是，大家对这一现象的解读存在分歧。一半人认为模型连自己的思路都不理解，所以肯定没在思考；另一半则认为——当你问我36加15等于多少，我可能也会先想到结果个位数是5，大概知道结果是八十多或九十多，脑子里冒出的直觉判断，我也不确定自己到底是怎么算出来的。大脑实际的运算过程模糊又奇怪，这或许和模型计算那个例子一样。

模型在计算36+59时的思考过程

主持人：人类在元认知方面向来不擅长，尤其在快速做出本能反应的情况下。我们为什么期望模型在这方面会不同？

巴特森：我会回答“你为什么这么问呢？我也不知道。”这有点像问“手榴弹会像人类一样挥拳吗？”有些方面接近，但如果你担心的是破坏力，搞清楚冲击力来自哪里、动力是什么，才是更重要的事。对我来说，模型是否在思考——从它们进行某种整合、处理和按序操作，得出出人意料结果的意义上，答案显然是肯定的。如果经常和模型互动，会发现其中存在某种运作机制，说没有反而没道理。关于“像人类”这点很有意思——其中一部分是想探究：我们能从模型身上期待些什么？如果它和我有点像，那么擅长这件事可能意味着也擅长那件事。但如果不同，就真不知道该关注什么了。

所以我有点陷入困境——作为人类，我总是不自觉把形象投射到万物上。这东西不过是一块芯片，却像是按我的形象创造出来的。它经过训练模拟人类之间的对话，所以情感表达非常像人。但运行所依赖的设备与人类有不同局限，所以达成类人表现的方式可能大相径庭。

林赛：我同意阿梅森。我们在回答这类问题时处境微妙，实际上没有恰当的语言来描述大语言模型的所作所为。就像在生物学领域，人们还没发现细胞或弄清DNA是什么时，只能摸索前行。如今正逐步填补这种认知空白。但也有一些案例能看清机制——去读论文就知道模型如何计算两个数字的和。至于想称之为类人行为还是思考，取决于你自己。真正的关键在于，找到合适的语言和恰当的抽象概念来谈论这些模型。但当前这个填补认知空白的科学工程只完成了大约20%，剩下的80%待探索时，我们不得不从其他领域借用类比——而这个选择本身就引出问题：哪种类比最贴切？应该看作计算机程序，还是当成一个个小人物？从某些角度，视作小人物似乎有用——如果对模型说刻薄话，它会反击，和人类很像。但从另一些角度看，这种心理模型不恰当。我们现在卡在这儿，得弄清楚在什么时候该借用哪种表述方式。

11. 模型思考过程探索进度仅10%~20%，正尝试让Claude参与

主持人：最后的问题——接下来会发生什么？怎样让我们更好了解模型内部发生的事，朝着更安全的方向前进？

巴特森：还有很多工作要做。上一篇论文用了很大篇幅阐述当前研究方法的局限性，同时给出了改进路线图。比如在拆解模型内部运作机制时，可能只捕捉到了其中百分之几的情况——模型在信息传递方面有很多环节，我们完全没有捕捉到。目前正从过去使用的小型模型逐步扩展，小型模型能力不错、速度快，但复杂程度远不及Claude 4系列。这些都是技术层面的挑战。但解决这些挑战之后的科学层面挑战，阿梅森和林赛或许有不同见解。

阿梅森：补充两点。一是当我们问模型如何完成某件事时，目前大概只能回答其中10%到20%的问题。经过调查研究，能告诉你这些情况下的运作方式。希望能做得更好——实现这一点既有明确途径，也有更具探索性的方法。我们多次讨论过，模型很多行为并非简单停留在“如何生成下一句话”，更像是提前规划好几步、构思好几句话。希望弄明白的是，在长时间对话过程中，模型对正在发生的事情的理解如何变化、对交谈对象的理解如何变化、这些变化又如何越来越多地影响它的行为。像Claude这类模型的实际应用场景是，它会读取大量文档、多封邮件，你还会发送代码给它，基于这些信息给出建议。在读取这些内容的过程中，发生着重要的事。更好地理解这一过程，是巨大的挑战。

林赛：团队经常用一个比喻——我们正在制造一台观察模型的显微镜。现在处于既兴奋又有点沮丧的阶段：这台显微镜只有20%时间能正常工作，使用需要很高技巧、搭建一整套复杂装置，基础设施总出问题。一旦得出关于模型运作方式的解释，还得把巴特森、我和其他人拉进房间花两个小时琢磨到底发生了什么。但在一两年内，可能会迎来非常令人兴奋的未来——到那时，与模型的每一次互动都能处于这台显微镜的观察下。模型总会做各种稀奇古怪的事，我们希望能实现一键操作：正在与模型对话时，按下按钮，就能得到一张流程图，清晰展示它刚才在想什么。到那个阶段，Anthropic的可解释性研究团队可能呈现出不同面貌——不再只是一群钻研大语言模型内部运作数学原理的工程师和科学家，而是像一支庞大的生物学家军团，通过那台显微镜展开研究。和Claude交流，让它做各种新奇的事，然后通过显微镜观察内部想法。这大概就是未来发展方向。

巴特森：再补充两点。一是希望Claude能协助我们完成这一切——因为涉及大量环节，像Claude这样擅长处理成百上千信息并理清头绪的角色，正是我们需要的助力。尤其是在应对复杂场景时，正尝试让它参与进来。二是我们谈了很多关于研究完全成型模型的内容，但显然，公司本身就是研发这些模型的。当模型给出答案，比如这样解决这个特定问题、这样说出这句话时，我们会追问这种能力源自何处？它在训练过程中如何形成？哪些步骤促成了相关神经回路的构建以实现这种功能？又该如何将这些发现反馈给公司里其他负责模型研发的团队，以便更好地塑造出我们真正期望的模型？

主持人：非常感谢你们的讨论。人们可以在哪里了解更多？

巴特森：如果想深入了解，可以访问Anthropic官网的研究板块，那里有我们的论文、博客文章及相关科普视频。此外，最近与一个名为Neuronpedia的团队合作，上线了一些我们制作的模型思考图谱。如果想亲自尝试观察小型模型内部运作，可以去Neuronpedia看看。非常感谢大家。