大语言模型有非语言推理能力吗？

Question

来源：量子号Ars Technica 今天的一篇头条文章探讨了关于大型语言模型是否具有非语言推理能力的问题，并引用研究人员的发现，称在“潜在空间”中进行处理可以帮助人工智能解决棘手的逻辑问题。怎么回事呢，我们继续往下看。迄今为止，大型语言模型已经取得了巨大的成功，它们使用其转换器架构有效地预测响应查询所需的下一个单词（即语言标记）。然而，当涉及到需要抽象逻辑的复杂推理任务时，一些研究人员发现，通过这种“语言空间”解释一切可能会导致一些问题，即使对于现代“推理”模型来说也是如此。现在，研究人员正试图通过设计模型来解决这些问题，这些模型可以完全在“潜在空间”——即转换器生成语言之前的隐藏计算层——中计算出潜在的逻辑解决方案。虽然这种方法不会导致大型语言模型的推理能力发生翻天覆地的变化，但它确实明显提高了某些类型逻辑问题的准确性，并为新的研究指明了一些有趣的方向。## **等一下，什么空间？**现代推理模型（例如 ChatGPT 的 o1）倾向于通过生成“思维链”来工作。在这些模型中，逻辑过程的每个步骤都表示为一系列自然语言词标记，并通过模型反馈回来。在一篇新论文中，Meta 基础人工智能研究团队和加州大学圣地亚哥分校的研究人员将这种对自然语言和“单词标记”的依赖视为这些推理模型的“基本制约因素”。这是因为成功完成推理任务，往往需要对特定的关键标记进行复杂的规划，才能从众多选项中找出正确的逻辑路径。![](https://img.gateio.im/social/moments-f0cfd3998b006f64fcb4269081d17cc5)上图中说明了标准模型每一步都要经过转换器，与 COCONUT 模型使用隐藏的“潜在”状态之间的区别。（图源：Training Large Language Models to Reason in a Continuous Latent Space）研究人员写道，在目前的思维链模型中，单词标记通常是为了“文本连贯性”和“流畅性”而生成的，而“对实际推理过程贡献甚微”。相反，他们建议，“理想的情况是，大型语言模型可以不受任何语言限制地自由推理，然后只在必要时将他们的发现转化为语言。”为了实现这一“理想”，研究人员描述了一种“训练大型语言模型在连续潜在空间中进行推理”的方法，正如论文标题所述。该“潜在空间”本质上是由一组“隐藏”的中间标记权重集组成的，而这些中间标记权重集正是模型在转换器生成该内部状态的人类可读的自然语言版本之前所包含的。在研究人员的 COCONUT 模型（连续思维链）中，这些隐藏状态被编码为“潜在思维”，在训练和处理查询时，它们会以逻辑顺序取代单个书面步骤。研究人员写道，这就避免了每一步都要转换成自然语言，并且“将推理从语言空间中解放出来”，从而产生了一条优化的推理路径，他们称之为“连续思维”。## **视野更开阔**虽然在潜在空间中进行逻辑处理对提高模型效率有一定的好处，但更重要的发现是，这种模型可以“同时编码多个潜在的后续步骤”。在“潜在空间”中进行逻辑处理，可以实现一种即时回溯，研究人员将其比作在图中进行广度优先搜索。而不是在一种“贪婪”的过程中，完全地、逐一地寻找各个逻辑选项。研究人员写道，即使模型没有经过明确的训练，这种突发的、同步的处理特性也会在测试中得到体现。“虽然模型最初可能不会做出正确的决定，但它可以在一些隐含价值函数的引导下，在连续思维中保持许多可能的选择，并通过推理逐步消除不正确的路径，”他们写道。![](https://img.gateio.im/social/moments-6318bcc361d88b514945f25195d905ec)这张图重点展示了不同模型在某些类型的逻辑推理中可能失败的一些方式。（图源：Training Large Language Models to Reason in a Continuous Latent Space）在相对简单的数学推理测试 ( GSM8K ) 或一般推理 ( ProntoQA ) 测试中，与传统的思维链模型相比，这种多路径推理并没有真正提高 COCONUT 的准确性。但研究人员发现，该模型在一组随机生成的 ProntoQA 式查询中表现相对较好，这些查询涉及复杂而曲折的逻辑条件集（例如，“每个苹果都是水果，每个水果都是食物，等等”）。对于这些任务，标准的思维链推理模型在尝试解决逻辑链问题时，往往会陷入推理的死胡同，甚至产生完全虚构的规则。先前的研究还表明，这些思维链模型输出的“口头化”逻辑步骤“实际上可能利用了与共享推理过程不同的潜在推理过程”。这项新研究加入了越来越多的研究行列，旨在了解和利用大型语言模型在其底层神经网络层面的工作方式。虽然这类研究尚未取得重大突破，但研究人员认为，从一开始就用这种“连续思维”进行预训练的模型，可以“使模型能够在更广泛的推理场景中更有效地泛化”。