ICML 2026深度思考方案:少量Thinking Tokens高效优化指南
Chain-of-Thought(CoT)推理已成为大模型处理复杂逻辑与数学问题的核心范式。它通过模拟人类逐步推导的过程,显著提升了模型在多项任务上的准确性。
然而,这种显式推理的代价是高昂的计算开销。模型生成的每一个中间推理token,都直接转化为更长的延迟、更大的内存占用和更高的API成本。在多模态场景下,问题尤为尖锐:模型需要先耗费大量文本描述图像、解析上下文,然后才能开始推导答案。清晰的“内心独白”对用户友好,但对系统资源却构成了沉重负担。
这引出了一个关键的设计挑战:大模型的推理过程,是否必须完全以人类可读的文本形式展开?是否存在一种更紧凑、更高效的内部推理机制?
近期,由浙江大学、Adobe Research和杜克大学组成的团队提出了一个创新解决方案。他们为多模态大模型设计了一个高效推理框架——Heima。其核心思想是将冗长的文本CoT序列,压缩为少量高度抽象的“思维令牌”。模型在此隐式空间内完成核心的逻辑推演,而无需生成每一步的文本解释。
效果是双重的:一方面,输出token数量被急剧压缩,直接降低了推理延迟与成本;另一方面,CoT所带来的性能增益得到了最大程度的保留。研究团队还进行了一项深入实验:训练一个纯语言模型作为“解释器”,尝试对这些内部“思维令牌”进行解码与重构。结果表明,这些隐式令牌确实编码了结构化的推理路径,并能被部分还原为可理解的逻辑链,从而为模型的内部“暗箱”操作提供了一定的可解释性视角。
这项名为《Efficient Reasoning with Hidden Thinking》的研究工作,已获机器学习顶级会议ICML 2026收录。
论文标题:Efficient Reasoning with Hidden Thinking
方法名称:Heima
会议:ICML 2026

