ICML 2026深度思考方案：少量Thinking Tokens高效优化指南

2026-05-18阅读 0热度 0

Tokens

Chain-of-Thought（CoT）推理已成为大模型处理复杂逻辑与数学问题的核心范式。它通过模拟人类逐步推导的过程，显著提升了模型在多项任务上的准确性。

然而，这种显式推理的代价是高昂的计算开销。模型生成的每一个中间推理token，都直接转化为更长的延迟、更大的内存占用和更高的API成本。在多模态场景下，问题尤为尖锐：模型需要先耗费大量文本描述图像、解析上下文，然后才能开始推导答案。清晰的“内心独白”对用户友好，但对系统资源却构成了沉重负担。

这引出了一个关键的设计挑战：大模型的推理过程，是否必须完全以人类可读的文本形式展开？是否存在一种更紧凑、更高效的内部推理机制？

近期，由浙江大学、Adobe Research和杜克大学组成的团队提出了一个创新解决方案。他们为多模态大模型设计了一个高效推理框架——Heima。其核心思想是将冗长的文本CoT序列，压缩为少量高度抽象的“思维令牌”。模型在此隐式空间内完成核心的逻辑推演，而无需生成每一步的文本解释。

效果是双重的：一方面，输出token数量被急剧压缩，直接降低了推理延迟与成本；另一方面，CoT所带来的性能增益得到了最大程度的保留。研究团队还进行了一项深入实验：训练一个纯语言模型作为“解释器”，尝试对这些内部“思维令牌”进行解码与重构。结果表明，这些隐式令牌确实编码了结构化的推理路径，并能被部分还原为可理解的逻辑链，从而为模型的内部“暗箱”操作提供了一定的可解释性视角。

这项名为《Efficient Reasoning with Hidden Thinking》的研究工作，已获机器学习顶级会议ICML 2026收录。

论文标题：Efficient Reasoning with Hidden Thinking
方法名称：Heima
会议：ICML 2026

ICML 2026深度思考方案：少量Thinking Tokens高效优化指南

相关阅读

最新教程

最新资讯