揭秘LongCat-Next：模态离散令牌化新范式

2026-06-15阅读 0热度 0

人工智能

先简单说说，这次要聊的LongCat-Next，来自美团LongCat团队。它探讨的核心命题是：能不能让多模态模型真正地“原生”起来，而不是把视觉和音频当成语言模型的补丁？

研究背景

这一轮大模型的成功，大家有目共睹，背后离不开一个核心范式——下一代令牌预测，也就是用离散自回归的方式去建模。但问题在于，目前的多模态系统，本质上还是以语言为中心。视觉、音频这些东西，更像是“外设”上去的模块。架构变得七零八落，集成效果也一言难尽。

听起来，把文本那套自回归的玩法复制到视觉和音频上，似乎顺理成章？但现实没有那么简单。视觉信号是高维的、连续的，硬要把它们压缩到有限的离散码本里，信息丢失几乎是注定的。这就带来了一个根深蒂固的瓶颈：离散视觉建模在理解和生成任务上，始终存在一道天花板。

所以，行业里想做的事情很明确：超越“语言+辅助模态”的旧范式，迈向真正原生的多模态建模。

研究目的

这篇工作给自己的使命很清晰，几个关键目标：

搞一个叫做DiNA（离散原生自回归）的框架，让各种模态的信息在同一个离散空间里表示，用一套统一的自回归逻辑去建模。
做个能打的原生离散视觉Transformer（dNaViT），能在任意分辨率下做分词和解码，把连续的视觉信号变成分层的离散令牌。
最终构建出LongCat-Next模型，让它在最少的模态特定设计下，把文本、视觉、音频一起拿下。
更重要的是，必须解决离散视觉建模在理解任务上那个老生常谈的性能上限，并且在理解和生成之间找到一个有效的平衡点。

核心贡献

这篇文章的贡献，可以归纳为三个比较扎实的点：

第一，提出了DiNA范式。 这个框架把所有的模态都拉到了一个共享的离散令牌空间里。这样一来，多模态建模的标准架构和思路就对齐了，一个模型，一套目标，就能处理文本、视觉、音频，不再需要为每个模态单独搭架子。

第二，dNaViT这个视觉Transformer的设计思路值得关注。 它用语义对齐编码器加残差向量量化，搞出了一套分层离散令牌。这么做的好处是，既能保住高级的语义信息，又不丢失那些细粒度的细节。而且，它支持动态的分词和解码，能处理任意分辨率，和现有的大语言模型还能即插即用。

第三，LongCat-Next这个统一模型的表现，确实让人眼前一亮。 它打破了离散视觉建模的长期瓶颈——在保持高质量任意分辨率生成的同时，理解和生成这两项能力，竟然都做到了能与专用模型掰手腕的水平。在DiNA框架下，视觉理解和生成不再是相互冲突的两件事，而是同一个预测过程的两个侧面。

研究方法

这套方法论，底层依然是离散自回归。具体来说，他们用了模态特定的分词器-去分词器组合，配合一个模态无关的混合专家骨干网络（LongCat-Flash-Lite A3B）。视觉分词器dNaViT靠语义对齐编码器提取特征，用残差向量量化来做分层离散化，最后通过像素解码器和流匹配细化器把结果重建出来。音频这边则是Whisper编码器加残差向量量化。

整个训练流程分两步走：先训练分词器，再做原生多模态训练。而后者又分成预对齐、预训练、中期训练和监督微调。总的训练量，超过了2万亿个令牌。数据方面，网络图片文本对、合成数据，以及专门针对OCR、STEM、GUI、音频的精选数据集，全都用上了，并且经过了严格的数据清洗、过滤和重平衡处理。

研究结果

谈到结果，可以用“扎实”两个字来形容。在视觉理解上，LongCat-Next在MathVista、MathVision、VisuLogic等基准测试里，直接超越了InternVL 3.5-A3B-Flash和Qwen3-VL-A3B这些专用多模态大模型。在视觉生成方面，它比现有的统一模型比如Qwen3-Omni强，而且在图像生成、尤其是文本渲染这种高难度任务上，表现甚至能和Flux-dev这样的专用模型看齐。

音频任务也没落下。在自动语音识别、文本转语音、音频理解这些维度，LongCat-Next都达到了最先进水平，直接超越了Gemini 3.1 Flash-Lite preview和MiMo-Audio等对手。更难得的是，模型在纯文本能力上没有出现“多模态税”，智能体工具使用、编码这些能力同样出色。消融实验也印证了一点：随着数据规模变大，离散建模的表现是可以逼近连续模型的。这才是关键所在。

总结与展望

总的来看，这项研究把语言风格的那种离散自回归建模，自然地延伸到了视觉和音频领域。结果证明，只要分词器和训练策略设计得当，连续的感知信号完全可以被有效离散化，同时还能保持强大的能力。这无疑是向原生多模态迈出的坚实一步。

当然，它也有局限性。比如当前版本的视觉分词器，更侧重语义解码的一致性，而不是像素级的保真度。评估也主要集中在图像到文本和文本到图像方向。未来的工作方向也很明确：优化分词器以更好地匹配下一代版本的目标；扩展到任意到任意的生成和交错多模态推理；同时深入探索数据规模与表征学习之间的协同效应。