揭秘LongCat-Next:模态离散令牌化新范式
先简单说说,这次要聊的LongCat-Next,来自美团LongCat团队。它探讨的核心命题是:能不能让多模态模型真正地“原生”起来,而不是把视觉和音频当成语言模型的补丁?
研究背景
这一轮大模型的成功,大家有目共睹,背后离不开一个核心范式——下一代令牌预测,也就是用离散自回归的方式去建模。但问题在于,目前的多模态系统,本质上还是以语言为中心。视觉、音频这些东西,更像是“外设”上去的模块。架构变得七零八落,集成效果也一言难尽。
听起来,把文本那套自回归的玩法复制到视觉和音频上,似乎顺理成章?但现实没有那么简单。视觉信号是高维的、连续的,硬要把它们压缩到有限的离散码本里,信息丢失几乎是注定的。这就带来了一个根深蒂固的瓶颈:离散视觉建模在理解和生成任务上,始终存在一道天花板。
所以,行业里想做的事情很明确:超越“语言+辅助模态”的旧范式,迈向真正原生的多模态建模。
研究目的
这篇工作给自己的使命很清晰,几个关键目标:
- 搞一个叫做DiNA(离散原生自回归)的框架,让各种模态的信息在同一个离散空间里表示,用一套统一的自回归逻辑去建模。
- 做个能打的原生离散视觉Transformer(dNaViT),能在任意分辨率下做分词和解码,把连续的视觉信号变成分层的离散令牌。
- 最终构建出LongCat-Next模型,让它在最少的模态特定设计下,把文本、视觉、音频一起拿下。
- 更重要的是,必须解决离散视觉建模在理解任务上那个老生常谈的性能上限,并且在理解和生成之间找到一个有效的平衡点。
核心贡献
这篇文章的贡献,可以归纳为三个比较扎实的点:
第一,提出了DiNA范式。 这个框架把所有的模态都拉到了一个共享的离散令牌空间里。这样一来,多模态建模的标准架构和思路就对齐了,一个模型,一套目标,就能处理文本、视觉、音频,不再需要为每个模态单独搭架子。
第二,dNaViT这个视觉Transformer的设计思路值得关注。 它用语义对齐编码器加残差向量量化,搞出了一套分层离散令牌。这么做的好处是,既能保住高级的语义信息,又不丢失那些细粒度的细节。而且,它支持动态的分词和解码,能处理任意分辨率,和现有的大语言模型还能即插即用。
第三,LongCat-Next这个统一模型的表现,确实让人眼前一亮。 它打破了离散视觉建模的长期瓶颈——在保持高质量任意分辨率生成的同时,理解和生成这两项能力,竟然都做到了能与专用模型掰手腕的水平。在DiNA框架下,视觉理解和生成不再是相互冲突的两件事,而是同一个预测过程的两个侧面。
研究方法
这套方法论,底层依然是离散自回归。具体来说,他们用了模态特定的分词器-去分词器组合,配合一个模态无关的混合专家骨干网络(LongCat-Flash-Lite A3B)。视觉分词器dNaViT靠语义对齐编码器提取特征,用残差向量量化来做分层离散化,最后通过像素解码器和流匹配细化器把结果重建出来。音频这边则是Whisper编码器加残差向量量化。
整个训练流程分两步走:先训练分词器,再做原生多模态训练。而后者又分成预对齐、预训练、中期训练和监督微调。总的训练量,超过了2万亿个令牌。数据方面,网络图片文本对、合成数据,以及专门针对OCR、STEM、GUI、音频的精选数据集,全都用上了,并且经过了严格的数据清洗、过滤和重平衡处理。
研究结果
谈到结果,可以用“扎实”两个字来形容。在视觉理解上,LongCat-Next在MathVista、MathVision、VisuLogic等基准测试里,直接超越了InternVL 3.5-A3B-Flash和Qwen3-VL-A3B这些专用多模态大模型。在视觉生成方面,它比现有的统一模型比如Qwen3-Omni强,而且在图像生成、尤其是文本渲染这种高难度任务上,表现甚至能和Flux-dev这样的专用模型看齐。
音频任务也没落下。在自动语音识别、文本转语音、音频理解这些维度,LongCat-Next都达到了最先进水平,直接超越了Gemini 3.1 Flash-Lite preview和MiMo-Audio等对手。更难得的是,模型在纯文本能力上没有出现“多模态税”,智能体工具使用、编码这些能力同样出色。消融实验也印证了一点:随着数据规模变大,离散建模的表现是可以逼近连续模型的。这才是关键所在。
总结与展望
总的来看,这项研究把语言风格的那种离散自回归建模,自然地延伸到了视觉和音频领域。结果证明,只要分词器和训练策略设计得当,连续的感知信号完全可以被有效离散化,同时还能保持强大的能力。这无疑是向原生多模态迈出的坚实一步。
当然,它也有局限性。比如当前版本的视觉分词器,更侧重语义解码的一致性,而不是像素级的保真度。评估也主要集中在图像到文本和文本到图像方向。未来的工作方向也很明确:优化分词器以更好地匹配下一代版本的目标;扩展到任意到任意的生成和交错多模态推理;同时深入探索数据规模与表征学习之间的协同效应。
