Cola DLM测评：何恺明团队开源连续扩散语言模型深度解析

2026-05-19阅读 0热度 0

语言模型

大语言模型的演进长期被“预测下一个词”的范式所主导。然而，这条路径是唯一的选择吗？继何恺明团队之后，字节跳动的研究给出了另一种可能。值得注意的是，两家机构的研究方向不谋而合：在连续的语义空间中重构语言建模的根基。

更重要的是，字节此次将开源理念贯彻始终，完整公开了研究论文、核心代码、预训练模型权重以及详尽的中文技术解析。

首先简要回顾背景。不久前，何恺明团队发布了首个扩散语言模型ELF。该模型绕过了离散的token层面，将整个文本生成过程置于连续的embedding空间中完成。仅用1.05亿参数，其性能便超越了多个主流扩散语言模型，首次有力证明了连续建模路径在语言生成领域的潜力。

字节跳动此次提出的Cola DLM（连续潜在扩散语言模型），为这一新兴方向提供了更坚实的实证支持。研究团队同样选择摆脱离散token的约束，将生成过程交由连续空间处理。结果如何？在一项参数规模约20亿、计算量约2000 EFLOPs的严格对照实验中，Cola DLM展现出比传统自回归模型及主流离散扩散语言模型更优的扩展性趋势。

然而，若认为这只是将图像扩散技术简单移植到文本领域，那就误解了其核心。研究团队明确指出：

Cola DLM的初衷从来不是扩散模型本身。

这似乎存在矛盾：不是为了扩散，却构建了一个扩散语言模型？

字节的核心理念：Token不等于语义，表征才是关键

事实上，真正的重点在于后半句：

Cola DLM的动机从来不是扩散，而是表征。

在字节的研究者看来，语言的内在表征才是根本。Token，作为分词器工程与历史演化的产物，仅仅是表征的一种表层呈现形式。他们甚至提出了一个更具颠覆性的观点：

Token是人类语言系统的表层载体，并非语义本身。

一个简单的例子可以阐明这一点。表达“我今天很开心”这一语义，可以有多种表述方式，例如“今天我心情很好”或“今天过得挺愉快”。这些句子的token组合差异显著，但其背后的核心语义是同一的。

传统大模型通常将这些不同表述视为独立的模式分别学习。这导致模型不得不在token表层进行繁琐的对齐工作，尽管它们指向同一个深层语义。

因此，字节团队的判断是：如果模型内部能形成一种更稳定、更抽象的“语义状态”，那么这些本质相同、表述各异的句子就无需被分别记忆，而可以在内部收敛到相近的表示上。从根本上说：

Cola DLM中的扩散过程，并非在恢复token，而是在“运输”一个潜在先验。

如何“运输”这个潜在先验？字节选择将语义与实现进行彻底分层。

具体的方法论在论文3.1.1节有详细阐述，这里可以概括为：Cola DLM的生成模型本质上由两部分构成。一个潜在先验模型，负责生成“潜在语义”；一个解码器，负责将这些语义“翻译”成具体的文字。这相当于将“生成一句话”拆解为两个相对独立的任务。

关键在于，整个扩散或流匹配过程，都发生在潜在空间内，而非token空间。也就是说，Cola DLM所做的，并非将杂乱的token逐步去噪为干净的token，而是先在连续的语义空间里，将随机语义逐步组织成有意义的潜在表达，最后再统一转化为文字。

因此，在其生成路径中，根本没有token逐步生成的过程。Token只在最后一步才出现，前面学习的全是“语义如何形成”。

这也是Cola DLM与许多其他扩散语言模型最根本的差异。许多模型本质上仍围绕着token进行“修修补补”，例如恢复被掩码的token或逐步还原离散文本。但Cola DLM直接将扩散过程从“文字层”提升到了“语义层”，扩散不再负责“生成token”，而是负责“组织语义”。用研究者的话说：

这并非包装上的差异，而是彻底改变了扩散在模型中扮演的角色。

Cola DLM背后的关键设计

理解了核心理念，那么Cola DLM究竟是如何在工程上实现，并与传统连续扩散语言模型拉开差距的呢？答案隐藏在几个看似工程化却至关重要的设计选择中。

关键一：潜在变量并非简单的词嵌入替代品

首先是潜在变量的来源。许多人听到“连续语言模型”，第一反应是在词嵌入上做扩散。但Cola DLM反其道而行，专门构建了一套文本变分自编码器：

编码器：将离散文本压缩成连续的潜在表示（相当于提取“语义指纹”）。
解码器：将潜在表示还原回文本。

区别在哪里？词嵌入仍然与token一一绑定，每个token对应一个向量，本质上还是token序列。而Cola DLM需要的潜在变量，是一个可以连续变化、能够被概率建模的随机变量。这样一来，模型处理的对象就不再是“下一个token”，而是“整段文本对应的语义状态”。

关键二：先验模型并非普通的扩散过程

Cola DLM采用的并非大家熟悉的“加噪-去噪”式扩散，而是一个结合了块因果DiT（扩散变换器）与流匹配的组合。

这个组合具体做什么？可以简单理解：它从一个简单分布（如高斯分布）出发，在连续时间内学习一个向量场，从而将这个分布“运输”到真实数据对应的潜在分布上。说白了，它不依赖反复去噪，而是直接学习一条“最优路径”，将噪声平滑地引导至有意义的语义。

更巧妙的是，它在这个语义路径上引入了块结构——块内并行处理以实现局部语义的快速组织，块间则遵循因果顺序以确保整体逻辑连贯。这相当于在语义层面重新搭建了一套生成框架，兼顾了“局部高效”与“整体有序”。

关键三：训练时明确的角色分工

连续扩散语言模型常面临一个问题：语义表示很容易被扩散过程带偏，最终退化成一种“穿了马甲的token”——表面是连续向量，骨子里却仍在记忆词汇，未能形成真正的语义抽象。

Cola DLM的应对策略是：将两个任务彻底分离。

编码器/解码器：只负责“如何将文字与语义表示相互转换”。
先验模型：只负责“如何从噪声生成语义表示”。

在训练时，编码器在扩散阶段基本保持“冻结”状态。为什么不让它一起学习？因为一旦让编码器去适应扩散过程，它可能会为了降低损失函数而“偷懒”，将语义表示悄悄滑向“易于预测的token形式”，从而回到老路上。研究团队想要的是一个稳定的语义空间，而非一个被特定任务污染的中介层。因此，他们反其道而行，让先验模型去适应语义空间，而不是让语义空间去迁就先验模型。

此外，他们还增加了一项语义约束，以防止编码器在重建过程中发生“语义坍塌”。实验表明，缺少这项约束，潜在表示确实会为了降低损失而发生漂移。

关键四：将训练目标分解为三个可独立诊断的子任务

如果说前三点是工程上的巧思，那么第四点则是Cola DLM在理论框架上的扎实贡献。研究团队将训练目标拆解为三个可以单独观察和诊断的子任务：

重建能力：给定潜在表示，解码器能否准确还原原文？
压缩能力：语义表示到底压缩了多少原文信息？
拟合能力：先验模型能否学会潜在变量的真实分布？

这种分解的好处显而易见。传统的自回归模型将所有目标混杂在一个“预测下一个词”的损失函数中。当生成效果不佳时，很难 pinpoint 问题究竟出在理解错误、记忆不足还是生成路径偏差上。而Cola DLM则把账算得清清楚楚，哪个环节薄弱，通过对应的指标一看便知。这也是其能够展现出稳定扩展趋势的底层原因——优化过程不再是黑箱，每个环节都可单独诊断和调整。

鉴于篇幅，这里直接呈现Cola DLM核心研究成果的概要：

同一个追问，两种不同的回答

说到这里，很难不将字节的Cola DLM与何恺明团队的ELF放在一起对比。这两项几乎同期出现的工作，都在挑战一个被默认了二十年的假设：语言模型必须建立在离散的token之上。

为什么这个假设开始受到质疑？一方面，自回归大模型发展至今，“预测下一个token”这条路径的瓶颈日益凸显——推理速度慢、长程依赖弱、训练目标与真实生成质量之间存在结构性差距。另一方面，扩散模型在图像、视频生成上的巨大成功，促使人们反思：离散token真的是语言智能必须依附的载体吗？还是仅仅是历史选择形成的一种惯性？

近两年扩散语言模型的诸多探索，已经将这个问题摆上了台面，但大多数工作仍属于“离散派”，即在token层面进行扩散。直到ELF和Cola DLM相继出现，几乎同时给出了相同的答案：不必绑定在token上。

当然，在具体解法上，两者有所不同。简单对比来看：

可以打个比方，ELF更像是一位创作者在原长度的embedding空间中反复构思、打磨，直到最后一步才落笔成文。而Cola DLM则像两个分工明确的部门，语义部门先确定“要表达什么”，文字部门再负责“具体如何写”。

两条路线在方法上虽有差异，但底层的关切完全一致：让建模发生在最适合语言本质的表示空间中，不要被“token即语义”的默认框架所限制。从本质上讲，它们是对同一个核心问题的两种不同回答。

这标志着一个趋势：是时候重新审视连续扩散语言模型了。过去两年，扩散语言模型的舞台几乎由“离散派”主导。但ELF和Cola DLM这一前一后的亮相，让“连续路线”首次以一种严谨、可对比、可复现的姿态站到了前沿。

更值得注意的是，Cola DLM还指出了一个更宏大的愿景：长期以来，“统一多模态”面临的核心障碍之一，便是文本是离散的，而图像、视频、音频天然是连续的。若想让它们真正进入同一个“潜在世界”，必须有一个将文本映射到连续语义空间的接口。Cola DLM恰好扮演了这个角色。

这或许才是字节此次研究的深层野心——并非仅仅在扩散语言模型的赛道上增加一名选手，而是为语言模型搭建一座桥梁，将其接入连续多模态的广阔世界。

当然，Cola DLM团队自身也保持着相当的克制，他们在技术博客的最后写道：

Cola DLM只是这条道路上的一次早期尝试，但这条路本身值得继续走下去。

团队构成与跨领域启示

这项研究由字节跳动Seed团队主导，汇聚了来自香港大学、中国人民大学、北京大学、北京邮电大学、澳大利亚国立大学等多所高校的研究者，覆盖语言建模、扩散模型、视频生成等多个方向。

第一作者郭泓灿，目前是北京邮电大学人工智能学院的大四本科生，自2025年6月起在字节Seed实习，研究兴趣集中于生成模型与推理模型的数学基础和学习动力学，Cola DLM的技术博客正是出自他手。

通讯作者曾妍是字节Seed内部的关键人物，她是字节爆款视频生成模型Seedance系列的研发负责人。有资料显示，这位西安交大校友在2024年以校招生身份加入字节后，仅用五年时间就从算法工程师晋升至核心职级。Cola DLM中“分层潜变量+扩散先验”的思路，与视频生成领域长期采用的潜在扩散路线有明显的相通之处。

团队中还有一位有趣的“跨界”研究者——聂沈。他是中国人民大学高瓴人工智能学院李崇轩教授课题组的代表性成员，同时也是离散扩散语言模型LLaDA的第一作者。而LLaDA正是Cola DLM在论文中重点比较的离散扩散路线。某种意义上，这本身就颇具意味：一位离散扩散路线的代表人物，也参与了连续潜在路径的研究。这在一定程度上表明，Cola DLM所探讨的，已经超越了“如何用扩散生成文本”，而是触及了更底层的问题：

文本智能究竟应该建立在什么样的状态空间之上？

其他几位核心作者同样背景显赫。Hengshuang Zhao是香港大学计算机系助理教授，曾在MIT CSAIL、牛津大学Torr Vision Group从事博士后研究，长期活跃于计算机视觉与生成建模领域。Qiushan Guo来自港大MMLab羅平组，同时也是字节Seedream图像生成模型的重要研发成员。

实际上，纵观整个作者名单，会发现一个非常有趣的现象：字节此次研发语言模型，几乎是将“视频/视觉生成”领域的核心思路整体引入了语言领域。做潜在扩散的、做视频生成的、做图像先验的、做离散扩散语言模型的专家汇聚一堂，共同重新思考“文本该如何建模”。

这或许也是为什么Cola DLM整体上呈现出与传统语言模型路线截然不同的气质。因为它从一开始关注的，就不只是“如何更好地生成文本”，而是尝试将语言重新安置回连续的语义空间中，使其成为一种能够与图像、视频、音频自然对齐的模态。

而这，也许才是Cola DLM最值得关注的地方：当文本不再仅仅是token序列，而成为连续世界中的一种语义状态时，未来的多模态智能将会呈现出怎样的新面貌。