U-ViT架构深度解析:中国AIGC团队如何引领视频生成技术革新
Sora的发布为行业树立了新的技术标杆,也带来了切实的竞争压力。我们看到,国内一批专注于AIGC的创业团队自此进入了高强度研发节奏,持续推动技术迭代。
这一冲击引发了全球创业生态的广泛思考:面对OpenAI等巨头在算力与资本上的绝对优势,创业公司是否还有必要在底层模型上投入?差异化的生存空间究竟何在?
客观而言,在通用基础模型的绝对性能上追赶巨头确非易事,但这绝不意味着技术创新之路已被堵死。真正的机会往往蕴藏在技术路线的差异化和垂直深挖之中。
生数科技是一个典型案例。这家清华背景的创业公司,其选择的技术路径与Sora的核心架构存在显著共识:都致力于将Transformer与扩散模型进行深度整合。值得注意的是,其提出的U-ViT架构,在时间上甚至早于OpenAI后来公布的DiT。
学术界的认可佐证了其前瞻性:U-ViT相关论文被CVPR 2023收录,而初版DiT则未能通过评审。这至少表明,在视觉生成模型的前沿架构探索上,中国团队具备同步甚至局部的领先性。
目前,生数科技坚持在多模态大模型的全链路进行自主训练与研发。他们是全球最早将Transformer架构系统化引入扩散模型骨干网络的团队之一,能力矩阵已覆盖文生图、文生视频、文生3D、图生3D等多个生成任务。
市场的资本动向反映了对其路线的信心。近期,生数科技完成了由启明创投领投的数亿元融资,创下了国内多模态大模型领域的融资纪录。其CEO唐家渝明确表示,团队志在引领国内的底层原始创新。
这一切都指向一个结论:在Sora所揭示的技术方向上,中国团队不仅没有缺席,反而在特定路径上积累了深厚的先发优势与差异化能力。
全栈自研的MaaS
生数科技的布局具有明显的连贯性。2023年3月,团队开源了基于Diffusion Transformer架构(U-ViT)的多模态扩散模型UniDiffuser。在参数量与训练数据规模上,其初始版本便对标当时的Stable Diffusion。从架构演进视角看,采用DiT的Stable Diffusion 3,其技术理念比UniDiffuser晚了一年。
UniDiffuser的核心优势在于“统一性”。它并非单一功能的文生图模型,而是一个支持图文双向生成、图文联合生成、图文改写等多种任务的通用框架,实现了跨模态内容的灵活转换与编辑。
基于统一架构,团队持续推进模型规模的扩展。其图文模型参数从开源的10亿逐步攀升至百亿级别。通过将数据维度从图像拓展至3D空间与视频时序,团队相继推出了3D生成与视频生成能力,并落地为视觉创意平台PixWeaver与3D资产工具VoxCraft。
PixWeaver定位为自动化视觉创作工具,集成AI生图与生视频功能,支持中英文输入与秒级生成。其在复杂语义理解与画面美学表现上,达到了商用级水准。
在图像生成质量上,其文生图效果,特别是在画面细节的丰富性与整体美观度上,优于市场多数同类型号。
其出色的语义遵从能力,可以通过下方生成结果得到直观体现。
(提示词:公园里的竹林里挂着红色灯笼,旁边盛开着粉红色的梅花,远处是一座亭台楼阁,夕阳洒在蜿蜒的公园小路呈现出温暖的感觉,宝丽来照片风格,真实摄影)
在3D生成领域,VoxCraft主打高精度与高效率,最快可在数十秒内完成模型生成。
团队还推出了全球首个4D动画生成功能,能够基于输入视频与文本描述,输出带骨骼绑定的运动3D动画,并支持360度全景查看。
此外,用户可通过文本指令或参数面板,对3D场景进行灵活编辑,如增删物体,并实时预览编辑效果。
整体而言,VoxCraft相较于同类3D生成工具,其竞争优势体现在四个维度:
精度高:支持高达2048*2048的贴图分辨率,几何结构规整,材质与色彩表现真实;
速度快:在单卡GPU上,单个高质量3D资产的生成可缩短至数分钟;
可用性强:同步生成可直接用于工业管线的Mesh模型,支持高、低模定制;
丰富度高:覆盖广泛的资产类型,通用性强,支持文本或图像条件引导生成。
最接近Sora技术架构的中国团队
从技术架构的相似性评估,生数科技是目前国内最接近Sora技术路线的团队之一。
OpenAI的Sora关键创新在于将视觉数据统一为Patch表征,并借助Transformer+Diffusion的架构实现了卓越的扩展性。近期Stable Diffusion 3的转向也印证了这一趋势。
Transformer在大语言模型中已验证了“规模带来能力”的定律,但传统视觉生成长期依赖卷积扩散模型,其扩展性存在天花板。DiT架构的成功,标志着视觉生成领域同样进入了“Scaling Law”时代。
而生数科技在这条路径上起步更早。2022年9月,团队早期成员提交了论文《All are Worth Words: A ViT Backbone for Diffusion Model》,其中提出的U-ViT正是基于Transformer的扩散模型骨干网络。
对比U-ViT与DiT,两者在核心技术选择上高度一致:均采用Patch嵌入,均验证2*2为最优Patch尺寸,均在数亿参数规模上验证了扩展性。
差异体现在实验的广度:DiT仅在ImageNet上验证,而U-ViT则在CIFAR10、CelebA、ImageNet及图文数据集MSCOCO上进行了全面测试。此外,U-ViT提出的“长连接”技术,有效提升了模型训练收敛速度。
在当时,U-ViT的视觉生成质量已与SD1.5持平。更重要的是,基于U-ViT的UniDiffuser展现了更强的任务通用性,单一模型即可完成图文跨模态生成,验证了统一架构的潜力。
深厚的学术积累是团队的基石。核心成员在ICML、NeurIPS、ICLR等顶会上发表了近30篇相关论文,是该领域成果最丰硕的国内团队之一。正是这种坚持底层原始创新、全栈自研的策略,构筑了生数科技差异化的技术壁垒。
无训练推理框架Analytic-DPM
扩散模型面临的一个核心工程挑战是采样速度慢。因此,发展高效采样算法是推动其实际应用的关键。
2022年,团队核心成员提出了Analytic-DPM免训练推理框架。该框架通过蒙特卡洛方法与预训练得分模型,直接解析估计方差与KL散度,从而无需额外训练即可获得最优方差,具有重要的理论价值。
在实际应用中,该框架大幅提升了采样效率。对比测试显示,Analytic-DPM仅需50步采样,其效果即可超越传统DDPM 1000步采样的结果,加速比达到20倍。
该工作获评ICLR 2022杰出论文,是该会议首篇完全由中国大陆单位独立完成并获奖的论文。其影响力甚至延伸至行业巨头——OpenAI在DALL·E 2中处理方差的方案,便应用了此项技术。
多模态基础大模型UniDiffuser
如前所述,2023年3月开源的UniDiffuser是团队技术路线的集中体现。它基于U-ViT架构,在LAION-5B大规模图文数据集上训练,参数量达十亿级。
其核心价值在于“统一”:单一模型即可高质量完成文生图、图生文、图文联合生成、无条件生成及图文改写等多元任务。这种跨模态的自由转换能力,不仅提升了内容生产效率,也拓宽了生成式AI的应用边界。
需要强调的是其技术路线的独特性。生数科技被视为国内少有的“原生多模态”大模型厂商。“原生多模态”指采用统一的融合架构,对文本、图像、视频等数据进行统一范式训练,其目标是构建一个具备“GPT-4 + DALL·E 3 + GPT-4V”融合能力的底层模型,而非简单集成多个独立模型。坚持这条路线,旨在从根本上提升模型在开放域复杂场景下的多模态理解与生成能力。



