腾讯混元大模型最新进展解读:开源生态再添重磅成员
腾讯混元大模型正式推出视频生成功能,完成了从文本、图像到3D内容生成的全栈能力布局。此次开源的130亿参数视频生成模型,是目前开源社区中规模最大的视频模型之一,为行业提供了关键的技术基础设施。
用户现在可以通过输入中英文文本描述,直接生成视频内容。该功能已集成至腾讯元宝APP的“AI视频”板块,面向用户开放试用。同时,腾讯云已同步为企业客户开启API接口的内测通道。
通过腾讯元宝APP-AI应用-AI视频即可使用该功能(前期需申请)
生成效果:多维度评测表现领先
官方评测数据显示,混元视频生成模型在文本语义对齐、运动连贯性与画面质量等核心指标上表现突出。其在处理复杂场景,如人物动态与建筑结构时,展现出显著的技术优势。
实际生成样片显示,模型在画面真实感与提示词遵循度上达到了高水准。它能有效控制物体形变,确保动作流畅,甚至能稳定解析emoji等抽象提示,生成合理的视频内容。
面对冲浪、舞蹈等包含大幅动作的挑战性场景,模型能生成连贯的镜头语言。在处理镜面反射等物理现象时,能基本遵循光学规律,保持镜内外动作同步。其核心亮点在于,能在保持主体一致性的前提下,实现镜头视角的自动切换,这一能力在当前模型中较为罕见。
以下示例直观展示了其生成能力:
视频由腾讯混元视频生成,提示词:200mm长焦镜头,对准一只停在栏杆上的海鸥。羽毛的纹理清晰可辨,前景的木栏杆温柔虚化。远处的落日和海平面融化成金红色的光影
视频由腾讯混元视频生成,提示词:暴风雪中,一列蒸汽火车在崎岖山间穿行,黑烟从车头直冲云霄,车厢在皑皑白雪中留下深邃轨迹,镜头以侧面追踪,捕捉机械巨兽破开风雪的磅礴气势,白雾与蒸汽交织成壮丽画卷,电影氛围,远景
视频由腾讯混元视频生成,提示词:一个隐藏的瀑布流入清澈的池塘,周围是高大的树木和绿色植物。阳光穿过树叶,在下面的岩石和水面上形成斑点。逼真,茂密森林中的宁静瀑布,宁静、阳光明媚的日子,中景
视频由腾讯混元视频生成,提示词:一位戴着复古飞行护目镜的机械师,半跪在蒸汽朋克风格的工作室里。她棕色卷发挽成发髻,零星的银色发丝闪着金属光泽。深棕色皮质工装背带裤上沾满机油污渍,袖口卷起露出布满齿轮纹身的手臂。特写她正用黄铜工具调试一只机械鸟,齿轮间冒出缕缕蒸汽,工作台上散落着铜管、发条和老式图纸。
技术架构:基于DiT的深度优化
模型性能的突破源于其底层技术架构。混元视频生成模型基于扩散Transformer(DiT)架构,并进行了多项关键优化。
首先,新一代文本编码器的引入,显著提升了模型对复杂语义的理解和指令遵循能力,使其在处理多主体、高细节场景时更为精准。其次,统一的全注意力机制确保了视频帧间过渡的自然平滑,并实现了主体一致性下的多视角切换。最后,其采用的图像视频混合3D变分编码器(VAE)技术,在细节捕捉上更进一步,尤其在处理面部特写与高速运动镜头时优势明显。
全面开源:降低行业应用门槛
此次开源力度空前。模型的完整资源,包括权重、推理代码及算法细节,已在Hugging Face和Github平台发布,供全球开发者免费研究与应用。
此举意味着开发者和企业无需投入巨额算力进行基础训练,可直接基于此高性能模型进行推理,或针对特定垂直领域进行微调与二次开发。这将显著降低视频生成技术的应用门槛,加速行业级解决方案的落地与创新。
纵观今年,腾讯混元模型的开源节奏持续加快。从文本、图像到3D,再到如今的视频生成,混元系列已实现全模态技术开源。这不仅是一次产品迭代,更标志着AI大模型生态的竞争已进入以开源基础设施为核心的新阶段。





