腾讯混元大模型最新进展解读：开源生态再添重磅成员

2026-05-16阅读 0热度 0

混元大模型

腾讯混元大模型正式推出视频生成功能，完成了从文本、图像到3D内容生成的全栈能力布局。此次开源的130亿参数视频生成模型，是目前开源社区中规模最大的视频模型之一，为行业提供了关键的技术基础设施。

用户现在可以通过输入中英文文本描述，直接生成视频内容。该功能已集成至腾讯元宝APP的“AI视频”板块，面向用户开放试用。同时，腾讯云已同步为企业客户开启API接口的内测通道。

通过腾讯元宝APP-AI应用-AI视频即可使用该功能（前期需申请）

生成效果：多维度评测表现领先

官方评测数据显示，混元视频生成模型在文本语义对齐、运动连贯性与画面质量等核心指标上表现突出。其在处理复杂场景，如人物动态与建筑结构时，展现出显著的技术优势。

实际生成样片显示，模型在画面真实感与提示词遵循度上达到了高水准。它能有效控制物体形变，确保动作流畅，甚至能稳定解析emoji等抽象提示，生成合理的视频内容。

面对冲浪、舞蹈等包含大幅动作的挑战性场景，模型能生成连贯的镜头语言。在处理镜面反射等物理现象时，能基本遵循光学规律，保持镜内外动作同步。其核心亮点在于，能在保持主体一致性的前提下，实现镜头视角的自动切换，这一能力在当前模型中较为罕见。

以下示例直观展示了其生成能力：

视频由腾讯混元视频生成，提示词：200mm长焦镜头，对准一只停在栏杆上的海鸥。羽毛的纹理清晰可辨，前景的木栏杆温柔虚化。远处的落日和海平面融化成金红色的光影

视频由腾讯混元视频生成，提示词：暴风雪中，一列蒸汽火车在崎岖山间穿行，黑烟从车头直冲云霄，车厢在皑皑白雪中留下深邃轨迹，镜头以侧面追踪，捕捉机械巨兽破开风雪的磅礴气势，白雾与蒸汽交织成壮丽画卷，电影氛围，远景

视频由腾讯混元视频生成，提示词：一个隐藏的瀑布流入清澈的池塘，周围是高大的树木和绿色植物。阳光穿过树叶，在下面的岩石和水面上形成斑点。逼真，茂密森林中的宁静瀑布，宁静、阳光明媚的日子，中景

视频由腾讯混元视频生成，提示词：一位戴着复古飞行护目镜的机械师，半跪在蒸汽朋克风格的工作室里。她棕色卷发挽成发髻，零星的银色发丝闪着金属光泽。深棕色皮质工装背带裤上沾满机油污渍，袖口卷起露出布满齿轮纹身的手臂。特写她正用黄铜工具调试一只机械鸟，齿轮间冒出缕缕蒸汽，工作台上散落着铜管、发条和老式图纸。

技术架构：基于DiT的深度优化

模型性能的突破源于其底层技术架构。混元视频生成模型基于扩散Transformer（DiT）架构，并进行了多项关键优化。

首先，新一代文本编码器的引入，显著提升了模型对复杂语义的理解和指令遵循能力，使其在处理多主体、高细节场景时更为精准。其次，统一的全注意力机制确保了视频帧间过渡的自然平滑，并实现了主体一致性下的多视角切换。最后，其采用的图像视频混合3D变分编码器（VAE）技术，在细节捕捉上更进一步，尤其在处理面部特写与高速运动镜头时优势明显。

全面开源：降低行业应用门槛

此次开源力度空前。模型的完整资源，包括权重、推理代码及算法细节，已在Hugging Face和Github平台发布，供全球开发者免费研究与应用。

此举意味着开发者和企业无需投入巨额算力进行基础训练，可直接基于此高性能模型进行推理，或针对特定垂直领域进行微调与二次开发。这将显著降低视频生成技术的应用门槛，加速行业级解决方案的落地与创新。

纵观今年，腾讯混元模型的开源节奏持续加快。从文本、图像到3D，再到如今的视频生成，混元系列已实现全模态技术开源。这不仅是一次产品迭代，更标志着AI大模型生态的竞争已进入以开源基础设施为核心的新阶段。

腾讯混元大模型最新进展解读：开源生态再添重磅成员

生成效果：多维度评测表现领先

技术架构：基于DiT的深度优化

全面开源：降低行业应用门槛

相关阅读

最新教程

最新资讯