微软开源3.8B文生图模型Lens:高效更快更强的图像生成新标杆
微软这次在文生图模型的开源上,算是拿出了点真东西。新一代 3.8B 参数的基础模型 Lens,不仅仅是甩出模型权重就完了——技术报告、代码仓库、Hugging Face 模型页,连同数据构造、模型架构、预训练策略、RL 后训练、Reasoner、few-step distillation 和 benchmark 评测的完整细节,全部公开。这种程度的透明,在开源社区里确实不多见。
本次开源一口气放了三个版本:Lens-Base(预训练基础模型)、Lens-RL(经过强化学习后训练,重点提升图像质量和 prompt 对齐能力)、Lens-Turbo(4-step 推理的高速蒸馏版,走的是极速路线)。3.8B 的参数规模不算大,但训练成本降下来了,而且多个主流 benchmark 上的成绩直接挤进了 SOTA 梯队。
项目相关的技术报告、GitHub 仓库和 Hugging Face 页面如下(地址略,可直接访问):
图 1:Lens 生成样例。 支持最高 1440 分辨率,覆盖自然风景、人物、文本渲染、插画和复杂视觉场景等多种类型。
先快速过一下它的核心特点:
- 模型全面开源:Base、RL、Turbo 三个版本都放出来了,包括 20-step 高质量版本和 4-step 高速推理版本。
- 技术细节透明:数据构建、预训练、RL 后训练、Reasoner、蒸馏加速、推理配置、ablation 分析,全公开。
- 训练效率高:128 张 A100 搞定,训练开销大约是 Z-Image 的 19.3%。
- 性能 SOTA:在 OneIG、GenEval、LongText、CVTG 等多个 benchmark 上领先。
- 推理速度快:1024 分辨率图在 H100 上,Lens 默认 20-step 只需 3.15 秒,Lens-Turbo 仅 0.84 秒。
- 生成灵活:最高 1440 分辨率,1:2 到 2:1 任意长宽比,支持多语言 prompt,还带 Reasoner 自动增强输入。
用更少的训练成本,达到更强的生成能力
传统上,训练一个像样的文生图基础模型,烧钱是出了名的。Lens 的核心思路是重新思考训练效率——不只是盯着模型规模,而是关注每个训练 batch 里数据有效信息密度,以及模型的收敛速度。128 张 A100 的投入,换来的是训练开销只有 Z-Image 的不到五分之一,但在多个基准上表现却能和那些 6B、9B、20B 甚至更大的开源模型掰手腕。3.8B 的紧凑尺寸,意味着从部署到微调的门槛都低了一大截。
图 2:推理速度与生成性能对比。 在 OneIG 和 GenEval 上,Lens 和 Lens-Turbo 以 3.8B 的规模实现了领先的生成性能与更快的推理速度。
开源三大模型版本
三个版本定位明确:
- Lens-Base:预训练基础,prompt following 能力和多场景图像生成能力在线。
- Lens-RL:在 Base 基础上用 RL 后训练精调,图像质量、视觉一致性、物理合理性和 prompt 对齐都有明显提升。
- Lens-Turbo:4-step 推理的蒸馏版本,不需要 CFG,速度拉满。
超快推理:1024 分辨率图像最快 0.84 秒生成
除了训练省,推理也很快。单张 H100 上,Lens 默认 20-step 出一张 1024×1024 图只要 3.15 秒;Lens-Turbo 更是夸张,4-step 推理,0.84 秒搞定。这种速度,对于需要频繁迭代的内容创作、设计辅助、交互式生成场景来说,实用价值极高。
支持高分辨率与灵活长宽比生成
最高 1440 分辨率,长宽比在 1:2 到 2:1 之间任意调整。换句话说,海报、横幅、社交媒体配图、竖版封面、宽屏视觉图、设计素材……各种版式都能直接生成,不用拘泥于固定尺寸。
多语言 Prompt 输入与 Reasoner 支持
训练数据主要以英文 dense caption 为主,但得益于强语言编码器的设计,Lens 支持中文、英文、日文、法语等多种常用语言。更实用的是它内置的 Reasoner 模块:用户输入一个含糊或简短的描述,它会自动补全场景、风格、主体、构图等细节,让最终生成的图像质量更可控、对齐效果更好。
图 3:Lens 与主流文生图模型的 Benchmark 对比。 3.8B 参数规模下,在 OneIG、GenEval、LongText 和 CVTG 上取得了与更大模型竞争甚至领先的性能。
技术亮点
高效训练能力主要来自四个层面:
- 参数规模合理:3.8B 在保证强生成能力的同时,每步训练和推理的计算成本都大幅降低。
- 高质量数据:构建了 Lens-800M 数据集,用 GPT-4.1 生成 dense caption,每个样本承载更丰富的语义信息,数据利用率自然高。
- 多分辨率多长宽比混合训练:让模型具备优秀的分辨率和长宽比泛化能力。
- 系统化设计:从语义 VAE、强语言编码器、RL 后训练、Reasoner 到 few-step distillation,环环相扣,整体提升了收敛速度、生成质量和推理效率。
总结
Lens 给行业传递了一个明确的信号:基础文生图模型不一定非要用超大参数量和天价训练成本来堆。通过提升数据密度、优化架构、改进训练策略、引入系统级后训练优化,3.8B 的 Lens 一样能摸到 SOTA 的门槛。微软这次完整开源了三个版本,算是给社区提供了一个高质量、高效率、易部署的参考基准。对于研究、创作和实际产品落地的从业者来说,能省不少试错成本。



