最新权威文生图模型测评：HiDream-O1-Image-1.5超越谷歌英伟达荣获中国第一全球第二

2026-06-11阅读 0热度 0

文生图模型智象未来

先说说几个核心判断：AI图像生成领域的竞争，正在从“谁家模型参数更大”转向“谁能在真实商业场景里真正把活儿干好”。而最近，智象未来（HiDream.ai）的全新商用版模型 HiDream-O1-Image-1.5，用一个相当亮眼的成绩单，把这个趋势又往前推了一步。

在全球知名的独立AI模型评测平台 Artificial Analysis 的文生图榜单（Text to Image Leaderboard）上，这款模型一举登顶中国图像生成模型第一，整体评分仅次于 OpenAI，成功超越了谷歌的 Nano Banana 2（Gemini 3.1 Flash Image Preview）、英伟达的 Cosmos3-Super-Text2Image，以及字节跳动的 Seedream 4.0 等国内外主流选手。算上之前开源版 HiDream-O1-Image-Dev-2604 拿下的开源模型全球第一，这已经是智象未来在数周之内的第二次“登顶”了。

Artificial Analysis 的这套排名机制很有意思——它采用匿名对比、用户投票和 ELO 动态排分，尽量排除品牌认知的干扰，更贴近用户在实际生成中的真实偏好。在这个体系下，HiDream-O1-Image-1.5 在超过4000个样本对比中斩获了 1265 ELO 的高分。这不仅说明它在图像质量上的竞争力，更反映出在语义理解、复杂画面生成、文字渲染和多主体控制等综合能力上的显著进步。

但真正值得关注的，不只是榜单排名。这次 SOTA 更关键的意义在于：智象未来把创新的原生全模态架构 Unified Transformer（UiT），从“技术验证”推进到了“生产验证”阶段。开源版本证明像素级原生全模态架构能跑通，而商用版本 HiDream-O1-Image-1.5 则开始直面广告营销、品牌设计、电商视觉、游戏内容、影视分镜、IP 创作等更高要求的商业场景。它在图像质量、文字渲染、复杂排版、多主体一致性和视觉叙事上的全面强化，才是这场竞赛真正的看点。

接下来，不如直接用实例说话，看看它在实际任务中的表现。

01 会写字、懂排版、能分镜，全能型选手登场

人像摄影：摄影级画质与多风格表达

在人像生图领域，HiDream-O1-Image-1.5 的表现堪称“摄影级”。无论是魔幻光影、双人互动还是人物特写，皮肤质感、服饰纹理、肢体关系和背景虚化都处理得非常自然。即使面对广角、低机位、室内暖光这类复杂构图，也能保持人物比例、空间透视与画面叙事的协调性。这样的能力，显然是为商业人像、品牌视觉和影视分镜等高标准场景准备的。

动物生图：运动形态与自然环境的精细建模

在动物生图上，模型展现出对主体形态、运动状态及自然环境的精细建模能力。动物的结构、皮毛质感、动态表现，乃至复杂光照和水下折射等高难度画面，都能保持真实感与视觉冲击力。这对于自然影像、品牌视觉、游戏资产等创意内容生产场景来说，意味着生产级的交付能力。

自然风光：空间与光影的精准控制

面对雪山湖泊、沙漠驼队、晶体洞xue等复杂的大场景，模型对大场景空间层次、光影变化与环境氛围的精准控制能力展露无遗。无论是纵深感、电影感还是细节表现，都相当稳定，适合旅游视觉、影视概念图、游戏场景等商用场景。

多种艺术风格：风格理解与视觉表达的切换

在日系插画、动漫战斗、卡通海报、国风武侠等风格间切换时，模型对风格的理解和语义遵循能力相当到位。角色造型、构图关系、动作节奏与画面氛围都能保持统一，在复杂姿态、动态特效和基础文字渲染上也有不错的稳定性。这对 IP 创作、漫画分镜、游戏美术和品牌创意视觉来说，是不可多得的生产力工具。

电商海报：文字与画面的无缝融合

电商海报生成是检验模型“实战能力”的试金石。HiDream-O1-Image-1.5 不仅能为不同品类快速匹配视觉风格，还能自然融合商品、场景、装饰元素与营销文案。在中英文混排、多层级卖点和复杂排版任务中，文字的可读性和画面的商业质感都相当出色，能显著提升广告营销和电商物料制作的效率。

IP 形象设计：多视角一致性与角色稳定性

围绕同一 IP 角色生成多角度视图和多种情绪表情，并保持五官、发型、服饰与风格的统一，这是 IP 设计中的核心难点。HiDream-O1-Image-1.5 在这方面表现稳定，可有效提升 IP 设定、角色三视图、动画前期及品牌吉祥物开发的效率。

多宫格/分镜设计：叙事理解与连续画面生成

在多宫格与分镜设计中，模型展现出对连续叙事和画面顺序的理解能力。无论是工具流程、任务推进、儿童绘本还是冒险故事，都能生成逻辑连贯的分镜画面，并保持角色、场景与视觉风格的统一。这对影视分镜、漫画创作、广告脚本和教育内容视觉化来说，是一个强大的辅助工具。

多层次复杂文字渲染：多语言、多结构的综合实力

海报、计划书、结构拆解图、课堂白板、直播界面、数据看板……将这些包含多语言文本、数字公式、图表信息和多级标题的内容，自然嵌入对应场景并保持排版秩序与美感，是模型综合能力的体现。HiDream-O1-Image-1.5 在这个维度上的表现，进一步拓展了它在广告设计、办公协作、电商详情页和教育培训等场景中的实用价值。

02 原生全模态进入生产验证，UiT 架构优势持续放大

HiDream-O1-Image-1.5 之所以能取得这样的表现，根本原因在于智象未来在原生全模态路线上的架构创新能力。从 8B 开源版、Pro 版到这次的 1.5 商用版，已经形成了一条清晰且高效的能力演进曲线。

传统文生图模型走的通常是“文本编码器 + VAE + DiT / 扩散模型”的模块化路径，有点像一棵不断分叉的树——文本有自己的 tokenizer，图像和视频有各自的 encoder/decoder，音频、动作、空间关系也各自为政。模块之间需要反复转换信息，在文字密集排版、UI 页面、多主体生成、多参考图控制、多分镜叙事等复杂任务中，就容易出现细节损耗、语义错位和结构不稳定。

HiDream-O1 选择的则是另一条路：真正的“原生全模态”，不是各个模态长大后二次拼接，而是从底层就融为一体。HiDream-O1 系列剔除了传统路径中的 VAE 和独立文本编码器，把图像像素、文本 Token、视频体素乃至音频、动作、空间关系等原始信号，全部映射进同一个共享 Token 空间，与统一的像素级 Transformer（UiT）直接交互。这种统一表征系统，才是它能在复杂图文融合、文字渲染、多主体一致性和分镜叙事等任务中持续进阶的关键。

以下为 X 平台 Artificial Analysis 官方账号发布的一组对比效果图：

当所有模态在底层被真正打通，模型才有可能走向“Any to Any”——任意输入支持任意输出。这不仅是图像生成模型的能力升级，也是世界模型所需的基础能力：在统一架构中理解、生成并预测现实世界的不同状态。HiDream-O1-Image-1.5 的快速进阶，是对这一路线可扩展性的有力验证。

03 持续架构创新，构建原生全模态世界模型

智象未来的核心思路很清晰：图像是通向视频生成和全模态世界建模的重要入口。一张图像承载着某一时刻的主体、空间、材质、光影、文字和关系；只有稳定理解并生成这些状态，模型才有可能进一步处理连续时间中的运动、因果、镜头和叙事。

HiDream-O1-Image-1.5 的强势表现说明，基于像素级原生统一架构的路线，正在把图像生成模型的竞争，从“更大参数”和“更好看画面”，推进到由架构能力、生产效率和工作流价值共同决定高度的新阶段。它不止提升了单图生成效果，也为多图一致性、分镜生成、视频首帧、图像编辑乃至未来长视频生成，提供了更稳定的底层能力。

这对中国大模型企业参与全球顶级竞争来说，是一个重要的信号。它证明了 UiT 原生统一架构作为下一代多模态模型底座的技术可行性。面向未来，智象未来将继续沿着这个方向推进，加速图像、视频、动作等多模态能力的融合，推动生成式 AI 深入内容创作、商业营销、影视制作、游戏生产等真实应用场景。从单张图像生成的入口到连续世界建模，这场以底层架构创新驱动的变革，才刚刚开始。

和 Nano Banana 2 对比

Prompt：一张高端中国白酒的奢华电商海报。正中央矗立着一个纯净、半透明的羊脂玉瓷瓶。在瓶身的曲面上直接浮雕着一首八句中文古诗：“昔人已乘黄鹤去，此地空余黄鹤楼。黄鹤一去不复返，白云千载空悠悠。晴川历历汉阳树，芳草萋萋鹦鹉洲。日暮乡关何处是？烟波江上使人愁。”雕刻的文字内部镶嵌着精致、闪烁的金箔，正捕捉着光线。酒瓶放置在一块粗糙的黑板岩上，半浸在清澈见底的浅水池中，水面荡漾着柔和的同心涟漪。美丽的液体焦散光影和反光在瓶底跳跃。在深度虚化的背景中，有微型盆景松树和薄雾。戏剧性的边缘轮廓光，商业产品摄影。

Prompt: An adorable, candid photograph of a curious kitten exploring a lush, green garden, with oversized flowers and foliage creating a whimsical, fairy-tale atmosphere.

Prompt: 在一个灯光昏暗、烟雾弥漫的审讯室里，一张气氛紧张的过肩镜头（OTS）电影剧照。在极度靠前的前景中，占据画面左侧三分之一的是侦探肩膀和侧脸的严重失焦剪影。相机的焦点完全锁定在背景中坐在金属桌对面的嫌疑人身上。嫌疑人是一个疲惫的赛博格，拥有发光的红色光学植入物，被头顶摇晃的刺眼聚光灯照亮。极浅的景深在模糊的前景审讯者和细节锐利、满头大汗的嫌疑人面部之间形成了强烈的光学分离。85mm镜头，f/1.4大光圈。