最新权威文生图模型测评:HiDream-O1-Image-1.5超越谷歌英伟达荣获中国第一全球第二
先说说几个核心判断:AI图像生成领域的竞争,正在从“谁家模型参数更大”转向“谁能在真实商业场景里真正把活儿干好”。而最近,智象未来(HiDream.ai)的全新商用版模型 HiDream-O1-Image-1.5,用一个相当亮眼的成绩单,把这个趋势又往前推了一步。
在全球知名的独立AI模型评测平台 Artificial Analysis 的文生图榜单(Text to Image Leaderboard)上,这款模型一举登顶中国图像生成模型第一,整体评分仅次于 OpenAI,成功超越了谷歌的 Nano Banana 2(Gemini 3.1 Flash Image Preview)、英伟达的 Cosmos3-Super-Text2Image,以及字节跳动的 Seedream 4.0 等国内外主流选手。算上之前开源版 HiDream-O1-Image-Dev-2604 拿下的开源模型全球第一,这已经是智象未来在数周之内的第二次“登顶”了。
Artificial Analysis 的这套排名机制很有意思——它采用匿名对比、用户投票和 ELO 动态排分,尽量排除品牌认知的干扰,更贴近用户在实际生成中的真实偏好。在这个体系下,HiDream-O1-Image-1.5 在超过4000个样本对比中斩获了 1265 ELO 的高分。这不仅说明它在图像质量上的竞争力,更反映出在语义理解、复杂画面生成、文字渲染和多主体控制等综合能力上的显著进步。
但真正值得关注的,不只是榜单排名。这次 SOTA 更关键的意义在于:智象未来把创新的原生全模态架构 Unified Transformer(UiT),从“技术验证”推进到了“生产验证”阶段。开源版本证明像素级原生全模态架构能跑通,而商用版本 HiDream-O1-Image-1.5 则开始直面广告营销、品牌设计、电商视觉、游戏内容、影视分镜、IP 创作等更高要求的商业场景。它在图像质量、文字渲染、复杂排版、多主体一致性和视觉叙事上的全面强化,才是这场竞赛真正的看点。
接下来,不如直接用实例说话,看看它在实际任务中的表现。
01 会写字、懂排版、能分镜,全能型选手登场
人像摄影:摄影级画质与多风格表达
在人像生图领域,HiDream-O1-Image-1.5 的表现堪称“摄影级”。无论是魔幻光影、双人互动还是人物特写,皮肤质感、服饰纹理、肢体关系和背景虚化都处理得非常自然。即使面对广角、低机位、室内暖光这类复杂构图,也能保持人物比例、空间透视与画面叙事的协调性。这样的能力,显然是为商业人像、品牌视觉和影视分镜等高标准场景准备的。
动物生图:运动形态与自然环境的精细建模
在动物生图上,模型展现出对主体形态、运动状态及自然环境的精细建模能力。动物的结构、皮毛质感、动态表现,乃至复杂光照和水下折射等高难度画面,都能保持真实感与视觉冲击力。这对于自然影像、品牌视觉、游戏资产等创意内容生产场景来说,意味着生产级的交付能力。
自然风光:空间与光影的精准控制
面对雪山湖泊、沙漠驼队、晶体洞xue等复杂的大场景,模型对大场景空间层次、光影变化与环境氛围的精准控制能力展露无遗。无论是纵深感、电影感还是细节表现,都相当稳定,适合旅游视觉、影视概念图、游戏场景等商用场景。
多种艺术风格:风格理解与视觉表达的切换
在日系插画、动漫战斗、卡通海报、国风武侠等风格间切换时,模型对风格的理解和语义遵循能力相当到位。角色造型、构图关系、动作节奏与画面氛围都能保持统一,在复杂姿态、动态特效和基础文字渲染上也有不错的稳定性。这对 IP 创作、漫画分镜、游戏美术和品牌创意视觉来说,是不可多得的生产力工具。
电商海报:文字与画面的无缝融合
电商海报生成是检验模型“实战能力”的试金石。HiDream-O1-Image-1.5 不仅能为不同品类快速匹配视觉风格,还能自然融合商品、场景、装饰元素与营销文案。在中英文混排、多层级卖点和复杂排版任务中,文字的可读性和画面的商业质感都相当出色,能显著提升广告营销和电商物料制作的效率。
IP 形象设计:多视角一致性与角色稳定性
围绕同一 IP 角色生成多角度视图和多种情绪表情,并保持五官、发型、服饰与风格的统一,这是 IP 设计中的核心难点。HiDream-O1-Image-1.5 在这方面表现稳定,可有效提升 IP 设定、角色三视图、动画前期及品牌吉祥物开发的效率。
多宫格/分镜设计:叙事理解与连续画面生成
在多宫格与分镜设计中,模型展现出对连续叙事和画面顺序的理解能力。无论是工具流程、任务推进、儿童绘本还是冒险故事,都能生成逻辑连贯的分镜画面,并保持角色、场景与视觉风格的统一。这对影视分镜、漫画创作、广告脚本和教育内容视觉化来说,是一个强大的辅助工具。
多层次复杂文字渲染:多语言、多结构的综合实力
海报、计划书、结构拆解图、课堂白板、直播界面、数据看板……将这些包含多语言文本、数字公式、图表信息和多级标题的内容,自然嵌入对应场景并保持排版秩序与美感,是模型综合能力的体现。HiDream-O1-Image-1.5 在这个维度上的表现,进一步拓展了它在广告设计、办公协作、电商详情页和教育培训等场景中的实用价值。
02 原生全模态进入生产验证,UiT 架构优势持续放大
HiDream-O1-Image-1.5 之所以能取得这样的表现,根本原因在于智象未来在原生全模态路线上的架构创新能力。从 8B 开源版、Pro 版到这次的 1.5 商用版,已经形成了一条清晰且高效的能力演进曲线。
传统文生图模型走的通常是“文本编码器 + VAE + DiT / 扩散模型”的模块化路径,有点像一棵不断分叉的树——文本有自己的 tokenizer,图像和视频有各自的 encoder/decoder,音频、动作、空间关系也各自为政。模块之间需要反复转换信息,在文字密集排版、UI 页面、多主体生成、多参考图控制、多分镜叙事等复杂任务中,就容易出现细节损耗、语义错位和结构不稳定。
HiDream-O1 选择的则是另一条路:真正的“原生全模态”,不是各个模态长大后二次拼接,而是从底层就融为一体。HiDream-O1 系列剔除了传统路径中的 VAE 和独立文本编码器,把图像像素、文本 Token、视频体素乃至音频、动作、空间关系等原始信号,全部映射进同一个共享 Token 空间,与统一的像素级 Transformer(UiT)直接交互。这种统一表征系统,才是它能在复杂图文融合、文字渲染、多主体一致性和分镜叙事等任务中持续进阶的关键。
以下为 X 平台 Artificial Analysis 官方账号发布的一组对比效果图:
当所有模态在底层被真正打通,模型才有可能走向“Any to Any”——任意输入支持任意输出。这不仅是图像生成模型的能力升级,也是世界模型所需的基础能力:在统一架构中理解、生成并预测现实世界的不同状态。HiDream-O1-Image-1.5 的快速进阶,是对这一路线可扩展性的有力验证。
03 持续架构创新,构建原生全模态世界模型
智象未来的核心思路很清晰:图像是通向视频生成和全模态世界建模的重要入口。一张图像承载着某一时刻的主体、空间、材质、光影、文字和关系;只有稳定理解并生成这些状态,模型才有可能进一步处理连续时间中的运动、因果、镜头和叙事。
HiDream-O1-Image-1.5 的强势表现说明,基于像素级原生统一架构的路线,正在把图像生成模型的竞争,从“更大参数”和“更好看画面”,推进到由架构能力、生产效率和工作流价值共同决定高度的新阶段。它不止提升了单图生成效果,也为多图一致性、分镜生成、视频首帧、图像编辑乃至未来长视频生成,提供了更稳定的底层能力。
这对中国大模型企业参与全球顶级竞争来说,是一个重要的信号。它证明了 UiT 原生统一架构作为下一代多模态模型底座的技术可行性。面向未来,智象未来将继续沿着这个方向推进,加速图像、视频、动作等多模态能力的融合,推动生成式 AI 深入内容创作、商业营销、影视制作、游戏生产等真实应用场景。从单张图像生成的入口到连续世界建模,这场以底层架构创新驱动的变革,才刚刚开始。
和 Nano Banana 2 对比
Prompt:一张高端中国白酒的奢华电商海报。正中央矗立着一个纯净、半透明的羊脂玉瓷瓶。在瓶身的曲面上直接浮雕着一首八句中文古诗:“昔人已乘黄鹤去,此地空余黄鹤楼。黄鹤一去不复返,白云千载空悠悠。晴川历历汉阳树,芳草萋萋鹦鹉洲。日暮乡关何处是?烟波江上使人愁。”雕刻的文字内部镶嵌着精致、闪烁的金箔,正捕捉着光线。酒瓶放置在一块粗糙的黑板岩上,半浸在清澈见底的浅水池中,水面荡漾着柔和的同心涟漪。美丽的液体焦散光影和反光在瓶底跳跃。在深度虚化的背景中,有微型盆景松树和薄雾。戏剧性的边缘轮廓光,商业产品摄影。
Prompt: An adorable, candid photograph of a curious kitten exploring a lush, green garden, with oversized flowers and foliage creating a whimsical, fairy-tale atmosphere.
Prompt: 在一个灯光昏暗、烟雾弥漫的审讯室里,一张气氛紧张的过肩镜头(OTS)电影剧照。在极度靠前的前景中,占据画面左侧三分之一的是侦探肩膀和侧脸的严重失焦剪影。相机的焦点完全锁定在背景中坐在金属桌对面的嫌疑人身上。嫌疑人是一个疲惫的赛博格,拥有发光的红色光学植入物,被头顶摇晃的刺眼聚光灯照亮。极浅的景深在模糊的前景审讯者和细节锐利、满头大汗的嫌疑人面部之间形成了强烈的光学分离。85mm镜头,f/1.4大光圈。

















