年最新HiDream-O1-Image-1.5全能图像生成能力专业深度测评对比权威精选榜单
近日,智象未来(HiDream.ai)推出的商用版图像生成模型 HiDream-O1-Image-1.5,在业内又刷了一次屏。这次它登上的,是全球知名独立AI模型评测平台 Artificial Analysis 的文生图榜单(Text to Image Leaderboard),一举拿下中国图像生成模型第一的位置,综合评分仅次于 OpenAI,直接把 Google Nano Banana 2(Gemini 3.1 Flash Image Preview)、NVIDIA Cosmos3-Super-Text2Image 和字节跳动的 Seedream 4.0 等国内外大厂的主流模型甩在了身后。
事情还得从半个月前说起。当时,智象未来的开源模型 HiDream-O1-Image-Dev-2604 刚刚登顶同一榜单的开源模型全球第一。短短数周之后,商用版的 1.5 版本又杀进了全球前三。连续两次登顶,这不只是运气好,而是实打实地证明了智象未来在图像生成这条赛道上的硬核实力——它已经稳稳站在了全球视觉生成大模型的第一梯队。
Artificial Analysis 的榜单采用的是匿名对比、用户投票和 ELO 动态排名机制,很大程度上消除了品牌认知对评测结果的影响,更接近真实用户在开放场景下的生成偏好。在这个专业评测体系下,HiDream-O1-Image-1.5 在超过 4000 个样本的对比中拿到了 1265 ELO 的成绩。这个分数反映的不仅是图像质量上的竞争力,更代表了模型在语义理解、复杂画面生成、文字渲染和多主体控制等综合能力上的全面进化。
这次 SOTA 的意义,远不止于一张榜单排名。它标志着智象未来在业内率先将创新的原生全模态架构 Unified Transformer (UiT) 从“技术验证”推进到了“生产验证”。开源版本证明了这套架构方案在开放社区和开发者手中跑得通,而 HiDream-O1-Image-1.5 商用版则直接面向广告营销、品牌设计、电商视觉、游戏内容、影视分镜、IP 创作等更高要求的商业场景,把图像质量、文字渲染、复杂排版、多主体一致性和视觉叙事能力都拉到了一个新高度。
那么,它在真实的内容生产任务中,表现到底怎么样?
会写字、懂排版、能分镜,HiDream-O1-Image-1.5 展现全能图像生成能力
人像摄影:摄影级画质与多风格表达
在人像生图场景中,模型展示出了稳定的摄影级画质和很强的风格适配能力。无论是魔幻光影、双人互动,还是人物特写,它在皮肤质感、服饰纹理、肢体关系和环境虚化这些细节上,都处理得非常自然。即便面对广角、低机位、室内暖光这类复杂的构图,也能保持人物比例、空间透视与画面叙事的协调。这种水平,放在商业人像、品牌视觉和影视分镜这些场景里,已经具备很强的交付能力了。
动物生图:运动形态与自然环境的精细建模
在动物生图场景中,模型对主体形态、运动状态与自然环境的建模非常精细。动物的结构、皮毛质感、动态表现,以及复杂光照、水下折射等高难度画面,都能保持真实感和视觉冲击力。这种能力,直接决定了它在自然影像、品牌视觉、游戏资产和创意内容生产这些场景下的生产级交付水准。
自然风光:空间与光影变化的精细捕捉
在自然生图场景中,模型对大场景的空间层次、光影变化与环境氛围有着精准的控制力。无论是雪山湖泊、沙漠驼队,还是晶体洞xue这样的复杂地貌和多光源场景,它都能保持纵深感、电影感和丰富的细节。这对于旅游视觉、影视概念图、游戏场景和品牌传播这些商用场景来说,意味着稳定且高质量的交付。
多种艺术风格:精确的风格理解与视觉表达
在多风格艺术生成场景中,模型展现出了优秀的风格理解和语义遵循能力。它可以在日系插画、动漫战斗、卡通海报和国风武侠等风格之间准确切换,同时保持角色造型、构图关系、动作节奏与画面氛围的统一。在复杂姿态、动态特效和基础文字渲染上,也具备较强的稳定性。对于 IP 创作、漫画分镜、游戏美术和品牌创意视觉来说,这意味着高效的生产支持。
电商海报:复杂画面与文字信息无缝融合
在电商海报生成场景中,模型对商品主体、版式结构与文字信息的综合把控能力非常突出。它能针对不同品类快速匹配视觉风格,并自然融合商品、场景、装饰元素与营销文案。在中英文混排、多层级卖点和复杂排版任务中,依然能保持较高的文字可读性、画面完整度与商业质感。这意味着广告营销、电商上新、社媒种草和品牌物料制作效率可以得到显著提升。
IP 形象设计:多视角生成与角色一致性
在 IP 形象设计场景中,模型对角色设定、表情变化与多视角一致性的控制非常稳定。它可以围绕同一角色生成多角度视图和多种情绪表情,并保持五官、发型、服饰与整体风格的统一。角色本身呈现出丰富的性格和表现力,这对于 IP 设定、角色三视图、动画前期、美术资产和品牌吉祥物开发来说,效率提升非常明显。
多宫格/分镜设计图:稳定叙事理解与连续画面生成
在多宫格和分镜设计场景中,模型对连续叙事、画面顺序与信息层级的理解能力令人印象深刻。无论是工具流程、任务推进、儿童绘本还是冒险故事,它都能生成逻辑连贯的分镜画面,并保持角色、场景与视觉风格的统一。同时,它对宫格布局、编号、标题和关键文字的组织能力也很强。这套能力,可以直接服务于影视分镜、漫画创作、广告脚本、教育内容和短视频脚本视觉化。
多层次复杂文字渲染:多语言、多结构的综合生成能力
在多层次复杂文字渲染任务中,模型展现出了对多语言文本、信息结构与视觉场景的综合生成能力。它能把海报、计划书、结构拆解图、课堂白板、直播界面和数据看板等内容自然嵌入对应场景,同时兼顾排版秩序、图文关系与整体美感。面对中英文混排、数字公式、图表信息和多级标题等复杂需求,依然能保持较好的可读性与版面稳定性。这个能力,大大拓展了它在广告设计、办公协作、电商详情页和教育培训等场景的实用价值。
原生全模态进入生产验证阶段,HiDream-O1-Image-1.5 持续放大 UiT 架构优势
HiDream-O1-Image-1.5 的表现,进一步验证了智象未来在原生全模态路线上的架构创新能力和快速迭代能力。从 HiDream-O1 系列的 8B 开源版、Pro 版到现在的 1.5 商用版,一条清晰而高效的能力演进曲线已经成型。
传统的文生图模型,走的通常是“文本编码器 + VAE + DiT / 扩散模型”的模块化路径。这个路径像一个不断分叉生长的树:文本有自己的 tokenizer,图像和视频有各自的 encoder/decoder,音频、动作、空间关系也都沿着不同路径被处理。模块之间需要多次转换信息,这就在文字密集排版、UI 页面、多主体生成、多参考图控制、多分镜叙事等复杂任务中,容易造成细节损耗、语义错位和结构不稳定。
HiDream-O1 的原生全模态架构走出了一条完全不同的路。它不是在各个模态长大之后再去拼接,而是从模型底层就让它们真正融合在一起。HiDream-O1 的 Image 系列模型剔除了传统路径中的 VAE 和独立文本编码器,将图像像素、文本 Token、视频体素,以及音频、动作、空间关系等原始信号映射进同一个共享 Token 空间,与同一套 UiT——像素级统一的 Unified Transformer 直接交互。在统一的表征系统里,理解、生成和推理一气呵成。
以下为 X 平台 Artificial Analysis 官方账号发布的一组对比效果图:
这才是 HiDream-O1 能够在复杂图文融合、文字渲染、多主体一致性和分镜叙事等任务中持续进阶的关键。当所有模态在底层被真正打通,模型才有可能走向真正的“Any to Any”——任意输入支持任意输出。这不仅是图像生成模型的能力升级,更是构建世界模型所需要的基础能力:在统一架构中理解、生成并预测现实世界的不同状态。HiDream-O1-Image-1.5 的快速进阶,正是对这条原生全模态路线可扩展性的坚实验证。
持续架构创新,构建原生全模态世界模型
智象未来的技术路线一直很清晰:图像是通向视频生成和全模态世界建模的重要入口。一张图像承载着现实世界某一时刻的主体、空间、材质、光影、文字和关系;只有稳定理解并生成这些状态,模型才有可能进一步处理连续时间中的运动、因果、镜头和叙事。
HiDream-O1-Image-1.5 的强势表现说明,基于像素级原生统一架构的路线,正在把图像生成模型的竞争,从“更大参数”和“更好看画面”,推进到一个由架构能力、生产效率和工作流价值共同决定的新阶段。它不仅提升了单图生成效果,也为多图一致性、分镜生成、视频首帧、图像编辑乃至未来的长视频生成,提供了更稳定的底层能力。这既证明了中国大模型企业参与全球顶级模型竞争的实力,也验证了 UiT 原生统一架构作为下一代多模态模型坚实底座的可行性。
面向未来,智象还将继续沿着原生全模态的技术路线推进模型迭代,加速图像、视频、动作等多模态能力的融合,推动生成式 AI 深入到内容创作、商业营销、影视创作、游戏生产等全模态智能体的真实应用场景。从单张图像生成的入口,到连续世界建模,一场底层的架构创新正在铺开。













