智象未来图像生成模型评分全球第二，仅次于OpenAI

2026-06-12阅读 0热度 0

OpenAI

6月11日，智象未来（HiDream.ai）发布商用图像生成模型HiDream-O1-Image-1.5，在独立AI评测平台Artificial Analysis的文生图（Text to Image）榜单中排名全球第二，综合评分仅次于OpenAI。

该榜单采用匿名对比、用户投票与ELO动态排名机制，旨在降低品牌认知偏差，真实反映用户在开放生成场景中的偏好。相较于自报家门的测试，匿名盲测的客观性更强。

在该评测体系中，HiDream-O1-Image-1.5基于4000+样本对比获得1265 ELO评分。该成绩不仅体现图像质量竞争力，更印证其在语义理解、复杂场景生成、文字渲染及多主体控制等综合能力上的显著提升。

此前半个月，智象未来开源模型HiDream-O1-Image-Dev-2604已在该榜单开源模型中位居全球第一。开源版本的成功，验证了其像素级原生全模态架构在开放评测与开发者社区的可行性，为商用版本奠定了基础。

商用版HiDream-O1-Image-1.5针对广告营销、品牌设计、电商视觉、游戏内容、影视分镜、IP创作等高要求商业场景优化。实际表现中，其在图像质量、文字渲染、复杂排版、多主体一致性及视觉叙事能力上均展现出强劲实力。

技术核心：原生全模态架构

HiDream-O1-Image-1.5的技术根基是其原生全模态架构——Unified Transformer（UiT）。

与传统的“文本编码器+VAE+扩散模型”模块化拼装不同，UiT从底层将图像像素、文本Token、视频体素及音频、动作、空间关系等原始信号映射至同一共享Token空间，由单一Transformer统一完成理解、生成与推理。

该架构消除了模态间反复转换的信息损耗，在文字密集排版、多主体生成、分镜叙事等复杂任务中显著降低细节丢失与语义错位。理论上，这种设计在高要求商业场景中具备先天优势。

从长远看，智象未来致力于构建原生全模态世界模型。核心理念是：单张图像承载了现实世界某一时刻的主体、空间、材质、光影与关系——只有先稳定理解并生成这些静态状态，模型才能处理连续时间中的运动、因果、镜头与叙事。

HiDream-O1-Image-1.5的表现验证了UiT架构的可扩展性，为后续多图一致性、视频首帧生成乃至长视频生成提供了更稳定的底层能力。这正是该成果最具长远价值之处。

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。