智象未来图像生成模型评分全球第二,仅次于OpenAI

2026-06-12阅读 0热度 0
OpenAI

6月11日,智象未来(HiDream.ai)发布商用图像生成模型HiDream-O1-Image-1.5,在独立AI评测平台Artificial Analysis的文生图(Text to Image)榜单中排名全球第二,综合评分仅次于OpenAI。

该榜单采用匿名对比、用户投票与ELO动态排名机制,旨在降低品牌认知偏差,真实反映用户在开放生成场景中的偏好。相较于自报家门的测试,匿名盲测的客观性更强。

仅次于OpenAI!智象未来图像生成模型评分位列全球第二

在该评测体系中,HiDream-O1-Image-1.5基于4000+样本对比获得1265 ELO评分。该成绩不仅体现图像质量竞争力,更印证其在语义理解、复杂场景生成、文字渲染及多主体控制等综合能力上的显著提升。

此前半个月,智象未来开源模型HiDream-O1-Image-Dev-2604已在该榜单开源模型中位居全球第一。开源版本的成功,验证了其像素级原生全模态架构在开放评测与开发者社区的可行性,为商用版本奠定了基础。

仅次于OpenAI!智象未来图像生成模型评分位列全球第二

商用版HiDream-O1-Image-1.5针对广告营销、品牌设计、电商视觉、游戏内容、影视分镜、IP创作等高要求商业场景优化。实际表现中,其在图像质量、文字渲染、复杂排版、多主体一致性及视觉叙事能力上均展现出强劲实力。

技术核心:原生全模态架构

HiDream-O1-Image-1.5的技术根基是其原生全模态架构——Unified Transformer(UiT)。

与传统的“文本编码器+VAE+扩散模型”模块化拼装不同,UiT从底层将图像像素、文本Token、视频体素及音频、动作、空间关系等原始信号映射至同一共享Token空间,由单一Transformer统一完成理解、生成与推理。

仅次于OpenAI!智象未来图像生成模型评分位列全球第二

该架构消除了模态间反复转换的信息损耗,在文字密集排版、多主体生成、分镜叙事等复杂任务中显著降低细节丢失与语义错位。理论上,这种设计在高要求商业场景中具备先天优势。

从长远看,智象未来致力于构建原生全模态世界模型。核心理念是:单张图像承载了现实世界某一时刻的主体、空间、材质、光影与关系——只有先稳定理解并生成这些静态状态,模型才能处理连续时间中的运动、因果、镜头与叙事。

HiDream-O1-Image-1.5的表现验证了UiT架构的可扩展性,为后续多图一致性、视频首帧生成乃至长视频生成提供了更稳定的底层能力。这正是该成果最具长远价值之处。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策