智象未来200B全模态图像模型深度测评:开启内容理解新纪元
智象未来在北京开放日活动中,正式推出新一代图像大模型HiDream-O1-Image-Pro。该模型基于其创新的原生全模态架构——Unified Transformer(UiT)构建,参数量突破两千亿,并在多项核心基准测试中刷新了性能纪录。活动同期,公司宣布完成半月内的第二轮融资,深创投、金浦投资等顶级机构的参与,进一步印证了市场对“原生全模态”技术路线的坚定信心。
架构革新:从模态对齐到原生统一
当前主流视觉生成方案多采用“拼接”范式,依赖独立的编码器与语言模型处理不同模态,在复杂语义理解与细节控制上存在瓶颈。智象未来的UiT架构实现了根本性突破,它将原始图像像素、文本标记及任务指令直接映射至统一的连续表示空间。这相当于为不同模态数据建立了共通的底层语义语法,实现了从架构根源上的深度融合与协同。
HiDream-O1-Image-Pro: 作为闭源旗舰模型,其超过2000亿的参数规模奠定了顶级文生图性能的基础。该模型的突破性体现在复杂场景的文字精准渲染、基于精细指令的图像编辑,以及多主体可控生成等高阶任务上,为行业设立了新的技术标杆。
开源验证与架构效率: UiT架构的高效性已获开源社区验证。采用同源架构的8B参数开源版本,此前已在Artificial Analysis全球文生图榜单中位列第一,成为该榜单前20名中参数量最小的登顶模型。这充分证明了UiT架构卓越的扩展性——从轻量级到超大规模,模型性能均可实现近乎线性的稳定增长。
战略愿景:以原生全模态架构奠基世界模型
智象未来创始人兼CEO梅涛博士阐述了公司的技术哲学。他指出,许多现有“多模态”系统实为单模态模型的后期拼接。智象未来的目标是构建“原生全模态”架构,将世界的底层规则——如空间结构、物理约束与因果逻辑——直接编码进模型的训练范式。这使得模型能够从被动的内容生成,转向主动的环境理解、状态推演与动态预测,这被视为迈向通用人工智能(AGI)的关键路径。
商业闭环:基础模型与智能体应用协同驱动
为将前沿研究转化为商业价值,智象未来确立了“1+1+3”的业务体系,即以底层大模型为引擎,通过三大垂直智能体应用推动规模化落地:
商业营销智能体 (HiBurst): 作为TikTok官方核心服务商之一,该智能体已实现年产出超百万条电商营销视频,累计带动商品交易总额(GMV)突破亿元。
AI影视创作智能体 (“帧赞”): 该平台打通了从剧本创意到视频成片的完整生产流程。目前已累计生成短剧、漫剧内容超5000分钟,吸引逾千家专业内容机构入驻。
社媒创作智能体 (vivago): 依托端到端的长序列推理能力,该智能体可在数分钟内生成包含完整叙事结构的视频内容,服务已覆盖全球超100个国家及地区的4000万用户。
产业融合:加速AGI能力在关键场景的渗透
技术突破需与产业深度结合。开放日上,智象未来宣布与上影新视野基金、蓝色光标、捷成世纪、倍尔健康达成战略合作。通过聚焦影视工业化、跨境营销、数字健康等垂直领域,公司将加速推动模型能力转化为可部署的行业解决方案。
从视觉生成起步,到构建能够理解与推演物理世界的模型,智象未来正实践其“Imaging the World”的愿景。通过统一的建模框架,让AI系统具备感知多模态环境状态并预测其演进的能力。随着战略资本的加持与商业生态的拓展,公司正从视觉技术专家,向通用世界模型的构建者与赋能者加速演进。