GPT Image 2测评:五个月后为何仍断层领先谷歌?

2026-05-18阅读 0热度 0
红色警戒

被Google压着打了半年,OpenAI这次的反击,终于打出了声响。GPT Image 2上线仅仅12小时,就强势登顶Arena文生图排行榜,并且以领先第二名Nano Banana 2多达241分的巨大优势,创造了该榜单有史以来的最大分差。用Arena官方的话说,这是一次“干净利落的横扫”。

图片

具体来看,在文生图主榜上,GPT Image 2以1512分对1271分,彻底拉开了差距。更惊人的是其在盲测中的表现:在所有的图像对决中,用户有93%的概率选择了GPT Image 2生成的作品。这几乎是一种统治级的领先。

OpenAI在发布会上毫不掩饰其雄心,他们将此次升级比作从“洞xue壁画”到“文艺复兴”的跨越。山姆·奥特曼更是直言,这种感觉,就像是从GPT-3一下子跃升到了GPT-5。

图片

在其最新的API文档中,OpenAI给出了一个极具分量的评价。然而,真正的故事,往往隐藏在冰冷的数据背后。

图片

被Google压了半年,OpenAI总算扳回一局

时间拨回到2025年8月,战局的转折点初现。Google推出了内嵌于Gemini的Nano Banana,在消费端市场瞬间引爆。随后的第三季度财报会上,Google CEO桑达尔·皮查伊亲自披露,Gemini的月活用户从7月的4.5亿激增至10月的6.5亿。这一增长,被普遍认为很大程度上归功于Nano Banana带动的图像生成热潮。

攻势并未停止。同年11月,Google再推Nano Banana Pro,其惊艳的文本渲染能力首次让AI图像能“写对字”,在消费端实现了对OpenAI的反超。紧接着,Gemini 3发布即登顶LM Arena,成为首个突破1500分的前沿模型。

这一连串组合拳,让OpenAI感到了刺骨的寒意。据媒体报道,奥特曼在内部发布了“红色警戒”备忘录,甚至暂停了AI Agent等其他产品的研发,将资源全部倾斜到ChatGPT以应对挑战。

尽管OpenAI在12月仓促推出了GPT Image 1.5并重夺Arena榜首,但在消费端市场并未掀起波澜。2026年2月,随着Nano Banana 2登场,OpenAI再次在榜单上落后。这场拉锯战,直到今年4月21日GPT Image 2的横空出世,才让OpenAI真正实现了反超,扳回至关重要的一城。

画图AI将被重新定义

那么,GPT Image 2凭什么能建立起241分的巨大优势?答案的核心,在于其底层架构的根本性变革。

这不再是我们熟悉的Stable Diffusion那一代的扩散模型。OpenAI研究负责人将其描述为“从零重构”的“通用模型”,内部更愿意称之为“图像版的GPT”。虽然官方未明确其属于扩散还是自回归架构,但外界普遍将其理解为一种“带推理规划的图像生成系统”。

关键在于“规划”二字。画图之前先思考,画完之后能自检,必要时还能联网搜索资料,一次性能产出8张前后连贯的叙事图像。这已经超越了工具的范畴,更像是一位具备原生思考能力的视觉助理。

这种能力直接反映在各项细分数据上。在文字渲染这项关键能力上,GPT Image 2比前代暴涨了316分;卡通动漫和人像类别也各涨了近300分。要知道,文字渲染的准确性曾是Nano Banana Pro在去年11月率先解决的难题,当时准确率已达94%,而GPT Image 2将其推向了近乎完美的99%。

图片

从实际演示来看,其能力更为直观。例如在老照片修复上,一句简单的提示词,就能将褪色发黄的家庭旧照,转化为细节丰富的高清彩色图像。这背后体现的,正是模型对输入图像高保真细节的读取与再现能力。

图片

另一个突破在于输出的多样性与可控性。用户@doodlestein的测试显示,即便使用同一个复杂的提示词(如要求生成一张融合蒙娜丽莎与特征向量概念的数学解释图),GPT Image 2也能生成构图、配色、信息密度完全不同的多个版本。

图片

图片

这解决了过去两年AI生图领域的一大痛点:输出单一,变体难以控制。如今,“一个提示词,给我四个完全不同方向的方案”成为了可量产的产品级能力。难怪有资深评测者感慨,GPT Image 2与Nano Banana Pro之间的差距,就如同后者与初代DALL-E的差距一样大——这是整整一代的跨越。

图片

DALL-E退役,Adobe Canva被逼到墙角

技术领先之外,GPT Image 2引发的产业震荡同样迅速。发布当天,Figma、Canva、Adobe Firefly等主流设计工具便迅速完成了集成,其API定价策略更是暗藏玄机:高质量出图每张0.21美元,而ChatGPT Plus用户每月20美元的订阅费已包含了图像生成功能。

这个价格差,很可能引发2026年图像生成行业最大规模的重构。当过去需要专业摄影师外拍加后期才能实现的“写实抓拍”效果,如今通过API仅需0.21美元即可获得时,整个行业的价值链条都将被重新审视。

图片

一个时代的落幕也随之而来。5月12日,开启了AIGC视觉革命的功勋元老——DALL-E 2和DALL-E 3正式退役。它们被自己的继承者亲手送入了历史。OpenAI在新模型发布说明中阐述的理念,暗示了一种产品哲学的转向:图像不是装饰,而是语言;一张好图和一个好句子一样,在于选择、排列与揭示。

当然,GPT Image 2并非无懈可击。实测中发现,其在精确复刻品牌Logo等方面仍有不足,Nano Banana 2在肖像真实感和多参考一致性上仍保有优势。但无论如何,赛道的竞争格局已经因它而改变。

渲染时代结束了,推理时代刚开始

有评论一针见血地指出:Google是把推理能力塞进了图像模型里,而OpenAI是把图像工具塞进了推理模型里。那242分的Elo差距,测量的正是这两种架构路径之间的差异。

这或许划分了两个时代:从2024年到2025年,是“渲染时代”。DALL-E、Midjourney等模型的核心目标是“画得像”,模型是画笔,用户是画师。而GPT Image 2所代表的,是一个“推理时代”。模型先思考再下笔,能规划、能检索、能完成任务,它不再是工具,而是会画画的智能助手。

从短期看,以扩散模型为核心技术的厂商(如Black Forest Labs的Flux 2)面临的压力最大,其技术路线与这种“逐令牌推理”的新范式存在根本性冲突。从中期看,Google的反击几乎可以预见,Nano Banana 3或Imagen-Reason或许已在路上。从长期看,当AI开始用“思考”来生成图像、视频、音频和代码时,整个生成式AI的范式都将被重塑。

去年12月,奥特曼在备忘录中敲下“红色警戒”时,或许未曾料到五个月后能以这种方式重回榜首。但这次反超的真正意义,或许不在于OpenAI暂时赢了Google,而在于它亲手改写了图像生成赛道的游戏规则。

图片

现在,所有人的目光都投向了Google:下一拳何时挥出?这个问题的答案,将决定2026年下半年整个AI格局的走向。而在那一拳到来之前,GPT Image 2能在王座上坐多久,无人知晓。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策