Gemini 3权威测评:断崖领先性能,马斯克OpenAI盛赞
谷歌最新推出的推理模型Gemini 3,于今日凌晨正式发布。该模型整合了原生多模态感知能力、高性能推理机制以及自主Agent编排与执行能力,这种三位一体的融合方案在行业内较为少见。官方宣称其为现阶段全球领先的多模态理解模型,同时也是谷歌最顶尖的Agent驱动与原型化编程模型——能够呈现更丰富的可视化结果与更深度的交互体验,并且完全基于最先进的推理技术构建。
此模型依托谷歌自研TPU集群训练,支持百万token上下文窗口,专为自主Agent、高级编程、长上下文分析、多模态理解及算法研发等场景打造。发布首日,Gemini 3便横扫多数组主流评测基准,以1501 Elo评分登顶LMArena大模型竞技场——这一成绩大幅超越了前代模型及所有竞争对手。
值得关注的是,OpenAI的Sam Altman与xAI的Elon Musk均在第一时间发声回应。Altman发推评价“Gemini 3看起来很不错”,谷歌CEO皮查伊则用一个表情包回复;马斯克转发了DeepMind CEO哈萨比斯的推文,并评论“干得不错”。
即日起,Gemini 3将在以下平台全面部署:Gemini应用所有用户(含AI模式中的Google AI Pro与Ultra订阅用户)、Gemini API开发者、全新Agent开发平台Antigra vity的开发者、Gemini CLI开发者,以及Vertex AI平台与Gemini企业版的企业用户。未来几周内,谷歌还将向Google AI Ultra订阅用户开放Gemini 3的深度思考模式,目前该功能仍处于安全评估阶段。针对此次发布,皮查伊表示,这一模型能让用户的任何构想落地成为现实。
01.
迅速生成可交互的游戏与应用
辅助高效学习新知识
Gemini 3的能力究竟多强?仅需几分钟,便可一探究竟。
例如,它可以编写托卡马克装置中等离子体流动的可视化代码,并创作一首捕捉核聚变物理原理的诗歌——同时驾驭科学与艺术两个领域。
想学习家族传统烹饪技艺?Gemini 3能够解读并翻译不同语言的手写食谱,直接生成可共享的家庭食谱手册。
若想深度学习某一新课题,只需输入学术论文、长视频讲座或教程,它便能自动生成交互式抽认卡、可视化图表或其他格式的代码,帮助你高效掌握这些内容。
匹克球爱好者同样有福利:上传你的比赛视频,Gemini 3可以分析并识别技术短板,生成针对性的训练计划。
在AI搜索模式下,Gemini 3能借助生成式用户界面,学习诸如RNA聚合酶作用机制等复杂知识点。值得一提的是,这是谷歌首次在模型发布首日,就将新模型直接集成至AI搜索功能。
不仅如此,Gemini 3还能编写具有丰富可视化界面及互动性的复古3D飞船游戏,通过代码构建、解构与重新创作精细的3D体素艺术,将用户的想象转化为现实。
它甚至能使用着色器创建可玩的科幻世界,还能生成更具实用性、元素更丰富的互动性网页与应用。
02.
横扫主流评测集榜首
重新定义大模型性能天花板
再来看硬核的基准测试表现。谷歌官方博客透露,Gemini 3 Pro在推理、多模态、Agent工具调用、多语言处理及长上下文等一系列基准测试中均进行了全面评估,主要AI评测成绩大幅领先于前代Gemini 2.5 Pro,并以1501 Elo得分位居LMArena大模型竞技场首位。
该模型展现出博士级推理能力:在“人类终极测试”(不使用任何工具,得分37.5%)和GPQA钻石级测试中均斩获最高分,在MathArena Apex测试中取得23.4%的最新顶尖成绩。多模态方面,MMMU-Pro得分81%,Video-MMMU得分87.6%,SimpleQA Verify也获得了最高的72.1%。这意味着Gemini 3 Pro能够以高度可靠性解决涵盖科学、数学等广泛领域的复杂问题。
深度思考模式的提升更为显著:Gemini 3 Deep Think在“人类终极测试”中达到41.0%(未使用工具),在GPQA Diamond上拿到93.8%,在ARC-AGI-2(代码执行,ARC奖项认证)上取得45.1%——这些数字全面超越了谷歌自家的前代模型,以及OpenAI、Anthropic的竞品。
编程能力方面,Gemini 3是谷歌迄今为止构建过的最佳原型化编程与Agent驱动编程模型。它以1487 Elo得分登顶WebDev竞技场排行榜;在Terminal-Bench 2.0模型工具使用能力测试中,得分54.2%;在衡量编程Agent能力的SWE-bench Verified上,表现远超Gemini 2.5 Pro。开发者可以在Google AI Studio、Vertex AI、Gemini CLI以及全新的Agent开发平台Google Antigra vity中使用它,同时支持Cursor、GitHub、JetBrains、Manus、Replit等第三方平台。
自Gemini 2以来,谷歌在Agent能力方面已取得长足进展,此次Gemini 3还登顶了Vending-Bench 2排行榜。该基准测试通过模拟自动售货机业务运营来考核模型的长期规划能力:结果显示,Gemini 3 Pro在一整年的模拟运营中,始终保持稳定的工具使用与决策连贯性,既未偏离任务目标,又实现了更高收益。
这意味着,Gemini 3能帮助用户完成日常生活中的实际事务——例如预约本地服务,或者整理收件箱。
03.
全新Agent开发平台正式亮相
实现端到端软件开发全流程自动化
今天谷歌还发布了全新的Agent开发平台:Google Antigra vity。借助Gemini 3的高级推理、工具调用及Agent编程能力,Antigra vity将AI辅助功能从开发者工具包里的一个普通工具,转变为积极主动的协作伙伴。
尽管核心仍是AI集成开发环境(AI IDE),但Antigra vity中的Agent已升级至专属界面,可直接访问编辑器、终端和浏览器。这些Agent能够自主规划并同步执行复杂的端到端软件任务,同时对自身代码进行验证。除了Gemini 3 Pro,Antigra vity还将结合最新的Gemini 2.5 Computer Use模型,以及图像编辑模型Nano Banana。
一个直观的例子:借助Gemini 3,Antigra vity为航班追踪应用打造了端到端的Agent工作流。该Agent能够自主规划、编写应用代码,并通过基于浏览器的计算机操作来验证其执行效果。
最后,谷歌强调,Gemini 3是其迄今为止最安全的模型,经历了谷歌AI模型中最全面的安全评估。测评结果显示,其谄媚行为减少,对即时注射攻击的抵抗力增强,对网络攻击滥用的防护能力也得到提升。
回溯发展阶段:从2023年12月Gemini 1推出至今已近两年。Gemini 1在原生多模态和长上下文窗口上实现了突破,扩展了可处理信息的种类与量级;Gemini 2帮助用户处理更复杂的任务和想法,使Gemini 2.5 Pro版本在LMArena中领先超过六个月。如今,基于Gemini模型的谷歌搜索功能AI Overviews月活用户达20亿,Gemini应用月活用户超6.5亿,超过70%的云端客户使用谷歌AI功能,1300万开发者利用其生成模型搭建了作品。
04.
结语:免费开放与性能飙升并行
Gemini 3重塑大模型竞争格局
相较于前几代,Gemini 3的性能提升堪称质的飞跃。它能感知用户提示词中的细微线索与复杂问题,理解请求的上下文及背后意图,让用户用更少的提示就能获得所需信息。谷歌在博客中提到,接下来的新篇章中,他们将继续突破智能、Agent与个性化的前沿,让AI真正惠及所有人。
随着Gemini 3的正式亮相,加之谷歌此次直接免费开放使用权限,一场围绕大模型的新一轮行业竞争已经全面打响。压力,现在落到了同行们身上。














