GPT-5.4编程能力评测:超越Claude Opus 4.6
OpenAI于2026年3月5日正式推出GPT-5.4旗舰模型。
本次升级的核心突破在于:模型首次将推理能力(Reasoning)、编程能力与原生计算机操控能力(Native Computer Use)三大模块无缝融合。可以理解为 GPT-5.4 = GPT-5.2 全面增强 + GPT-5.3-Codex 级编码能力 + 百万级Token上下文窗口 + 内置工具搜索机制。官方强调,这一整合未削弱任何单项性能。简言之,OpenAI将所有尖端技术全部注入 GPT-5.4。
对比上一代旗舰GPT 5.2
1、专业知识工作能力
GPT-5.4在专业知识工作领域的进步堪称本轮升级最大亮点。OpenAI采用GDPval基准测试衡量模型在真实职业场景的表现,该测试覆盖美国GDP贡献最高的9个行业、44个职业方向,任务涵盖销售演示文稿、会计电子表格、医疗排班表、制造业图纸乃至短视频制作等广泛场景。
测试结果显示:GPT-5.4在83.0%的任务对比中达到或超越人类行业专家水平,而GPT-5.2为70.9%。这意味着GPT-5.4已在绝大多数专业岗位上具备与资深从业者相当甚至更优的能力。随着AI能力持续跃升,企业引入AI辅助工作、人员调整、降本增效等趋势的深层影响,值得深入思考。
2、智能指数
在业内公认的“Artificial Analysis智能指数”排行榜上,GPT-5.4表现同样强势。该模型斩获57分综合高分,与Google Gemini 3.1 Pro Preview并列第一,共同领跑所有AI模型。图中醒目的紫色箭头清晰展示了这次代际跨越——从GPT-5.2的51分跃升至57分,分数的大幅提升标志着模型“智力”的质变。它不仅超越自家前代GPT-5.3(54分),也力压强劲对手Claude Opus 4.6(53分)。
3、事实准确性
幻觉问题(即AI一本正经地输出错误信息)始终是大语言模型的核心痛点。GPT-5.4在此方面实现显著改进,成为OpenAI历史上事实准确性最高的模型。在一组基于用户实际反馈并标记了事实错误的提示词测试中,与GPT-5.2相比,GPT-5.4的单个事实陈述出错率降低33%,完整回答包含任何错误的概率降低18%。简言之,无论是单个知识点还是整体回答,GPT-5.4的犯错概率均大幅下降。对于依赖AI做研究、写报告、决策的专业用户而言,这一提升意义重大。
4、原生计算机操控能力:AI真正学会了用电脑
GPT-5.4最令人兴奋的新功能之一,是成为OpenAI首个原生支持计算机使用(Computer Use)的通用模型。这意味着AI智能体可以像人类一样通过截屏观察屏幕画面、通过键盘和鼠标指令操作软件,自主完成跨应用的复杂工作流程。在衡量计算机操控能力的OSWorld-Verified基准测试中,GPT-5.4取得75.0%的成功率,不仅远超GPT-5.2的47.3%(提升近28个百分点),甚至超过人类操作者的72.4%。这是AI在桌面操作任务上首次超越人类表现——这才是真正的杀手级能力。
5、编码能力:继承并超越Codex
GPT-5.4融合了此前GPT-5.3-Codex的编码优势。在真实软件工程能力基准测试SWE-Bench Pro中,GPT-5.4得分57.7%,与GPT-5.3-Codex的56.8%持平甚至略优,而GPT-5.2为55.6%。虽然编码方面的绝对分数提升不算巨大,但GPT-5.4的真正优势在于将这些编码能力与推理、工具调用和计算机操控等能力无缝整合——这才是真正的“全能型选手”。
6、视觉理解与文档解析能力提升
视觉能力同样实现进步。在MMMU-Pro视觉理解与推理测试中,GPT-5.4取得81.2%的成功率,高于GPT-5.2的79.5%。在OmniDocBench文档解析测试中,GPT-5.4的平均错误率降至0.109,优于GPT-5.2的0.140。从GPT-5.4开始,API新增original图像输入级别,最高支持1024万总像素或单边最大6000像素的全保真图像感知;原有的high级别也升级至256万总像素。这使得模型在处理高分辨率图像、精密文档和复杂图表时更加得心应手。
7、价格与可用性对比
能力增强的同时,价格也随之上涨。与GPT-5.2相比,GPT-5.4的API定价有所提升,这反映了其背后更高的计算成本和价值。
GPT 5.4初体验
版本号
你是什么模型,具体版本号是多少,知识截止日期是几号
GPT 5.4 - 深度研究
提示词:OpenAI发布最新旗舰模型GPT 5.4,总结其更新内容
200美金/月的GPT 5.4 Pro
写作王者 - Gemini 3.1 Pro
编程王者 - Claude Sonnet 4.6
请用Java设计并实现一个支持高并发的电商微服务系统(基于Spring Boot/Spring Cloud),要求包含订单、库存等服务,需解决分布式事务与超卖问题,使用Redis/Kafka进行异步解耦,并提供核心代码、配置及部署方案,同时说明高并发优化与容错限流设计思路。
AI绘画 - 香蕉Nano Banana Pro
提示词:用这张图片,做一个3×3的Photo Booth网格,要求使用不同的姿势和表情