刚刚,ChatGPT免费模型升级了:幻觉砍半/记忆更强/回答更简洁
刚刚,ChatGPT免费模型升级了:幻觉砍半/记忆更强/回答更简洁
ChatGPT的默认模型,今天迎来了一次意义重大的升级。
新版本名为GPT-5.5 Instant,它融合了5.5系列的基础智力与极速响应的优势。最关键的是,免费用户也能立刻体验到。
这次升级的核心改进可以概括为四点:
- 幻觉(事实性错误)减少了52.5%。
- 新增“记忆来源”功能,清晰展示是哪条过往对话影响了当前回复。
- 答案更简洁:减少了不必要的追问、省略了多余的表情符号、避免了繁复的格式。
- 语气更温暖、更自然。
OpenAI的CEO山姆·奥特曼也特别提到,如果你最近只在使用深度思考模型,不妨回来看看这个默认版本的新变化。
第一刀先砍幻觉
作为最常被使用的默认模型,首要任务就是提升准确性,减少“一本正经地胡说八道”。
与前代相比,GPT-5.5 Instant在事实准确性上进步显著。尤其是在医疗、法律和金融这类高风险领域的提问中,产生的虚假陈述直接减少了52.5%。
更值得一提的是,在那些用户之前已经标记为存在事实错误的棘手对话里,不准确陈述也降低了37.3%。
OpenAI用一个代数问题做了演示:用户上传了一张包含计算错误的手写方程式照片。
旧模型GPT-5.3 Instant最初认同了用户的错误解法,随后虽然发现x=3不成立,却得出了“方程式无解”的错误结论。
而GPT-5.5 Instant虽然起初也认同了用户计算,但随后准确发现了用户重新排列方程式时的错误,并成功求解了修正后的正确方程。
这项改进放在默认模型上,意义非同小可。毕竟,用户日常询问ChatGPT的,往往是合同条款、报销流程、病症解释、代码报错、作业思路这类实际问题。在这些场景里,模型“自信地犯错”比直接说“不会”要麻烦得多。
一系列基准测试结果也印证了这一点。在竞争激烈的数学测试AIME 2025中,其准确率从65.4%跃升至81.2%。
用于测试博士水平科学推理能力的GPQA,准确率从78.5%提升到了85.6%。
解读和推理科学图表的基准测试CharXiv,准确率从75.0%提升至81.6%。
衡量模型处理文本和图像中专家级问题能力的MMMU-Pro测试,准确率也从69.2%提升至76.0%。
用于从复杂文档中提取结构化数据的OmniDocBench测试,其错误率则从14.6%下降到了12.5%。
少说废话,也是一种能力
回答得更准之后,另一个老生常谈的问题也被提上了日程:答案太长、太啰嗦。
这次GPT-5.5 Instant的风格变化,核心在于追求更简短、更聚焦,同时不丢失实质性信息。
回想一下,以前的模型有时会先来一大段免责声明,再堆砌三层列表,最后还要追问一句“你希望我继续吗?”。现在,OpenAI明确调整了方向:减少过度格式化、减少不必要的追问,同时砍掉那些没必要出现的表情符号。
在官方给出的例子中,GPT-5.5 Instant使用的单词数减少了30.2%,行数减少了29.2%。
它更好地把握了恰当的语气:非正式、实用且符合职场规范,避免了过度解释。针对不同情况提供可用的方案,并且对事不对人。
OpenAI分析认为,GPT-5.3 Instant给出的答案虽然更全面,尤其是在“不该做什么”部分,但对于一个非正式的建议请求来说,显得有些过于复杂了,其结构和润色可能超出了用户的真实需求。
记忆更强,但让你能控制
GPT-5.5 Instant变得更善于利用你已经提供给ChatGPT的上下文信息。
这包括你连接的邮箱、过去的历史对话,以及上传过的文件。
关键在于,它能判断什么时候调用这些上下文真的能让回答变得更好,而不是每次都生硬地套用记忆。
此次升级还引入了一个重要功能——“记忆来源”。它会向用户清晰显示,是哪些具体的记忆条目影响了本次的回复。
如果用户发现某条记忆已经过时或不准确,还可以直接进行更正或删除,把控制权交还给用户。
什么时候能用上?
GPT-5.5 Instant已于5月5日开始向所有ChatGPT用户滚动上线,正式取代GPT-5.3 Instant成为新的默认模型。
在API中,它对应的名称是chat-latest。
旧模型并不会立刻消失。付费用户还可以在模型配置中继续访问GPT-5.3 Instant,为期三个月,之后该模型将正式退役。
至于个性化增强等新功能,将首先向Plus和Pro用户的网页端推出,移动端随后跟进。Free、Go、Business和Enterprise用户将在接下来的几周内逐步获得扩展支持。
参考链接:
[1] https://openai.com/index/gpt-5-5-instant/