Claude模型升级深度测评:性能提升10%+的技术解析

2026-05-27阅读 0热度 0
ai 人工智能

昨天Claude正式开放100万上下文长度的消息,可能被很多人低估了。表面上看,这似乎只是从20万到100万,提升了5倍。但实际情况要复杂得多,也重要得多。

名义5倍,实际近8倍:被隐藏的“可用空间”

这里有个关键细节:模型的总上下文长度,并不等于你能自由使用的空间。系统提示词、记忆机制、内置技能(skills),以及为压缩处理预留的缓冲区(compact buffer),都会预先占用一部分。这就好比买了一台512G的手机,系统和预装应用已经占去了100G。

在之前的200K(20万)上下文版本中,一次对话刚开启,这些固定开销就可能用掉近25%的额度。真正留给你的项目内容,往往只有100K出头。

现在,上下文提升到1M(100万),这些固定开销的比例被大幅稀释。同样的技能配置下,系统占用可能只占4%。结果就是,你的“可用空间”从大约118K暴增到了923K。

做个简单的除法:923 ÷ 118 ≈ 7.8倍。名义上是5倍升级,实际可用空间却接近8倍。对于那些依赖复杂技能配置的重度用户来说,这个提升倍数可能更高,达到6到10倍也不稀奇。

这意味着什么?如果你曾被对话过长触发“compact”(自动压缩)机制所折磨,就能深刻体会。压缩过程并不总是顺畅,有时会直接失败导致对话卡死。你不得不重启对话,手动粘贴上下文,每次操作都伴随着信息损耗。更令人沮丧的是,模型很可能在同一个地方,重复犯下你以为已经纠正过的错误。

现在,这种困扰将大幅减少。

上下文不是容量,是推理的“草稿纸”

理解这次升级的意义,需要跳出“容量”的思维定式。上下文窗口对模型而言,更像是一张“草稿纸”。

物理学家费曼有一个著名的标准:只有当你能够抛开所有数学符号,用通俗语言把一件事讲清楚时,才算真正理解了它。模型的推理过程与此类似。上下文限制的,远不止是能塞进去多少内容,更关键的是限制了模型进行连续、复杂思考的能力。

想象一下,你正在解一道复杂的数学题,进行到一半时,有人突然抽走了你的草稿纸。你变笨了吗?并没有。但你还能顺利解出那道题吗?恐怕也不能了。

问题出在草稿纸,而不在你的大脑。对于大模型,上下文就是它的草稿纸。记忆不只是存储,更是推理的原材料。要推导出一个结论,前提条件和中间步骤必须被记在某个地方,才能一步步推进。如果每推进一步就忘记一步,那么再强大的算力也无济于事。上下文窗口定义了模型的有效记忆范围,超出这个范围,它就只能依靠猜测。

因此,模型犯的很多错误,根源并非“不够聪明”,而是“看不见”。

  • 代码开发:一个Bug的根源,可能藏在三个文件之前引入的变量定义里。如果那个定义超出了上下文窗口,模型就“看不见”,只能靠猜,自然难以给出正确修复。
  • 长文写作:写到后半部分,前面设定的核心论点可能已超出窗口。模型开始无意识地复述已讲过的内容,或者前后逻辑出现细微矛盾。等你审稿时才发现,时间已经浪费了。
  • 多轮深度对话:第3轮定下的约束条件,到了第30轮可能已被遗忘。模型的建议会变得越来越奇怪,你感觉它“没在听”,却又指不出具体哪里出了问题。

上下文越小,这类因信息残缺导致的判断失误就越多。

数据印证:长上下文是能力的“压力测试”

数据也清晰地支持这一点。Anthropic使用MRCR v2(8针检索)基准进行了测试,任务是在超长文本中同时定位多个隐藏的关键信息。结果颇具说服力:

模型256K 性能1M 性能
Claude Opus 4.691.9%78.3%
Claude Sonnet 4.690.6%65.1%
GPT-5.479.3%†36.6%
Gemini 3.1 Pro59.1%25.9%

† GPT-5.4的256K数据为其128K–256K区间的均值

一个明显的趋势是:上下文越长,模型间的差距拉得越大。在256K长度下,几个顶级模型的表现还比较接近。但一旦将上下文拉长到1M,GPT-5.4的性能跌至36.6%,Gemini 3.1 Pro更是降至25.9%。而Claude Opus 4.6依然保持了78.3%的高水平。这并非说明Claude在短上下文里绝对更强,而是证明了在极限长度下,其他模型的性能衰减更为剧烈,而Claude的架构更能“扛得住”。

Claude Code的产品经理Boris Cherny也在社交平台上确认,Opus 4.6的1M上下文现已作为Claude Code Max、Team、Enterprise 版本的默认模型,无需更改任何设置。Pro版和Sonnet用户则可通过 /extra-usage 指令手动开启。

Anthropic引用了一个客户案例:启用1M上下文后,自动压缩事件减少了15%。这与许多用户的直观感受相符。对于需要长期迭代的复杂项目而言,这种稳定性的提升,其价值可能相当于模型本身能力提升了10%-20%。

更重要的信号:API取消“长度税”

除了性能,商业策略的转变同样值得关注。现在,无论你提交900K token的请求还是9K token的请求,价格是一样的:

服务商长上下文收费策略
Anthropic Claude✓ 无溢价,与短上下文同价
OpenAI GPT-5.4输入超过272K部分收取2倍单价,输出部分收取1.5倍

当OpenAI仍在收取“长度税”时,Anthropic选择了取消。这释放出一个明确信号:长上下文正在从一项“高级功能”转变为顶级模型的“基础能力”。从技术原理上讲,这也本该是模型应具备的基础素质。

对于Claude Code Max(每月100美元档位)的用户来说更简单,1M上下文直接可用,无需额外参数,也无需额外付费。

顺带的两个实用更新

更新 #1

图片/PDF处理上限提升

单次上传的图片或PDF文件数量上限从100大幅提升至600。以前处理大量文档时需要手动分批上传,现在可以一次性全部喂给模型。对于需要整理大量截图和参考资料进行写作或分析的工作流来说,这一步直接省去了好几个繁琐环节。

更新 #2

自适应思考(Adaptive Thinking)转正

该功能已结束测试,转为正式版。模型将自行判断何时需要“慢思考”(深入推理),何时可以“快回答”,无需用户手动配置推理深度。这减少了一层不必要的决策,让交互更加流畅自然。

Context, Not Control.

AI工具的进步通常有两种路径:一是让模型变得更聪明;二是将模型已有的能力更彻底地释放出来。这次1M上下文的全面开放,显然属于后者。但对于长期项目、复杂开发,以及那些曾被“compact”搞崩过心态的用户而言,这次升级的实际影响,丝毫不亚于一次模型能力的飞跃。

回到费曼的比喻:记住一个公式,与能够从头推导出这个公式,是两件重量完全不同的事。同样,给模型直接喂食答案,与为它提供足以推导出答案的全部信息,也是两种截然不同的范式。后者实现起来更难,但结果无疑更加可靠。

上下文窗口的大小,直接决定了你能为模型提供多少用于推导的信息。在过去,窗口太小,用户不得不做减法——剪掉那些“可能有用但塞不进去”的信息。每一次裁剪,都是一场反赌,赌这段被舍弃的信息不重要。赌赢了,风平浪静;赌输了,模型就会在某个你无法察觉的角落,犯下一个你找不到根源的错误。

现在,情况改变了。你可以更加放心地将任何你认为模型应该知道的信息,完整地提供给它。这种“提供充分上下文,而非施加精细控制”的理念,不仅在Netflix、字节跳动等公司的管理中愈发有效,在大模型的使用范式上也正展现出强大的生命力。

Context, Not Control.

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策