Cursor Composer 2.5编码模型深度测评:低成本媲美顶级AI的实战表现
5月18日,AI编程领域迎来一个标志性节点:Cursor正式发布了其自主研发的Composer2.5编码模型。这次升级,不仅关乎性能,更在成本与效能之间划出了一道新的分水岭。
新模型的技术基底相当扎实,它基于月之暗面(Moonshot)开源的Kimi K2.5检查点构建。但Cursor并未止步于此,而是进行了一次激进的训练规模扩张——其训练任务量达到了前代Composer2的整整25倍。更有意思的是其资源分配策略:高达85%的计算资源被投入到额外的训练和强化学习(RL)环节。这种近乎“孤注一掷”的投入,换来了核心性能的跨越式突破。
那么,突破究竟有多大?数据给出了最直接的答案。在衡量代码生成与问题解决能力的权威基准SWE-Bench Multilingual上,Composer2.5取得了79.8%的优异成绩。而在Cursor自家的CursorBench v3.1测试中,其得分率也达到了63.2%。这意味着,从综合表现来看,它已经能够与Anthropic的Opus4.7以及OpenAI的GPT-5.5这些行业头部旗舰模型并肩而立。
Composer2.5在 CursorBench3.1上的表现与 Opus4.7和 GPT-5.5相当,但每项任务的成本不到1美元——相比之下,竞争对手的成本高达11美元。| 图片:Cursor
性能比肩顶级,这固然令人兴奋,但Composer2.5真正掀起波澜的,是其极具碘伏性的成本结构。其基础版本定价清晰:每百万输入标记(tokens)成本仅为0.50美元,每百万输出标记为2.50美元。折算下来,处理一项典型任务的成本往往不足1美元。这个数字是什么概念?要知道,实现同等性能的竞争对手,单次任务成本可能高达11美元。即便用户选择追求极致响应速度的“快速版本”(定价为每百万输入3美元、输出15美元),其价格优势依然非常明显。
可以说,Composer2.5用实际表现证明了一件事:顶尖的AI编程能力,未必需要天价的计算成本来支撑。它直接挑战了行业内“更高性能必然伴随更高成本”的固有认知。
目前,Composer2.5已经在Cursor平台全面上线,开发者可以立即体验。而Cursor的目光显然已经投向了更远处。公司已与SpaceX及xAI展开深度合作,正依托一个算力相当于百万片H100的超级集群——Colossus-2,推进更大规模模型的从零训练。此前业界曾有传闻,SpaceX计划以600亿美元的规模收购Cursor。无论传闻真假,这都预示着Cursor背后可能汇聚的资本与算力资源不容小觑。
Composer2.5的发布,或许会被视为一个转折点。它不仅仅是一款模型的升级,更象征着高额算力成本对AI编码能力进阶的束缚正在被打破。AI编程工具,正从一个昂贵的技术前沿探索,加速迈向高性价比、可规模化应用的新阶段。接下来的竞争,将更加精彩。
