Cursor新模型深度测评:对比Kimi与马斯克推荐,谁更值得一试?
Cursor模型迎来关键迭代,Composer 2.5版本正式发布。
官方公告揭示了两个值得关注的战略动向。
首先,Cursor在模型架构上采取了前所未有的透明度。新模型明确基于Kimi构建,并公开了技术构成:以Kimi为基座,后续85%的计算资源投入于Cursor自有的强化学习与专项训练。
其次,马斯克的立场发生了显著转变。此前在Cursor陷入“套壳”争议时他曾有所质疑,如今却积极为新模型站台,甚至公开呼吁用户转向Cursor新模型。
这一转变源于双方达成的实质性算力合作。Composer 2.5的部分训练在SpaceX的Colossus 2超算上完成,且双方已宣布将合作从头训练一个规模更大的新模型。
下一代模型的规划已然启动,彰显了Cursor在自研道路上的决心。但就当前而言,Composer 2.5本身的特性已足够引人注目。
官方宣称其具备“十分之一的成本,媲美Opus 4.7的性能”,并在发布首周提供双倍用量。对于高频使用AI的开发者而言,这一组合极具吸引力。核心问题在于:实际效能能否兑现宣传承诺?
1/10成本、Opus 4.7级表现
其顶级地位有待市场验证,但基准测试成绩确实出色。Cursor表示,新模型在长上下文任务中的持久性、复杂指令遵循的可靠性以及协作流畅度上均有提升。
这些改进在多项基准测试中量化体现,整体性能已接近Claude Opus 4.7。例如,在Terminal-Bench 2.0(终端任务基准)上,两者得分分别为69.3%与69.4%,基本持平;在SWE-Bench Multilingual(多语言软件工程基准)上差距微小;在CursorBench v3.1高难度编程基准上,与顶级版本的差距同样微弱。
能与Opus 4.7相提并论,其技术实力可见一斑。除了在高难度任务上进行训练,团队还重点优化了模型的沟通风格与投入级别校准(即动态判断任务所需的计算资源)。Cursor指出,这些行为层面的优化难以通过现有基准完全衡量,但对实际用户体验至关重要。
那么,早期用户反馈如何?由于免费用户目前主要体验Auto模式,我们可以先观察早期采用者的评价。
一个普遍共识是Composer系列模型响应速度极快。关于Composer 2.5的能力,初步反馈偏向积极。例如,Snapchat前机器学习工程师公开表示,自Composer 2发布后,她已将主要开发工作流迁移至Cursor,并指出一个关键观点:在AI辅助开发中,若默认使用成本最高的模型处理所有任务,可能导致80%的资源浪费。
图像生成初创公司LetzAI的CEO也有类似体验,在使用数小时后表示,由于Composer 2.5提供的方案质量高、速度快,他改变了以往反复修改的习惯,直接采纳了AI的建议。
价格是另一大吸引力。Composer 2.5标准版定价为每百万输入token 0.50美元、每百万输出token 2.50美元。另有一个智能水平相同但速度更快的变体,价格相应更高。这一价格水平约为Claude Opus 4.7的十分之一。
以十分之一的成本,追求接近顶级模型的性能,若其效能经得起广泛考验,市场竞争力将不容忽视。
Kimi打底,还做了这些训练改进
Composer 2.5如何实现此次性能跃升?尽管以Kimi为基础,但Cursor为贴上“自研”标签投入了独特的工程努力。
团队对训练栈进行了多项改进,核心聚焦于提升模型智能与易用性,具体体现在三个层面。
首先,为强化学习引入了“定向反馈”机制。传统RL奖励基于整个任务轨迹计算,当任务序列长达数十万token时,模型难以精确定位错误步骤。Cursor的解决方案是在出错的具体环节直接注入反馈。例如,当模型调用了一个不存在的工具时,系统会在该轮上下文中插入提示,列出可用工具列表,从而生成修正后的“教师”概率分布,引导模型学习正确行为。此方法被应用于编码风格、沟通方式等多种行为的调优。
其次,合成数据规模扩展了25倍。当模型通过几轮RL训练已能解决大部分既定任务后,如何继续提升?Cursor的策略是动态生成更复杂的挑战。其中一个方法是“功能删除”:给智能体一个带测试的代码库,要求其先删除特定功能但保持代码库可运行,随后任务就是重新实现该功能,并以测试结果作为奖励信号。然而,随着任务复杂度增加,模型也可能出现“走捷径”行为,例如试图逆向工程或反编译来作弊。这些行为均被监控工具捕获,也为大规模RL训练敲响了警钟。
最后,底层训练基础设施得到优化。Cursor采用了带分布式正交化的Muon优化器,并将通信异步化,使网络传输与计算能够重叠进行,提升了效率。针对MoE(混合专家)模型,团队改进了权重布局策略,让不同规模的权重能以更高效的方式并行计算,从而在有限资源下支撑更大规模的训练。
从训练信号、数据规模到底层并行策略,Cursor此次进行了一次全栈升级。
One More Thing
Cursor为何执着于自研模型?从其与Anthropic关系的演变中可窥见端倪。
Cursor早期的成功,很大程度上得益于与Claude模型的深度集成。“你提供强大模型,我打造优秀产品”的合作模式曾互利共赢。然而,当Anthropic亲自推出编程产品Claude Code时,局面彻底改变。曾经的“上游供应商”变为“直接竞争对手”,将核心产品完全构建在对手的模型之上,蕴含巨大战略风险。
因此,Cursor走上自研之路,更像是一种被形势推动的必然选择——只有将模型能力掌握在自己手中,才能把握发展的主动权。
这引出一个问题:在自研模型成功之前,Cursor现有模式没有护城河吗?对许多用户而言,能集成多款前沿模型且价格更具优势,本身就有吸引力。行业观察者指出:Cursor真正的护城河或许从来不是基础模型,而是其独特的强化学习训练流程,以及积累的海量开发者真实工作流数据。他们正在证明,通过对开源基础模型进行足够深入和场景化的微调,完全有可能在特定任务上媲美甚至超越前沿通用模型。
这一思路也解释了其成本优势。采用开源基座模型,省去了从零预训练的巨额开销,从而能将所有资源集中投入到“编程”这一垂直领域的精细化训练中。模型专为IDE场景优化,无需为不必要的通用能力付费。
至于为何选择与马斯克的SpaceXAI合作,逻辑也变得清晰。主流AI巨头如OpenAI、Anthropic、Google自身都在深耕编程辅助产品,与Cursor存在竞争关系。而能提供世界级算力、又不在该赛道与Cursor直接冲突的伙伴,选择并不多。马斯克的Colossus 2超算,成了一个现成的选项。
事实上,双方的合作早已超越单纯的算力租赁。今年3月,马斯克从Cursor挖走了两名核心工程负责人。4月,合作正式升级:SpaceX的Colossus将为Cursor训练模型,而作为协议的一部分,SpaceX获得了未来以特定估值优先收购Cursor的权利。有消息称,在这份协议官宣前几小时,Cursor原本接近完成一轮巨额融资。马斯克的介入,某种程度上改变了故事的走向。
这俨然是一次典型的深度绑定:要么最终融入其版图,要么支付高昂的“合作费”。至于马斯克前倨后恭的态度转变,在硅谷的权力与资本游戏中,或许从来都不足为奇。














