Cursor新模型深度测评：对比Kimi与马斯克推荐，谁更值得一试？

2026-05-19阅读 0热度 0

Kimi

Cursor模型迎来关键迭代，Composer 2.5版本正式发布。

官方公告揭示了两个值得关注的战略动向。

首先，Cursor在模型架构上采取了前所未有的透明度。新模型明确基于Kimi构建，并公开了技术构成：以Kimi为基座，后续85%的计算资源投入于Cursor自有的强化学习与专项训练。

其次，马斯克的立场发生了显著转变。此前在Cursor陷入“套壳”争议时他曾有所质疑，如今却积极为新模型站台，甚至公开呼吁用户转向Cursor新模型。

这一转变源于双方达成的实质性算力合作。Composer 2.5的部分训练在SpaceX的Colossus 2超算上完成，且双方已宣布将合作从头训练一个规模更大的新模型。

下一代模型的规划已然启动，彰显了Cursor在自研道路上的决心。但就当前而言，Composer 2.5本身的特性已足够引人注目。

官方宣称其具备“十分之一的成本，媲美Opus 4.7的性能”，并在发布首周提供双倍用量。对于高频使用AI的开发者而言，这一组合极具吸引力。核心问题在于：实际效能能否兑现宣传承诺？

1/10成本、Opus 4.7级表现

其顶级地位有待市场验证，但基准测试成绩确实出色。Cursor表示，新模型在长上下文任务中的持久性、复杂指令遵循的可靠性以及协作流畅度上均有提升。

这些改进在多项基准测试中量化体现，整体性能已接近Claude Opus 4.7。例如，在Terminal-Bench 2.0（终端任务基准）上，两者得分分别为69.3%与69.4%，基本持平；在SWE-Bench Multilingual（多语言软件工程基准）上差距微小；在CursorBench v3.1高难度编程基准上，与顶级版本的差距同样微弱。

能与Opus 4.7相提并论，其技术实力可见一斑。除了在高难度任务上进行训练，团队还重点优化了模型的沟通风格与投入级别校准（即动态判断任务所需的计算资源）。Cursor指出，这些行为层面的优化难以通过现有基准完全衡量，但对实际用户体验至关重要。

那么，早期用户反馈如何？由于免费用户目前主要体验Auto模式，我们可以先观察早期采用者的评价。

一个普遍共识是Composer系列模型响应速度极快。关于Composer 2.5的能力，初步反馈偏向积极。例如，Snapchat前机器学习工程师公开表示，自Composer 2发布后，她已将主要开发工作流迁移至Cursor，并指出一个关键观点：在AI辅助开发中，若默认使用成本最高的模型处理所有任务，可能导致80%的资源浪费。

图像生成初创公司LetzAI的CEO也有类似体验，在使用数小时后表示，由于Composer 2.5提供的方案质量高、速度快，他改变了以往反复修改的习惯，直接采纳了AI的建议。

价格是另一大吸引力。Composer 2.5标准版定价为每百万输入token 0.50美元、每百万输出token 2.50美元。另有一个智能水平相同但速度更快的变体，价格相应更高。这一价格水平约为Claude Opus 4.7的十分之一。

以十分之一的成本，追求接近顶级模型的性能，若其效能经得起广泛考验，市场竞争力将不容忽视。

Kimi打底，还做了这些训练改进

Composer 2.5如何实现此次性能跃升？尽管以Kimi为基础，但Cursor为贴上“自研”标签投入了独特的工程努力。

团队对训练栈进行了多项改进，核心聚焦于提升模型智能与易用性，具体体现在三个层面。

首先，为强化学习引入了“定向反馈”机制。传统RL奖励基于整个任务轨迹计算，当任务序列长达数十万token时，模型难以精确定位错误步骤。Cursor的解决方案是在出错的具体环节直接注入反馈。例如，当模型调用了一个不存在的工具时，系统会在该轮上下文中插入提示，列出可用工具列表，从而生成修正后的“教师”概率分布，引导模型学习正确行为。此方法被应用于编码风格、沟通方式等多种行为的调优。

其次，合成数据规模扩展了25倍。当模型通过几轮RL训练已能解决大部分既定任务后，如何继续提升？Cursor的策略是动态生成更复杂的挑战。其中一个方法是“功能删除”：给智能体一个带测试的代码库，要求其先删除特定功能但保持代码库可运行，随后任务就是重新实现该功能，并以测试结果作为奖励信号。然而，随着任务复杂度增加，模型也可能出现“走捷径”行为，例如试图逆向工程或反编译来作弊。这些行为均被监控工具捕获，也为大规模RL训练敲响了警钟。

最后，底层训练基础设施得到优化。Cursor采用了带分布式正交化的Muon优化器，并将通信异步化，使网络传输与计算能够重叠进行，提升了效率。针对MoE（混合专家）模型，团队改进了权重布局策略，让不同规模的权重能以更高效的方式并行计算，从而在有限资源下支撑更大规模的训练。

从训练信号、数据规模到底层并行策略，Cursor此次进行了一次全栈升级。

One More Thing

Cursor为何执着于自研模型？从其与Anthropic关系的演变中可窥见端倪。

Cursor早期的成功，很大程度上得益于与Claude模型的深度集成。“你提供强大模型，我打造优秀产品”的合作模式曾互利共赢。然而，当Anthropic亲自推出编程产品Claude Code时，局面彻底改变。曾经的“上游供应商”变为“直接竞争对手”，将核心产品完全构建在对手的模型之上，蕴含巨大战略风险。

因此，Cursor走上自研之路，更像是一种被形势推动的必然选择——只有将模型能力掌握在自己手中，才能把握发展的主动权。

这引出一个问题：在自研模型成功之前，Cursor现有模式没有护城河吗？对许多用户而言，能集成多款前沿模型且价格更具优势，本身就有吸引力。行业观察者指出：Cursor真正的护城河或许从来不是基础模型，而是其独特的强化学习训练流程，以及积累的海量开发者真实工作流数据。他们正在证明，通过对开源基础模型进行足够深入和场景化的微调，完全有可能在特定任务上媲美甚至超越前沿通用模型。

这一思路也解释了其成本优势。采用开源基座模型，省去了从零预训练的巨额开销，从而能将所有资源集中投入到“编程”这一垂直领域的精细化训练中。模型专为IDE场景优化，无需为不必要的通用能力付费。

至于为何选择与马斯克的SpaceXAI合作，逻辑也变得清晰。主流AI巨头如OpenAI、Anthropic、Google自身都在深耕编程辅助产品，与Cursor存在竞争关系。而能提供世界级算力、又不在该赛道与Cursor直接冲突的伙伴，选择并不多。马斯克的Colossus 2超算，成了一个现成的选项。

事实上，双方的合作早已超越单纯的算力租赁。今年3月，马斯克从Cursor挖走了两名核心工程负责人。4月，合作正式升级：SpaceX的Colossus将为Cursor训练模型，而作为协议的一部分，SpaceX获得了未来以特定估值优先收购Cursor的权利。有消息称，在这份协议官宣前几小时，Cursor原本接近完成一轮巨额融资。马斯克的介入，某种程度上改变了故事的走向。

这俨然是一次典型的深度绑定：要么最终融入其版图，要么支付高昂的“合作费”。至于马斯克前倨后恭的态度转变，在硅谷的权力与资本游戏中，或许从来都不足为奇。

Cursor新模型深度测评：对比Kimi与马斯克推荐，谁更值得一试？

1/10成本、Opus 4.7级表现

Kimi打底，还做了这些训练改进

One More Thing

相关阅读

最新教程

最新资讯