Kimi K2.7 Code正式发布:国产AI模型深度评测
意外发现:Kimi Code 订阅额度刷新,K2.7 Code 悄然上线
今晚十点半,我打开 Kimi Code 官网准备截图告诉朋友“天才陨落”,结果发现订阅额度被清空后又重新充满。
明明下午就把今天的配额用完了。
起初以为是 Kimi 计费系统出了 bug,但无意中看到模型版本从 2.6 变成了 2.7。查阅后发现——Kimi K2.7 Code 今天正式发布。
准确说是 2026 年 6 月 12 日下午上线,我的订阅在晚上 10:30 被重置。推测是 K2.7 Code 部署时同步刷新了额度系统,给活跃用户续了一波。虽然没有官方公告,但体验上等于白嫖了半天的 K2.7 Code,算是发布日的小彩蛋。
国产编程模型竞争白热化:Kimi K2.7 Code 登场
回到模型本身。
2026 年 6 月 12 日,Moonshot AI 正式发布 Kimi K2.7 Code,权重已开源,API 同步上线。官方称其为“迄今为止最强的开源代码模型”。
今年国内 AI 编程赛道肉眼可见地卷起来——MiniMax M3(2025.12)、DeepSeek V4 Pro(2026.3)、GLM V5.1(2026.4),再到今天的 Kimi K2.7 Code。五家国产模型形成第一梯队,各有侧重。
本文从国产模型用户视角,横向对比这五款模型,帮你选型时提供参考。
一、五款国产模型全维度横向对比
| 指标 | MiniMax M3 | DeepSeek V4 Pro | Kimi K2.6 | Kimi K2.7 Code | GLM V5.1 |
|---|---|---|---|---|---|
| SWE-Bench Verified | — | 80.6% | 80.2% | 待公布(推测 82–85%) | — |
| SWE-Bench Pro | 59.0% | 55.4% | 58.6% | 待公布(推测 62–66%) | 58.4% |
| LiveCodeBench v6 | — | 93.5% | 89.6% | 待公布(推测 93–97%) | — |
| Terminal-Bench 2.0 | 66.0% | 67.9% | 66.7% | 待公布(推测 71–75%) | 63.5% |
| HumanEval | — | — | 92% | 待公布 | — |
| 上下文窗口 | 1M | 1M | 256K | 1M | 200K |
| 1M Input 价格 | $0.30 | $0.44 | $0.90 | $0.90 | $0.70 |
| 缓存命中价 | — | $0.0037 | $0.15 | $0.18 | — |
各模型一句话总结
- DeepSeek V4 Pro:国产模型基准分最高,SWE-Bench Verified 80.6%、LiveCodeBench 93.5% 双项领跑。高缓存命中时成本极低,性价比突出。
- MiniMax M3:SWE-Bench Pro(实际工程修复能力)最高 59.0%,价格最低 $0.30/1M tokens。
- Kimi K2.7 Code:今日主角。上下文从 256K 拉到 1M,内部基准全面大幅提升,Agent 和 MCP 场景均有改善。第三方基准分数待公布,需验证。
- GLM V5.1:SWE-Bench Pro 58.4% 与 K2.6 持平,MIT 协议,价格 $0.70 比 Kimi 便宜。
- Kimi K2.6:上一代,基准数据已定(SWE-Bench Pro 58.6%、LiveCodeBench 89.6%),仍可用,但 K2.7 的提升让人很难回头。
二、K2.7 Code 核心提升点拆解
官方公布了内部基准的绝对分数及对比 K2.6 的增幅:
| 维度 | K2.6 基线 | K2.7 Code | 相对变化 |
|---|---|---|---|
| Kimi Code Bench v2(综合代码能力) | 50.9 | 62.0 | +21.8% |
| Program Bench(程序设计) | 48.3 | 53.6 | +11.0% |
| MLS Bench Lite(长程代码任务) | 26.7 | 35.1 | +31.5% |
| Kimi Claw 24/7 Bench(Agent 自主执行) | 42.9 | 46.9 | +9.3% |
| MCP Atlas(工具调用) | 69.4 | 76.0 | +9.5% |
| MCP Mark Verified(工具调用) | 72.8 | 81.1 | +11.4% |
| Token 消耗 | 100% | 70% | -30% |
关键解读
MLS Bench Lite 提升 31.5%——上下文窗口拉开的差距 这个基准考察长程代码任务,例如在大型项目中理解代码、跨文件修改。K2.7 将上下文从 256K 扩到 1M,直接带来该指标暴涨。如果你需要 AI 理解整个项目而非单文件,这提升是实打实的。
Token 消耗降 30%——变相降价 官方称同任务 K2.7 只需 K2.6 的 70% token。若属实,$0.90/1M 的实际使用成本相当于$0.63,甚至低于 GLM。订阅额度也能多用 30%,对 Cursor/Cline 这类高频调用场景非常友好。
Agent 提升 9.3%——方向正确,但仍有瓶颈 Code Bench 涨了 21.8%,但 Agent Bench 仅涨 9.3%。说明模型变强不必然带来 Agent 自动提升——落地还有路要走。好消息是 MCP 相关两个基准(Atlas + Mark)均涨约 10%,工具调用实实在在升级,Cline、Continue、Hermes Agent 等工具接入 K2.7 后会直接受益。
三、上下文窗口之战
K2.7 Code 将上下文窗口从 256K 提升到 1M,与 DeepSeek V4 Pro、MiniMax M3 站在同一起跑线。
对国产模型用户而言,这很关键:
- 256K:处理中型项目够用,但理解完整 Spring Boot / Django 项目时常被截断
- 1M:可容纳数千文件的代码库,项目级重构和跨文件修改更从容
- 200K(GLM V5.1):短上下文场景够用,长程任务可能成为瓶颈
四、我的模型选择
混用策略(个人实践方式)
- Kimi Code 或 MiniMax 做专项:项目主力使用这两个模型
- DeepSeek V4 Flash 打底:作为 fallback 模型,Kimi 额度耗尽后自动切换
我的个人决策:原本计划换 M3,现在决定续费 Kimi
最后聊聊我的决策过程。
上周已经打算下个月将主力模型从 Kimi K2.6 换成 MiniMax M3。
理由很简单:M3 拥有 1M 上下文窗口(K2.6 仅 256K),SWE-Bench Pro 比 K2.6 高(59.0% vs 58.6%),价格仅为 $0.30,是 Kimi 的三分之一。怎么看都更优。
但 K2.7 Code 发布后,局面改变了:
- 上下文窗口拉到 1M,与 M3 齐平,这块不再是 M3 的独占优势
- 内部基准全面大涨,Code Bench +21.8%、MLS Bench Lite +31.5%,虽 SWE-Bench 绝对分数未出,但若能转化到 62–66% 区间,就已反超 M3
- Token 消耗降 30%,实际成本降到 $0.63,虽仍高于 M3 但差距缩小
- 工具调用和 MCP 能力提升对我很重要——我深度使用 Cline 和 Hermes Agent,而 M3 尚未公开 MCP 基准数据
因此结论:下个月继续续费 Kimi Code。
当然,这仅基于现有数据。如果一两周后第三方评测显示 K2.7 的 SWE-Bench 未达预期,届时再换也不迟。
总结与展望
K2.7 Code 的发布让我觉得国内编程模型的竞争进入了一个有趣阶段——基准分差距在缩小,各家在差异化方向上找到了自己的路。
DeepSeek 走 MIT + 最高基准路线,MiniMax 打性价比和工程修复,Kimi 押注长上下文和工具调用,GLM 深耕国内生态。
说实话,对实际做项目的开发者而言,SWE-Bench 58% 与 62% 的差距,可能还不如“上下文够不够大”“工具调用好不好用”“返回答不答案”这些日常体验重要。
最后分享今晚的小惊喜——如果你是 Kimi Code 订阅用户,不妨打开看看额度是否也莫名重置了。 如果是,恭喜,白嫖了半天的 K2.7 Code。
发布日期:2026-06-12 本文仅对比国产模型,数据来源:各模型官方技术报告及公开基准榜单

