Kimi K2.7 Code正式发布:国产AI模型深度评测

2026-06-13阅读 0热度 0
MiniMax

意外发现:Kimi Code 订阅额度刷新,K2.7 Code 悄然上线

今晚十点半,我打开 Kimi Code 官网准备截图告诉朋友“天才陨落”,结果发现订阅额度被清空后又重新充满。

明明下午就把今天的配额用完了。

起初以为是 Kimi 计费系统出了 bug,但无意中看到模型版本从 2.6 变成了 2.7。查阅后发现——Kimi K2.7 Code 今天正式发布。

准确说是 2026 年 6 月 12 日下午上线,我的订阅在晚上 10:30 被重置。推测是 K2.7 Code 部署时同步刷新了额度系统,给活跃用户续了一波。虽然没有官方公告,但体验上等于白嫖了半天的 K2.7 Code,算是发布日的小彩蛋。

国产编程模型竞争白热化:Kimi K2.7 Code 登场

回到模型本身。

2026 年 6 月 12 日,Moonshot AI 正式发布 Kimi K2.7 Code,权重已开源,API 同步上线。官方称其为“迄今为止最强的开源代码模型”。

今年国内 AI 编程赛道肉眼可见地卷起来——MiniMax M3(2025.12)、DeepSeek V4 Pro(2026.3)、GLM V5.1(2026.4),再到今天的 Kimi K2.7 Code。五家国产模型形成第一梯队,各有侧重。

本文从国产模型用户视角,横向对比这五款模型,帮你选型时提供参考。


一、五款国产模型全维度横向对比

指标MiniMax M3DeepSeek V4 ProKimi K2.6Kimi K2.7 CodeGLM V5.1
SWE-Bench Verified80.6%80.2%待公布(推测 82–85%)
SWE-Bench Pro59.0%55.4%58.6%待公布(推测 62–66%)58.4%
LiveCodeBench v693.5%89.6%待公布(推测 93–97%)
Terminal-Bench 2.066.0%67.9%66.7%待公布(推测 71–75%)63.5%
HumanEval92%待公布
上下文窗口1M1M256K1M200K
1M Input 价格$0.30 $0.44$0.90$0.90$0.70
缓存命中价$0.0037$0.15$0.18

各模型一句话总结

  • DeepSeek V4 Pro:国产模型基准分最高,SWE-Bench Verified 80.6%、LiveCodeBench 93.5% 双项领跑。高缓存命中时成本极低,性价比突出。
  • MiniMax M3:SWE-Bench Pro(实际工程修复能力)最高 59.0%,价格最低 $0.30/1M tokens。
  • Kimi K2.7 Code:今日主角。上下文从 256K 拉到 1M,内部基准全面大幅提升,Agent 和 MCP 场景均有改善。第三方基准分数待公布,需验证。
  • GLM V5.1:SWE-Bench Pro 58.4% 与 K2.6 持平,MIT 协议,价格 $0.70 比 Kimi 便宜。
  • Kimi K2.6:上一代,基准数据已定(SWE-Bench Pro 58.6%、LiveCodeBench 89.6%),仍可用,但 K2.7 的提升让人很难回头。

二、K2.7 Code 核心提升点拆解

官方公布了内部基准的绝对分数及对比 K2.6 的增幅:

维度K2.6 基线K2.7 Code相对变化
Kimi Code Bench v2(综合代码能力)50.962.0+21.8%
Program Bench(程序设计)48.353.6+11.0%
MLS Bench Lite(长程代码任务)26.735.1+31.5%
Kimi Claw 24/7 Bench(Agent 自主执行)42.946.9+9.3%
MCP Atlas(工具调用)69.476.0+9.5%
MCP Mark Verified(工具调用)72.881.1+11.4%
Token 消耗100%70%-30%

关键解读

MLS Bench Lite 提升 31.5%——上下文窗口拉开的差距 这个基准考察长程代码任务,例如在大型项目中理解代码、跨文件修改。K2.7 将上下文从 256K 扩到 1M,直接带来该指标暴涨。如果你需要 AI 理解整个项目而非单文件,这提升是实打实的。

Token 消耗降 30%——变相降价 官方称同任务 K2.7 只需 K2.6 的 70% token。若属实,$0.90/1M 的实际使用成本相当于$0.63,甚至低于 GLM。订阅额度也能多用 30%,对 Cursor/Cline 这类高频调用场景非常友好。

Agent 提升 9.3%——方向正确,但仍有瓶颈 Code Bench 涨了 21.8%,但 Agent Bench 仅涨 9.3%。说明模型变强不必然带来 Agent 自动提升——落地还有路要走。好消息是 MCP 相关两个基准(Atlas + Mark)均涨约 10%,工具调用实实在在升级,Cline、Continue、Hermes Agent 等工具接入 K2.7 后会直接受益。


三、上下文窗口之战

K2.7 Code 将上下文窗口从 256K 提升到 1M,与 DeepSeek V4 Pro、MiniMax M3 站在同一起跑线。

对国产模型用户而言,这很关键:

  • 256K:处理中型项目够用,但理解完整 Spring Boot / Django 项目时常被截断
  • 1M:可容纳数千文件的代码库,项目级重构和跨文件修改更从容
  • 200K(GLM V5.1):短上下文场景够用,长程任务可能成为瓶颈

四、我的模型选择

混用策略(个人实践方式)

  • Kimi Code 或 MiniMax 做专项:项目主力使用这两个模型
  • DeepSeek V4 Flash 打底:作为 fallback 模型,Kimi 额度耗尽后自动切换

我的个人决策:原本计划换 M3,现在决定续费 Kimi

最后聊聊我的决策过程。

上周已经打算下个月将主力模型从 Kimi K2.6 换成 MiniMax M3。

理由很简单:M3 拥有 1M 上下文窗口(K2.6 仅 256K),SWE-Bench Pro 比 K2.6 高(59.0% vs 58.6%),价格仅为 $0.30,是 Kimi 的三分之一。怎么看都更优。

但 K2.7 Code 发布后,局面改变了:

  1. 上下文窗口拉到 1M,与 M3 齐平,这块不再是 M3 的独占优势
  2. 内部基准全面大涨,Code Bench +21.8%、MLS Bench Lite +31.5%,虽 SWE-Bench 绝对分数未出,但若能转化到 62–66% 区间,就已反超 M3
  3. Token 消耗降 30%,实际成本降到 $0.63,虽仍高于 M3 但差距缩小
  4. 工具调用和 MCP 能力提升对我很重要——我深度使用 Cline 和 Hermes Agent,而 M3 尚未公开 MCP 基准数据

因此结论:下个月继续续费 Kimi Code。

当然,这仅基于现有数据。如果一两周后第三方评测显示 K2.7 的 SWE-Bench 未达预期,届时再换也不迟。

总结与展望

K2.7 Code 的发布让我觉得国内编程模型的竞争进入了一个有趣阶段——基准分差距在缩小,各家在差异化方向上找到了自己的路

DeepSeek 走 MIT + 最高基准路线,MiniMax 打性价比和工程修复,Kimi 押注长上下文和工具调用,GLM 深耕国内生态。

说实话,对实际做项目的开发者而言,SWE-Bench 58% 与 62% 的差距,可能还不如“上下文够不够大”“工具调用好不好用”“返回答不答案”这些日常体验重要。

最后分享今晚的小惊喜——如果你是 Kimi Code 订阅用户,不妨打开看看额度是否也莫名重置了。 如果是,恭喜,白嫖了半天的 K2.7 Code。


发布日期:2026-06-12 本文仅对比国产模型,数据来源:各模型官方技术报告及公开基准榜单

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策