亿参数阿里开源编程模型，Agent分数碾压Kimi K2

2026-06-23阅读 0热度 0

暗夜突袭上线Qwen Chat，海外开发者竞相体验

几小时前，阿里Qwen团队低调发布了其最新旗舰编程模型Qwen3-Coder-480B-A35B-Instruct。官方称这是迄今最强的开源智能体编程模型。参数总量480B，激活参数仅35B，原生支持256K上下文，可通过YaRN外推至百万级token输入，最大可输出6.5万token。

在基准测试中，该模型在智能体编程、智能体浏览器使用及工具调用三大方向均拿下开源模型最佳成绩，直接超越Kimi K2、DeepSeek V3等竞品，甚至在特定场景下与GPT-4.1这样的闭源模型强势对标。最关键的是，它完全具备与以编程能力著称的Claude Sonnet 4一较高下的实力。

此次开源的是Qwen3-Coder的旗舰变体。从参数规模看，它超越阿里自家235B的Qwen3，但远小于Kimi K2的1T参数。官方放出了一句极具冲击力的评价：初级开发者借助Qwen3-Coder，一日内就能完成资深开发者一周的任务量，生成一个品牌官网最快只需5分钟。

除模型本身外，团队还开源了一个专业级辅助工具——Qwen Code。该工具基于Gemini Code衍生，专为Qwen3-Coder定制了提示词与函数调用协议，能够充分释放模型在智能体编程任务中的潜能，大幅提升实际工作流的效率。

该模型已在阿里云百炼平台上线。API采用阶梯计价，输入token量越大单价区间越清晰。在256K至1M档位，输入价格为6美元/百万token，输出价格为60美元/百万token。对比来看，Claude Sonnet 4的输入和输出价格分别为3美元/百万token与15美元/百万token，与Qwen3-Coder在128K至256K档位水平相当。

此外，用户可直接在Qwen Chat网页版免费体验Qwen3-Coder。480B完整版已在Hugging Face、魔搭等主流社区发布，支持下载与本地部署。Qwen团队还发布了一篇详细技术博客，公开了模型训练与架构设计细节。

在正式官宣前，该模型已悄然在Qwen Chat官网先行上线。海外开发者们贡献了一大批高质量实测案例。

有开发者让Qwen3-Coder构建一个Wordle单词猜谜游戏——规则是六次内猜出一个五字母单词。模型交付的页面与源代码完成度极高。该开发者的评价是：指令遵循、UI设计、动画交互能力均“惊人”，大部分测试一次跑通，无需额外推理。唯一的缺憾是，在Wordle游戏设计上，模型没有调用现成的单词库，而是自己枚举了所有五字母单词。

另一个找不同游戏的开发案例同样抢眼。与昨天发布的Qwen3-235B-A22B-2507相比，Qwen3-Coder在审美与完成度上均显著提升。

智东西团队也进行了实测——让Qwen3-Coder开发一个中英文术语对照库，需支持增删改查基础功能。直观感受是：因未开启推理，开发速度极快，20多秒即产出初版。后续迭代修改速度同样流畅。

最终产出从UI角度看美观清晰，功能运转正常。但有一个关键提示：它并未严格遵循提示词中的“使用PHP+MySQL开发”指令。若作为功能Demo或原型展示完全合格；但若进入真实生产环境部署，可扩展性与架构鲁棒性仍需优化。

智东西还让Qwen3-Coder自行设计了一道3D HTML开发任务——创建带有六个异色面、自动旋转、支持光照与阴影的3D立方体展台。最终完成度极高，旋转动效与阴影渲染均处理到位，核心功能完全实现。

编程能力之外，Qwen3-Coder还提供了多种扩展功能，包括图像生成、视频生成，并支持文档、图片、视频、音频等多模态文件上传。这些能力大概率通过工具调用机制实现。

正式发布后，官方也公布了一系列实际应用案例。例如开发一个基于物理的烟囱拆除模拟系统，附带受控爆炸视觉效果。

另一个案例则是在线可交互的太阳系模拟器，行星间相对位置关系基本准确。

基于该模型开发的网页小游戏完成度同样可观。

02 预训练仍有扩展空间，在20000个独立环境执行强化学习

技术博客中，团队披露了大量训练细节。一个关键结论是：预训练阶段的潜力并未完全释放，仍有进一步优化空间。

预训练阶段，Qwen3-Coder使用了7.5万亿token数据，其中代码占比70%。这也是其在编程任务上表现突出的同时，仍能保留通用能力与数学推理能力的原因。

上下文长度原生支持256K，通过YaRN可扩展至1M，专门针对仓库级别代码与动态数据做了优化，以适配智能体编程场景。

值得注意的是，上一代模型Qwen2.5-Coder被用于清洗并重写噪声数据，从而显著提升整体数据质量。

后训练阶段，Qwen团队的核心观点是：与行业普遍重视竞赛级代码生成不同，他们认为所有代码任务都天然适合执行驱动的大规模强化学习。因此，他们在更广泛的现实世界编程任务上扩大了代码强化学习的训练规模。

通过自动扩展多样化编程任务的测试用例，团队构建了高质量训练实例，进一步释放强化学习潜力。最终结果不仅提升了代码执行成功率，还为其他任务带来了额外增益。

这激发了团队进一步探索那些“难解决但易验证”的任务类型——这很可能成为强化学习的新突破口。

在真实软件工程任务中，Qwen3-Coder需要与环境进行多轮交互，涉及规划、工具使用、反馈接收与决策。后训练阶段，团队引入了长视距强化学习（即智能体强化学习），鼓励模型通过多轮工具交互解决现实任务。

智能体强化学习的核心挑战在于环境扩展。为解决此问题，团队构建了一个可扩展的系统，支持并行运行20000个独立环境。该基础设施为大规模强化学习提供了必要反馈，也支撑了大规模评估。

最终，Qwen3-Coder在SWE-Bench Verified中实现了开源模型的最佳性能，且未使用测试时扩展。

同步开源的Qwen Code是一个面向研究的命令行工具，基于Gemini CLI开发，针对Qwen-Coder模型增加了增强解析器与工具支持。如果你更喜欢Claude Code，也可以将其与Qwen3-Coder配合使用——只需在Dashscope平台申请API密钥并安装Claude Code即可。

03 结语：更多尺寸版本即将发布，探索编程智能体自主进化

在Cursor对Claude等编程模型实施断供的背景下，Qwen3-Coder的开源为国内开发者提供了一个强替代选项。团队透露，他们正持续提升Coding Agent的性能，目标是将软件工程中的复杂与重复性任务逐步自动化，从而释放人类开发者的生产力。

更多尺寸的Qwen3-Coder版本即将推出，可在部署成本与性能间实现更灵活的平衡。此外，团队正在探索一个极具前瞻性的课题：Coding Agent能否实现自我进化与持续提升？

亿参数阿里开源编程模型，Agent分数碾压Kimi K2

暗夜突袭上线Qwen Chat，海外开发者竞相体验

02 预训练仍有扩展空间，在20000个独立环境执行强化学习

03 结语：更多尺寸版本即将发布，探索编程智能体自主进化

相关阅读

最新教程

最新资讯