智能体开源模型Nex-N2测评:能力比肩Opus 4.7

2026-06-13阅读 0热度 0
Qwen

上海创智学院联盟Nex-AGI正式开源了下一代智能体模型Nex-N2——这是一款真正具备“智能体思维”的Agent模型。它在Qwen3.5系列基础上进行后训练,在代码编写与Agent能力方面展现出卓越性能,能够持续推进复杂的长周期任务,在真实环境中稳定交付端到端成果。多项基准测试显示,Nex-N2-Pro版本的整体表现已紧追GPT-4.5和Claude Opus 4.7,尤其在终端智能体任务及浏览检索任务上,超越了Claude Opus 4.7。

Nex-N2推出两个版本:Nex-N2-Pro(基于Qwen3.5-397B-A17B)和Nex-N2-mini(基于Qwen3.5-35B-A3B-Base),用户可根据不同场景在延迟与输出质量之间灵活权衡。

01 智能体思维:推理与行动融为一体

过去一年,“氛围编码”(Vibe Coding)与“驾驭工程”(Harness Engineering)带来了范式级变革,重新定义了大模型智能体的能力边界。从对话、推理,到能够借助环境反馈执行长周期任务的智能体,模型面临的任务难度持续攀升,上下文长度不断增加,环境也愈发贴近真实世界。下一代模型的核心竞争力早已不是“能否思考”,而是能否可靠、高效地将思考转化为可执行、可验证、可迭代的行动。

Nex-N2并未将推理、工具使用和环境执行拆解为独立模块,而是通过“智能体思维”(Agentic Thinking)框架,把需求理解、任务规划、代码实现、环境反馈、评估调试与持续迭代整合成一个闭环。该框架包含两个关键组成部分:

  • 自适应思维(Adaptive Thinking)——让模型自主决策何时思考、思考多深。简单操作快速执行,关键决策则深入推理。
  • 连贯思维(Coherent Thinking)——在通用推理及各类智能体任务中保持一致的推理范式,确保不同任务和模态间稳定的能力迁移。

换句话说,Nex-N2实现了Thinking范式的全局统一。无论是搜索、编码还是Agent工具调用,模型的思维链都遵循同一套结构化流程:目标分解、状态追踪、策略调整、自我校验。这种一致性在混合任务(例如一次代码任务中穿插搜索和工具调用)中优势尤为突出。

02 基于任务复杂度的自适应推理

Nex-N2能够自主判断是否启用思考模式,并动态调节推理强度。与强制开启推理相比,Adaptive Thinking在保持任务完成率的同时,显著降低了推理token消耗,实现了资源的最优分配。

具体来看,在Adaptive Thinking模式下,Nex-N2-mini的效果相比强制关闭思维链有明显提升,与强制每轮开启思维链相比性能持平甚至略优,同时整体token花销节省约20%。

更有趣的是,Nex-N2在不同任务中展现出三种与任务结构高度契合的推理构型。搜索任务中,前期重点在拆解搜索策略,末段集中综合证据;SWE类任务里,定位缺陷和验证修复阶段推理最密集;而在OpenClaw这类开放式长程任务中,推理强度随着任务推进逐步加深,收尾整合结果时达到峰值。推理始终聚焦于不确定性高、需要关键决策的环节——效率至上。

03 Nex-N2构建的真实案例

游戏开发·巫师之殇

在游戏开发场景中,Nex-N2-Pro设计了一个以主Agent为核心的多智能体协作流程。主Agent主导游戏的设计与开发,调度三个子Agent分别从玩法、性能、体验等不同维度进行测试,发现问题后回传给主Agent迭代修复,直到产出完整、稳定、可玩的成品。多智能体协同、长链路规划、自主发现并解决问题——这正是复杂任务对模型最严苛的考验。“巫师之殇”由此诞生:用户仅输入素材库和几句想法,Nex-N2-Pro便端到端完成了从设计、测试到修复交付的全过程。

小程序原型开发

在产品设计场景下,用户提出自然语言需求:“做个AI健身减肥管理iOS原型,4个核心屏幕要能真实点击”。Nex-N2-Pro自主规划出今日总览、今日计划、教练、我的进度四个完整屏幕,并为每个屏幕设计了差异化的信息架构:总览页采用深色hero卡承载核心数据,计划页以时间线串联饮食与运动,教练页通过对话式交互传递建议,进度页使用列表呈现长期趋势。底部Tab栏、卡片跳转、返回导航均实现了真实可点击的状态流转。

深度研究与PPT生成

基于Claude Code框架,Nex-N2-Pro根据研究目标搜集SpaceX IPO相关资料并整理,将SpaceX的业务、技术、财务、估值、治理、竞争、里程碑、愿景重新组织成12页叙事结构,使用SVG绘制图表,最终转化为完全可编辑的pptx格式。

复杂前端能力

Nex-N2-Pro能够完成复杂的前端代码开发。用户输入“帮我用html做个3d机械臂,要功能完整,逻辑通顺,关节点击可以旋转”,Nex-N2-Pro便一气呵成完成复杂功能的模拟,视觉表现和逻辑复杂度均达到专业水准。

Nex-N2 x North Coder

在复杂全栈开发场景中,基于自研编程harness North Coder,Nex-N2自动将需求拆解为约100个RFC,明确各自的优先级与依赖关系,实现自主调度、并行执行、回收依赖。通过North Coder,用户可以实时看到上百个任务的状态流转,前端、后端、Agent Runtime各条线并行开工,每个RFC端到端地完成方案设计、编码实现与自我验证,最终汇聚成一个完整可运行的项目。

04 模型部署指南

为获得最佳性能,官方仓库推荐使用sglang部署。

环境安装:

git clone https://github.com/nex-agi/sglang.git
cd sglang
pip install --upgrade pip
pip install -e "python"

模型下载:

modelscope download --model nex-agi/Nex-N2-Pro --local_dir nex-agi/Nex-N2-Pro

启动服务器

Nex-N2-Pro(需要在两台配备8×H100 GPU、CUDA 13.0的服务器上运行):

python -m sglang.launch_server \
  --model-path /path/to/your/model \
  --tp16 \
  --nnodes 2 \
  --node-rank  \
  --dist-init-addr :20000 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen3_coder \
  --mamba-scheduler-strategy extra_buffer

Nex-N2-mini(在一台配备2×H100 GPU、CUDA 13.0的服务器上运行):

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
  --model-path /path/to/your/model \
  --tp2 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen3_coder \
  --mamba-scheduler-strategy extra_buffer

Docker部署

官方提供了一个预构建的Docker镜像,其中已预装定制的sglang分支:nexagi/sglang:v0.5.12。启动命令:

docker run --gpus all --shm-size 32g --network host \
  -v /path/to/your/model:/model \
  nexagi/sglang:v0.5.12 \
  python3 -m sglang.launch_server \
    --model-path /model \
    --tp16 \
    --nnodes 2 \
    --node-rank  \
    --dist-init-addr :20000 \
    --host 0.0.0.0 --port 30000 \
    --reasoning-parser qwen3 \
    --tool-call-parser qwen3_coder \
    --mamba-scheduler-strategy extra_buffer

推荐的采样参数(为获得最佳生成质量):temperature=0.7,top_p=0.95,top_k=40。

工具调用:Nex系列模型支持强大的函数调用功能。启动服务器时添加 --tool-call-parser qwen3_coder 标志即可启用。

推理解析:Nex系列模型会输出显式的推理轨迹。添加 --reasoning-parser qwen3 标志可将推理内容与最终响应分开解析。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策