智能体开源模型Nex-N2测评：能力比肩Opus 4.7

2026-06-13阅读 0热度 0

Qwen

上海创智学院联盟Nex-AGI正式开源了下一代智能体模型Nex-N2——这是一款真正具备“智能体思维”的Agent模型。它在Qwen3.5系列基础上进行后训练，在代码编写与Agent能力方面展现出卓越性能，能够持续推进复杂的长周期任务，在真实环境中稳定交付端到端成果。多项基准测试显示，Nex-N2-Pro版本的整体表现已紧追GPT-4.5和Claude Opus 4.7，尤其在终端智能体任务及浏览检索任务上，超越了Claude Opus 4.7。

Nex-N2推出两个版本：Nex-N2-Pro（基于Qwen3.5-397B-A17B）和Nex-N2-mini（基于Qwen3.5-35B-A3B-Base），用户可根据不同场景在延迟与输出质量之间灵活权衡。

01 智能体思维：推理与行动融为一体

过去一年，“氛围编码”（Vibe Coding）与“驾驭工程”（Harness Engineering）带来了范式级变革，重新定义了大模型智能体的能力边界。从对话、推理，到能够借助环境反馈执行长周期任务的智能体，模型面临的任务难度持续攀升，上下文长度不断增加，环境也愈发贴近真实世界。下一代模型的核心竞争力早已不是“能否思考”，而是能否可靠、高效地将思考转化为可执行、可验证、可迭代的行动。

Nex-N2并未将推理、工具使用和环境执行拆解为独立模块，而是通过“智能体思维”（Agentic Thinking）框架，把需求理解、任务规划、代码实现、环境反馈、评估调试与持续迭代整合成一个闭环。该框架包含两个关键组成部分：

自适应思维（Adaptive Thinking）——让模型自主决策何时思考、思考多深。简单操作快速执行，关键决策则深入推理。
连贯思维（Coherent Thinking）——在通用推理及各类智能体任务中保持一致的推理范式，确保不同任务和模态间稳定的能力迁移。

换句话说，Nex-N2实现了Thinking范式的全局统一。无论是搜索、编码还是Agent工具调用，模型的思维链都遵循同一套结构化流程：目标分解、状态追踪、策略调整、自我校验。这种一致性在混合任务（例如一次代码任务中穿插搜索和工具调用）中优势尤为突出。

02 基于任务复杂度的自适应推理

Nex-N2能够自主判断是否启用思考模式，并动态调节推理强度。与强制开启推理相比，Adaptive Thinking在保持任务完成率的同时，显著降低了推理token消耗，实现了资源的最优分配。

具体来看，在Adaptive Thinking模式下，Nex-N2-mini的效果相比强制关闭思维链有明显提升，与强制每轮开启思维链相比性能持平甚至略优，同时整体token花销节省约20%。

更有趣的是，Nex-N2在不同任务中展现出三种与任务结构高度契合的推理构型。搜索任务中，前期重点在拆解搜索策略，末段集中综合证据；SWE类任务里，定位缺陷和验证修复阶段推理最密集；而在OpenClaw这类开放式长程任务中，推理强度随着任务推进逐步加深，收尾整合结果时达到峰值。推理始终聚焦于不确定性高、需要关键决策的环节——效率至上。

03 Nex-N2构建的真实案例

游戏开发·巫师之殇

在游戏开发场景中，Nex-N2-Pro设计了一个以主Agent为核心的多智能体协作流程。主Agent主导游戏的设计与开发，调度三个子Agent分别从玩法、性能、体验等不同维度进行测试，发现问题后回传给主Agent迭代修复，直到产出完整、稳定、可玩的成品。多智能体协同、长链路规划、自主发现并解决问题——这正是复杂任务对模型最严苛的考验。“巫师之殇”由此诞生：用户仅输入素材库和几句想法，Nex-N2-Pro便端到端完成了从设计、测试到修复交付的全过程。

小程序原型开发

在产品设计场景下，用户提出自然语言需求：“做个AI健身减肥管理iOS原型，4个核心屏幕要能真实点击”。Nex-N2-Pro自主规划出今日总览、今日计划、教练、我的进度四个完整屏幕，并为每个屏幕设计了差异化的信息架构：总览页采用深色hero卡承载核心数据，计划页以时间线串联饮食与运动，教练页通过对话式交互传递建议，进度页使用列表呈现长期趋势。底部Tab栏、卡片跳转、返回导航均实现了真实可点击的状态流转。

深度研究与PPT生成

基于Claude Code框架，Nex-N2-Pro根据研究目标搜集SpaceX IPO相关资料并整理，将SpaceX的业务、技术、财务、估值、治理、竞争、里程碑、愿景重新组织成12页叙事结构，使用SVG绘制图表，最终转化为完全可编辑的pptx格式。

复杂前端能力

Nex-N2-Pro能够完成复杂的前端代码开发。用户输入“帮我用html做个3d机械臂，要功能完整，逻辑通顺，关节点击可以旋转”，Nex-N2-Pro便一气呵成完成复杂功能的模拟，视觉表现和逻辑复杂度均达到专业水准。

Nex-N2 x North Coder

在复杂全栈开发场景中，基于自研编程harness North Coder，Nex-N2自动将需求拆解为约100个RFC，明确各自的优先级与依赖关系，实现自主调度、并行执行、回收依赖。通过North Coder，用户可以实时看到上百个任务的状态流转，前端、后端、Agent Runtime各条线并行开工，每个RFC端到端地完成方案设计、编码实现与自我验证，最终汇聚成一个完整可运行的项目。

04 模型部署指南

为获得最佳性能，官方仓库推荐使用sglang部署。

环境安装：

git clone https://github.com/nex-agi/sglang.git
cd sglang
pip install --upgrade pip
pip install -e "python"

模型下载：

modelscope download --model nex-agi/Nex-N2-Pro --local_dir nex-agi/Nex-N2-Pro

启动服务器

Nex-N2-Pro（需要在两台配备8×H100 GPU、CUDA 13.0的服务器上运行）：

python -m sglang.launch_server \
  --model-path /path/to/your/model \
  --tp16 \
  --nnodes 2 \
  --node-rank  \
  --dist-init-addr :20000 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen3_coder \
  --mamba-scheduler-strategy extra_buffer

Nex-N2-mini（在一台配备2×H100 GPU、CUDA 13.0的服务器上运行）：

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
  --model-path /path/to/your/model \
  --tp2 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen3_coder \
  --mamba-scheduler-strategy extra_buffer

Docker部署

官方提供了一个预构建的Docker镜像，其中已预装定制的sglang分支：nexagi/sglang:v0.5.12。启动命令：

docker run --gpus all --shm-size 32g --network host \
  -v /path/to/your/model:/model \
  nexagi/sglang:v0.5.12 \
  python3 -m sglang.launch_server \
    --model-path /model \
    --tp16 \
    --nnodes 2 \
    --node-rank  \
    --dist-init-addr :20000 \
    --host 0.0.0.0 --port 30000 \
    --reasoning-parser qwen3 \
    --tool-call-parser qwen3_coder \
    --mamba-scheduler-strategy extra_buffer

推荐的采样参数（为获得最佳生成质量）：temperature=0.7，top_p=0.95，top_k=40。

工具调用：Nex系列模型支持强大的函数调用功能。启动服务器时添加 --tool-call-parser qwen3_coder 标志即可启用。

推理解析：Nex系列模型会输出显式的推理轨迹。添加 --reasoning-parser qwen3 标志可将推理内容与最终响应分开解析。

智能体开源模型Nex-N2测评：能力比肩Opus 4.7

01 智能体思维：推理与行动融为一体

02 基于任务复杂度的自适应推理

03 Nex-N2构建的真实案例

04 模型部署指南

相关阅读

最新教程

最新资讯