AI Max 395部署AgentCPM与DeepResearch实战精选

2026-06-11阅读 0热度 0

人工智能深度学习

最近一直在深度测试DeepResearch智能体，正好OpenBMB开源社区发布了AgentCPM-Explore（4B参数）与AgentCPM-Report（8B参数）两款专用模型，面向智能体及深度调研场景。小参数量、开源、可本地部署，这几个关键词组合起来，就值得立刻上手实操。

这篇教程完整记录了在AI Max 395统一内存架构迷你主机上，从模型部署到调用的全流程。如果你算力有限但想跑通联网搜索和Deep Research的本地方案，这条技术路线值得参考。

AgentCPM-Explore

AgentCPM-Explore的亮点：4B参数模型在GAIA、HLE、BrowseComp等8个长程复杂智能体任务榜均登顶，是首个以全量4B做到这点的高密度模型。它支持超100轮连续环境交互，能交叉验证多源信息、动态调整搜索策略，并实时核验最新信息，直到任务完成。

全流程开源：智能体全异步强化学习框架AgentRL、工具沙盒管理平台AgentDock，以及一键测评平台AgentToLeaP，社区可自由扩展定制。

测试数据中，在Xbench-DeepResearch上，AgentCPM-Explore的表现已超越OpenAI o3、Claude 4.5 Sonnet等闭源模型，且在不同量级SOTA模型趋势线上跑出更高能力密度。

AgentCPM-Report

另一款8B参数的Deep Research专用模型。在DeepResearch Bench、Deep Consult和DeepResearch Gym三大主流深度调研评测基准中，AgentCPM-Report综合评分达到甚至超越顶级闭源系统。最考验深度的洞察性指标排名第一；全面性指标仅次基于Claude的复杂写作框架，稳定在第一梯队。

AI Max+ 395

手头这台零刻GTR9 Pro搭载AMD在2025年CES发布的AI Max+ 395（代号Strix Halo），旗舰处理器，RDNA 3.5架构的Radeon 8060S集成显卡，40个计算单元，显存带宽256GB/s，性能与移动版RTX 4060独显持平。

标配128GB LPDDR5X内存（8000MT/s），2T固态硬盘。AI Max+ 395采用统一内存架构，BIOS中可将128G内存的96G分配给显存——本地跑AI项目的硬件底子极扎实。

接下来的教程核心：如何在AI Max 395上本地跑起AgentCPM + DeepResearch智能体项目。

安装驱动和ROCm

新机到手建议直接放弃Windows，转用Ubuntu。AI组件依赖在Linux下编译安装友好得多。实在需要Windows，也建议用WSL部署。

第一步去官网下载驱动：
https://www.amd.com/zh-cn/support/downloads/drivers.html/proc...

官网提供Win11、Win10和Ubuntu三个版本：

我这台到手重置系统，删了Win11直接装Ubuntu 24.04，教程全基于此。

AMD官方提到，Ubuntu内核6.12.0-1018搭配Ryzen AI Max 395（gfx1151）跑LLM推理时，可能间歇性应用崩溃或脚本失败。所以先升级Linux内核：

sudo apt update && sudo apt install linux-image-6.14.0-1017-oem

装完重启到6.14 OEM内核：

uname -r

然后更新系统：

sudo apt upgrade -y

接着下载安装amdgpu-install运行脚本：

sudo apt update
wget https://repo.radeon.com/amdgpu-install/7.1.1/ubuntu/noble/amdgpu-install_7.1.1.70101-1_all.deb
sudo apt install ./amdgpu-install_7.1.1.70101-1_all.deb

安装ROCm：

amdgpu-install -y --usecase=rocm --no-dkms

设置权限组：

groups

将用户添加到渲染和视频权限组：

sudo usermod -a -G render,video $LOGNAME

重启系统：

sudo reboot

重启后验证：

groups

输出：magicyang adm cdrom sudo dip video plugdev users lpadmin docker render

再执行验证命令：

rocminfo

类似NVIDIA的nvidia-smi，AMD用rocm-smi监控GPU状态：

rocm-smi

显存扩容

AI Max 395分配显存有两种方案：BIOS分配，或修改GTT内存池参数。

通过BIOS进行分配

进入BIOS：开机反复按F2或Delete键。
进入高级菜单：选择Advanced或AMD CBS。
找到显存配置：路径通常是iGPU Memory Configuration或GFX Configuration → UMA Frame buffer Size。
设置数值：将配置模式设为Custom，在iGPU Memory Size中选择所需大小。AI Max+ 395配128GB内存时，BIOS最高可分配96GB作为固定显存。

通过修改内核参数进行分配

AMD APU的GPU并无真正的“固定显存”——CPU、GPU、NPU封装在同一SOC上，共享系统内存（UMA）。GPU显存就是系统内存一部分。只要系统内存足够大（128GB、192GB），GPU就能直接用到巨大的“显存”。

Linux AMD GPU驱动支持GTT（Graphics Translation Table）内存池，“扩显存”本质是扩大GTT池而非VRAM。GPU通过IOMMU/内存映射直接访问系统RAM，相当于把系统内存当作显存。

除BIOS设置外，还能通过修改内核参数（如amdttm.pages_limit）实现更极端分配（100GB以上），需通过GRUB命令行工具（如grubby）配置。

sudo nano /etc/default/grub

找到GRUB_CMDLINE_LINUX_DEFAULT行，改为：

GRUB_CMDLINE_LINUX_DEFAULT="quiet splash ttm.pages_limit=27648000 ttm.page_pool_size=27648000 amdttm.pages_limit=27648000 amdttm.page_pool_size=27648000 apparmor=0 amd_iommu=off"

注意：内核参数分配的显存不要超过108GB。根据Jeff Geerling测试，当前Linux内核对AMD兼容性还有提升空间，分配大小建议按27648000设置，不宜过大。

修改完成Ctrl+O保存，然后重启：

sudo update-grub
sudo grub-install
sudo reboot

重启后检查是否生效：

cat /proc/cmdline

设置共享内存大小（可选）

ROCm使用共享系统内存池，默认配置为系统内存一半。可通过修改内核TTM页面设置增加数值。

安装pipx：

sudo apt install pipx

将pipx安装的wheels路径添加到系统搜索路径：

pipx ensurepath

从PyPi安装amd-debug-tools：

pipx install amd-debug-tools

运行amd-ttm工具查询当前共享内存设置：

amd-ttm

使用--set参数重新配置共享内存（单位GB）：

amd-ttm --set 16

注意：共享内存大小需根据分配给显存后剩余的内存来设置。

重启系统：

sudo reboot

部署GPUStack

GPUStack是开源GPU集群管理器，专为高效AI模型部署设计。它能选择最佳推理引擎、调度GPU资源、分析模型架构并自动配置部署参数，在自有GPU硬件上高效运行大模型。

GPUStack内置支持的推理后端：

vLLM
SGLang
MindIE
VoxBox

通过添加自定义推理引擎可支持llama.cpp。

安装Toolkit和Docker

确保至少配备一个AMD AI Max 395 GPU节点。
确保工作节点安装ROCm驱动、Docker和AMD Container Toolkit。

Docker版本需≥28.3.0，安装方法自行查阅。此处仅给出AMD Container Toolkit安装步骤。

更新系统：

sudo apt update

将当前用户添加到GPU设备访问组：

sudo usermod -a -G render,video $LOGNAME

安装依赖：

sudo apt update
sudo apt install vim wget nano gpg

创建密钥目录：

sudo mkdir --parents --mode=0755 /etc/apt/keyrings

安装GPG密钥和仓库链接：

wget https://repo.radeon.com/rocm/rocm.gpg.key -O - | gpg --dearmor | sudo tee /etc/apt/keyrings/rocm.gpg > /dev/null

添加AMD Container Toolkit仓库：

Ubuntu 22.04:

echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/amd-container-toolkit/apt/ jammy main" | sudo tee /etc/apt/sources.list.d/amd-container-toolkit.list

Ubuntu 24.04:

echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/amd-container-toolkit/apt/ noble main" | sudo tee /etc/apt/sources.list.d/amd-container-toolkit.list

更新索引并安装：

sudo apt update

安装Toolkit：

sudo apt install amd-container-toolkit

注册AMD容器运行时并重启Docker：

sudo amd-ctk runtime configure
sudo systemctl restart docker

安装GPUStack

用Docker安装并启动GPUStack Server：

sudo docker run -d --name gpustack 
    --restart unless-stopped 
    -p 80:80 
    --volume gpustack-data:/var/lib/gpustack 
    gpustack/gpustack

若需部署到其他端口，可修改xx:80，xx即端口号。

检查启动日志：

sudo docker logs -f gpustack

获取默认管理员密码：

sudo docker exec gpustack cat /var/lib/gpustack/initial_admin_password

在浏览器打开http://your_host_ip访问GPUStack UI，用默认用户名admin和获取的密码登录，首次登录需修改密码。

登录后还需添加集群和节点。在集群管理页面点击集群，选择添加集群。自建环境选Docker：

填写集群名称，保存：

在添加节点页面，GPU厂商选择AMD，然后下一步：

页面会给出环境检查命令，主要检查此前安装的ROCm驱动、Docker和AMD Container Toolkit：

在终端中运行：

amd-smi static >/dev/null 2>&1 && echo "AMD driver OK" || (echo "AMD driver issue"; exit 1) && sudo docker info 2>/dev/null | grep -q "amd" && echo "AMD Container Toolkit OK" || (echo "AMD Container Toolkit not configured"; exit 1)

正常会输出两个OK，否则检查前面各组件安装状态。

接着输入本机局域网IP地址：

点击完成，会出现添加节点的命令：

复制该命令在终端中运行，后台自动拉取Docker镜像，启动一个名为gpustack-worker的容器。

若容器启动成功，回到资源下的GPUs页面，就能看到AI Max 395被GPUStack成功识别。

部署AgentCPM-Explore模型API服务

GPU被识别后，点击模型下的部署，点击部署模型：

在部署模型下拉选框中选择ModelScope：

搜索AgentCPM，选择第一个AgentCPM-Explore：

右侧配置中，后端选vLLM，版本选0.13.0：

在高级中添加两个参数：

其中：
--gpu-memory-utilization=0.6分配60%显存资源（约60G）。
--max-model-len=262144设置最大上下文长度256K。若不需要这么大上下文，可适当调小以显著节省显存。

保存后，后台自动从ModelScope拉取模型权重和vLLM镜像启动模型。过程较长，可打开查看日志按钮跟踪进度：

当日志出现接口信息时，模型启动成功：

当状态显示Running时，模型API服务启动成功：

获取API Key、URL和模型名称等信息，点击右侧三个点，出现API接入信息：

这里显示接入模型API需填写的参数，包括URL地址和模型名称：

最后还需创建API Key进行认证，防止接口被滥用，按提示点击去创建：

在API密钥添加页面添加一个Key即可：

至此模型部署全部完成。

使用AgentCPM-Explore进行联网搜索任务

在Cherry Studio客户端中，找到模型服务里的GPUStack，填入部署好的模型接口信息。

添加完成后可点击检测，通过会显示✅，代表模型接入成功。

回到助手页面即可开始问答：

之前配置了一个投资分析助手的提示词，通过Cherry Studio的Google搜索插件，就能用AgentCPM-Explore结合Google搜索，完成类似DeepResearch的联网搜索问答任务。

这里只测试了Agent调用搜索引擎的能力。若需完整DeepResearch功能，建议使用AgentCPM-Report，通过接入开源Deep Research框架项目实现。

从测试结果看，AI Max 395上AgentCPM-Explore吞吐速度：首token prefill 867ms，生成速度约18 tks/s，单用户请求完全够用。

使用AgentCPM-Report进行DeepResearch任务

AgentCPM-Report的核心亮点

极致效能：通过平均40轮深度检索和近100轮思维链推演，全方位挖掘重组信息，端侧模型也能产出逻辑严密、洞察深刻的万字长文，以8B参数规模在深度调研任务上对标顶级闭源系统。
物理隔绝，本地安全：专为高隐私场景设计，支持完全离线本地化部署，杜绝云端泄密风险。基于UltraRAG框架，可高效挂载并理解本地私有知识库，让核心机密数据在“不出域”前提下安全转化为专业决策报告。

接下来在AI Max 395上用llama.cpp部署AgentCPM-Report模型服务。

部署AgentCPM-Report模型API服务

OpenBMB开源了两个格式的AgentCPM-Report模型。一是标准safetensors格式，可用vLLM推理框架部署，方式与AgentCPM-Explore相同，不再重复。

另一个是GGUF格式，适合GPU资源受限时CPU+GPU混合推理，尤其适合AI Max 395这类统一内存架构的核显迷你主机。

部署方式与AgentCPM-Explore类似，仍用GPUStack。区别在于GGUF格式需用llama.cpp作为后端推理框架。

最新GPUStack 2.0.3版本已不默认内置llama.cpp，需通过配置自定义后端推理框架支持。

操作步骤：

在推理后端页面，选择添加后端：

在添加后端页面选择YAML模式：

使用以下YAML配置文件：

backend_name: llama.cpp-custom
version_configs:
  v1:
    image_name: ghcr.io/ggml-org/llama.cpp:server-vulkan
    run_command: null
    entrypoint: null
    custom_framework: rocm
default_version: v1
default_backend_param: []
default_run_command: '-m {{model_path}} --host 0.0.0.0 --port {{port}}'
default_entrypoint: ''
is_built_in: false
description: null
health_check_path: null
built_in_version_configs: {}
framework_index_map:
  rocm:
    - v1

保存后，在部署页面搜索agentcpm-report，找到GGUF格式模型。后端选择用户定义分类下的llama.cpp，然后部署。

在高级中配置环境变量和命令行启动参数。详细环境变量与命令行参数参考下表：

核心环境变量一览表

环境变量	对应参数	默认值	描述
LLAMA_ARG_THREADS	-t, --threads	-1	生成线程数
LLAMA_ARG_CTX_SIZE	-c, --ctx-size	4096	上下文大小
LLAMA_ARG_N_PREDICT	-n, --n-predict	-1	预测token数
LLAMA_ARG_N_GPU_LAYERS	-ngl, --n-gpu-layers	0	GPU层数
LLAMA_ARG_MODEL	-m, --model	-	模型路径
HF_TOKEN	-hft, --hf-token	-	HuggingFace令牌

配置参数系统化分类

性能调优参数：

# CPU配置
LLAMA_ARG_THREADS=8        # 使用8个线程
LLAMA_ARG_THREADS_BATCH=4  # 批处理线程数

# 内存管理
LLAMA_ARG_MLOCK=1          # 锁定模型在内存中
LLAMA_ARG_NO_MMAP=0        # 启用内存映射

# GPU卸载
LLAMA_ARG_N_GPU_LAYERS=24  # 24层卸载到GPU
LLAMA_ARG_SPLIT_MODE=layer # 分层拆分模式

模型加载参数：

# 本地模型加载
LLAMA_ARG_MODEL="/path/to/model.gguf"

# 远程模型下载
LLAMA_ARG_HF_REPO="ggml-org/gemma-3-1b-it-GGUF"
HF_TOKEN="your_hf_token_here"

# 多模态支持
LLAMA_ARG_MMPROJ="/path/to/mmproj.bin"

生成控制参数：

# 上下文管理
LLAMA_ARG_CTX_SIZE=8192    # 8K上下文
LLAMA_ARG_KEEP=512         # 保留512个初始token

# 生成限制
LLAMA_ARG_N_PREDICT=256    # 最大生成256 token
LLAMA_ARG_TEMP=0.7         # 温度0.7

# 重复控制
LLAMA_ARG_REPEAT_PENALTY=1.1
LLAMA_ARG_REPEAT_LAST_N=64

根据AI Max 395性能，推荐的环境变量参数为：

LLAMA_ARG_THREADS=16
LLAMA_ARG_CTX_SIZE=65536
LLAMA_ARG_N_PREDICT=512
LLAMA_ARG_TEMP=0.1
LLAMA_ARG_MLOCK=1

在GPUStack中的配置方法：

注意：--ctx-size 65536设为64K，这是AgentCPM-Report支持的最大上下文长度。实际参数可根据需要灵活调整。保存后，模型自动下载并启动API服务，当出现绿色Running图标时，模型启动成功。

部署完成后，可将AgentCPM-Report接入任意Deep Research框架。以下为接入Dify构建的Deep Research框架测试效果，后续有兴趣可留言，会更新接入mirothinker的测试结果：