AI Max 395部署AgentCPM与DeepResearch实战精选
最近一直在深度测试DeepResearch智能体,正好OpenBMB开源社区发布了AgentCPM-Explore(4B参数)与AgentCPM-Report(8B参数)两款专用模型,面向智能体及深度调研场景。小参数量、开源、可本地部署,这几个关键词组合起来,就值得立刻上手实操。
这篇教程完整记录了在AI Max 395统一内存架构迷你主机上,从模型部署到调用的全流程。如果你算力有限但想跑通联网搜索和Deep Research的本地方案,这条技术路线值得参考。
AgentCPM-Explore
AgentCPM-Explore的亮点:4B参数模型在GAIA、HLE、BrowseComp等8个长程复杂智能体任务榜均登顶,是首个以全量4B做到这点的高密度模型。它支持超100轮连续环境交互,能交叉验证多源信息、动态调整搜索策略,并实时核验最新信息,直到任务完成。
全流程开源:智能体全异步强化学习框架AgentRL、工具沙盒管理平台AgentDock,以及一键测评平台AgentToLeaP,社区可自由扩展定制。
测试数据中,在Xbench-DeepResearch上,AgentCPM-Explore的表现已超越OpenAI o3、Claude 4.5 Sonnet等闭源模型,且在不同量级SOTA模型趋势线上跑出更高能力密度。
AgentCPM-Report
另一款8B参数的Deep Research专用模型。在DeepResearch Bench、Deep Consult和DeepResearch Gym三大主流深度调研评测基准中,AgentCPM-Report综合评分达到甚至超越顶级闭源系统。最考验深度的洞察性指标排名第一;全面性指标仅次基于Claude的复杂写作框架,稳定在第一梯队。
AI Max+ 395
手头这台零刻GTR9 Pro搭载AMD在2025年CES发布的AI Max+ 395(代号Strix Halo),旗舰处理器,RDNA 3.5架构的Radeon 8060S集成显卡,40个计算单元,显存带宽256GB/s,性能与移动版RTX 4060独显持平。
标配128GB LPDDR5X内存(8000MT/s),2T固态硬盘。AI Max+ 395采用统一内存架构,BIOS中可将128G内存的96G分配给显存——本地跑AI项目的硬件底子极扎实。
接下来的教程核心:如何在AI Max 395上本地跑起AgentCPM + DeepResearch智能体项目。
安装驱动和ROCm
新机到手建议直接放弃Windows,转用Ubuntu。AI组件依赖在Linux下编译安装友好得多。实在需要Windows,也建议用WSL部署。
第一步去官网下载驱动:
https://www.amd.com/zh-cn/support/downloads/drivers.html/proc...
官网提供Win11、Win10和Ubuntu三个版本:
我这台到手重置系统,删了Win11直接装Ubuntu 24.04,教程全基于此。
AMD官方提到,Ubuntu内核6.12.0-1018搭配Ryzen AI Max 395(gfx1151)跑LLM推理时,可能间歇性应用崩溃或脚本失败。所以先升级Linux内核:
sudo apt update && sudo apt install linux-image-6.14.0-1017-oem装完重启到6.14 OEM内核:
uname -r然后更新系统:
sudo apt upgrade -y接着下载安装amdgpu-install运行脚本:
sudo apt update
wget https://repo.radeon.com/amdgpu-install/7.1.1/ubuntu/noble/amdgpu-install_7.1.1.70101-1_all.deb
sudo apt install ./amdgpu-install_7.1.1.70101-1_all.deb安装ROCm:
amdgpu-install -y --usecase=rocm --no-dkms设置权限组:
groups将用户添加到渲染和视频权限组:
sudo usermod -a -G render,video $LOGNAME重启系统:
sudo reboot重启后验证:
groups输出:magicyang adm cdrom sudo dip video plugdev users lpadmin docker render
再执行验证命令:
rocminfo类似NVIDIA的nvidia-smi,AMD用rocm-smi监控GPU状态:
rocm-smi显存扩容
AI Max 395分配显存有两种方案:BIOS分配,或修改GTT内存池参数。
通过BIOS进行分配
- 进入BIOS:开机反复按F2或Delete键。
- 进入高级菜单:选择Advanced或AMD CBS。
- 找到显存配置:路径通常是
iGPU Memory Configuration或GFX Configuration→UMA Frame buffer Size。 - 设置数值:将配置模式设为Custom,在
iGPU Memory Size中选择所需大小。AI Max+ 395配128GB内存时,BIOS最高可分配96GB作为固定显存。
通过修改内核参数进行分配
AMD APU的GPU并无真正的“固定显存”——CPU、GPU、NPU封装在同一SOC上,共享系统内存(UMA)。GPU显存就是系统内存一部分。只要系统内存足够大(128GB、192GB),GPU就能直接用到巨大的“显存”。
Linux AMD GPU驱动支持GTT(Graphics Translation Table)内存池,“扩显存”本质是扩大GTT池而非VRAM。GPU通过IOMMU/内存映射直接访问系统RAM,相当于把系统内存当作显存。
除BIOS设置外,还能通过修改内核参数(如amdttm.pages_limit)实现更极端分配(100GB以上),需通过GRUB命令行工具(如grubby)配置。
sudo nano /etc/default/grub找到GRUB_CMDLINE_LINUX_DEFAULT行,改为:
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash ttm.pages_limit=27648000 ttm.page_pool_size=27648000 amdttm.pages_limit=27648000 amdttm.page_pool_size=27648000 apparmor=0 amd_iommu=off"注意:内核参数分配的显存不要超过108GB。根据Jeff Geerling测试,当前Linux内核对AMD兼容性还有提升空间,分配大小建议按27648000设置,不宜过大。
修改完成Ctrl+O保存,然后重启:
sudo update-grub
sudo grub-install
sudo reboot重启后检查是否生效:
cat /proc/cmdline设置共享内存大小(可选)
ROCm使用共享系统内存池,默认配置为系统内存一半。可通过修改内核TTM页面设置增加数值。
安装pipx:
sudo apt install pipx将pipx安装的wheels路径添加到系统搜索路径:
pipx ensurepath从PyPi安装amd-debug-tools:
pipx install amd-debug-tools运行amd-ttm工具查询当前共享内存设置:
amd-ttm使用--set参数重新配置共享内存(单位GB):
amd-ttm --set 16注意:共享内存大小需根据分配给显存后剩余的内存来设置。
重启系统:
sudo reboot部署GPUStack
GPUStack是开源GPU集群管理器,专为高效AI模型部署设计。它能选择最佳推理引擎、调度GPU资源、分析模型架构并自动配置部署参数,在自有GPU硬件上高效运行大模型。
GPUStack内置支持的推理后端:
- vLLM
- SGLang
- MindIE
- VoxBox
通过添加自定义推理引擎可支持llama.cpp。
安装Toolkit和Docker
- 确保至少配备一个AMD AI Max 395 GPU节点。
- 确保工作节点安装ROCm驱动、Docker和AMD Container Toolkit。
Docker版本需≥28.3.0,安装方法自行查阅。此处仅给出AMD Container Toolkit安装步骤。
更新系统:
sudo apt update将当前用户添加到GPU设备访问组:
sudo usermod -a -G render,video $LOGNAME安装依赖:
sudo apt update
sudo apt install vim wget nano gpg创建密钥目录:
sudo mkdir --parents --mode=0755 /etc/apt/keyrings安装GPG密钥和仓库链接:
wget https://repo.radeon.com/rocm/rocm.gpg.key -O - | gpg --dearmor | sudo tee /etc/apt/keyrings/rocm.gpg > /dev/null添加AMD Container Toolkit仓库:
- Ubuntu 22.04:
echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/amd-container-toolkit/apt/ jammy main" | sudo tee /etc/apt/sources.list.d/amd-container-toolkit.list
- Ubuntu 24.04:
echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/amd-container-toolkit/apt/ noble main" | sudo tee /etc/apt/sources.list.d/amd-container-toolkit.list
更新索引并安装:
sudo apt update
安装Toolkit:
sudo apt install amd-container-toolkit
注册AMD容器运行时并重启Docker:
sudo amd-ctk runtime configure
sudo systemctl restart docker
安装GPUStack
用Docker安装并启动GPUStack Server:
sudo docker run -d --name gpustack
--restart unless-stopped
-p 80:80
--volume gpustack-data:/var/lib/gpustack
gpustack/gpustack
若需部署到其他端口,可修改xx:80,xx即端口号。
检查启动日志:
sudo docker logs -f gpustack
获取默认管理员密码:
sudo docker exec gpustack cat /var/lib/gpustack/initial_admin_password
在浏览器打开http://your_host_ip访问GPUStack UI,用默认用户名admin和获取的密码登录,首次登录需修改密码。
登录后还需添加集群和节点。在集群管理页面点击集群,选择添加集群。自建环境选Docker:
填写集群名称,保存:
在添加节点页面,GPU厂商选择AMD,然后下一步:
页面会给出环境检查命令,主要检查此前安装的ROCm驱动、Docker和AMD Container Toolkit:
在终端中运行:
amd-smi static >/dev/null 2>&1 && echo "AMD driver OK" || (echo "AMD driver issue"; exit 1) && sudo docker info 2>/dev/null | grep -q "amd" && echo "AMD Container Toolkit OK" || (echo "AMD Container Toolkit not configured"; exit 1)
正常会输出两个OK,否则检查前面各组件安装状态。
接着输入本机局域网IP地址:
点击完成,会出现添加节点的命令:
复制该命令在终端中运行,后台自动拉取Docker镜像,启动一个名为gpustack-worker的容器。
若容器启动成功,回到资源下的GPUs页面,就能看到AI Max 395被GPUStack成功识别。
部署AgentCPM-Explore模型API服务
GPU被识别后,点击模型下的部署,点击部署模型:
在部署模型下拉选框中选择ModelScope:
搜索AgentCPM,选择第一个AgentCPM-Explore:
右侧配置中,后端选vLLM,版本选0.13.0:
在高级中添加两个参数:
其中:--gpu-memory-utilization=0.6分配60%显存资源(约60G)。--max-model-len=262144设置最大上下文长度256K。若不需要这么大上下文,可适当调小以显著节省显存。
保存后,后台自动从ModelScope拉取模型权重和vLLM镜像启动模型。过程较长,可打开查看日志按钮跟踪进度:
当日志出现接口信息时,模型启动成功:
当状态显示Running时,模型API服务启动成功:
获取API Key、URL和模型名称等信息,点击右侧三个点,出现API接入信息:
这里显示接入模型API需填写的参数,包括URL地址和模型名称:
最后还需创建API Key进行认证,防止接口被滥用,按提示点击去创建:
在API密钥添加页面添加一个Key即可:
至此模型部署全部完成。
使用AgentCPM-Explore进行联网搜索任务
在Cherry Studio客户端中,找到模型服务里的GPUStack,填入部署好的模型接口信息。
添加完成后可点击检测,通过会显示✅,代表模型接入成功。
回到助手页面即可开始问答:
之前配置了一个投资分析助手的提示词,通过Cherry Studio的Google搜索插件,就能用AgentCPM-Explore结合Google搜索,完成类似DeepResearch的联网搜索问答任务。
这里只测试了Agent调用搜索引擎的能力。若需完整DeepResearch功能,建议使用AgentCPM-Report,通过接入开源Deep Research框架项目实现。
从测试结果看,AI Max 395上AgentCPM-Explore吞吐速度:首token prefill 867ms,生成速度约18 tks/s,单用户请求完全够用。
使用AgentCPM-Report进行DeepResearch任务
AgentCPM-Report的核心亮点
- 极致效能:通过平均40轮深度检索和近100轮思维链推演,全方位挖掘重组信息,端侧模型也能产出逻辑严密、洞察深刻的万字长文,以8B参数规模在深度调研任务上对标顶级闭源系统。
- 物理隔绝,本地安全:专为高隐私场景设计,支持完全离线本地化部署,杜绝云端泄密风险。基于UltraRAG框架,可高效挂载并理解本地私有知识库,让核心机密数据在“不出域”前提下安全转化为专业决策报告。
接下来在AI Max 395上用llama.cpp部署AgentCPM-Report模型服务。
部署AgentCPM-Report模型API服务
OpenBMB开源了两个格式的AgentCPM-Report模型。一是标准safetensors格式,可用vLLM推理框架部署,方式与AgentCPM-Explore相同,不再重复。
另一个是GGUF格式,适合GPU资源受限时CPU+GPU混合推理,尤其适合AI Max 395这类统一内存架构的核显迷你主机。
部署方式与AgentCPM-Explore类似,仍用GPUStack。区别在于GGUF格式需用llama.cpp作为后端推理框架。
最新GPUStack 2.0.3版本已不默认内置llama.cpp,需通过配置自定义后端推理框架支持。
操作步骤:
在推理后端页面,选择添加后端:
在添加后端页面选择YAML模式:
使用以下YAML配置文件:
backend_name: llama.cpp-custom
version_configs:
v1:
image_name: ghcr.io/ggml-org/llama.cpp:server-vulkan
run_command: null
entrypoint: null
custom_framework: rocm
default_version: v1
default_backend_param: []
default_run_command: '-m {{model_path}} --host 0.0.0.0 --port {{port}}'
default_entrypoint: ''
is_built_in: false
description: null
health_check_path: null
built_in_version_configs: {}
framework_index_map:
rocm:
- v1
保存后,在部署页面搜索agentcpm-report,找到GGUF格式模型。后端选择用户定义分类下的llama.cpp,然后部署。
在高级中配置环境变量和命令行启动参数。详细环境变量与命令行参数参考下表:
核心环境变量一览表
| 环境变量 | 对应参数 | 默认值 | 描述 |
|---|---|---|---|
| LLAMA_ARG_THREADS | -t, --threads | -1 | 生成线程数 |
| LLAMA_ARG_CTX_SIZE | -c, --ctx-size | 4096 | 上下文大小 |
| LLAMA_ARG_N_PREDICT | -n, --n-predict | -1 | 预测token数 |
| LLAMA_ARG_N_GPU_LAYERS | -ngl, --n-gpu-layers | 0 | GPU层数 |
| LLAMA_ARG_MODEL | -m, --model | - | 模型路径 |
| HF_TOKEN | -hft, --hf-token | - | HuggingFace令牌 |
配置参数系统化分类
性能调优参数:
# CPU配置
LLAMA_ARG_THREADS=8 # 使用8个线程
LLAMA_ARG_THREADS_BATCH=4 # 批处理线程数
# 内存管理
LLAMA_ARG_MLOCK=1 # 锁定模型在内存中
LLAMA_ARG_NO_MMAP=0 # 启用内存映射
# GPU卸载
LLAMA_ARG_N_GPU_LAYERS=24 # 24层卸载到GPU
LLAMA_ARG_SPLIT_MODE=layer # 分层拆分模式
模型加载参数:
# 本地模型加载
LLAMA_ARG_MODEL="/path/to/model.gguf"
# 远程模型下载
LLAMA_ARG_HF_REPO="ggml-org/gemma-3-1b-it-GGUF"
HF_TOKEN="your_hf_token_here"
# 多模态支持
LLAMA_ARG_MMPROJ="/path/to/mmproj.bin"
生成控制参数:
# 上下文管理
LLAMA_ARG_CTX_SIZE=8192 # 8K上下文
LLAMA_ARG_KEEP=512 # 保留512个初始token
# 生成限制
LLAMA_ARG_N_PREDICT=256 # 最大生成256 token
LLAMA_ARG_TEMP=0.7 # 温度0.7
# 重复控制
LLAMA_ARG_REPEAT_PENALTY=1.1
LLAMA_ARG_REPEAT_LAST_N=64
根据AI Max 395性能,推荐的环境变量参数为:
LLAMA_ARG_THREADS=16
LLAMA_ARG_CTX_SIZE=65536
LLAMA_ARG_N_PREDICT=512
LLAMA_ARG_TEMP=0.1
LLAMA_ARG_MLOCK=1
在GPUStack中的配置方法:
注意:--ctx-size 65536设为64K,这是AgentCPM-Report支持的最大上下文长度。实际参数可根据需要灵活调整。保存后,模型自动下载并启动API服务,当出现绿色Running图标时,模型启动成功。
部署完成后,可将AgentCPM-Report接入任意Deep Research框架。以下为接入Dify构建的Deep Research框架测试效果,后续有兴趣可留言,会更新接入mirothinker的测试结果:








































