OpenClaw imageModel 配置指南
OpenClaw imageModel 配置指南
一、什么是 imageModel
简单来说,imageModel 就是 OpenClaw 里专门负责“看图说话”的那套配置。它和负责日常聊天的那个主模型(model)是分开的。一旦对话里出现了图片或者需要视觉分析的内容,系统就会自动切换到这个专门的视觉模型来处理,整个过程对用户是无感的。
二、为什么需要单独配置
这里有个关键点:并不是所有的大语言模型都“长着眼睛”。有的模型专攻文本,速度飞快,但对图片束手无策。比如,MiniMax-M2.5-highspeed 就是一个纯文本模型,你发张图给它,它根本“看”不到。
而像 moonshot/kimi-k2.5 这类模型,则是真正的“多面手”,既能处理文字,也能理解图像。
所以,单独配置 imageModel 的精妙之处就在这里:日常纯文本对话,交给速度快、成本低的文本模型;一旦涉及图片,立刻无缝切换到支持多模态的视觉模型。这样一来,既能保证日常交互的效率,又能在需要时获得强大的视觉理解能力,可谓鱼与熊掌兼得。
三、配置方式
配置都在 OpenClaw 的主配置文件里进行,通过命令 openclaw config edit 就能打开。核心就是 agents.defaults 这个部分。
{
"agents": {
"defaults": {
"model": {
"primary": "minimax-portal/MiniMax-M2.5-highspeed",
"fallbacks": ["moonshot/kimi-k2.5", "anthropic/claude-opus-4-6"]
},
"imageModel": {
"primary": "moonshot/kimi-k2.5",
"fallbacks": ["openrouter/qwen/qwen-2.5-vl-72b-instruct:free"]
}
}
}
}
具体写法上,系统提供了两种格式,用起来都很方便:
// 简写形式:只指定主模型,不设置回退链
"imageModel": "moonshot/kimi-k2.5"
// 完整形式:指定主模型和完整的回退链,容错性更强
"imageModel": {
"primary": "moonshot/kimi-k2.5",
"fallbacks": ["openrouter/google/gemini-2.0-flash-vision:free"]
}
四、CLI 管理命令
除了直接编辑配置文件,OpenClaw 还提供了一套直观的命令行工具来管理 imageModel,对于喜欢敲命令的开发者来说尤其顺手。
# 查看当前 imageModel 的运行状态
openclaw models status
# 快速设置 imageModel 的主模型
openclaw models set-image moonshot/kimi-k2.5
# 以下是管理回退链的一系列命令
openclaw models image-fallbacks list
openclaw models image-fallbacks add openrouter/qwen/qwen-2.5-vl-72b-instruct:free
openclaw models image-fallbacks remove openrouter/qwen/qwen-2.5-vl-72b-instruct:free
openclaw models image-fallbacks clear
五、触发场景
那么,具体在哪些情况下会触发这个视觉模型呢?主要有以下四类场景:
| 场景 | 说明 |
|---|---|
| 用户发送图片 | 当用户上传照片、截图等图片附件,需要 Agent 进行描述、分析或回答相关问题时。 |
| 用户发送 PDF | 当 PDF 文件内包含扫描页或图片,需要进行视觉内容分析时(系统会先检查 pdfModel 配置,如果没配,则回退使用 imageModel)。 |
| 媒体理解管线 | 当收到的图片或视频截帧进入自动媒体理解与分析流程时。 |
| Agent 工具调用 | 当 Agent 主动调用其内置的 image 工具来分析或处理图片时。 |
六、回退逻辑
为了保证服务的可用性,imageModel 配置了清晰的故障转移链,也就是回退逻辑。整个调用顺序是这样的:
imageModel.primary → imageModel.fallbacks[0] → fallbacks[1] → ...
系统会从主模型开始逐个尝试,只要有一个模型调用成功,就会立刻返回结果。如果配置链上的所有模型都尝试失败了,那么系统会抛出一个明确的错误提示:
“No image model configured. Set agents.defaults.imageModel.primary or agents.defaults.imageModel.fallbacks.”
七、与 pdfModel 的关系
这里需要注意一下处理 PDF 文件时的模型优先级,它们之间是有调用顺序的:
PDF 处理优先级:pdfModel → imageModel → 内置 provider 默认值
换句话说,当处理 PDF 时,系统会首先使用你专门为 PDF 配置的 pdfModel。只有当你没有配置 pdfModel 时,PDF 处理工具才会自动回退,去使用 imageModel 的配置链。这是一个很重要的设计,让你可以分别为图文 PDF 和纯图像分析指定最合适的模型。
八、内置默认图像模型(无配置时)
如果你图省事,完全没有配置 imageModel,OpenClaw 也不会罢工。当系统检测到需要处理图片,且识别出你配置了某个供应商的 API Key 时,它会自动启用一套内置的默认模型。这套默认配置是:
| Provider | 默认模型 |
|---|---|
| OpenAI | gpt-5-mini |
| Anthropic | claude-opus-4-6 |
gemini-3-flash-preview | |
| MiniMax | MiniMax-VL-01 |
| ZAI | glm-4.6v |
九、完整配置示例
最后,让我们来看一个综合性的配置示例,把主模型、视觉模型、PDF模型以及模型别名都放在一起,这样能更清楚地理解它们是如何协同工作的:
{
"agents": {
"defaults": {
"model": {
"primary": "minimax-portal/MiniMax-M2.5-highspeed",
"fallbacks": ["moonshot/kimi-k2.5", "anthropic/claude-opus-4-6"]
},
"imageModel": {
"primary": "moonshot/kimi-k2.5",
"fallbacks": ["openrouter/google/gemini-2.0-flash-vision:free"]
},
"pdfModel": {
"primary": "anthropic/claude-opus-4-6"
},
"models": {
"moonshot/kimi-k2.5": { "alias": "kimi" },
"minimax-portal/MiniMax-M2.5-highspeed": { "alias": "mm" }
}
}
}
}
这个配置达成的工作流非常清晰:
- 纯文本对话时 → 使用速度快、成本低的
MiniMax-M2.5-highspeed。 - 用户发送图片时 → 自动切换到能力强的
moonshot/kimi-k2.5,如果它不可用,则回退到gemini-2.0-flash-vision。 - 用户发送 PDF 时 → 优先使用专门配置的、擅长文档处理的
claude-opus-4-6。
通过这样分层、分场景的配置,整个系统的资源利用和任务分配就达到了一个非常理想的平衡状态。