Claude Code视觉桥接方案：高效Agent自动化执行

2026-06-19阅读 0热度 0

Claude

首先，场景是这样的：当你在Claude Code里接了DeepSeek，模型本身是不具备视觉能力的。碰到图片就彻底“失明”——报错截图看不明白，设计稿也无从分析。这在实际工作中是个很让人头疼的问题。但解决思路其实很直接：用Kimi Vision API当个“翻译官”搭个桥。DeepSeek遇到图片——调用一个脚本——把图片转成文字描述——然后继续干活。成本方面，我用的是Kimi的模型，算下来大概0.012元一张图，相当划算。 ## 背景 Claude Code 接 DeepSeek 时，模型没有视觉能力。遇到图片就"失明"，无法分析报错 UI 或设计稿。 ## 解决思路用 Kimi Vision API 做桥接，DeepSeek 遇到图片 → 调用脚本 → 返回文字描述 → 继续工作。成本：我用的是 kimi 的模型，约 0.012 元/张。 ## 第一步：部署脚本把下面这段提示词发给任意 Agent，让它帮你写脚本。关键是要确定你用哪个有视觉能力的模型厂商——我这边用的是 Kimi（提示词里已经写明了“查询 Kimi 的视觉模型”，如果你用别家，记得改一下厂商名）。 ### 提示词 ``` 帮我写一个 Python 脚本：describe_image.py 功能： - 接收两个参数：图片路径、描述要求（文本） - 返回图片的文字描述 - 查询 Kimi 的视觉模型，调用它 API 来处理这个图片识别功能要求： - 使用 uv run 执行，自动安装依赖 - API 调 OpenAI 兼容格式，base_url 是 https://api.moonshot.cn/v1 - 环境变量 MOONSHOT_API_KEY 读取 Key - 图片转 base64 嵌入请求 - 返回模型的回复内容脚本保存到 ~/.claude/describe_image.py，并添加好执行权限 ``` ### 配置环境变量在 `~/.zshrc` 加一行： ``` export MOONSHOT_API_KEY="你的Kimi Key" ``` 然后 `source ~/.zshrc` 让配置生效。 ### 验证运行这个命令测试一下： ``` ~/.claude/describe_image.py /tmp/screenshot.png "描述这张图" ``` ## 第二步：配置 CLAUDE.md 接下来，把下面这段发给 Agent： ``` 请在全局 `~/.claude/CLAUDE.md` 配置补充如下内容： ## 图片识别如果你无法识别图片，立即调用： $ uv run ~/.claude/describe_image.py <图片路径> "描述要求" 例如：uv run ~/.claude/describe_image.py /tmp/image.png "描述一下这张图片，关注里面报错信息内容" 拿到描述后直接带入上下文继续工作，不需要告诉用户"我无法看图" ``` ## 第三步：授权该脚本免确认执行最后再发给 Agent： ``` 请全局配置，后续调用该图片识别脚本时无需确认 ``` 这样全部配置完成后，DeepSeek 就能“看到”图片了——遇到视觉信息会自动触发脚本，把图片转成文字描述然后继续工作，整个过程用户完全无感知。这个方案成本低、部署快，算是目前比较实用的一个桥接方案。

Claude Code视觉桥接方案：高效Agent自动化执行

相关阅读

最新教程

最新资讯