构建文章配图视觉系统:Codex Skill可复用方案
技术文章配图最让人头疼的,不是画不出来,而是画出来总违和:第一张像手绘涂鸦,第二张突然变成商业海报风格,第三张又成了3D渲染——风格完全割裂。更棘手的是,想让同一个角色贯穿全文,每次生成出来却像换了个人。而文章真正要传递的判断逻辑、操作流程、易错点或取舍决策,配图却沦为毫无信息量的装饰画。
为了根治这些问题,近期有人打磨出一个专门的 Codex Skill(基于原版小黑 skill 二次开发)。它的设计思路非常直接:先通读整篇文章,定位出最值得可视化的“认知锚点”,再把这些锚点转化为插图。这样一来,配图不再是随机的装饰,而是内容逻辑的直观延伸。
这个 Skill 支持多条视觉 IP 路线,你可以根据文章主题灵活切换:
- 小黑:默认路线,适合方法论、判断逻辑、流程拆解、系统架构视角
- 小盒:纸盒角色,适合整理归纳、收纳打包、交付验收、修补类隐喻
- Ferris:Rust 社区吉祥物,适合 Rust、系统工程、可靠性主题
- Go Gopher:Go 语言吉祥物,适合 Go 技术文章
- Seal:连帽衫海豹,适合产品中立、代码评审、优先级排序、协作主题
- OpenClaw:适合 OpenClaw 相关工作流和项目解释
下面是各 IP 的示例效果,可以直观感受不同角色的视觉风格差异:
| 小黑 | 小盒 | Tom | Ferris | Seal | OpenClaw | Go Gopher |
|---|---|---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
当然,任何文章都可以选用任意 IP 形象,没有硬性标准,全凭个人喜好。
它的输出相当完整:一篇文章可自动生成 4 到 8 张插图规划,每张图都包含插入位置、画面主题、核心语义、角色动作、可见文字标签,最后输出 PNG 图片。这里有两个关键优势:
第一,插图始终服务于内容。优先画清楚一个判断、一个流程、一个状态变化,而不是单纯追求视觉好看。
第二,视觉 IP 可以长期复用。当同一个角色在多篇文章里反复出现,读者会逐渐建立熟悉感。对个人写作者、技术博客、产品团队来说,这种稳定的视觉语言能形成独特的品牌识别度。
安装与使用
安装极其简单,在终端里执行一行命令即可:
npx skills add yangchuansheng/visual-ip-illustrations --skill visual-ip-illustrations
使用方式更直接——在 Codex 中调用 Skill,然后把文章内容和期望的视觉 IP 交给它。例如:
- “用小黑给这篇文章生成 6 张正文插图。”
- “用 Go Gopher 给这篇 Go 技术文章做插图。”
- “用 Ferris 做一组 Rust 编译流程的解释图。”
这个项目已经开源,任何人都可以上手尝试。如果你经常写技术文章、产品文章、方法论文章,不妨拿来跑一遍,看看在真实写作场景里能碰撞出什么效果。
配图这件事,未来应该会从一次性生成,慢慢演变成一套可复用的视觉系统。这个项目正是朝这个方向迈出的务实一步。






