开源AI数字员工排行榜：中小企业首选安装方案

2026-06-10阅读 0热度 0

Claude

做了很长一段时间的AI Agent实战后，越来越觉得"工具"和"员工"之间，差的不只是定义。

之前聊过Claude的15个Agent工作流，不得不承认那些方案很前沿，但坦白讲，它们要么只能在Claude app里跑，要么复刻起来相当折腾。更实在的问题是，"数字员工"这个概念如果不落地到具体场景，对国内的中小企业来说，多少有点隔靴搔痒。

从实际体验来看，自己动手打磨的Skill往往最趁手。无论是辅助写作、视频生成，还是编程相关的自动化，真正能提效的，恰恰是那些针对具体场景、反复迭代过的小工具。这一批开源的"数字员工"，聚焦在邮件、文档、采集这类重复性高但又不能出错的活儿上。

为什么叫"数字员工"

不少朋友一听AI就觉得是高大上的黑科技，跟自己八竿子打不着。但说穿了，比起遥不可及的通用人工智能，此刻更需要的是能稳定执行具体任务的数字助手：

每天手动查收邮件、下载附件、整理内容，很多信息阅后即焚，毫无沉淀
拿到各种票据或者几百页的PDF合同，要提取关键信息写分析报告，里面的Markdown表格还要导出给领导看Excel
需要从多个网页采集竞品资料，再整理成可读文档

这些活儿，单拎出来哪件都不难，但堆在一起就是巨大的时间黑洞。这套Skill的设计逻辑，就是让AI Agent（比如Claude Code、Qoder、Cursor等）变成专属的数字员工，一句指令跑通整条链路。

项目地址与安装

GitHub：github·com/tjxj/z-skills

目前包含5个Skill，后续会持续更新。安装方式也很"说人话"——不管用Claude Code、Codex、Qoder还是Cursor，只要告诉Agent一句"把那个仓库里的5个Skill克隆下来并启用"，它就会自动完成全部工序。装完之后，所有使用都不需要记命令，只管发指令就好。

1. z-mail-reader：邮件读取与实时监听

这个是最早做的Skill，动机很简单——实在受不了每天早上手动翻邮箱了。

它能做什么？走IMAP协议连接任意邮箱，按时间范围批量拉取邮件，自动下载所有附件到本地，还能提取正文中的内嵌图片（CID内联图、HTML外链图、Base64嵌入图全支持）。输出结构化JSON后，Agent可以直接生成摘要。支持30秒轮询实时监听，新邮件到了自动处理和系统通知。中文兼容上做过专门处理，识别UTF-8、GBK、GB2312编码不会乱码。

一次性配置很简单，告诉Agent邮箱环境变量和IMAP地址就行。主流邮箱无非换一下IMAP地址的事。比如QQ邮箱获取授权码的路径：设置 → 账户 → POP3/IMAP/SMTP服务 → 开启IMAP → 生成授权码。

实际使用时，说一句"读一下最近7天的邮件，给我生成一份摘要"，或者"拉一下这周邮件，附件都下下来"，Agent会自动映射到对应脚本上，补齐时间范围和输出路径。输出的目录结构清晰可读，每封邮件独立文件夹，含附件图片和Agent生成的摘要。

典型场景：早上到公司让Agent先跑一遍，十几封邮件不到一分钟生成摘要清单，重要附件自动下载，正文图片也提取好了。手动一封一封翻邮件的麻烦，可以彻底省掉了。还能与后面的几个Skill联动，比如邮件附件的解析。

2. z-smart-xparse：智能文档解析

这是文档解析的增强版，核心亮点是大PDF自动切分合并。实际工作中经常遇到几十MB、几百页的PDF（招标文件、合同、技术规范书），直接给解析API必然超限。这个Skill会自动检测文件大小和页数，超了就切成小块逐个解析，最后合并成完整结果。

底层用的textin的xparse-cli，安装也是一句话的事。判断逻辑很直白：5MB以下且100页以内的直接解析，超出范围就自动切分。默认每块50页，配置付费API后可上调到200页一块，效率更高。

支持格式范围很广：PDF、图片免配置直接用；Word、PPT、Excel、HTML等需要付费API；还支持PDF指定页码范围、字符级结构化输出。

实际调用时，扔一句"把这份report.pdf转成markdown"，或者"这份300页的招标书读一下，提取关键资质要求和评分规则"，Agent会自己判断是否需要切分、是否需要付费API、是否走OCR，全部按最优路径执行。大文件的切分、逐块解析、合并都在后台完成，只看最终结果就好。

典型场景：300页的招标文件、扫描件合同、几十MB的技术规范书，一句"转成markdown"就能拿到表格、标题层级都保留的本地文档。

3. z-md-excel：Markdown表格提取到Excel

这个Skill看着简单，但用起来是真的爽。做技术调研的时候，习惯在Markdown里用表格整理对比信息。但汇报时领导要看Excel，手动复制粘贴调格式的体验，经历过的人都懂。

现在一句话搞定：把xx.md中的表格保存为excel。亮点在于自动检测所有表格，每个表格生成一个Sheet；保留GFM对齐方式；自动去除Markdown格式标记；输出蓝色表头、自适应列宽、冻结首行，开箱即用。还能自动跳过代码块里的"伪表格"，不会误识别。

实际使用场景：技术选型对比、产品能力矩阵、供应商报价表，写的时候在Markdown里骨架清晰，交付的时候一句话转成带专业格式的Excel。唯一限制是只支持GFM管道式表格，不支持HTML和嵌套表。

4. z-excel-editor：Excel全能编辑

这个Skill来自Claude Code开源社区，集成进来专门处理各种Excel操作。从创建新表格、编辑现有文件、添加公式、格式美化，到金融模型的专业规范（颜色编码、公式错误检测），一应俱全。

核心技术用openpyxl创建/编辑.xlsx，保留公式和格式；内置LibreOffice公式重算脚本，确保公式值实时更新。金融模型配色规范做得挺细：蓝色=输入值、黑色=公式、绿色=跨表引用、红色=跨文件引用、黄底=重点假设。数字格式也做了标准化处理。

设计哲学很明确：公式优先，永远不要把Python算出的值硬写到单元格，保证数据源变了表能重算。自动扫描公式错误，返回JSON错误定位，要求交付的表一定零公式错误。

典型场景：业务数据表补公式加表头、财务模型扫错、估值表格式规范化、给领导交付颜色与公式都专业的报表。

5. z-web-pack：网页素材包采集

搭建个人知识库的前置步骤，只做采集，核心功能是链接下钻和图片保存。在Agent里说一句"把这些链接采集为素材包"，或者"这是5个同主题的官方文档链接，帮我准备一份完整资料包，只采同域"，Agent会自动补齐参数，抓不到的页面走jina ai兜底。

输出是一个完整的素材包：包含概览、研究简报、链接清单、图片清单、阅读地图、主文正文、关联文章，图片本地化保存。MAIN-*.md是入口文章，LINKED-*.md是从正文里推导出来的关联资料，全部转成本地Markdown，图片用本地相对路径，离线也能读。

抓取策略上踩过不少坑：先走常规HTTP抓正文，GitHub链接走GitHub API或raw，Markdown、JSON等资源直接保存，实在抓不到才用r.jina.ai兜底。自动排除侧边栏、广告、页脚、社交分享按钮、推荐阅读区这些噪音，只保留正文核心内容。同时跳过登录、订阅、服务条款、Cookie这类与主题无关的页面。

典型场景：文章选题的资料准备、竞品产品调研、文献综述、咨询类报告初期资料多点位采集。扔一批链接，一杯咖啡的时间拿到一份带本地图片、能离线读的完整资料包。

重要提醒：需要根据实际情况定制

得说清楚一件事——这些Skill不是拿来就能直接用的万能模板。每个企业的实际情况不同，直接复制粘贴会遇到问题：

邮件系统差异：案例写的是QQ邮箱，但实际用的可能是Exchange、Gmail、企业微信邮箱甚至自建邮件服务器。IMAP地址、授权方式、文件夹命名规则都不一样。
文档解析需求不同：有的企业主要处理扫描件PDF需要OCR，有的主要处理Word合同需要保留格式，有的需要提取表格数据做后续计算。
目录结构和命名规则：输出路径和文件命名方式需要调整成适合团队协作习惯的版本。

但这就是Skill的设计哲学——给你一个经过验证的骨架，在上面长自己的肉。

串联起来：Agent工作流才是终极形态

单个Skill已经很有用了，但真正的威力在于把它们串成工作流。串联起来之后，在Agent里还是一句话触发整条链，中间各个Skill之间怎么传参、怎么调度，是Agent自己的事。

AI 数字员工工作流

在Agent里只需要说一句："拉一下今天邮件，遇到PDF附件都解析成markdown，里面的表格导出为Excel，最后补全公式、按金融模型颜色规范整理好。"Agent会依次调起z-mail-reader、z-smart-xparse、z-md-excel、z-excel-editor，把上个产出作为下个输入，最终交一份可直接汇报的Excel。

整条链路下来，从收到邮件到产出结果，全程自动化，只需要审核最终产出。这几个Skill可以任意组合：

竞品产品周报：z-web-pack多入口采集 → z-md-excel转对比表 → z-excel-editor美化
招标文件快速合规：z-mail-reader拉邮件 → z-smart-xparse解析 → Agent生成合规报告
财务月报闭环：z-mail-reader拉报表 → z-smart-xparse解析 → z-excel-editor重构

后面还计划对接飞书，实现更多自动化场景：邮件摘要自动推送到飞书群、文档解析结果自动写入飞书多维表格、定时采集竞品信息自动更新飞书文档。

为什么走Skill这条路

这套开源Skill集合，本质上是把AI Agent从"聊天机器人"变成"能干活的数字员工"。为什么要走这条路径，而不是直接跟大模型对话？

流程可复现：一次写好，千次复用，不会因为提示词措辞不同而出现偏差
可审核可调试：脚本、参数、输出都是明文的，出问题能定位
跨Agent工具：Claude Code、Qoder、Cursor都能用，不被单一厂商锁定
多个Skill能串起来：上一个的输出是下一个的输入，拼出真正的全流程自动化

适合什么人用？中小企业里负责信息处理、文档管理的同事；想用AI Agent自动化日常工作流的技术或半技术人员；正在用Claude Code、Qoder、Cursor等Agent工具的开发者；想看看"别人是怎么写Skill的"，照着骨架创建自己专属数字员工的同学。

这套Skill会持续更新更多实用模块。如果你有什么日常工作中的痛点想做成Skill，评论区欢迎来聊，说不定下一个就安排上了。