开源AI数字员工排行榜:中小企业首选安装方案
做了很长一段时间的AI Agent实战后,越来越觉得"工具"和"员工"之间,差的不只是定义。
之前聊过Claude的15个Agent工作流,不得不承认那些方案很前沿,但坦白讲,它们要么只能在Claude app里跑,要么复刻起来相当折腾。更实在的问题是,"数字员工"这个概念如果不落地到具体场景,对国内的中小企业来说,多少有点隔靴搔痒。
从实际体验来看,自己动手打磨的Skill往往最趁手。无论是辅助写作、视频生成,还是编程相关的自动化,真正能提效的,恰恰是那些针对具体场景、反复迭代过的小工具。这一批开源的"数字员工",聚焦在邮件、文档、采集这类重复性高但又不能出错的活儿上。
为什么叫"数字员工"
不少朋友一听AI就觉得是高大上的黑科技,跟自己八竿子打不着。但说穿了,比起遥不可及的通用人工智能,此刻更需要的是能稳定执行具体任务的数字助手:
- 每天手动查收邮件、下载附件、整理内容,很多信息阅后即焚,毫无沉淀
- 拿到各种票据或者几百页的PDF合同,要提取关键信息写分析报告,里面的Markdown表格还要导出给领导看Excel
- 需要从多个网页采集竞品资料,再整理成可读文档
这些活儿,单拎出来哪件都不难,但堆在一起就是巨大的时间黑洞。这套Skill的设计逻辑,就是让AI Agent(比如Claude Code、Qoder、Cursor等)变成专属的数字员工,一句指令跑通整条链路。
项目地址与安装
GitHub:github·com/tjxj/z-skills
目前包含5个Skill,后续会持续更新。安装方式也很"说人话"——不管用Claude Code、Codex、Qoder还是Cursor,只要告诉Agent一句"把那个仓库里的5个Skill克隆下来并启用",它就会自动完成全部工序。装完之后,所有使用都不需要记命令,只管发指令就好。
1. z-mail-reader:邮件读取与实时监听
这个是最早做的Skill,动机很简单——实在受不了每天早上手动翻邮箱了。
它能做什么?走IMAP协议连接任意邮箱,按时间范围批量拉取邮件,自动下载所有附件到本地,还能提取正文中的内嵌图片(CID内联图、HTML外链图、Base64嵌入图全支持)。输出结构化JSON后,Agent可以直接生成摘要。支持30秒轮询实时监听,新邮件到了自动处理和系统通知。中文兼容上做过专门处理,识别UTF-8、GBK、GB2312编码不会乱码。
一次性配置很简单,告诉Agent邮箱环境变量和IMAP地址就行。主流邮箱无非换一下IMAP地址的事。比如QQ邮箱获取授权码的路径:设置 → 账户 → POP3/IMAP/SMTP服务 → 开启IMAP → 生成授权码。
实际使用时,说一句"读一下最近7天的邮件,给我生成一份摘要",或者"拉一下这周邮件,附件都下下来",Agent会自动映射到对应脚本上,补齐时间范围和输出路径。输出的目录结构清晰可读,每封邮件独立文件夹,含附件图片和Agent生成的摘要。
典型场景:早上到公司让Agent先跑一遍,十几封邮件不到一分钟生成摘要清单,重要附件自动下载,正文图片也提取好了。手动一封一封翻邮件的麻烦,可以彻底省掉了。还能与后面的几个Skill联动,比如邮件附件的解析。
2. z-smart-xparse:智能文档解析
这是文档解析的增强版,核心亮点是大PDF自动切分合并。实际工作中经常遇到几十MB、几百页的PDF(招标文件、合同、技术规范书),直接给解析API必然超限。这个Skill会自动检测文件大小和页数,超了就切成小块逐个解析,最后合并成完整结果。
底层用的textin的xparse-cli,安装也是一句话的事。判断逻辑很直白:5MB以下且100页以内的直接解析,超出范围就自动切分。默认每块50页,配置付费API后可上调到200页一块,效率更高。
支持格式范围很广:PDF、图片免配置直接用;Word、PPT、Excel、HTML等需要付费API;还支持PDF指定页码范围、字符级结构化输出。
实际调用时,扔一句"把这份report.pdf转成markdown",或者"这份300页的招标书读一下,提取关键资质要求和评分规则",Agent会自己判断是否需要切分、是否需要付费API、是否走OCR,全部按最优路径执行。大文件的切分、逐块解析、合并都在后台完成,只看最终结果就好。
典型场景:300页的招标文件、扫描件合同、几十MB的技术规范书,一句"转成markdown"就能拿到表格、标题层级都保留的本地文档。
3. z-md-excel:Markdown表格提取到Excel
这个Skill看着简单,但用起来是真的爽。做技术调研的时候,习惯在Markdown里用表格整理对比信息。但汇报时领导要看Excel,手动复制粘贴调格式的体验,经历过的人都懂。
现在一句话搞定:把xx.md中的表格保存为excel。亮点在于自动检测所有表格,每个表格生成一个Sheet;保留GFM对齐方式;自动去除Markdown格式标记;输出蓝色表头、自适应列宽、冻结首行,开箱即用。还能自动跳过代码块里的"伪表格",不会误识别。
实际使用场景:技术选型对比、产品能力矩阵、供应商报价表,写的时候在Markdown里骨架清晰,交付的时候一句话转成带专业格式的Excel。唯一限制是只支持GFM管道式表格,不支持HTML和嵌套表。
4. z-excel-editor:Excel全能编辑
这个Skill来自Claude Code开源社区,集成进来专门处理各种Excel操作。从创建新表格、编辑现有文件、添加公式、格式美化,到金融模型的专业规范(颜色编码、公式错误检测),一应俱全。
核心技术用openpyxl创建/编辑.xlsx,保留公式和格式;内置LibreOffice公式重算脚本,确保公式值实时更新。金融模型配色规范做得挺细:蓝色=输入值、黑色=公式、绿色=跨表引用、红色=跨文件引用、黄底=重点假设。数字格式也做了标准化处理。
设计哲学很明确:公式优先,永远不要把Python算出的值硬写到单元格,保证数据源变了表能重算。自动扫描公式错误,返回JSON错误定位,要求交付的表一定零公式错误。
典型场景:业务数据表补公式加表头、财务模型扫错、估值表格式规范化、给领导交付颜色与公式都专业的报表。
5. z-web-pack:网页素材包采集
搭建个人知识库的前置步骤,只做采集,核心功能是链接下钻和图片保存。在Agent里说一句"把这些链接采集为素材包",或者"这是5个同主题的官方文档链接,帮我准备一份完整资料包,只采同域",Agent会自动补齐参数,抓不到的页面走jina ai兜底。
输出是一个完整的素材包:包含概览、研究简报、链接清单、图片清单、阅读地图、主文正文、关联文章,图片本地化保存。MAIN-*.md是入口文章,LINKED-*.md是从正文里推导出来的关联资料,全部转成本地Markdown,图片用本地相对路径,离线也能读。
抓取策略上踩过不少坑:先走常规HTTP抓正文,GitHub链接走GitHub API或raw,Markdown、JSON等资源直接保存,实在抓不到才用r.jina.ai兜底。自动排除侧边栏、广告、页脚、社交分享按钮、推荐阅读区这些噪音,只保留正文核心内容。同时跳过登录、订阅、服务条款、Cookie这类与主题无关的页面。
典型场景:文章选题的资料准备、竞品产品调研、文献综述、咨询类报告初期资料多点位采集。扔一批链接,一杯咖啡的时间拿到一份带本地图片、能离线读的完整资料包。
重要提醒:需要根据实际情况定制
得说清楚一件事——这些Skill不是拿来就能直接用的万能模板。每个企业的实际情况不同,直接复制粘贴会遇到问题:
- 邮件系统差异:案例写的是QQ邮箱,但实际用的可能是Exchange、Gmail、企业微信邮箱甚至自建邮件服务器。IMAP地址、授权方式、文件夹命名规则都不一样。
- 文档解析需求不同:有的企业主要处理扫描件PDF需要OCR,有的主要处理Word合同需要保留格式,有的需要提取表格数据做后续计算。
- 目录结构和命名规则:输出路径和文件命名方式需要调整成适合团队协作习惯的版本。
但这就是Skill的设计哲学——给你一个经过验证的骨架,在上面长自己的肉。
串联起来:Agent工作流才是终极形态
单个Skill已经很有用了,但真正的威力在于把它们串成工作流。串联起来之后,在Agent里还是一句话触发整条链,中间各个Skill之间怎么传参、怎么调度,是Agent自己的事。
在Agent里只需要说一句:"拉一下今天邮件,遇到PDF附件都解析成markdown,里面的表格导出为Excel,最后补全公式、按金融模型颜色规范整理好。"Agent会依次调起z-mail-reader、z-smart-xparse、z-md-excel、z-excel-editor,把上个产出作为下个输入,最终交一份可直接汇报的Excel。
整条链路下来,从收到邮件到产出结果,全程自动化,只需要审核最终产出。这几个Skill可以任意组合:
- 竞品产品周报:z-web-pack多入口采集 → z-md-excel转对比表 → z-excel-editor美化
- 招标文件快速合规:z-mail-reader拉邮件 → z-smart-xparse解析 → Agent生成合规报告
- 财务月报闭环:z-mail-reader拉报表 → z-smart-xparse解析 → z-excel-editor重构
后面还计划对接飞书,实现更多自动化场景:邮件摘要自动推送到飞书群、文档解析结果自动写入飞书多维表格、定时采集竞品信息自动更新飞书文档。
为什么走Skill这条路
这套开源Skill集合,本质上是把AI Agent从"聊天机器人"变成"能干活的数字员工"。为什么要走这条路径,而不是直接跟大模型对话?
- 流程可复现:一次写好,千次复用,不会因为提示词措辞不同而出现偏差
- 可审核可调试:脚本、参数、输出都是明文的,出问题能定位
- 跨Agent工具:Claude Code、Qoder、Cursor都能用,不被单一厂商锁定
- 多个Skill能串起来:上一个的输出是下一个的输入,拼出真正的全流程自动化
适合什么人用?中小企业里负责信息处理、文档管理的同事;想用AI Agent自动化日常工作流的技术或半技术人员;正在用Claude Code、Qoder、Cursor等Agent工具的开发者;想看看"别人是怎么写Skill的",照着骨架创建自己专属数字员工的同学。
这套Skill会持续更新更多实用模块。如果你有什么日常工作中的痛点想做成Skill,评论区欢迎来聊,说不定下一个就安排上了。
