Genspark AI自动化信息收集系统搭建全攻略
一个很现实的问题:三天内要出一份竞品技术方案对比报告,手动爬官网、翻PDF、扒GitHub、扫新闻稿,光是资料收集就得耗掉两天,信息还七零八落对不齐。Genspark AI 这套自动化信息收集系统,直接丢一句“收集A/B/C三家的API能力、部署方式、最新版本变更日志”这样的自然语言指令,它就能自动调度多个智能体,并行抓取、去重、结构化,15分钟内吐出一张带来源标注的Markdown表格。省下的时间,足够你好好分析、写报告了。
准备运行环境与基础服务
先确认环境:Docker版本是否在24.0.0以上?执行 docker --version 看一眼就知道。没装的话,从Docker官方下载Desktop版本,图形化安装就行;Linux用户记得多执行一步 sudo usermod -aG docker $USER,然后重启终端。
克隆最新的 genspark2api 仓库:git clone https://github.com/deanxv/genspark2api.git && cd genspark2api。
启动服务前,有个绝对不能忘的步骤——在项目根目录创建 .env 文件,写入 OPENAI_API_KEY=sk-...。这个密钥不配好,所有信息收集任务都会静默失败,服务连报错提示都不给你。务必重视。
然后执行 docker-compose up -d 启动容器。等大约90秒,运行 curl http://localhost:7055/health,返回 {"status":"ok"} 就表示核心服务就绪了。
配置专属信息收集智能体
打开 config/config.yaml,找到 agents: 区块,在下面新增一个叫 web_researcher 的智能体:
web_researcher:
description: "专注抓取公开技术文档与变更日志"
tools: ["http_client", "pdf_parser", "github_scraper"]
max_steps: 12
注意,github_scraper 工具依赖 GitHub Token 才能访问私有仓库或绕过速率限制。如果没有Token,对GitHub的请求会被限流到每小时60次,批量仓库扫描基本跑不动。所以要在 .env 中追加 GITHUB_TOKEN=ghp_...。
保存文件后,重启服务:docker-compose restart genspark2api。
发起多源并发采集任务
有两种方式启动任务:
方法一:直接用curl调用API
构造一个JSON请求体,保存为 task.json:
{
"agent": "web_researcher",
"query": "对比公司A(https://a.com/docs)、公司B(https://b.io/api/v3)和公司C(https://github.com/c-org/sdk)的API设计规范、最近三次版本更新说明及部署模型要求"
}
然后执行:curl -X POST http://localhost:7055/agent/run -H "Content-Type: application/json" -d @task.json。
方法二:Python脚本批量提交
新建 batch_collector.py,写入以下代码:
import requests
tasks = [
{"agent": "web_researcher", "query": "抓取X公司2026年Q1所有技术博客,提取架构演进关键词"},
{"agent": "web_researcher", "query": "解析Y公司GitHub Releases页面,生成近6个月版本功能矩阵表"}]
for t in tasks:
requests.post("http://localhost:7055/agent/run", json=t)
运行脚本:python batch_collector.py,任务自动进入队列,不需要等单个响应。
获取结构化结果并导出
第一步:查询任务ID
执行 curl "http://localhost:7055/agent/history?limit=5",从返回的JSON数组里复制最新一条记录的 id 字段值,比如 "id": "agt_8a3f9c"。
第二步:轮询结果状态
运行 curl "http://localhost:7055/agent/result?id=agt_8a3f9c"。如果 "status" 还是 "running",等10秒再试。当变成 "completed",就可以检查 "output_format" 字段了。
第三步:按格式提取内容
如果 "output_format" 是 "markdown_table",直接复制 "content" 字段的原始字符串,粘贴到Typora或VS Code就能渲染成表格。如果是 "json_structured",就用Python的 json.loads() 解析,再做字段映射。
第四步:导出为本地文件
把最终内容保存为 competitor_analysis.md,然后执行:echo "$(cat competitor_analysis.md)" | curl -X POST -H "Content-Type: text/markdown" --data-binary @- http://localhost:7055/export/md2pdf > report.pdf。这样就能自动生成带目录的PDF报告,拿来交差或分享都很方便。
