Kimi提取长篇历史档案时间轴的实用指南
要高效完成这项任务,第一步不是急着上传文件,而是先确认你手里的历史档案PDF到底是什么类型。如果能用鼠标选中文字并直接复制,说明它是文字型PDF,Kimi可以直接解析。但如果选中后复制出来是乱码,或者根本选不中,那这就是扫描件,必须先用OCR工具——比如Adobe Acrobat的“增强扫描”功能或“天若OCR”——把图片中的文字提取出来,否则Kimi会把每一页都当作一张大图处理,根本识别不出其中的年份和事件。
另外,检查文件是否有清晰的目录页或标题层级。结构化良好的档案,Kimi才更容易定位到“1937年7月7日→卢沟桥事变→驻军冲突→全面抗战开始”这类链式信息。一个前提必须满足:文件未加密,且单次上传大小不超过100MB。
确认档案是否可被Kimi准确解析
具体操作:打开PDF,随便选中一段文字。能高亮复制→文字型PDF;无法选中或复制出来是乱码→扫描件,先走OCR流程。有目录或明确标题层级的结构化文档,提取效果会好很多。
【务必保证文件未加密,且单次上传不超过100MB】
分段上传并强制时间锚点识别
怎么操作?有两种方式可选。
方式一:按年代切分后逐块提交
用PDF阅读器把档案按十年为单位拆成多个文件,比如《1912–1921》《1922–1931》《1932–1945》,每份控制在20页以内。上传第一份后,直接给Kimi指令:“请仅提取本部分中所有明确标注年月日的事件,格式为‘YYYY-MM-DD|事件简述’,不加解释、不合并、不推测。”
上传第二份时,指令开头加上:“接续上文时间线,这是1922–1931年部分,请继续按相同格式提取,注意避免与前一部分重复。”
方式二:粘贴纯文本+人工插入时间标记
把整份档案转为TXT文件,在每个大章节开头手动插入一行“【时间锚点:1949年10月】”,然后全篇粘贴进Kimi。这个方法比依赖模型自动识别稳定得多,特别是当文档里出现“民国三十八年”“昭和十二年”这类非公历表述时,人工插入的锚点能有效规避模型对时间格式的误读。
生成可直接使用的竖向时间轴图表
所有日期事件提取完成后,进入最后一步。
先把Kimi返回的所有“YYYY-MM-DD|事件简述”结果复制下来,删掉空行和序号,只保留带日期的原始行。然后打开Claude(网页版或App都可以),粘贴这些行,在下方输入:“请用React代码生成一个紧凑型竖向时间轴,要求:① 时间显示为‘YYYY年MM月DD日’格式;② 每个事件用加粗字体;③ 所有内容在一屏内完整显示,不用滚动;④ 标题为‘历史档案关键事件时间轴’。”
复制Claude返回的完整React代码,粘贴到CodeSandbox或VS Code中运行,就能看到带CSS样式的竖向时间轴页面。如果需要导出为图片,用浏览器“打印→另存为PDF”即可。
提示一下:Kimi本身并不会直接生成可运行图表代码——这一步,必须切换到Claude或别的支持前端渲染的AI工具来完成。