首个中文古籍OCR评测基准开源：权威榜单与深度测评

2026-05-20阅读 0热度 0

大模型

当人工智能试图解读现代代码时游刃有余，但面对三千年前甲骨上的刻痕却可能陷入茫然。最近，腾讯混元大模型与SSV数字文化实验室携手故宫博物院及多所高校，推出了“Chronicles-OCR”。这是业内首个系统追踪汉字“七体”演变脉络的古文字感知评测基准。

为确保评估的真实性与客观性，该数据集经由领域专家进行多层交叉标注，最终囊括了2800张严格平衡的高质量图像。在标注方法上，团队也做出了针对性调整：对甲骨文、金文、篆书等古老字体，实施单字级别的精细标注；而对于隶书、楷书、行书、草书等成熟字体，则采用序列级转写，以完整保留其原始阅读顺序。

主流视觉模型表现堪忧

基于此基准，项目组设计了四项逐级深入的评测任务，核心在于严格分离模型的“视觉感知”与“语义推理”能力。随后，他们对包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个主流多模态大模型进行了系统测试，结果令人意外。

当遇到缺乏现代版式先验知识的古老字体时，主流大模型在端到端文本检测任务中几乎全部失灵。即使在细粒度识别任务上，最高准确率也仅为27.1%。一个更值得关注的发现是，在此类任务中，若强行启用模型的“推理”功能，不仅无助于理解，反而会放大视觉感知阶段的不确定性，导致整体识别性能进一步恶化。

评测同时揭示了当前视觉大模型的一个认知偏差：在进行字体分类时，模型更容易被载体纹理、材质等宏观特征干扰，而非聚焦于判别微观的笔画结构与风格差异。这指出了一个核心问题——即便最先进的AI，在面对承载数千年文明的中国古文字时，离真正的“理解”仍有相当距离。

汉字从殷墟甲骨演变至今，其形体变迁本身就是一部可视化的文明发展史。Chronicles-OCR基准的开源，直面了这一技术现状。它通过清晰的性能差距，为未来视觉大模型指明了明确的进化路径：从基础的“字形识别”，迈向深层的“历史解读”。