首个中文古籍OCR评测基准开源:权威榜单与深度测评

2026-05-20阅读 0热度 0
大模型

当人工智能试图解读现代代码时游刃有余,但面对三千年前甲骨上的刻痕却可能陷入茫然。最近,腾讯混元大模型与SSV数字文化实验室携手故宫博物院及多所高校,推出了“Chronicles-OCR”。这是业内首个系统追踪汉字“七体”演变脉络的古文字感知评测基准。

视觉大模型遭遇滑铁卢:首个中国古文字OCR评测基准开源

为确保评估的真实性与客观性,该数据集经由领域专家进行多层交叉标注,最终囊括了2800张严格平衡的高质量图像。在标注方法上,团队也做出了针对性调整:对甲骨文、金文、篆书等古老字体,实施单字级别的精细标注;而对于隶书、楷书、行书、草书等成熟字体,则采用序列级转写,以完整保留其原始阅读顺序。

主流视觉模型表现堪忧

基于此基准,项目组设计了四项逐级深入的评测任务,核心在于严格分离模型的“视觉感知”与“语义推理”能力。随后,他们对包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个主流多模态大模型进行了系统测试,结果令人意外。

当遇到缺乏现代版式先验知识的古老字体时,主流大模型在端到端文本检测任务中几乎全部失灵。即使在细粒度识别任务上,最高准确率也仅为27.1%。一个更值得关注的发现是,在此类任务中,若强行启用模型的“推理”功能,不仅无助于理解,反而会放大视觉感知阶段的不确定性,导致整体识别性能进一步恶化。

暴露微观笔画结构识别缺陷

评测同时揭示了当前视觉大模型的一个认知偏差:在进行字体分类时,模型更容易被载体纹理、材质等宏观特征干扰,而非聚焦于判别微观的笔画结构与风格差异。这指出了一个核心问题——即便最先进的AI,在面对承载数千年文明的中国古文字时,离真正的“理解”仍有相当距离。

汉字从殷墟甲骨演变至今,其形体变迁本身就是一部可视化的文明发展史。Chronicles-OCR基准的开源,直面了这一技术现状。它通过清晰的性能差距,为未来视觉大模型指明了明确的进化路径:从基础的“字形识别”,迈向深层的“历史解读”。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策