腾讯OCR评测基准Chronicles-OCR:权威榜单与深度测评
Chronicles-OCR是什么
让一个现代AI模型去“阅读”三千年前的甲骨文,它能理解吗?Chronicles-OCR正是为回答这个问题而生。这个由腾讯混元联合中国科学院信息工程研究所、安阳师范学院、南开大学及故宫博物院推出的评测基准,首次构建了覆盖汉字“七体之变”完整演化轨迹的跨时间视觉感知体系。
本质上,它是一份为AI准备的、跨越三千年的汉字“阅读理解”能力测试。基准包含从殷商甲骨文到近现代草书在内的七大字体,共计2800张高质量图像。其核心创新在于采用了“阶段自适应”标注范式,并设计了四大评测任务,专门用于评估当前视觉大语言模型在面对数千年汉字形态持续演变时的感知鲁棒性。
Chronicles-OCR的主要功能
该基准的功能设计系统而深入,旨在多维度、精细化地探测模型的能力边界:
- 七体全覆盖评测:完整覆盖甲骨文、金文、篆书、隶书、楷书、行书、草书这七大中国代表性字体,构建了从殷商到近现代的跨时间评测体系。模型需同时理解古老的象形文字与流畅的行草书。
- 阶段自适应标注:针对古文字与现代文字的形态差异,采用差异化标注策略。对甲骨文、金文、篆书等古文字,提供单字级边界框及其对应的现代汉字映射;对隶、楷、行、草等成熟字体,则提供序列级的布局理解标注,更贴近现代OCR任务。
- 四大核心评测任务:任务设计层层递进,涵盖跨时期字符定位、细粒度古文字识别、古文本解析以及字体分类,旨在全方位评估模型从定位、识别到理解、归类的综合感知能力。
- 视觉指代机制:通过彩色框在图像中标出目标字符,再让模型识别,巧妙地将字符的“破译”能力与在复杂图像中的“空间定位”能力解耦评估,从而更精准地诊断模型的具体短板。
- 高质量专家标注:所有标注工作均由古文字学博士、研究生及领域专家进行多层级交叉校验,确保了字体分类、边界框和字符转录的高保真度,奠定了学术严谨性的基石。
- 权威数据源整合:数据来源可靠。甲骨文来自安阳师范学院甲骨文信息处理重点实验室,金文和篆书由专业古文字学团队整理,隶、楷、行、草字体样本则取自故宫博物院的文物手写体识别测试数据集。
- 模型鲁棒性诊断:其最终目的不仅是评测,更是系统性诊断。旨在揭示视觉大语言模型在应对数千年汉字形态演化过程中的感知能力边界,为模型从现代文档解析向历史书写系统泛化指明关键瓶颈。
如何使用Chronicles-OCR
研究人员或开发者可按以下路径使用该基准进行评测或研究:
- 访问开源仓库:从GitHub开源仓库开始,所有数据集、论文及评测代码均在此公开。
- 下载数据集:获取完整的2800张图像数据集,七大字体各占400张,并附有JSON或XML格式的详细标注文件。
- 理解数据格式:关键在于掌握其“阶段自适应标注”规范。古文字阶段(甲骨/金文/篆书)标注包含单字边界框坐标和现代汉字映射;成熟字体阶段(隶/楷/行/草)则侧重于序列级文本布局与阅读顺序。
- 选择评测任务:根据研究侧重点,从四大任务(跨时期字符定位、细粒度古文字识别、古文本解析、字体分类)中选择一个或多个进行。
- 准备被测模型:部署待评测的视觉大语言模型,确保其具备图像输入和文本输出的基本能力。
- 执行模型推理:将数据集图像输入模型,并按照所选任务要求,让模型输出相应结果,如边界框坐标、识别出的现代汉字或判断的字体类别。
- 运行评测脚本:使用项目仓库提供的官方评估代码,将模型输出与标准标注进行自动比对,计算各项任务的性能指标,如定位精度、归一化编辑距离、分类准确率等。
- 分析评测结果:将模型表现与基准报告中已公布的模型数据对照,深入分析其在古文字感知、历史布局理解和字体演化认知方面的优势与缺陷。
- 引用与反馈:在相关研究中使用了该基准,请引用其论文。同时,可通过GitHub Issues向作者团队反馈问题或提出改进建议。
Chronicles-OCR的核心优势
相较于现有基准,Chronicles-OCR在多个维度展现了独特价值:
- 业界首创跨时间评测体系:首个系统覆盖汉字“七体之变”完整演化轨迹的视觉感知基准,填补了从殷商到近现代长达三千年时间跨度的评测空白。
- 顶级学术机构联合背书:由顶尖企业实验室与多家权威学术及文博机构共同推出,从数据源到标注质量均经过严格学术把关,可信度高。
- 首创阶段自适应标注范式:基于不同历史阶段字体形态的剧变,采用差异化标注策略,使评估维度更精准,更符合文字演化的实际情况。
- 深度揭示模型能力边界:它不仅是一个测试集,更是一份诊断报告。系统性地揭示了当前主流VLLMs在古文字细粒度识别上的不足,为后续模型优化提供了明确方向。
- 权威数据源与专家级标注:数据源头专业,标注过程由领域专家深度参与,这种高保真数据是进行可靠学术研究的基础。
- 视觉指代解耦评估机制:通过彩色框指代设计,将“字符识别”与“空间定位”能力分开评估,使模型能力诊断更加精细化。
- 完全开源可复现:论文与数据集全面开源,极大便利了学术界的复现验证、横向对比及拓展研究,推动了领域的开放协作。
Chronicles-OCR的同类竞品对比
为清晰定位Chronicles-OCR,可将其与古籍OCR或汉字识别领域的其他知名基准横向对比:
| 对比维度 | Chronicles-OCR | AncientDoc | ACCID |
|---|---|---|---|
| 发布机构 | 腾讯混元、中科院信工所、安阳师范学院、南开大学、故宫博物院 | 字节跳动、北京交通大学等 | 学术研究机构(论文未明确单一机构) |
| 数据集规模 | 2,800张严格平衡图像,七体各400张 | 约3,000页古籍图像,来自100+部古籍 | 2,892字符类别图像,含部首级标注 |
| 覆盖内容 | 七大字体:甲骨文、金文、篆书、隶书、楷书、行书、草书 | 14类古籍文档(经史子集、医学、天文历算等) | 古代汉字图像(侧重部首结构) |
| 时间跨度 | 约三千年(殷商至近现代) | 战国秦汉至明清 | 古代汉字(未明确分期) |
| 评测任务 | 跨时期字符定位、细粒度古文字识别、古文本解析、字体分类 | 页面级OCR、白话翻译、推理QA、知识QA等 | 零样本字符识别、部首识别 |
| 标注粒度 | 阶段自适应:古文字单字级边界框+现代汉字映射;成熟字体序列级布局 | 页面级文本、问答对、翻译对 | 字符级 + 部首级(含坐标、结构) |
| 目标模型 | 视觉大语言模型(VLLMs) | 视觉语言模型(VLMs) | 零样本OCR / 深度学习模型 |
| 核心创新 | 首创跨时间汉字演化评测、阶段自适应标注范式、视觉指代解耦评估 | 首个古籍多任务评测基准,从OCR延伸至知识推理 | 首创部首级精细标注,支持零样本学习 |
可见,Chronicles-OCR的核心特色在于其贯穿三千年的纵向字体演化视角和对视觉大语言模型(VLLM)的专项评测,而AncientDoc更侧重于古籍文档的多任务理解,ACCID则聚焦于汉字部首结构的细粒度分析。三者各有侧重,共同推动古文数字化前沿研究。
Chronicles-OCR的应用场景
这一专业基准的价值,最终将体现在广泛的应用场景中:
- 古文字智能识别:直接辅助甲骨文、金文等尚未完全破译的古文字的自动化识别与专家校验,降低古文字学研究门槛,提升研究效率。
- 古籍数字化工程:为历代书法碑帖、珍贵文献的高精度OCR与结构化解析提供评测标准和模型优化方向,是推动文化遗产系统性数字化存档的关键技术支撑。
- 字体演化研究:为文字学和历史学提供新的研究工具。利用AI模型量化分析汉字从象形到表意、从繁到简的形态演变规律,支撑跨学科的深入研究。
- VLLM能力评测:作为一项标准化基准,为学术界和工业界评测、对比不同视觉大语言模型在跨时间感知方面的能力与鲁棒性提供了统一标尺。
- 文物信息提取:应用于青铜器铭文、战国竹简、汉代帛书等文物图像的现场或后期文字信息提取,为考古研究和文物鉴定提供智能辅助。
- 教育科普应用:其直观的图像识别与对比功能,可用于汉字文化教学、博物馆互动展示,生动演示古文字识别与字体演变过程,增强公众对汉字历史的文化认知。