古文字OCR权威测评：腾讯混元等联合基准深度解析

2026-05-19阅读 0热度 0

腾讯混元

5月18日，腾讯混元、SSV数字文化实验室、SSV技术架构部联合安阳师范学院甲骨文信息处理重点实验室、中科院信工所及南开大学的研究团队，正式发布了业界首个覆盖汉字“七体之变”完整演化轨迹的古文字识别评测基准——Chronicles-OCR。该基准的核心目标在于精准评估当前多模态大语言模型在面对跨越三千年的汉字形态剧烈演变时的视觉感知与理解能力。这不仅是一项技术评测，更是推动数字人文领域底层视觉技术突破的关键基础设施。

基准构建：为三千年汉字演化设计评测体系

构建有效的评测体系，首先需要高质量的数据基础。Chronicles-OCR数据集由领域专家进行了多层级交叉标注，包含2800张严格平衡的高质量图像。其关键在于针对古早字体（如甲骨文、金文、篆书）与成熟字体（隶、楷、行、草）的不同视觉特性，设计了阶段自适应的标注范式，为不同发展阶段的文字形态定制了差异化的评测标准。

基于此，基准设立了四大核心评测任务：跨时代字符检测、细粒度古字识别、古文转写和字体分类。这套任务组合旨在实现模型视觉感知能力与语义推理能力的解耦评估，从而清晰辨别模型是在进行单纯的“字形匹配”，还是具备了深度的“文意理解”。

评测结果：主流大模型在古文字领域暴露显著短板

基准对包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个主流大模型进行了系统评测，结果揭示了当前多模态技术在古文字这一垂直领域的核心瓶颈。

在古早字体识别任务中，由于完全缺乏对应的现代字形先验知识，端到端的字符检测任务导致主流模型表现不佳。这类似于要求只熟悉印刷体的人直接定位并识别古代草书。

在细粒度单字识别任务中，所有模型的最高准确率仅为27.1%。这表明即使模型能够定位文字区域，也极难准确识别具体字形。更具启发性的发现来自字体分类任务：模型表现显示其判断更倾向于依赖载体材料的表面纹理特征（如龟甲裂纹、青铜锈蚀），而非文字本身的笔画与结构特征，这暴露出现有模型存在依赖上下文噪声而非本质视觉特征的认知偏差。

另一个关键发现是：在完成此类任务时，开启模型的复杂推理模式反而会放大其感知阶段的不确定性，导致整体性能下降。这证明，当基础的视觉感知能力存在缺陷时，叠加逻辑推理模块无法弥补根本性短板，甚至可能引入干扰。

意义与展望：从字形识别到文化语义理解

Chronicles-OCR的开源发布，其价值超越了一份简单的模型性能排行榜。它首次量化了当前顶尖商用大模型与古文字数字化研究实际需求之间存在的巨大技术鸿沟。该基准如同一面诊断镜，清晰映照出技术现状，为学术界与工业界指明了明确的优化方向——必须优先强化大模型在微观视觉感知层面的基础能力。

推动大模型从基础的“字形识别”迈向深度的“文献解读”与“文化语义理解”，是一项关键的技术挑战，也承载着文化遗产数字化传承的使命。攻克古文字这类高度专业的长尾场景，将成为多模态大模型技术深化发展、赋能人文研究数字化进程的重要里程碑。路径已然清晰，探索正在深入。

古文字OCR权威测评：腾讯混元等联合基准深度解析

基准构建：为三千年汉字演化设计评测体系

评测结果：主流大模型在古文字领域暴露显著短板

意义与展望：从字形识别到文化语义理解

相关阅读

最新教程

最新资讯