从首个甲骨文智能体到首个古文字评测基准,AI 如何读懂中国文明?

汉字是中华文明的经纬。从殷墟甲骨到现代楷书,三千年的文字演变史,也是一部视觉特征不断漂移、介质环境高度复杂的演化谱系。

5月18日,腾讯混元SSV数字文化实验室和SSV技术架构部联合安阳师范学院甲骨文信息处理重点实验室、中科院信工所、南开大学,正式推出 Chronicles-OCR——业界首个覆盖"七体之变"完整演化轨迹的中国古文字感知评测基准。这一基准的发布,不仅照向中国文化遗产数字化的进路,也与此前发布的共同构成了 AI 守护古文字的技术闭环。

图片

 OCR链接:https://github.com/VirtualLUOUCAS/Chronicles-OCR

现代 OCR 的"舒适区",从来不是真正的中国汉字史

想要让 AI 真正服务于数字人文(Digital Humanities),它不能只擅长识别打印机吐出的宋体和黑体,它必须能跨越时间的长河,从甲骨上歪歪扭扭的契刻、青铜器上漫漶的铭文、石碑上风化的刻痕中,把字一个一个地"认"出来。

回想一下 OCR 模型每天都在面对的现代场景:清晰的边界、统一的拓扑、规整的版式、干净的载体。在 OCRBench、OmniDocBench 这类现代评测中,主流多模态大语言模型都已经表现得相当成熟。

但中国汉字的真实历史完全不是这样的。

图片

图:汉字"虎"的演化轨迹——从甲骨到草书

把镜头从今天往回拨——

  • 退到行草,字与字的边界开始糊在一起

  • 退到隶篆,字形的拓扑结构与现代汉字已经完全不同

  • 再退到金文与甲骨文,符号变成了无标准化、刻在龟甲兽骨青铜器上的图画

  • 而载体本身——龟甲的裂纹、青铜的锈蚀、石碑的风化、绢本的褪色——又给视觉感知叠加了一层厚厚的"噪声滤镜"


这是一次横跨三千年的视觉分布漂移(distribution shift)。

甲骨文智能体的率先破局

面对这些难题,2025年发布的甲骨文智能体“殷契行止”率先在甲骨文这一源头领域取得了突破。

长期以来,甲骨文研究一直面临“识别难、比对难、共享难”的挑战。由于拓片噪声复杂、字形异构多变,通用大模型难以理解甲骨文的特征规律。基于腾讯云智能体开发平台,腾讯优图实验室联合腾讯SSV数字文化实验室、甲骨文信息处理实验室、厦门大学人工智能研究院,以 AI + 多模态语料融合为基础,研发出多项关键技术,包括部首识别、字形匹配、拓片摹本目标检测、拓片摹本生成、重片检测等原创算法,以及融合单字、释文、甲骨片图片的多模态检索能力。

这些针对性算法的引入,使得 AI 首次具备了“理解古文字”的能力,有效解决了通用模型在专业领域中的适配难题,最终让每一片甲骨“读得懂、找得到、用得上”

图片

同时,该智能体面向专家与公众免费提供“双端服务”,用户只需上传一张甲骨图片,AI 即可完成文字识别、释义查询、文献溯源和数字摹本生成。在专业端,甲骨文AI协同平台为古文字研究者提供智能识别、比对与检索工具,显著提升研究效率;在公众端,可以通过“了不起的甲骨文”微信小程序就轻松体验甲骨识读的乐趣,获取古文字知识,让千年前的文明真正“活”在掌心。

Chronicles-OCR:七体之变,同卷竞技

汉字之所以是汉字,是因为它从未停止演化。

在甲骨文这一源头领域实现单点突破后,新的挑战随之而来:我们该如何衡量 AI 对汉字三千年完整演变史的理解程度?

从殷墟的甲骨到此刻你手机屏幕上的这段文字,每一笔每一画都承载着这个文明的连续性。让 AI 看懂这条连续性,是技术问题,更是文化课题。

为了精准衡量大模型在汉字演化全谱上的视觉感知能力,腾讯混元SSV数字文化实验室和SSV技术架构部联合安阳师范学院甲骨文信息处理重点实验室、中科院信工所、南开大学,正式推出 Chronicles-OCR——业界首个覆盖"七体之变"完整演化轨迹的中国古文字感知评测基准。

数据来源全部来自顶级机构与古文字学专家:

  • 甲骨文 → 安阳师范学院甲骨文信息处理重点实验室

  • 金文、篆书 → 古文字学博士与研究生团队人工整理

  • 隶、楷、行、草 → 故宫博物院文物手写体识别测试数据集

整个数据集由领域专家多层级交叉标注,包含 2,800 张严格平衡的高质量图像(每种字体 400 张)。

图片

图:Chronicles-OCR 数据示意图——从龟甲到宣纸的真实物理介质

阶段自适应标注范式(Stage-Adaptive Annotation Paradigm)

不同时代的汉字"难"在不同的地方,所以评测方式必须分阶段定制。Chronicles-OCR为不同字体设计了两套标注体系:

1.古早字体(甲骨、金文、篆书):字符级精细标注

由于古早字体形态高度不稳定、布局无约束、载体噪声严重,我们提供:

  • 单字级 bounding box

  • 现代汉字映射(字一对一翻译到现代汉字)

  • 对学界至今未释读的字符,统一标记为 [UNK]

  • 段落级阅读顺序

2.成熟字体(隶、楷、行、草):序列级转写

由于成熟字体已具备相对稳定的版式与高字间区分度(尤其草书是连笔的,强行框字反而错),我们采用:

  • 行/段落级的逐字转写

  • 严格保留原始阅读顺序

四大核心任务

基于上述标注,Chronicles-OCR设计了四个层层递进的任务,严格地把"视觉感知"和"语义推理"解耦开来:

任务

适用字体

评测指标

考察能力

Cross-period Character Spotting 跨时代字符检测

甲骨/金文/篆书

H-mean (IoU>0.75 + 字符正确)

端到端定位 + 释读

Fine-grained Archaic Character Recognition 细粒度古字识别

甲骨/金文/篆书

Exact Match

用 visual referring 隔离纯字形映射

Ancient Text Parsing 古文转写

全部七体

NED(归一化编辑距离)

阅读顺序 + 整段释读

Script Classification 字体分类

全部七体

Accuracy

宏观字体风格判别

特别值得一提的是 fine-grained recognition 这一任务:当古文字学家面对一个模糊的甲骨符号时,他们不会输入"x1, y1, x2, y2"这种坐标,而是直接用手指。所以我们用 visual referring 机制——直接在图上画一个有色框,让模型回答"红框里这个字是什么"。这样就把"找得到"和"认得出"彻底分离开。

Chronicles-OCR的核心发现与结论


Chronicles-OCR项目评测了 28 个主流的开源与闭源多模态大语言模型,包括 GPT-5、Gemini 3.1 Pro、Claude Opus 4.7等一线模型。结果令人意外:

发现 1:在古早字体上,端到端 Spotting 全军覆没

图片

图:甲骨文金文篆文上的检测可视化——漏检、错认、幻觉三连

  • GPT-5、Gemini 2.5 Pro 在跨时代字符检测任务上 H-mean 接近 0

  • 表现最强的模型也只有16.5

模型出错有三种典型形态:

1.Missed Detection:完全漏掉龟甲上斑驳的刻字

2.Hallucination:把青铜锈斑、石碑裂纹幻觉成"字"

3.Recognition Error:定位对了,但映射不到正确的现代字

这说明现代 VLLM 严重依赖"现代版式先验"——一旦面对无约束、不规则、强噪声的古代物理介质,它们用来分割文本的内部机制就直接失效了。

发现 2:哪怕给你画好框,也认不出来

为了验证这一点,Chronicles-OCR用 visual referring 把"定位"这一步完全免掉——直接画一个红框,问"框里是什么字"。

结果:

  • 多数模型展示出一定的细粒度识别能力

  • 但绝对准确率最高也只有 27.1%

  • 在最古早的甲骨文上,Gemini 3.1 Pro 仅 14.0%

这证实了第二个判断:除了"找不到",模型还存在一个独立且巨大的"语义鸿沟"——它根本没有学过把一只画出来的"老虎"映射成现代的"虎"字。

发现 3:成熟字体也别高兴太早

图片

图:楷书一段诗的转写对比——Model1得分 0.556,Model2得分 0.298      

在 NED(归一化编辑距离)指标下:

  • 近代字体上一定的解析能力

  • 但同一个模型在金文上跌到 0.19,在甲骨文上只剩 0.05

  • 即使是楷书,模型也远未达到现代印刷体 OCR 的"近完美"水平

这意味着现代文档的解析能力,并不会自然迁移到历史文字上。

发现 4:一个反直觉的"感知悖论"

图片

图:字体分类结果可视化——模型在甲骨上轻松达到 96%+,却在楷/行/草之间频繁混淆

最有趣的发现来自字体分类任务:

  • 在古早字体上分类准确率高得离谱:SOTA模型实现96.7%分类准确率

  • 但在成熟字体上准确率反而急剧下跌:SOTA模型77.0%分类准确率

这说明了什么?

模型其实不是在"读字",而是在看载体的纹理。 看到龟甲就猜"甲骨",看到青铜锈就猜"金文",看到宣纸墨迹就开始混乱。

就像一个人能一眼分辨阿拉伯文和拉丁文,但完全读不懂内容一样。VLLM 表现出强烈的宏观风格识别能力,却严重缺乏微观的笔画感知能力。一旦楷、行、草都写在同一张宣纸上,它就只能凭运气。

发现 5:Reasoning 救不了感知

Chronicles-OCR对每个支持 thinking 模式的模型都做了对照实验。结果出乎意料——几乎所有模型,开启 reasoning 后表现反而下降。

模型

不思考

思考

Model1Spotting

7.8

2.1

Model2Spotting

16.5

15.3

Model3 Spotting

5.0

1.8

定性分析显示,模型生成的"思考过程"经常是冗余、跑题或干脆错误的,把本来不太确定的识别变成了"高自信的错答"。这指向一个深刻的结论:

当感知地基不稳时,推理只会放大不确定性。 没有可靠的视觉感知,思维链反而成了幻觉的放大器。

从识字到读史的难行之行

Chronicles-OCR 不只是一个更难的 OCR 评测,它也是一面照向中国文化遗产数字化的镜子。

从 2025 年的专项智能体,到 2026 年的全谱系评测基准——前者尝试让 AI 真正参与古文字研究场景,后者则提供了一套更系统的能力测量方式。

这两项工作的接连发布,不仅是技术的迭代,也是数字人文研究的进路。一个面向应用,一个面向评测。AI 正在从单纯的识字工具,逐步向理解文明演化的数字助手进化。它们共同指向同一件事:让机器逐渐读懂汉字如何一步步走到今天。

从刻在龟甲上的刀痕,到数字屏幕上的像素,汉字始终在变化。对于 AI 来说,理解这种源头和变化,也许才是真正走向了进入中文世界的道路。

腾讯混元SSV数字文化实验室和SSV技术架构部联合中科院、安阳师范学院、南开大学,将持续在这条路上往前走。


📌 项目主页:https://github.com/VirtualLUOUCAS/Chronicles-OCR

📌 数据集:覆盖"七体之变",2,800 张专家标注图像,已公开 

📌 欢迎学界、产业界共同推动汉字感知与数字人文的下一步