穿越 3000 年的对话

我的工作是用计算机破译甲骨文。

甲骨文是一种刻在龟甲或兽骨上的古文字。3000 多年前的商朝王室热衷占卜，占卜官在龟甲和牛骨的背面钻出圆形的深窝或者浅槽，火烤之后产生裂纹，以此判断吉凶，然后把占卜结果刻在这片龟甲或者牛骨之上。甲骨卜辞的内容很丰富，是关于商代历史的真实记录，把中国的信史往前推了1000 年。

现存于世的甲骨文物大约 16 万片，主要来自殷墟。殷墟，就是殷商都城的废墟，位于现在的安阳。

别看我是安阳人，一直在安阳师范学院工作，但我的专业是数学和计算机，对历史本来是完全不感兴趣的。我们有一个副校长叫屈凌波，和殷墟考古队队长唐际根是北京大学的同学，他一到周末就拉着我去考古队。这让我对商朝的文化，对青铜器、玉器渐渐熟悉起来。

有一年冬天，非常冷，我带着同事去考古队时，他们正在挖掘洹北商城，遗址上的土很多都是红颜色的。我问为啥是红颜色？唐队长回答：3000 年前这里发生过一场大火，把洹北商城全部烧掉了。我摸了一下这种土，感觉好像能够穿越时间，太奇妙了。甲骨文权威宋镇豪老师说，安阳是一潭活水。他一年至少有一半的时间都待在我们实验室。

甲骨文研究就是穿越 3000 年的对话，是“寻找我们从何而来”的关键。现已发现的甲骨文字有 4000 多个，破译的却只有 1/3，剩下的都是硬骨头。2018 年中国文字博物馆向社会公布了一批未释文字，每个字给出10 万元人民币的悬赏，但当时只有一个人完全拿到奖金。他译出了一个“蠢”字。

世界上最难的拼图游戏

甲骨文是真正的冷门绝学，国内做甲骨文研究的专家不超过 50 人，全世界加起来可能不超过 80 人。我 2000 年从西北工业大学研究生毕业，回到安阳师范学院，当时只有几个研究甲骨文的老师，彼时甲骨文只有图片，没法用电脑输入，也没法检索，他们问我：“你能不能解决这个问题？”我想汉字能进入计算机，甲骨文也是一种符号，也应该能够进入计算机，就开始研究，花了 3 年时间做出了甲骨文的输入法。

从甲骨文中，我们能够理解一些文字的本源。我经常举“争”这个字为例，上面是一只手，中间也是一只手，竖钩是一样东西，“争”就是两只手在争东西；商户的“户”，就是一片窗户。对我们先人造字的智慧，我感到非常佩服，他们把事物的特征抓得非常好。比如说“狗”的尾巴是向上卷的，“猪”的尾巴是往下的，古人肯定是经过仔细观察的，我为先人们感到自豪，这就是文化自信。

我最大心愿就是未来能用计算机破译甲骨文。那时候只有我一个人，力量不够。我找了一位研究甲骨文的退休老师，把计算机学院的年轻老师们集中到一起，大概有十几个人，周六在一起上课。这样，我们就形成一个团队了，这个团队按照我的思路做语料库、字形分析、语法分析，做了好多工具和软件。

现在，我们的甲骨文信息处理实验室有 22 个人，学计算机专业的占多数，研究古文字的有两三个，还有体育博士、法律博士、建筑工程博士、音乐博士、舞蹈博士。殷商是个社会，有战争、农业、天文、地理，当然也有音乐舞蹈。舞蹈博士在研究一种祭祀舞蹈，化学博士研究的是文物黏合剂。

2018 年，实验室引进了计算机博士张展，我让他用计算机做甲骨文的“缀合”。由于甲骨脆弱易碎，经过钻孔和烧灼，以及 3000 多年的时间，很多在出土时已经裂成碎片，只有尽可能地将这些碎片拼接在一起，才能了解其中的内容。

缀合是甲骨学里一个重要分支，被称为“甲骨文的再发掘”，就好像发现了新的甲骨文片一样。原来都是由专家通过分析甲骨文片的材料、年代、文字等信息来缀合，堪称“世界上最难的拼图游戏”。

张展通过计算机图像技术分析甲骨片的边缘吻合度进行缀合，2019 年安阳举行甲骨文发现 120 周年国际学术研讨会，他宣读了使用计算机辅助第一次成功缀合甲骨碎片的论文。截至目前，已经缀合了 50 组甲骨文片，都是人类专家没有缀合成功的。张展告诉我，其中有一组非常重要，经过专家研究，卜辞的体例很罕见，讲的是五月丙戌日出现日偏食，商王占卜之后认为不详，要举行祭祀消除灾祸。这一则甲骨卜辞为商代天文历法研究提供了非常宝贵的材料。

安阳师范学院的甲骨文信息处理在国内外都是比较领先的。这两年随着国家的重视，也有一些高校进入相关研究领域，但是都是一两个人，成团队的只有我们实验室，涉及甲骨文信息化的项目都会联系我们。

人工智能加速度

2022年3月，《自然》杂志以封面文章形式报道了DeepMind团队的最新突破。这个以开发AlphaGo人工智能击败人类围棋冠军而闻名的研究机构，此次成功研发出名为“伊萨卡”（Ithaca）的深度神经网络。该人工智能系统在考古学领域展现出惊人能力——通过分析残存笔迹、铭文位置及历史背景等要素，成功复原了多件破损古希腊石碑上的缺失文字。这项技术突破不仅为文物修复提供了新工具，更开创了人工智能在历史文献研究中的创新应用。

这篇文章对计算机界影响很大，厦门大学的纪荣嵘老师想，能不能用人工智能破译甲骨文？他找到我们合作，我们又通过纪老师跟腾讯建立了联系。最终，我们合作的项目叫“人机协同甲骨文破译”。这种新一代数字技术的发展，让我们在文化遗产很多问题上找到了新的解法。腾讯有个数字文化实验室，这几年围绕文化遗产数字化做了很多探索，也承担起了探寻文字源头这个时代命题。

破译甲骨文有很多思路，其中之一是汉字演变的思路，寻找甲骨文字和后世金文、战国文字的相似度，通过这种联系来破译。和腾讯合作以后，我们做了“以字搜字”，用计算机把甲骨文字与金文、战国文字一个一个去匹配，从字形上找到和它接近的文字，看字的整体相似度和部分相似度。

现在甲骨文材料有 16 万片，但是我们数据库中的拓片有 23 万张，其中很多是重复的。原因有很多，有些是重拓，这片甲骨在山东博物馆拓了一遍，在国家博物馆又拓了一遍。另外，以前做拓片时只重视甲骨字，只拓了有字的地方，没有字的地方就没有拓，后来又做了全拓，后期还拍摄了彩色照片，所以一片甲骨可能有多个图像。还有一种情况是本来完整的甲骨碎了，完整的时候拓过，各个碎片又分别被不同人拓过。

查重是非常重要的工作，是甲骨文数据的科学整理。之前微软研究院出过一个程序，按照纹理图像查重，现在我们已经把 153 部甲骨文著录上搜集的拓片文字全部提取出来，有 143 万字，之前专家预估只有 80 万字，短时间里把甲骨文语料库的库存提高了将近一倍。用重复的文字检查重复的甲骨文拓片是一种新思路，目前我们已经查出了一部分重片，我们的目标是要把 23 万张拓片全部查一遍。

在甲骨文的活化利用上，腾讯作为一家互联网企业，在这方面有优势。2024年 4 月 20 日，我们共同推出了“了不起的甲骨文”微信小程序，可以在上面学习甲骨文，还可以根据造字原理创造文字，甚至试着破译甲骨文，这是甲骨文大众传播的一个成果。围绕“了不起的甲骨文”，我们也做了一些工作，比如甲骨文进入中小学课堂，老师可以使用数字资源进行教学，还能够以小程序为基础组织甲骨文挑战赛。此外，我们还有甲骨文进博物馆项目，安阳的“殷墟博物馆”中就有高清的甲骨文宣传片进行互动展示。

破译甲骨文的珠穆朗玛峰

2025年到2026年，我们有两项任务，其一是“全球甲骨数字回归计划”。作为甲骨文信息处理实验室，搜集数据、提高数据质量是我们的职责，要为甲骨文研究提供高质量数据。我们计划把现存于世界200多个机构的16万甲骨文片全部做成高清的电子照片，让它们以数字形式回归安阳。

“甲骨三维模型”的工作在疫情前就开始了，现在甲骨文著录里的拓片都是平面图，我们一直想做甲骨文的三维建模，把国内的扫描仪全部试了一遍，都不行。后来在波兰一家公司订做了一台设备，耗资 97 万买回来，扫描得确实比较清楚。但是有一个缺点，太慢，扫描一份甲骨要半个小时，将来我们做甲骨文的数字化回归，数据量很大，肯定不行。

现在我们跟腾讯合作，决定用“光照变换矩阵”的方法给甲骨片拍摄高清图：环绕甲骨文片 360 度，每 2 度拍一张照片，最后合成一张照片，拍照的速度要比扫描快得多。甲骨文都是刻在骨头上的，不同角度的光照对刻痕的展示是不一样的，根据照片我们可以提取刻痕的深度，数倍提高甲骨刻痕的辨识度。

“光照变换矩阵”对微痕、刻痕的展示好一些，但是整体建模也有局限，比如对甲骨文片的边缘展示还不行。我们在讨论一个新的方案，就是“多视图三维建模技术”，可以集成“光照变换矩阵”和三维建模技术，自动合成数据。要全世界跑，设备也不能太大，我们正在跟腾讯一起开发这项设备。

甲骨文的全球数字化回归意义有两点。其一是数字化保护。甲骨是 3000 多年前的文物，非常脆弱，宋镇豪老师说，在中国社会科学院有一片甲骨，原来有 3 个字，现在去看只剩 2 个字了，如果现在不保护有些材料就会消失。其二是通过高清拍摄，能够看到原来看不见、看不清的信息，从而推进甲骨学的研究。

我们合作的另外一个目标就是甲骨文破译，我希望这 3 年里能够破译出一个甲骨文字。甲骨文破译一直是我们实验室的梦想，这是世界难题，是甲骨文研究界的珠穆朗玛峰，非常非常难。为什么非要做这件事？就像人为什么非要攀登最高峰，我感觉有点相似。

很多古文字专家不相信计算机可以破译甲骨文，但我一直想证明人工智能可以做到。日思夜想，半夜有什么想法也会马上记在手机上。今天凌晨 4点我就醒了，还在琢磨，能不能从数学的角度建立一个大模型呢？

责任编辑：周莹莹

经典小说推荐

杂志订阅

友情链接