穿越 3000 年的对话

作者: 刘永革

穿越 3000 年的对话0
标题

我的工作是用计算机破译甲骨文。

甲骨文是一种刻在龟甲或兽骨上的古文字。3000 多年前的商朝王室热衷占卜,占卜官在龟甲和牛骨的背面钻出圆形的深窝或者浅槽,火烤之后产生裂纹,以此判断吉凶,然后把占卜结果刻在这片龟甲或者牛骨之上。甲骨卜辞的内容很丰富,是关于商代历史的真实记录,把中国的信史往前推了1000 年。

现存于世的甲骨文物大约 16 万片,主要来自殷墟。殷墟,就是殷商都城的废墟,位于现在的安阳。

别看我是安阳人,一直在安阳师范学院工作,但我的专业是数学和计算机,对历史本来是完全不感兴趣的。我们有一个副校长叫屈凌波,和殷墟考古队队长唐际根是北京大学的同学,他一到周末就拉着我去考古队。这让我对商朝的文化,对青铜器、玉器渐渐熟悉起来。

有一年冬天,非常冷,我带着同事去考古队时,他们正在挖掘洹北商城,遗址上的土很多都是红颜色的。我问为啥是红颜色?唐队长回答:3000 年前这里发生过一场大火,把洹北商城全部烧掉了。我摸了一下这种土,感觉好像能够穿越时间,太奇妙了。甲骨文权威宋镇豪老师说,安阳是一潭活水。他一年至少有一半的时间都待在我们实验室。

甲骨文研究就是穿越 3000 年的对话,是“寻找我们从何而来”的关键。现已发现的甲骨文字有 4000 多个,破译的却只有 1/3,剩下的都是硬骨头。2018 年中国文字博物馆向社会公布了一批未释文字,每个字给出10 万元人民币的悬赏,但当时只有一个人完全拿到奖金。他译出了一个“蠢”字。

世界上最难的拼图游戏

甲骨文是真正的冷门绝学,国内做甲骨文研究的专家不超过 50 人,全世界加起来可能不超过 80 人。我 2000 年从西北工业大学研究生毕业,回到安阳师范学院,当时只有几个研究甲骨文的老师,彼时甲骨文只有图片,没法用电脑输入,也没法检索,他们问我:“你能不能解决这个问题?”我想汉字能进入计算机,甲骨文也是一种符号,也应该能够进入计算机,就开始研究,花了 3 年时间做出了甲骨文的输入法。

从甲骨文中,我们能够理解一些文字的本源。我经常举“争”这个字为例,上面是一只手,中间也是一只手,竖钩是一样东西,“争”就是两只手在争东西;商户的“户”,就是一片窗户。对我们先人造字的智慧,我感到非常佩服,他们把事物的特征抓得非常好。比如说“狗”的尾巴是向上卷的,“猪”的尾巴是往下的,古人肯定是经过仔细观察的,我为先人们感到自豪,这就是文化自信。

我最大心愿就是未来能用计算机破译甲骨文。那时候只有我一个人,力量不够。我找了一位研究甲骨文的退休老师,把计算机学院的年轻老师们集中到一起,大概有十几个人,周六在一起上课。这样,我们就形成一个团队了,这个团队按照我的思路做语料库、字形分析、语法分析,做了好多工具和软件。

现在,我们的甲骨文信息处理实验室有 22 个人,学计算机专业的占多数,研究古文字的有两三个,还有体育博士、法律博士、建筑工程博士、音乐博士、舞蹈博士。殷商是个社会,有战争、农业、天文、地理,当然也有音乐舞蹈。舞蹈博士在研究一种祭祀舞蹈,化学博士研究的是文物黏合剂。

2018 年,实验室引进了计算机博士张展,我让他用计算机做甲骨文的“缀合”。由于甲骨脆弱易碎,经过钻孔和烧灼,以及 3000 多年的时间,很多在出土时已经裂成碎片,只有尽可能地将这些碎片拼接在一起,才能了解其中的内容。

缀合是甲骨学里一个重要分支,被称为“甲骨文的再发掘”,就好像发现了新的甲骨文片一样。原来都是由专家通过分析甲骨文片的材料、年代、文字等信息来缀合,堪称“世界上最难的拼图游戏”。

张展通过计算机图像技术分析甲骨片的边缘吻合度进行缀合,2019 年安阳举行甲骨文发现 120 周年国际学术研讨会,他宣读了使用计算机辅助第一次成功缀合甲骨碎片的论文。截至目前,已经缀合了 50 组甲骨文片,都是人类专家没有缀合成功的。张展告诉我,其中有一组非常重要,经过专家研究,卜辞的体例很罕见,讲的是五月丙戌日出现日偏食,商王占卜之后认为不详,要举行祭祀消除灾祸。这一则甲骨卜辞为商代天文历法研究提供了非常宝贵的材料。

安阳师范学院的甲骨文信息处理在国内外都是比较领先的。这两年随着国家的重视,也有一些高校进入相关研究领域,但是都是一两个人,成团队的只有我们实验室,涉及甲骨文信息化的项目都会联系我们。

人工智能加速度

2022年3月,《自然》杂志以封面文章形式报道了DeepMind团队的最新突破。这个以开发AlphaGo人工智能击败人类围棋冠军而闻名的研究机构,此次成功研发出名为“伊萨卡”(Ithaca)的深度神经网络。该人工智能系统在考古学领域展现出惊人能力——通过分析残存笔迹、铭文位置及历史背景等要素,成功复原了多件破损古希腊石碑上的缺失文字。这项技术突破不仅为文物修复提供了新工具,更开创了人工智能在历史文献研究中的创新应用。

这篇文章对计算机界影响很大,厦门大学的纪荣嵘老师想,能不能用人工智能破译甲骨文?他找到我们合作,我们又通过纪老师跟腾讯建立了联系。最终,我们合作的项目叫“人机协同甲骨文破译”。这种新一代数字技术的发展,让我们在文化遗产很多问题上找到了新的解法。腾讯有个数字文化实验室,这几年围绕文化遗产数字化做了很多探索,也承担起了探寻文字源头这个时代命题。

破译甲骨文有很多思路,其中之一是汉字演变的思路,寻找甲骨文字和后世金文、战国文字的相似度,通过这种联系来破译。和腾讯合作以后,我们做了“以字搜字”,用计算机把甲骨文字与金文、战国文字一个一个去匹配,从字形上找到和它接近的文字,看字的整体相似度和部分相似度。

现在甲骨文材料有 16 万片,但是我们数据库中的拓片有 23 万张,其中很多是重复的。原因有很多,有些是重拓,这片甲骨在山东博物馆拓了一遍,在国家博物馆又拓了一遍。另外,以前做拓片时只重视甲骨字,只拓了有字的地方,没有字的地方就没有拓,后来又做了全拓,后期还拍摄了彩色照片,所以一片甲骨可能有多个图像。还有一种情况是本来完整的甲骨碎了,完整的时候拓过,各个碎片又分别被不同人拓过。

查重是非常重要的工作,是甲骨文数据的科学整理。之前微软研究院出过一个程序,按照纹理图像查重,现在我们已经把 153 部甲骨文著录上搜集的拓片文字全部提取出来,有 143 万字,之前专家预估只有 80 万字,短时间里把甲骨文语料库的库存提高了将近一倍。用重复的文字检查重复的甲骨文拓片是一种新思路,目前我们已经查出了一部分重片,我们的目标是要把 23 万张拓片全部查一遍。

穿越 3000 年的对话1
标题

在甲骨文的活化利用上,腾讯作为一家互联网企业,在这方面有优势。2024年 4 月 20 日,我们共同推出了“了不起的甲骨文”微信小程序,可以在上面学习甲骨文,还可以根据造字原理创造文字,甚至试着破译甲骨文,这是甲骨文大众传播的一个成果。围绕“了不起的甲骨文”,我们也做了一些工作,比如甲骨文进入中小学课堂,老师可以使用数字资源进行教学,还能够以小程序为基础组织甲骨文挑战赛。此外,我们还有甲骨文进博物馆项目,安阳的“殷墟博物馆”中就有高清的甲骨文宣传片进行互动展示。

破译甲骨文的珠穆朗玛峰

2025年到2026年,我们有两项任务,其一是“全球甲骨数字回归计划”。作为甲骨文信息处理实验室,搜集数据、提高数据质量是我们的职责,要为甲骨文研究提供高质量数据。我们计划把现存于世界200多个机构的16万甲骨文片全部做成高清的电子照片,让它们以数字形式回归安阳。

“甲骨三维模型”的工作在疫情前就开始了,现在甲骨文著录里的拓片都是平面图,我们一直想做甲骨文的三维建模,把国内的扫描仪全部试了一遍,都不行。后来在波兰一家公司订做了一台设备,耗资 97 万买回来,扫描得确实比较清楚。但是有一个缺点,太慢,扫描一份甲骨要半个小时,将来我们做甲骨文的数字化回归,数据量很大,肯定不行。

现在我们跟腾讯合作,决定用“光照变换矩阵”的方法给甲骨片拍摄高清图:环绕甲骨文片 360 度,每 2 度拍一张照片,最后合成一张照片,拍照的速度要比扫描快得多。甲骨文都是刻在骨头上的,不同角度的光照对刻痕的展示是不一样的,根据照片我们可以提取刻痕的深度,数倍提高甲骨刻痕的辨识度。

“光照变换矩阵”对微痕、刻痕的展示好一些,但是整体建模也有局限,比如对甲骨文片的边缘展示还不行。我们在讨论一个新的方案,就是“多视图三维建模技术”,可以集成“光照变换矩阵”和三维建模技术,自动合成数据。要全世界跑,设备也不能太大,我们正在跟腾讯一起开发这项设备。

甲骨文的全球数字化回归意义有两点。其一是数字化保护。甲骨是 3000 多年前的文物,非常脆弱,宋镇豪老师说,在中国社会科学院有一片甲骨,原来有 3 个字,现在去看只剩 2 个字了,如果现在不保护有些材料就会消失。其二是通过高清拍摄,能够看到原来看不见、看不清的信息,从而推进甲骨学的研究。

我们合作的另外一个目标就是甲骨文破译,我希望这 3 年里能够破译出一个甲骨文字。甲骨文破译一直是我们实验室的梦想,这是世界难题,是甲骨文研究界的珠穆朗玛峰,非常非常难。为什么非要做这件事?就像人为什么非要攀登最高峰,我感觉有点相似。

很多古文字专家不相信计算机可以破译甲骨文,但我一直想证明人工智能可以做到。日思夜想,半夜有什么想法也会马上记在手机上。今天凌晨 4点我就醒了,还在琢磨,能不能从数学的角度建立一个大模型呢?

责任编辑:周莹莹

经典小说推荐

杂志订阅

友情链接