基于专业书籍和网页数据的中医药知识图谱设计与实现
作者: 乔波 周子濠 袁铨
摘要 中医药在中国有5 000多年的历史,为中华民族的繁衍与健康发挥着重要作用。然而,中医药数据通常是非结构化的,这严重影响了中医药知识的普及与应用,因此将中医药数据进行结构化具有重要意义。对于中医药数据非结构化的问题,设计并实现了中医知识图谱。首先,选取了药材、别名、功能主治等6种关系来构建中药材知识图谱的概念层;然后,利用6种关系从农业叙词表等专业书籍和中医药网站上获取数据,并对中医药知识进行数据处理,从而得到三元组形式的中医药知识;最终,将中医知识存入Neo4j数据库,并将其呈现出来。中医药知识图谱的构建将大大提高中医药知识的可理解性和可访问性,为后期临床决策和中医药研究提供数据支持。
关键词 中医药知识图谱;关系;爬虫技术;Neo4j
中图分类号 S-058 文献标识码 A 文章编号 0517-6611(2024)21-0222-05
doi:10.3969/j.issn.0517-6611.2024.21.046
开放科学(资源服务)标识码(OSID):
Design and Implementation of TCM Knowledge Graph Based on Professional Books and Web Data
QIAO Bo, ZHOU Zi-hao, YUAN Quan
(College of Information and Intelligent Science and Technology, Hunan Agricultural University, Changsha, Hunan 410128)
Abstract Traditional Chinese medicine has a history of over 5000 years in China and plays an important role in the reproduction and health of the Chinese nation. However, traditional Chinese medicine data is usually unstructured, which seriously affects the popularization and application of traditional Chinese medicine knowledge. Therefore, structuring traditional Chinese medicine data is of great significance. For the problem of unstructured data in traditional Chinese medicine, we designed and implemented a knowledge graph of traditional Chinese medicine. Firstly, six relationships including medicinal herbs, aliases, and functional indications were selected to construct the conceptual layer of the knowledge graph of traditional Chinese medicine. Then, using six types of relationships, data was obtained from professional books such as agricultural lexicons and traditional Chinese medicine websites, and traditional Chinese medicine knowledge was processed to obtain triplet form of traditional Chinese medicine knowledge. Finally, the knowledge of traditional Chinese medicine would be stored in the Neo4j database and presented. The construction of a knowledge graph of traditional Chinese medicine would greatly improve the comprehensibility and accessibility of traditional Chinese medicine knowledge, providing data support for later clinical decision-making and traditional Chinese medicine research.
Key words A knowledge graph of traditional Chinese medicine;Relation;Crawler technique;Neo4j
基金项目 2022年度湖南省社会科学成果评审委员会课题(XSP22-YBZ024)。
作者简介 乔波(1981—),男,湖南临澧人,副教授,博士,硕士生导师,从事自然语言处理、农业知识图谱与智慧农业研究。*通信作者,硕士研究生,研究方向:农业信息技术。
收稿日期 2024-06-30
中医药作为中国传统医学的重要组成部分,具有悠久的历史和丰富的经验。然而,随着现代医学的快速发展,中医药知识的传承和发展面临着诸多挑战。目前,虽然存在很多中医药网站,但这些网站包含的中医药知识具有复杂的概念体系和庞大的知识量,而且这些知识往往呈现碎片化和信息孤岛现象,导致用户难以形成对中医药的全面认识[1]。
知识图谱,作为一种新型的知识表示和推理技术,能够系统地梳理领域内的概念、实体及其之间的关系,实现知识的结构化和可视化。通过构建中医药知识图谱,可以将分散的中医药知识进行有机整合,形成一个全面、准确、智能的知识系统,为中医药研究、临床实践和知识普及提供有力支撑[2]。
在此背景下,笔者设计并实现了一个中医药知识图谱,对中医概念体系进行系统性梳理,进行知识的关联与融合,建立规模庞大、可扩展的中药领域知识体系。这有助于打破信息孤岛,将分散的知识进行有机整合,提高中医药知识的可用性和可理解性。鉴于此,笔者介绍了中医药知识图谱的设计与实现过程,包括概念层的设计、数据的选择与获取、图谱数据的存储与展示等[3-4]。
1 研究现状
1.1 知识图谱的研究现状
知识图谱是语义网络为骨架的大型知识系统,它是以图的形式显示信息及信息之间的关系;所有的实体与属性、实体与实体之间的关系构成了一张有向图,海量的结构化数据以三元组的形式存在,利用图来储存与表达知识,使得零散的知识相互连接,结构化呈现领域概念之间的语义关系[5]。随着大数据和人工智能技术的飞速发展,知识图谱作为一种重要的知识表示方法,已经在多个领域展现出其巨大的应用价值[6]。
当前,知识图谱可划分为面向通用领域和面向特定领域2类[7]。通用知识图谱,可以说是一种“结构化的百科全书”,是一种面向通用领域的知识,侧重于知识面的扩展,涵盖了许多生活中的常识,涵盖范围很广。例如,国外通用知识图谱YAGO、DBpedia、Freebase和国内通用知识图谱百度知心、搜狗知立方、CN-DBpedia等[8]。
领域知识图谱,又称行业知识图谱或垂直知识图谱,通常面向某一特定领域,如电商、农业、医疗等[9]。领域知识图谱具有资源丰富、结构复杂、对知识品质的要求高、适用范围广等特点。目前,国内学者在农业领域知识图谱的构建进行了相关研究,如吴赛赛构建的作物病虫害知识图谱、于婷婷构建的农作物知识图谱、张明美构建的猕猴桃种植领域知识图谱等。
1.2 中医药知识图谱国内外研究现状
中医药知识图谱作为中医药现代化的重要工具,在辅助诊断、个性化治疗、新药研发等方面具有广阔的应用前景,近年来受到广泛关注。国内研究多依赖于传统医学文献、临床经验及现代研究成果,但数据质量参差不齐,标准化和规范化程度不足。国外在相关领域也有深入的研究,但在与中医药的结合上仍显不足。在概念体系与知识库方面,国内中医药知识图谱的概念体系正在逐步建立中,但仍需加强完善。在中医药知识库建设上,已有一些代表性的成果,如中国中医科学院中医药信息研究所构建的中医药学大型数据库共有48个数据库,总数据超过120 000个[10];邓宇等[11]基于老中医医案创建了知识图谱,以人性化的方式表达病情与解决方法辅助中医检查;常锐博等[12]基于临床病历的慢性胃炎中医诊疗构建知识图谱用于发现诊疗知识,通过对大量医疗数据进行挖掘,可以找到影响患者病情的关键因素和治疗方案。在可视化工程与应用方面,中医药知识图谱的可视化已取得一定成果,如使用图形、网络等形式展示中医药知识间的关系。国外的可视化工具在中医药领域的应用还较少,但有广阔的应用前景。
2 中医药知识图谱模式层构建
在构建中医药知识图谱模式层时,需要明确模式层的主题和范围,以确保模式层的知识能够满足实际需求。深入探究《神农本草经》《本草纲目》以及《伤寒论》等珍贵古籍中所蕴含的中医药概念,可以窥见中医理论体系的博大精深与深邃智慧。这些古老文献不仅详细记载了草药的分类、炮制方法和药性作用,还阐述了中医诊断疾病、治疗疾病的基本原理和原则。对这些经典著作的学习和研究,能够更好地理解中药的本质,掌握中医药的精髓,并在现代医疗实践中发挥其应有的作用[13]。在充分了解中医药学的相关特性的基础上,定制出了相关的实体关系类别来构建本体模型[14]。该研究构建模型关系如下:
2.1 别名
别名是指中药材的另一种名称,通常是由于地域、文化、历史等原因而产生的。
2.2 功能主治
功能主治是根据其药性、成分和作用机制等来确定的。不同中药的功能、适应证各不相同,需要在中医药理论的指导下用药。
2.3 性味
性味是指中药的气味和味道。
2.4 归经
所谓归经,就是药物对人体特定部位的选择性,也就是对特定的脏腑、经脉具有特别的亲和力。
2.5 用法用量
对应病人生病的严重程度与性质来判断中药材的用法和使用计量。
2.6 药方
是以中医学理论为指导,依据临床实践与经验,将单味或数味中药按照一定的组方原则、药味数量、药物性质、配伍方式、剂型选择、用法用量以及禁忌事项等,进行配方,以治疗预防疾病的一种有效方法。
中医药知识图谱中的概念类别将会以网状结构展示出来,结果见图1。图1中的原点表示实体,边表示实体与实体之间的关系[15]。
3 中医药知识图谱数据获取
3.1 专业书籍知识获取途径与思路
中医药知识图谱数据库的数据来源多种多样,包括利用专业书籍,爬取网络上的开元数据等,从而得到知识图谱数据层数据,该研究构建知识图谱的第1个数据来源是《农业科学叙词表》《神农本草经》《本草纲目》[16]等专业书籍,首先通过OCR技术将专业书籍转换成文档,然后通过人工审核与删减存入原始数据库(图2)。