48
ARCHIVES & CONSTRUCTION
基于 Neo4j 图数据库的工程档案知识图谱构建及应用
赵雪芹 杨一凡 于文静
(湖北大学历史文化学院,湖北武汉,430062)
国社会经济发展已迈入知识经济时代,工程档案
管理工作的重心要从“档案库”转向“知识库”。传统的工程档案管理办法重在档案数字化建设,借助信息集成系统解决档案资源分散的问题,忽视了工程档案数据挖掘、语义分析等功能,致使工程档案信息系统“能化”。若对工程档案进行本体构建、实体提取并联结实体间关系,形成可视化的工程档案知识
图谱,能直观地观察档案实体间的关联,快速便捷地定位到相应环节的具体行为,这种知识组织方式不仅能有效提升档案管理工作效率,还有利于挖掘档案数字资源的隐性知识,实现多源异构工程档案知识的融合,为企业工程建设项目决策与预测提供有效参考。
笔者调研发现目前还未有从Neo4j 图数据库视角构建工程档案知识图谱来提升工程档案管理效率相关研究。为推动工程档案资源管理精细化,本文借助“某江水资源配置工程”档案资料,提出基于Neo4j 图形数据库构建工程档案知识图谱,试图以图数据形式来存储档案资源,为工程档案智能化管理提供新思路。
一、 工程档案知识管理现状及知识图谱适用性分析
基于图数据库构建知识图谱是否适用于工程档案知识管理,还需结合工程档案知识管理现状及图数据库特性进行探讨。
1. 工程档案知识管理现状分析
工程档案所蕴含的工程建设知识、经验等对工程
建设过程回溯和新工程项目建设参考都具备重要意
义。互联网技术驱动下工程档案管理模式虽有大迈步式突破,但在知识管理与服务上仍旧不足,具体表现在以下方面:
(1)工程档案知识开发力度不够。合理开发利用工程档案知识是有效提升工程档案价值的方式,也是社会发展过程中提高档案工作地位的重要环节。从国家档案局发布的《国家档案局办公室关于2021年度全国经济科技档案资源开发利用案例评选结果的通报》来看,目前红档案、企业档案科技开发力度较大,而工程档案并不突出。工程档案管理部门“重保存、轻利用”观念亟待突破,需着力提升工程档案知识
挖掘程度和利用效率。
[1]
(2)工程档案知识语义关联度低。现有的工程档案管理系统虽然存储了大量工程建设资料,绝大多数都按照档号归类齐整,但档案资源间的联系构建并不紧密,甚至没有对其关联关系进行梳理分析,各册档
案间形成封闭状态。[2]
工程档案知识未实现深度联结,使得深层次、隐性化的知识难以被挖掘,工程档案知识体系无法扩充
和替代,降低了工程档案知识成果的产出。
(3)工程档案知识单元较为分散。工程档案源于项目建设中不同部门的生产过程,也由不同的职能部门分管,即便当前多数工程档案管理系统实现档案资料统一管理,但工程档案知识单元并未实现聚合。这导致用户查阅某部分关键信息时,需要不断浏览多册
摘 要:文章对当前工程档案知识管理现状进行分析,认为其在知识开发方面存在局限。为推动工程档案知识开发
与利用,将Protégé工具与Neo4j 图数据库相结合,对碎片化的工程档案数据进行知识建模与关联聚合,实现知识层面的数据融合与集成,构建可视化的工程档案知识图谱,为高效存储、快速组织和精准表达工程档案实体及数据关联提供支持。在其应用层面上介绍相关服务功能,为工程档案知识智能服务提供新方向。
关键词:工程档案;图数据库;Neo4j ;知识图谱;知识管理
档案资料,不仅浏览了大量与目标信息无关的内容,还可能遗漏关键信息。
2. Neo4j图数据库的特点
Neo4j图数据库是一种利用图形结构存储和查询数据的数据库系统,其基本组成结构是:节点、关系和属性。Neo4j与传统的SQL等数据库相比,具备图形结构数据存储和便利的功能,灵活的图存储结构能对数据结构较为复杂的关联关系、动态关系变化较快的海量数据存储和管理,解决了关系型数据库存储图结构数据时出现的空间浪费等问题。它不仅能对数据关联关系进行快速匹配、遍历和查,同时出于天生的可扩展性,还适用于高度关联的数据关系建模。由于图数据库能处理关系高度复杂的数据,甚至能根据历史数据预测未来走势,因而被广泛应用于社交网络、地理空间、数据管理等多个领域。[3]
3. 知识图谱在工程档案知识管理中的适用性
一是能够实现工程档案资源的知识挖掘。工程档案涉及图纸、成本清单、会议纪要等多种形式,涵盖大量知识,但现有的工程档案管理系统缺乏揭示工程档案多元化知识的功能。知识图谱技术能够从多源异构的工程档案中细粒度化抽取和加工知识,有助于工程档案资源进行有序化、条理化、系统化的知识组织,从“档案”流向“知识”。二是能够实现工程档案知识的关联与聚合。工程档案虽来源分散、类型各异,但彼此间存在着较强的关联性。基于图数据库方法构建工程档案知识图谱,将其关联以图的方式直观呈现,还能在语义分析的基础上建立起全面、完善的工程档案知识体系,使得工程档案管理系统更加智能。三是能够实现工程档案知识的动态更新。工程项目完工并不代表档案资料收集工作结束,新的工程技术和突发情况需要及时补充到档案资料中。图数据库的可添加性能够使工程档案知识
图谱根据数据的更新添加新的节点、属性、关系,使得图模型持续处于更新状态,知识体系得以不断更新与扩充。
二、 基于图数据库的工程档案知识图谱构建方法
本文在掌握工程档案资源特性和档案资源整合思路的基础上,设计基于图数据库的工程档案知识图谱构建架构和知识模型。同时,为达到理论层面与实践层面的契合,实现知识图谱对工程档案知识资源的组织,本文借助某水资源配置工程档案资料,并依据保密原则,对关键信息采取模糊处理,定名为“某江水资源配置工程”进行实例验证,以说明研究的可行性。
1. 工程档案知识图谱总体构建思路
在解读“某江水资源配置工程”档案资源的基础上,首先分析该档案内容结构特征并构建工程档案知识模型,其次依据知识图谱构建步骤,在Neo4j图数据库中实现“某江水资源配置工程”档案知识图谱。工程档案知识图谱构建流程如下:对工程档案资料内容深刻解读后,确立实体、属性以及关系,并设计知识模型。根据知识模型要素从档案内容中抽取出相关数据形成应用本体模型,将本体模型与知识表示中的三元组格式融合,随后采用实体对齐、实体消歧等知识融合技术清洗数据,通过Protégé中导出的RDF文件与Neo4j元素映射形成工程档案知识图谱并挖掘档案中的隐性知识。总体分为6个层次:知识建模层、知识抽取层、知识表示层、知识融合层、知识存储层以及知识更新层。[4]
2. 工程档案知识建模层
在构建工程档案知识图谱之前,要对工程档案的内容结构及其关联进行梳理。首先,对档案内容进行拆解并构建联系,分析档案实体间的关联才能准确了解具体事件中的真实情况。对档案内容进行拆解并确定实体后,将原本复杂的关联从文字抽象为“边”,通过“边”说明实体间的关系。本文对“某江水资源配置工程”档案内容的概念和属性梳理并解读,最终确定将“工程项目”“档案主题”“责任者”“项目时间”和“项目地点”5个核心概念[5]作为工程档案内容本体,详见表1。
其次,考虑到知识图谱的查询性和图数据库的属性可添加性,分别对不同的实体添加了相应属性,如人物实体具有姓名、性别、职称等属性。最终根据档案内容关系将各实体进行连接,设计本文的工程档案知识模型,如图1所示。
49
2022年第5期
50
ARCHIVES & CONSTRUCTION
3. 工程档案知识抽取层
知识抽取是从工程档案中抽取所需要的内容,包含实体、关系和属性。首先,对“某江水资源配置工程”档案实体的数据属性和关系属性进行梳理和抽取。数据属性抽取,是对实体的相关属性进行抽取,使实体描述更精确和完整。关系属性抽取,是对实体间关系进行解读,抽取实体与实体间的语义关系。依据确定的5个工程档案本体核心类,利用Protégé工具对“某江水资源配置工程”档案领域本体类与关系属性进行创建[6],设置“are responsible for ”“cooperate ”“site ”等11种关系。
其次,结合所构建的工程档案知识模型,将“某江水资源配置工程”档案中抽取的项目参建单位、建设地
点、建设时间等关键实例数据导入,形成工程档案领域应用本体。本文以“某江水资源配置工程”建设项目为核心,选择“档案主题”类中的“某江工程A 河上游泄洪闸监测布置”“某江进口段B 大堤防洪闸降压站供电系统接线设计”等实例进行图谱构建研究,将这些实例数据填充到本体5大核心类目中,结合Protégé对“某江水资源配置工程”应用本体进行可视化。同时,导出为RDF 数据,为“某江水资源配置工程”档案知识图谱的构建奠定基础。
4. 工程档案知识表示层
在知识抽取层已通过Protégé将“某江水资
源配置工程”本体实例导出为RDF 文件,
RDF 采用三元组集合(资源subject -属性predicate -属性值object )的方式在知识图谱中描述事物和关系[7],其中subject 和object 代表知识图谱中的节
点,predicate 代表边,因此
在RDF 图数据模型中主要由边和节点组成。三元组被用来表示实体间的关系,或者实体某个属性的属性值。
5. 工程档案知识融合层
在知识抽取层中,由于文本表述错误、模糊等原因,所抽取的知识内容会存在重复或者冲突等歧义性问题,例如:实体简写重复情况,“中国建筑”和“中建公司”都代表“中国
建筑集团有限公司”。因此,需要对所抽取的数据进行清洗和整理,常用的方法有:实体对齐、实体消歧、共指消解等知识融合技术。它们能够将来自不同数据源的相同实体的差异化表达进行融合,帮助消除数据集中的噪声数据、冗余数据,提升工程档案实体质量。
6. 工程档案知识存储层
将上述过程中已经清洗好的“某江水资源配置工程”应用本体实例数据,在Protégé软件中导出为RDF 文件,并将该RDF 文件与Neo4j元素进行映射,利用Cypher 中的CREATE 语句创建节点、MATCH 语句创
建节点间关系、
MERGE 语句创建节点与关系的属性,Neo4j 图数据库会依据模型结构构建
“某江水资源配
图1 
工程档案知识模型图
图2 某江水资源配置工程档案知识图谱(部分)
业务研讨
置工程”档案知识图谱(部分),如图2所示。工程档案内容除了储存在图数据库中,还能通过网状结构充分展现其关联,通过数据挖掘或机器学习等方法挖掘隐性知识,为上层提供知识发现、知识搜索、知识推荐等工程档案知识服务。
7. 工程档案知识更新层
知识更新层主要是工程档案知识更新和用户知识需求更新。传统的关系型数据库根据事实关系所呈现是静态的知识图谱,仅反映某个阶段的工程档案知识,但工程竣工并不意味着档案资料存储结束,例如某些工程在数年后发生了紧急状况或质量问题,档案资料也需要更新后续的应急措施等内容。基于图数据库的可添加性,可随时根据事态变化,对相应的节点、属性、关系进行更新,动态的工程档案知识图谱解决了静态图谱的时滞性。在用户知识需求更新方面,根据用户查询浏览痕迹对知识图谱结构进行调整,填补用户需要的知识内容,同时搭建时序图谱使得用户能够依据时间维度来获取所需的关键信息。
三、 工程档案领域知识图谱应用
通过Neo4j图数据库构建的工程档案领域知识图谱,根据知识图谱的网状结构梳理工程档案知识间的逻辑关系,在此基础上实现知识抽取和知识挖掘,丰富工程档案知识库体系,打造工程档案知识搜索、知识推荐等系列功能,以期实现工程档案智能服务模式。[8]
1. 工程档案知识智能搜索
当前的智能搜索技术主要针对字面理解进行关键词搜寻,不能分析用户所输入词汇的语义内涵,导致检索结果有偏差。使用工程档案知识图谱搜索知识时,能够发挥语义解读功能,真正理解用户实际检索需求,及时定位到相关实体或属性上,使用户获取更精确、更全面的工程档案知识。例如,在“某江水资源配置工程”中只要点击该项目节点,便能获取“施工单位”“项目编号”等属性。
2. 工程档案知识智能推荐
除了用户对知识的主动搜索,知识获取还能依靠系统的智能推荐服务。工程档案知识图谱对关联的知识实体间的知识网络结构梳理清晰,能结合用户的知识搜寻记录、知识单元访问频率等信息,利用智能知识推荐算法分析用户知识需求,精确推荐用户想要的工程档案知识,还能向用户推送其可能感兴趣的工程知识内容,将用户主动搜索模式转化为系统主动推荐模式。
3. 工程档案知识智能问答
工程档案智能服务系统在处理用户知识需求时,
除了接收用户主动输入的关键词搜寻,还能处理用户在问答区的知识提问。工程档案知识图谱梳理存储了全部档案知识脉络,对工程档案知识单元了解全面。因此,通过嵌入语义分析系统,对用户提问内容充分解读,依据所存储的知识单元,实现工程档案知识智能问答,提升工程档案知识服务质量。
4. 工程档案动态知识导航
传统的工程档案智能服务系统在其档案资源类别管理上使用的是静态的导航模式,用户使用知识导航功能难以全面浏览整个知识单元。创建动态的工程档案知识导航后,用户点击某个知识实体,知识导航系统便根据关系和属性引导用户全面浏览相关的工程档案知识体系。如在查询“某江水资源配置工程”档案时,选择档案主题下的“基本建设”类目,可展示该工程项目所涵盖的所有基本建设类相关资料分布。
四、 结语
本文设计将工程档案本体与Neo4j图数据库相结合,构建工程档案领域知识图谱,可实现工程建设知识的聚合组织与知识关联,深度挖掘工程档案价值。不仅能有效推动工程档案数字资源的知识存储与知
识表示,面向用户提供具有专业性、针对性的档案知识关联服务,而且为工程建筑行业开发档案数字资源提供参考,具有良好的应用前景。本文所提出的方法为工程建设档案知识挖掘和利用提供系统性和科学性的参考,但实现图数据库在工程档案信息管理中的普及运用仍需要继续探索,望能引起相关研究者与实践者对档案资源存储及开发的关注。数据库属性的概念
注释与参考文献
[1]刘靖昌,李杨.知识图谱技术在城市轨道交通企业档案数字化的初探[J].城市轨道交通,2021(7):4.
[2]胡一鸣.炼油催化剂档案专题数据库的建设及应用[J].化工进展,2021(S2):192-197.
[3]张前进.基于Neo4j的智能学习系统语义链接图式存储研究[J].佳木斯大学学报(自然科学版),2017(2):299-301.
[4]熊回香,严舞月.基于知识图谱的数字档案服务模式探究[J].知识管理论坛,2021(4):204-212.
[5]罗倩.基于本体的工程档案数据化模式与方法研究[D].湖北大学,2021.
[6]雷洁,李思经,赵瑞雪,等.面向科研档案管理的知识图谱构建与应用研究[J].数字图书馆论坛,2020(5):8-15.
[7]张维冲,王芳,黄毅.基于图数据库的贵州省大数据政策知识建模研究[J].数字图书馆论坛,2020(4):30-38.
[8]张慧颖,曹玉.国内档案智慧服务研究综述[J].山西档案,2021(6):161-170.
51
2022年第5期