摘 要
本文介绍了目前国内外跨媒体科技大数据的知识图谱构建与动态精准画像的研究进展,主要针对跨媒体科技大数据的实体识别、关系抽取和实体消歧,以及动态精准画像进行了梳理和分析,并对未来工作提出了展望。
关键字
科技大数据;知识图谱;动态精准画像
0 引言
近年来,随着科技资源规模的爆炸性增长,现有的科技资源正面临着指标繁多、类别细分、难以完整覆盖、精确提炼等问题,如何实现科技资源高精度立体精准画像成为国内外众多研究者需要解决的关键问题。由于科技资源中不仅包含科技文本数据,还包含了大量的如图像、视频等多媒体数据,人们很难从海量的跨媒体科技大数据中迅速、准确掌握相关政策的脉络,因此如何清晰地展示跨媒体科技大数据的关键信息和相互关系尤为重要。随着人工智能技术的快速发展,将人工智能与科技领域相结合成为当前研究的热点,其中知识图谱技术作为人工智能领域的一个重要分支,具有广阔的应用前景和现实意义。
知识图谱是由实体关系三元组组成,可以看作是通过顶点和边拼接而成的有向图。相比于传统的文本,知识图谱在表达方式上具有更优的性能。与传统的信息管理方式相比,知识图谱因其图的数据结构、数据表达方式,有利于我们更加快速、有效地从冗长复杂的数据中获取所需的知识,以及知识之间的关系。此外,相比于传统的文本形式,人们往往更加直观地基于图的表示去理解。知识图谱因其基于图而具有的较强解释性,在挖掘数据中潜在语义关系和知识之间关系推理上扮演着重要角色。
2012 年 5 月,Google 首先提出了知识图谱的概念,随后国内外各研究机构,以及互联网公司也相继构建了知识图谱,例如,复旦大学创建了 CN-Probase、上海交通大学搭建了 zhishi.me,以及百度的知识图谱和微软的 Probase。为了便于计算机更加容易地计算和提取数据,三元组因自身简便独特的数据格式被知识图谱基用于数据的表达,因此如何完成从科技大数据中抽取知识三元组是后续生成知识图谱的关键前提,面向科技大数据的知识抽取方法对于构建科技资源相关实体和概念的知识图谱具有重要的科学价值。
1 跨媒体科技大数据知识图谱的构建
通常,我们采集到的原始科技数据并不可以直接使用,而获取到的知识数据可划分为三种不同的类型,第一种是以指定的数据结构展示和存储的结构化数据类型,这种结构便于直接使用;第二种是基于某种结构存储的半结构化数据类型,相比于可以直接使用的结构化数据类型,该结构需要从数据中进一步挖掘提取才可以使用;第三种是完全不具有结构的非结构化数据类型,也是目前最常见的数据类型,不同于结构化和半结构化数据类型,该结构类似需要更多的数据挖掘技术才可以获取使用的数据。知识抽取技术可以解决非结构化数据难以提取的问题。在知识抽取技术中,通常采用实体识别、属性抽取、关系抽取等方法完成非结构化数据的提取转换。
1.1 跨媒体科技大数据的实体识别
实体识别是从非结构化数据中完成知识提取工作最重要的步骤之一。英文的实体识别任务不用关注因分词错误带来的影响,更多地是关注词本身的特征。然而,在中文的实体识别任务中,为了解决中文自身相互依赖共存的问题,需要先基于分词等技术来处理数据,分词后的数据才可以用来完成实体识别任务。目前主流的命名实体识别方法包括基于模型匹配、传统机器学习和最新的深度学习三种方法。为了更好地对科技大数据完成序列标注,可以在处理词语先后关系中引入循环神经网络。循环神经网络的识别单位是中文文字中的每个词,原始的文本数据会通过深度神经网络被训练成词向量,生成的词向量会接着被输入到另一个深度神经网络中完成实体识别任务,相比于传统机器学习中的条件随机场模型(CRF),从实验结果上来看,循环神经网络有着更杰出的表现。长短期记忆网络(LSTM)继承了循环神经网络可以保留上下文的优点,同时又解决了循环神经网络可能出现的梯度消失缺陷,从而解决了知识文本中存在“长依赖”问题的特性,使其在序列标注问题上受到极大追捧。由于长短期记忆网络模型的隐藏态只是通过过去得到信息,因此诞生了融合前向和后向两个方向的双向长短期记忆网络模型(BLSTM)。相比于 LSTM,BLSTM 不但可以解决长依赖的优势,而且还解决了单向的缺点,引入其没有的特征,因此在命名实体识别上有更好的表现。Google 在 2018 年提出的 BERT 模型结合对下游任务的微调,在实体识别中达到了最先进水平。科技资源实体间的语义关系抽取,也是面向科技资源非结构化数据的知识抽取中不可或缺的重要一步。关系抽取的任务是提取两个时间之间的相关关系,也是构建知识图谱的关键。关系抽取方法在国内外受到了众多学者的研究追捧,可以分为有监督、半监督和无监三种学习方法。
基于 BLSTM-CRF 模型的中文命名实体识别方法经过实验验证,能够有效地提高中文命名实体识别效果。但因该模型在训练过程中,字向量表示过程存在向量表征过于单一化的问题,无法很好地处理字的多义性特征。对此,可以在利用 BLSTM 学习科技大数据的上下文信息,以及利用 CRF 学习标签间存在依赖关系的基础上,引入 BERT 完成数据的预训练,将双向 Transformer 用于语言模型中,可以很好地根据字的上下文信息丰富字的语义向量,然后再将输出的字向量序列输入到 BLSTM-CRF 进行训练。基于BERT-BLSTM-CRF 的实体识别算法如图 1 所示,该算法由 BERT、BLSTM 和CRF 三个模块构成。首先是基于 BERT 模块完成输入数据的预训练,在 BERT 模型中,所有层中的上下文会被整体调节起来;在语言模型上,由双向 Transformer 网络来完成。然后,采 BLSTM 解决知识文本中的存在“长依赖”问题。BLSTM 神经网络设定了前向和后向两个方向上的网络结构,前向 LSTM 先从句子的最前面开始运行,后向 LSTM 先从最后面开始运行,之后融合来自两个方向的网络信息,解决了单向 LSTM 只能保留前面而无法考虑后续上下文的缺陷。最后,通过 CRF 作为损失函数,利用梯度下降进行实体识别训练,得到科技大数据的实体识别模型。
图 1 基于 BERT-BLSTM-CRF 的实体识别算法
1.2 跨媒体科技大数据的关系抽取
在知识图谱构建过程实体识别之后,需要进行实体关系的抽取。传统的实体关系抽取方法多数是以单个句子作为处理单元,难以解决训练语料中实体关系标签标注错误的问题,而且没有充分利用包含实体信息的多个句子在分类实体关系时的相互增强作用。对此,可以在 BLSTM 的基础上,引入双向门控循环单元(GRU)实现跨媒体科技大数据的关系抽取。GRU 是基于 LSTM 变换而来,相比于 LSTM具有更简单的结构,因此也是目前比较主流的一种网络。GRU 通过隐藏状态代替 LSTM 中细胞状态完成数据传输,不同于 LSTM 的三个门组织结构,GRU 结构中由重置门和更新门这两个门组织构成。在 GRU 中,先前数据有哪些需要被舍弃、哪些需要被留存是由重置门完成的;有哪些数据需要被添加,以及哪些数据不需要再向后传输是由更新门完成的。更新门的作用,类似于 LSTM 中用于剔除前序信息的遗忘门和接受新添数据的输入门的两者结合。GRU 通过“门”结构解决了短时记忆的问题,不仅可以调节流经序列的信息流,循环神经网络存在的“梯度消失”问题也得到了改善。科技实体关系抽取中的字级别注意力机制模型采用 Q(Query)、K(Key)、V(Value)。在该模型中,通过均匀分布随机采样的向量矩阵获取 Query,其中双向 GRU 网络隐藏层的输出向量维度用 k 表示,基于句子中的中文分词词性的向量生成特征矩阵获取 Key,基于双向 GRU 网络隐藏层输出向量获取相同的矩阵Value,藉此可以获取实体关系抽取中字级别的注意力输出向量。基于上述的字级别注意力层之后模型已经获取到了句子中汉字的权重值,然后基于实体关系抽取同一个实体和标签很有可能出现在多个句子中的特点,对该实体和标签在多个句子中分配权重,从而得到每个句子对最终结果标签的分类权重。最后,基于真实情况中该句子中实体关系和本次模型预测实体关系分布的交叉熵函数作为损失函数来开展梯度下降的训练,最终得到实体关系抽取模型。基于 BGRU-BATTENTION 的实体关系抽取算法,如图 2 所示。
图 2 BGRU-BATTENTION 关系抽取算法
模型的输入是科技资源内容短文本和已经训练完成的 BGRU-BATTENTION 网络模型,输出是科技资源内容短文本中所包含的实体间的关系。首先使用 scrapy 分布式爬取框架完成数据采集;再基于分词等工具完成数据的去噪,处理后的数据会被输入到词向量模型中完成数据的编码,转换成可被网络识别的序列向量;序列向量被输入到双向 GRU 层中,经过网络的多次训练计算出输入数据的特征向量;然后基于双重注意力机制提取向量的重要特征;最后接入一层 softmax 得到实体对关系的分类,从而完成实体关系抽取。
通过结合 BERT-BLSTM-CRF 实体识别算法和BGRU-BATTENTION实体关系抽取算法,可以将一条非结构化的科技资源大数据转换成实体三元组(),然后借助于 Neo4j 图形数据库作数据的存储和展示,从而完成跨媒体科技大数据知识图谱的构建。
2 跨媒体科技大数据的动态精准画像
随着科技资源数据的不断扩增、数据库的不断壮大,不可避免会带来一词多义,影响跨媒体科技大数据画像的精准度。为了提高跨媒体科技大数据画像的精确性,需要解决科技大数据的实体消歧问题。在跨媒体科技大数据的动态精准画像构建中,实体消歧结果越准确,才能提高实体间语义关系的准确性,继而提高跨媒体科技大数据画像的精准性。
2.1 跨媒体科技大数据的实体消歧
实体识别和关系抽取技术为形成跨媒体科技大数据的动态精准画像建立了实体点和关系边,并且随着时间不断推移,跨媒体科技大数据画像会动态更新、不断完善。随着科技实体规模不断增大,画像的精准性受到实体歧义干扰。科技实体消歧问题可以类比于机器学习常见的分类或聚类问题。同样基于数据集标注的数据范围可以划分为有监督、半监督和无监督的实体消歧方法。
在有监督学习方法中,学习分类模型会基于已经标注好的规范数据集。目前主流的有监督实体消歧方法主要包括贝叶斯(Naïve Bayes)、支持向量机(SVM)和逻辑回归等模型。相比于有监督的预先标注好数据,无监督的实体消歧方法可以通过数据特性对数据进行聚类。而由于其减少了预先标注的工作,在准确率等性能指标上差于有监督的消歧方法。目前主流无监督实体消歧方法有 K 均值算法(K-means)。
为了降低数据预先标注的成本而且提高模型的性能,诞生了半监督的实体消歧方法。半监督方法融合聚类和分类模型完成实体消歧工作,训练的初期需要人工设计规则,最后再基于相似度来完成聚类任务。因为训练初期人工设计规则成本会随着数据规模的增加而增加,此类方法仅适用于数据规模较少的任务,无法满足大规模科技大数据的分类任务。
以科技论文数据的实体消歧为例。科技论文数据的实体消歧是由科技论文数据的特征提取、用于实体消歧的分类器和预测科技论文所属作者三个模块组成。在科技论文数据的特征提取模块,主要使用 TF-IDF 和向量空间模型完成论文的特征提取工作。TF-IDF 作为信息检索领域非常主流的特征提取方法,可以用来衡量文档中每个字或者词的重要程度。在处理论文信息时,相比于论文中的论文标题、摘要等基础属性,论文作者信息的独特性,可以将作者信息和其他属性分开进行特征提取,最终再将合并分开提取出来的特征,从而生成更好的样本特征。
为了便于构建知识图谱,需要把知识抽取和实体消歧处理后的科技资源数据写进数据库,完成数据的持久化。考虑到知识图谱是由大量的点和边构成,目前主流的关系型数据库在大规模结点和边的存储和运算下的表现较差。因此,传统的关系型数据库适合于处理实体关系简单任务,无法满足科技大数据知识图谱构建涉及到的复杂实体关系。对此,可以引入图形数据库。在一个图形数据库中,数据库是由一系列结点形成的结点集和结点点的关系形成的关系集组成。数据在图形数据库中以图的结构进行存储,这种图形数据结构使得图形数据库在处理知识图谱中的复杂实体关系问题上有出色表现。例如,可以采用目前最主流的图形数据库 Neo4j,不同于传统关系型数据库中的表,实体数据和实体间的关系数据会组合生成实体关系三元组,然后以三元组的数据结构存储在 Neo4j 图形数据库中;此外,在 Neo4j 图形数据库中还提供了类似于传统关系型数据库myqsl 的查询语言,在使用的简便性及查询性能上都有出色表现。
2.2 跨媒体科技大数据的动态精准画像
在跨媒体科技大数据的知识图谱构建完成后,就可以借助于知识图谱技术可视化将原始的、冗长的文本数据生动形象展现出来。为了解决科技资源面临的指标繁多、类别细分,以及难以完整覆盖、精确提炼等问题,实现科技资源高精度立体精准画像,在 BERT-BLSTM-CRF 实体识别算法和 BGRU-BATTENTION 实体关系抽取算法的基础上,可以引入时间序列维度,通过每日自动获取最新数据扩展数据库,继而实现科技资源的动态画像。为了提高科技资源动态画像的精准度,解决因数据扩增带来的一词多义,继而影响画像精准性问题,可以进一步引入传统机器学习中的贝叶斯方法,在每日动态获取数据后,先将新获取的科技数据和数据库中的数据完成实体消歧,从而避免因实体歧义而带来画像的精准性下降。跨媒体科技大数据的动态精准画像框架,如图 3 所示。
跨媒体科技大数据的动态精准画像以知识图谱为基础,知识图谱可以看作是海量数据的标签,根据跨媒体科技大数据的采集内容,提取不同的实体类型,包含了人名、地名、组织名、时间、资源、属性、用户和主语、宾语 9 种实体类型,以及人物与人物、人物与地点、人物与组织、地点与地点、地点与组织、组织与组织、事件与人物、事件与地点、事件与组织、事件与时间 10 种实体关系。跨媒体科技大数据的数据收集、处理与存储是框架的第一个,通过分布式爬取框架从各大官方信息公开网站,爬取本次实验所需要数据。采集完的数据需要进行去噪、归一化等处理,处理后的数据才会存储到数据库中。接着基于 BERT-BLSTM-CRF 实体识别算法完成科技实体的提取,形成画像的点;基于 BGRU-BATTENTION 实体关系抽取算法完成科技实体间的关系提取,形成画像的边;通过每日自动爬取数据,并且基于传统的贝叶斯机器学习方法完成新采集实体和数据库中实体消歧,提高形成画像的精准性。最后引入时间序列为维度,构建不同时间节点下的精准画像;随着时间的不断推移,形成跨媒体科技大数据的动态精准画像。实体关系三元组 是构建知识图谱的基础,基于 Neo4j 可以构建跨媒体科技大数据的知识图谱。在 Neo4j 图形化数据库内部结构将定义好的实体节点和关系以三元组的形式存储,Neo4j 也正是基于这种特殊的存储机制,可以通过节点之间的内部联系快速精准地找到两个节点间的关系。节点和关系是Neo4j图形数据库中最为关键的两个元素,作为一种高性能的图形数据库,相比于传统的将结构化数据存在表中,它将结构化数据存储在网络上。基于 Neo4j 图形数据库对实体和实体关系进行结构化展示便于查询指定实体之间的相关关系,还可以查询相关科技资源数据如科技政策发布时间、发布单位、发布地区等信息。知识图谱的内容也可以基于 LTP 使用句法分析和结构提取三元组信息来进行扩展和丰富。如果需要查看某一具体的科技资源画像,只需要输入 Neo4j 图形数据库语言,指定实体内部的属性为资源名称即可。以知识图谱为基础构建的跨媒体科技大数据动态精准画像不仅生动形象,还便于用户获取科技资源的关键信息。在增删查改等常用操作上,用户的体验也因为 Neo4j 图形数据库得到了极大的舒适提升。
3 结束语
目前,跨媒体科技大数据的知识图谱构建与动态精准画像技术的研究尚处于起步阶段,在跨媒体科技大数据的动态精准画像中,可以考虑采用除时间序列维度的其他维度,从多个维度展示科技资源画像的动态性。此外,在跨媒体科技大数据知识图谱的构建中,可以通过丰富实体关系的种类,提高实体识别率,从而更为精准地从科技短文本数据中抽取实体关系三元组数据,提高科技资源知识图谱的精准性和覆盖性。
(参考文献略)