实体消歧方法、装置、存储介质及计算机设备.pdf

上传人:小** 文档编号:10414466 上传时间:2021-06-20 格式:PDF 页数:13 大小:568.47KB
返回 下载 相关 举报
实体消歧方法、装置、存储介质及计算机设备.pdf_第1页
第1页 / 共13页
实体消歧方法、装置、存储介质及计算机设备.pdf_第2页
第2页 / 共13页
实体消歧方法、装置、存储介质及计算机设备.pdf_第3页
第3页 / 共13页
点击查看更多>>
资源描述

《实体消歧方法、装置、存储介质及计算机设备.pdf》由会员分享,可在线阅读,更多相关《实体消歧方法、装置、存储介质及计算机设备.pdf(13页珍藏版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010418304.5 (22)申请日 2020.05.18 (71)申请人 国家基础地理信息中心 地址 100830 北京市海淀区莲花池西路28 号 申请人 北京建筑大学 (72)发明人 刘万增翟曦尹川 (74)专利代理机构 北京中强智尚知识产权代理 有限公司 11448 代理人 黄耀威 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/226(2020.01) (54)发明名称 实体消歧方法、 装置、 存储介质及计算机设 备 (57)摘要。

2、 本发明公开了一种实体消歧方法、 装置、 存 储介质及计算机设备, 涉及信息技术领域, 主要 目的在于通过在创建专家关系图谱时, 引入机构 字段, 并通过社交网络关系分析技术对构建的待 消歧子网进行处理, 从而最大化实现知识图谱中 实体的消歧处理, 减少后期消歧的工作量, 提高 知识图谱构建的效率, 节约人力资源。 所述方法 包括: 根据合作关系模型以及预先创建的专家- 机构关系表, 构建专家关系图谱; 利用整体分析 法对所述专家关系图谱进行消歧处理。 本发明适 用于实体的消歧。 权利要求书1页 说明书8页 附图3页 CN 111680498 A 2020.09.18 CN 111680498。

3、 A 1.一种实体消歧方法, 其特征在于, 包括: 根据合作关系模型以及预先创建的专家-机构关系表, 构建专家关系图谱; 利用整体分析法对所述专家关系图谱进行消歧处理。 2.根据权利要求1所述的方法, 其特征在于, 所述根据合作关系模型以及预先创建的专 家-机构关系表, 构建专家关系图谱, 包括: 提取所述专家-机构关系表中各实体字段信息和关系信息; 将所述实体字段信息添加至所述合作关系模型的实体集合中; 将所述关系信息添加至所述合作关系模型的关系集合中, 以构建所述专家关系图谱。 3.根据权利要求1所述的方法, 其特征在于, 所述利用整体分析法对所述专家关系图谱 进行消歧处理, 包括: 根据。

4、在所述专家关系图谱中获取的待消歧实体, 构建待消歧子网; 利用社交网络分析技术对所述待消歧子网进行消歧处理。 4.根据权利要求1所述的方法, 其特征在于, 所述根据合作关系模型以及预先创建的专 家-机构关系表, 构建专家关系图谱之前, 所述方法还包括: 根据获取的专家信息与机构信息, 判断所述专家与机构是否为多对多的对应关系; 若是, 则只提取第一专家与第一机构的对应关系, 并保存至所述专家-机构关系表; 若否, 则直接提取所述专家与机构的对应关系, 并保存至所述专家-机构关系表。 5.根据权利要求1所述的方法, 其特征在于, 所述利用整体分析法对所述专家关系图谱 进行消歧处理之前, 所述方法。

5、还包括: 基于相似度聚类算法对获取的待消歧实体进行消歧处理。 6.根据权利要求1所述的方法, 其特征在于, 所述构建专家关系图谱, 包括: 利用gephi工具、 所述合作关系模型以及所述预先创建的专家-机构关系表, 生成专家 关系图谱。 7.一种实体消歧装置, 其特征在于, 包括: 构建单元, 用于根据合作关系模型以及预先创建的专家-机构关系表, 构建专家关系图 谱; 处理单元, 用于利用整体分析法对所述专家关系图谱进行消歧处理。 8.根据权利要求7所述的装置, 其特征在于, 所述处理单元包括: 构建模块, 用于根据在所述专家关系图谱中获取的待消歧实体, 构建待消歧子网; 处理模块, 用于利用。

6、社交网络分析技术对所述待消歧子网进行消歧处理。 9.一种存储介质, 其上存储有计算机程序, 所述存储介质中存储有至少一可执行指令, 所述执行指令使处理器执行如权利要求1-6中任一项所述的实体消歧方法对应的操作。 10.一种计算机设备, 包括处理器、 存储器、 通信接口和通信总线所述处理器、 所述存储 器和所述通信接口通过所述通信总线完成相互间的通信, 所述存储器用于存放至少一可执 行指令, 所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的实体消歧对应 的操作。 权利要求书 1/1 页 2 CN 111680498 A 2 实体消歧方法、 装置、 存储介质及计算机设备 技术领域 00。

7、01 本发明涉及信息技术领域, 特别是涉及一种实体消歧方法、 装置、 存储介质及计算 机设备。 背景技术 0002 知识图谱, 在图书情报界称为知识域可视化或知识领域映射地图, 是显示知识发 展进程与结构关系的一系列各种不同的图形, 用可视化技术描述知识资源及其载体, 挖掘、 分析、 构建、 绘制和显示知识及它们之间的相互联系。 而专家关系图谱是通过对大量文献的 挖掘、 抽取、 集成等多种途径获取专家相关信息, 对其进行标准化处理, 使用相关算法建立 专家、 机构、 相关研究等关系网络。 0003 目前, 通常通过专家合作关系为基础构建专家关系图谱。 然而, 通过这种方法构建 的专家关系图谱存。

8、在大量的同名专家节点, 例如专家名字为P的所有同名专家发表论文M 篇, 则需要进行处理的专家歧义对将达到C2m, 后期人工进行消歧的工作量巨大, 导致知识 图谱构建的效率降低, 且耗费大量的人力资源。 发明内容 0004 有鉴于此, 本发明提供一种实体消歧方法、 装置、 存储介质及计算机设备, 主要目 的在于通过在创建专家关系图谱时, 引入机构字段, 并通过社交网络关系分析技术对构建 的待消歧子网进行处理, 从而最大化实现知识图谱中实体的消歧处理, 减少后期消歧的工 作量, 提高知识图谱构建的效率, 节约人力资源。 0005 依据本发明一个方面, 提供了一种实体消歧的方法, 包括: 0006 。

9、根据合作关系模型以及预先创建的专家-机构关系表, 构建专家关系图谱; 0007 利用整体分析法对所述专家关系图谱进行消歧处理。 0008 进一步地, 所述根据合作关系模型以及预先创建的专家-机构关系表, 构建专家关 系图谱, 包括: 0009 提取所述专家-机构关系表中各实体字段信息和关系信息; 0010 将所述实体字段信息添加至所述合作关系模型的实体集合中; 0011 将所述关系信息添加至所述合作关系模型的关系集合中, 以构建所述专家关系图 谱。 0012 进一步地, 所述利用整体分析法对所述专家关系图谱进行消歧处理, 包括: 0013 根据选取的待消歧专家节点构建待消歧子网; 0014 利。

10、用社交网络分析技术对所述待消歧子网进行消歧处理。 0015 进一步地, 所述预先创建专家-机构关系表, 包括: 0016 根据获取的专家信息与机构信息, 判断所述专家与机构是否为多对多的对应关 系; 0017 若否, 则直接提取所述专家与机构的对应关系, 并保存至所述专家-机构关系表; 说明书 1/8 页 3 CN 111680498 A 3 0018 若是, 则只提取第一专家与第一机构的对应关系, 并保存至所述专家-机构关系 表。 0019 进一步地, 所述利用整体分析法对所述专家关系图谱进行消歧处理之前, 所述方 法还包括: 0020 基于相似度聚类算法对获取的待消歧实体进行消歧处理。 0。

11、021 进一步地, 所述构建专家关系图谱, 包括: 0022 利用gephi工具、 所述合作关系模型以及所述预先创建的专家-机构关系表, 生成 专家关系图谱。 0023 依据本发明二个方面, 提供了一种实体消歧装置, 包括: 0024 构建单元, 用于根据合作关系模型以及预先创建的专家-机构关系表, 构建专家关 系图谱; 0025 处理单元, 用于利用整体分析法对所述专家关系图谱进行消歧处理。 0026 进一步地, 所述构建单元, 包括: 0027 提取模块, 用于提取所述专家-机构关系表中各实体字段信息和关系信息; 0028 添加模块, 用于将所述实体字段信息添加至所述合作关系模型的实体集合。

12、中; 0029 所述添加模块具体还用于将所述关系信息添加至所述合作关系模型的关系集合 中, 以构建所述专家关系图谱。 0030 进一步地, 所述处理单元包括: 0031 构建模块, 用于根据选取的待消歧专家节点构建待消歧子网; 0032 处理模块, 用于利用社交网络分析技术对所述待消歧子网进行消歧处理。 0033 进一步地, 所述构建单元包括: 0034 判断模块, 用于根据获取的专家信息与机构信息, 判断所述专家与机构是否为多 对多的对应关系; 0035 第一提取模块, 用于若是, 则只提取第一专家与第一机构的对应关系, 并保存至所 述专家-机构关系表; 0036 第二提取模块, 用于若否,。

13、 则直接提取所述专家与机构的对应关系, 并保存至所述 专家-机构关系表。 0037 进一步地, 所述装置还包括: 0038 聚类单元, 用于基于相似度聚类算法对获取的待消歧实体进行消歧处理。 0039 进一步地, 所述构建单元具体还用于利用gephi工具、 所述合作关系模型以及所述 预先创建的专家-机构关系表, 生成专家关系图谱。 0040 依据本发明第三方面, 提供了一种存储介质, 所述存储介质中存储有至少一可执 行指令, 所述执行指令使处理器执行以下步骤: 根据合作关系模型以及预先创建的专家-机 构关系表, 构建专家关系图谱; 利用整体分析法对所述专家关系图谱进行消歧处理。 0041 依据。

14、本发明第四方面, 提供了一种计算机设备, 包括处理器、 存储器、 通信接口和 通信总线所述处理器、 所述存储器和所述通信接口通过所述通信总线完成相互间的通信, 所述存储器用于存放至少一可执行指令, 所述可执行指令使所述处理器执行以下步骤: 根 据合作关系模型以及预先创建的专家-机构关系表, 构建专家关系图谱; 利用整体分析法对 所述专家关系图谱进行消歧处理。 说明书 2/8 页 4 CN 111680498 A 4 0042 本发明提供一种实体消歧方法、 装置、 存储介质及计算机设备, 与现有技术通过专 家合作关系为基础构建专家关系图谱相比, 本发明通过将根据合作关系模型以及预先创建 的专家-。

15、机构关系表, 构建专家关系图谱; 利用整体分析法对所述专家关系图谱进行消歧处 理。 从而能够通过在创建专家关系图谱时, 引入机构字段, 并通过社交网络关系分析技术对 构建的待消歧子网进行处理, 从而最大化实现知识图谱中实体的消歧处理, 减少后期消歧 的工作量, 提高知识图谱构建的效率, 节约人力资源。 0043 上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上述和其它目的、 特征和优点能够 更明显易懂, 以下特举本发明的具体实施方式。 附图说明 0044 通过阅读下文优选实施方式的详细描述, 各种其他的优点和益处对于。

16、本领域普通 技术人员将变得清楚明了。 附图仅用于示出优选实施方式的目的, 而并不认为是对本发明 的限制。 而且在整个附图中, 用相同的参考符号表示相同的部件。 在附图中: 0045 图1示出了本发明实施例提供的一种实体消歧方法流程图; 0046 图2示出了本发明实施例提供的一种专家-机构关系表的创建流程示意图; 0047 图3示出了本发明实施例提供的一种专家关系图谱示意图; 0048 图4示出了本发明实施例提供的一种待消歧子网构建示意图; 0049 图5示出了本发明实施例提供的一种实体消歧装置的结构示意图; 0050 图6示出了本发明实施例提供的一种计算机设备的实体结构示意图。 具体实施方式 。

17、0051 下面将参照附图更详细地描述本公开的示例性实施例。 虽然附图中显示了本公开 的示例性实施例, 然而应当理解, 可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。 相反, 提供这些实施例是为了能够更透彻地理解本公开, 并且能够将本公开的范围 完整的传达给本领域的技术人员。 0052 如背景技术所述, 目前, 通常通过专家合作关系为基础构建专家关系图谱。 然而, 通过这种方法构建的专家关系图谱存在大量的同名专家节点, 例如专家名字为P的所有同 名专家发表论文M篇, 则需要进行处理的专家歧义对将达到后期人工进行消歧的工作 量巨大, 导致知识图谱构建的效率降低, 且耗费大量的人力资源。。

18、 0053 为了解决上述问题, 本发明实施例提供了一种实体消歧方法, 如图1所示, 所述方 法包括: 0054 101、 根据合作关系模型以及预先创建的专家-机构关系表, 构建专家关系图谱。 0055 其中, 所述合作关系模型可以为现有技术中通过专家的合作关系生成专家关系图 谱的图模型, 具体可以如下所示: 0056 GMV,E 0057 Vv1,v1,v1,v1,v1,v1,v1 0058 E(x,y)|xV,yV,xy 0059 viIdentifier,Name,Publicationsi 说明书 3/8 页 5 CN 111680498 A 5 0060 Publicationsipi。

19、1,pi1,pi1,pi1,pi1,pi1, 0061 其中, GM可以表示所述专家关系图谱, V可以表示专家节点集合, E可以表示合作关 系集合, 每个实体vi可以包括Identifier, Name和Publications三个字段, 所述Identifier 可以表示标识符, Name可以表示专家名称, 所述Publications可以表示文献名称, 每个实体 对应的文献名称可以为一个或者多个。 0062 所述专家-机构关系表具体可以为预先建立的专家与对应机构的关系集合, 通过 所述专家-机构关系表可以更加精准的区分同名专家, 使构建的专家关系图谱中存在的同 名歧义更少, 减少后期消歧工。

20、作量。 需要说明的是, 现有技术中构建专家关系图谱时, 一般 只通过专家的合作关系来构建图结构, 而舍弃独著专家的论文, 图的顶点表示专家, 边代表 合著关系, 专家属性包括论文标题、 关键词等几个字段。 这样的算法实现相对比较简单, 但 是由于生成的专家关系图谱丧失了机构这个重要属性, 也会将不同机构同一名字的两位专 家合并成一个顶点, 给下一步的同名专家拆分增加工作量。 对于本发明实施例, 将机构信息 引入专家关系图谱的构建过程, 不仅丰富了专家关系网络的属性信息, 更重要的是能够减 少同名拆分环节的工作量。 0063 102、 利用整体分析法对所述专家关系图谱进行消歧处理。 0064 其。

21、中, 所述整体分析法是相对于现有的路径分析法而言的。 现有的路径分析法, 根 据专家间的合作关系以及专家与机构间的隶属关系构造实体关系图, 采用广度优先搜索策 略搜索图中两两同名专家间的有效路径; 根据有效路径长度、 数目及路径上边的类型, 计算 两个同名专家间的连接强度, 并将其与阈值进行比较, 实现同名消歧。 而本发明实施例中所 述的整体分析法, 则可以通过抽取同名专家之间的特征子网, 并对所述特征子网进行社交 网络分析, 从而实现同名消歧。 具体地, 在初步构建专家关系图谱之后, 可以利用整体分析 的方法, 抽取待消歧子网, 利用社会网络分析技术对所述待消歧子网进行处理, 从而实现同 名。

22、消歧。 0065 进一步的, 为了更好的说明上述实体消歧方法的过程, 作为对上述实施例的细化 和扩展, 本发明实施例提供了几种可选实施例, 但不限于此, 具体如下所示: 0066 在本发明的一个可选实施例, 所述步骤101具体可以包括: 提取所述专家-机构关 系表中各实体字段信息和关系信息; 将所述实体字段信息添加至所述合作关系模型的实体 集合中; 将所述关系信息添加至所述合作关系模型的关系集合中, 以构建所述专家关系图 谱。 0067 其中, 所述合作关系模型以及所述专家-机构关系表上文已经说明, 此处不再赘 述。 具体地, 提取所述专家-机构关系表, 可以得到所述专家实体字段信息, 如姓名。

23、字段信 息、 著作字段信息和机构字段信息等。 另外, 还可以提取所述专家-机构关系表中的专家-机 构关系。 将所述专家实体字段信息、 机构实体字段信息添加到所述合作关系模型中的实体 集合中, 并将所述专家-机构关系信息添加到所述合作关系模型中的关系集合中, 从而构建 可视化的专家关系图谱。 本发明实施例通过利用图模型以及预先构建的专家-机构关系表 构建专家关系图谱, 能够解决现有文献中专家实体与机构实体无法一一对应的问题, 从而 可以快速生成专家关系图谱, 提高生成效率。 0068 在本发明的一个可选实施例, 所述步骤102具体可以包括: 根据在所述专家关系图 谱中获取的待消歧实体, 构建待消。

24、歧子网; 利用社交网络分析技术对所述特征子网进行消 说明书 4/8 页 6 CN 111680498 A 6 歧处理。 0069 其中, 所述待消歧子网可以基于待消歧两实体之间的最短路径进行构建。 在专家 关系图谱中, 路径存在与否是两个实体关联性的反映, 而最短路径更是能直接反映关联性 的强弱, 因此本发明实施例通过最短路径原理来进行待消歧子网构建。 具体地, 假设待消歧 的两个专家节点最短路径为n, 待消歧子网最大路径为w, wn, 则待消歧子网可以为由n到w 之间所有的路径构成的网络, 其中w的值可以由两个待消歧实体的度数和发文量决定。 w的 设置决定了待消歧子网的规模, 而规模选择是否。

25、合适是决定消歧准确率重要的前提, 如果 子网规模设置过小, 则可能无法把该有的相似关系提取出来, 如果设置过大则会消耗很大 的计算资源。 本发明实施例根据大量样本分析子网规模与路径之间的关系, 如图4所示, 提 供了两个典型样本的待消歧子网抽取示意图, 图中两个样本子网起始的最短路径都为4, m1 和m2为待消歧的两个实体, 图a到d分别为路径设置为4、 5、 6、 7时的待消歧子网规模变化情 况; 图e到h代表n1和n2两个实体之间的路径设置为4、 5、 6、 7时的待消歧子网规模变化情况。 m1和m2构建的待消歧子网规模随着路径增加迅速变大, 当路径为5时可以满足特征提取的 需求, 而n1。

26、和n2构建的待消歧子网规模随路径增加变化不明显, 路径设置为5、 6、 7时都没有 明显变化。 对于本发明实施例, 由于路径每增加一个专家节点, 对应的待消歧子网计算速度 就会增加大量时间, 如图4中待消歧子网c计算时间为30秒, 而待消歧子网d的路径增加了一 个专家节点, 计算时间约为5分钟, 因此, 可以设置w-n1、 2、 3这三种情况, 即构建最短路径 为n, 最长路径分别为n+1、 n+2、 n+3的待消歧子网, 所述最长路径具体取值可以根据w设定。 0070 对于本发明实施例, 所述待消歧子网规模变化由两个待消歧实体的度数和发文量 决定。 其中, 所述待消歧实体的度数可以为连接所述。

27、实体的边的数量, 所述发文量可以为所 述实体每个边对应的文献数量。 所述待消歧子网规模变化的具体公式可以包括: 0071 MDx*0.7+Fx*0.3 0072 其中, M可以表示待消歧子网规模变化, Dx可以表示对两个待消歧实体的度数进行 均值归一化处理, Fx可以表示对两个待消歧实体的发文量进行均值归一化处理, 其中Dx的 权重系数可以为0.7, Fx的权重系数可以为0.3。 0073 对于本发明实施例, 所述待消歧子网的最长路径可以通过所述待消歧子网规模变 化量决定。 其中, 所述待消歧子网规模变化量可以为上述的M值。 具体地, 所述待消歧子网最 长路径的具体公式可以包括: 0074 0。

28、075 其中, w可以为待消歧子网最长路径, M可以为所述待消歧子网规模变化量, 0.3和 0.5可以为预设的待消歧子网规模变化阈值, 所述权重系数可以根据经验设置, 本发明实施 例不做明确规定。 0076 在本发明的又一个可选实施例, 所述步骤101具体可以包括: 根据获取的专家信息 与机构信息, 判断所述专家与机构是否为多对多的对应关系; 若是, 则只提取第一专家与第 一机构的对应关系, 并保存至专家-机构关系表。 0077 其中, 所述第一专家具体可以是指所述文献署名中位置顺序排列为第一个的专 家, 同理所述第一机构可以是指所述文献署名中位置顺序排列为第一个的机构。 所述专家 说明书 5。

29、/8 页 7 CN 111680498 A 7 信息与机构信息可以从文献中获取, 所述专家信息可以包括专家名称, 所述机构信息可以 包括机构名称, 具体可以通过爬虫软件在文献数据库中爬取专家信息与机构信息。 所述多 对多的对应关系具体可以包括: 文献中署名的专家名称为2个及以上, 对应的机构名称也为 2个及以上。 例如, 对于一篇文献, 署名的专家名称包括张三, 李四, 王五, 赵六, 对应的机构 名称包括机构1、 机构2、 机构3, 由于专家名称与机构名称数量不相等, 因此无法直接一一对 应匹配, 但是, 按照一般文献要求, 第一专家和第一机构是具有正确的对应关系, 即张三与 机构1必然存在。

30、对应关系, 但是李四可能属于机构2、 也可能属于机构3, 因此, 本发明实施例 对于这种专家名称与机构名称多对多的情况, 只提取第一专家名称以及第一机构名称。 需 要说明的是, 对于本发明实施例, 由于实现的是实体的消歧过程, 因此, 本发明实施例所涉 及的专家都需要至少存在一篇第一专家署名的文献, 也就是说, 即使一位作者拥有多篇文 献署名, 但是没有一篇第一专家的文献署名, 也不能算作本申请的专家范畴。 这样可以保证 本发明实施例范围内的所有专家与机构的对应关系都能够被采集。 具体地, 若判断所述专 家名称与所述机构名称属于多对多的对应关系, 则只提取第一专家名称与第一机构名称的 对应关系。

31、, 并保存至所述专家-机构关系表。 0078 对于本发明实施例, 所述步骤101具体还可以包括: 若否, 则直接提取所述专家与 机构的对应关系, 并保存至所述专家-机构关系表。 0079 其中, 若判断所述专家名称与机构名称不是多对多的关系, 则其只可能存在三种 关系, 即1: 1、 1: n、 n: 1三种关系, 如图2所示, 而对于这三种关系, 都可以唯一地确定专家名 称与机构名称的对应关系, 例如: 对于一篇文献, 1)若只有一个署名专家张三, 且只有一个 机构1, 则二者具有唯一对应关系; 2)若只有一个署名专家张三, 且具有两个机构, 机构1和 机构2, 则也可以确定张三同时属于机构。

32、1和机构2, 此种情况可以出现在所述专家求学阶段 或者就职单位变迁时; 3)若有两个署名专家, 张三、 李四, 且只有一个机构1, 则可以确定张 三、 李四属于机构1。 因此, 当判断所述专家名称与机构名称不属于多对多的关系时, 可以直 接提取专家与机构的对应关系, 保存至所述专家-机构关系表。 0080 通过上述步骤, 在预先建立的文献数据库中爬取每一篇文献中的专家信息及机构 信息, 并将对应关系保存至所述专家-机构关系表中。 当遍历完所有的文献之后, 即可以获 取数据库中所有专家与机构的对应关系。 构建完成所述专家-机构关系表, 就可以依据该表 解决上述n:n条件下专家与机构的匹配问题, 。

33、首先获取专家字段的第一位专家, 在专家与机 构关系表中查找该专家所对应的机构列表, 再与该篇论文的所有机构进行取交集操作, 得 到的结果就是该专家对应的机构, 以此类推, 获取其余专家对应的机构信息。 0081 需要说明的是, 现有的通过合作关系构建专家关系图谱的方法会将独著专家的论 文舍弃掉, 只使用合著专家的论文, 也就是说, 现有技术中舍弃了上述的1: 1和1: n两种情况 下的专家文献, 导致构建的专家关系图谱缺少了很多实体, 造成图谱的不完整; 而本发明实 施例在现有技术的基础上加入了机构名称的字段, 并通过创建专家-机构关系表, 从而可以 实现对独著实体的提取。 0082 在本发明。

34、的再一个可选实施例, 所述方法还包括: 基于相似度聚类算法对获取的 待消歧实体进行消歧处理。 0083 具体地, 所述基于相似度聚类算法对获取的待消歧实体进行消歧处理的具体过程 可以包括: S1: 利用Word2Vec工具将实体的专家名以及合作关系这2个属性特征分别训练成 说明书 6/8 页 8 CN 111680498 A 8 为词向量, 且将每个词向量均归一化为(0, 1)之间的小数, 将2个归一化后的小数组成特征 向量用来表示该实体; S2: 取所有同名的实体, 通过计算任意两个同名的实体之间的相似 度, 并与相似度阈值比较, 取大于相似度阈值的最大相似度值, 将最大相似度值所对应的两 。

35、个同名的实体聚类为一簇, 得到一个实体集, 计算相似度的公式具体可以为: 0084 0085 其中, Sij可以表示两个同名实体ai与实体aj之间的相似度, simattr()可以表示相 似度计算函数; S3: 取与所述实体集同名的其他任一实体, 若与实体集中任一个实体之间的 相似度大于相似度阈值, 则将该实体加入该实体集; S4: 将剩余的同名实体, 按步骤S2和S3 进行处理, 直到对所有同名实体匹配到相应的实体集; S5: 将同一实体集中的所有实体合并 为同一个实体。 0086 在本发明的再一个可选实施例, 所述步骤101具体还包括: 利用gephi工具、 所述合 作关系模型以及所述预先。

36、创建的专家-机构关系表, 生成专家关系图谱。 0087 其中, 所述gephi工具是一款开源免费跨平台基于JVM的复杂网络分析软件, , 其主 要用于各种网络和复杂系统, 动态和分层图的交互可视化与探测开源工具。 对于本发明实 施例, 利用所述合作关系模型, 以及预先创建的专家-机构关系表, 可以生成对应的专家关 系图谱, 此时生成的专家关系图谱是存在专家名称歧义的专家关系图谱, 需要后续通过本 发明实施例提供的消歧子网抽取方法进行消歧处理, 从而得到消歧后的专家关系图谱。 0088 进一步地, 作为图1的具体实现, 本发明实施例提供了一种实体消歧装置, 如图5所 示, 所述装置包括: 构建单。

37、元21、 处理单元22。 0089 所述构建单元21, 可以用于利用整体分析法对所述专家关系图谱进行消歧处理; 0090 所述处理单元22, 可以用于利用整体分析法对所述专家关系图谱进行消歧处理。 0091 进一步地, 所述构建单元21, 包括: 0092 提取模块211, 可以用于提取所述专家-机构关系表中各实体字段信息和关系信 息; 0093 添加模块212, 可以用于将所述实体字段信息添加至所述合作关系模型的实体集 合中; 0094 所述添加模块212具体还可以用于将所述关系信息添加至所述合作关系模型的关 系集合中, 以构建所述专家关系图谱。 0095 进一步地, 所述处理单元22包括:。

38、 0096 构建模块221, 可以用于根据在所述专家关系图谱中获取的待消歧实体, 构建待消 歧子网; 0097 处理模块222, 可以用于利用社交网络分析技术对所述待消歧子网进行消歧处理。 0098 进一步地, 所述装置还包括: 0099 判断模块23, 可以用于根据获取的专家信息与机构信息, 判断所述专家与机构是 否为多对多的对应关系; 0100 提取单元24, 可以用于若是, 则只提取第一专家与第一机构的对应关系, 并保存至 所述专家-机构关系表; 0101 所述提取单元24具体还可以用于若否, 则直接提取所述专家与机构的对应关系, 说明书 7/8 页 9 CN 111680498 A 9。

39、 并保存至所述专家-机构关系表。 0102 进一步地, 所述装置还包括: 0103 聚类单元25, 可以用于基于相似度聚类算法对获取的待消歧实体进行消歧处理。 0104 进一步地, 所述构建单元21具体还可以用于利用gephi工具、 所述合作关系模型以 及所述预先创建的专家-机构关系表, 生成专家关系图谱。 0105 需要说明的是, 本发明实施例提供的一种实体消歧装置所涉及各功能模块的其他 相应描述, 可以参考图1所示方法的对应描述, 在此不再赘述。 0106 基于上述如图1所示方法, 相应的, 本发明实施例还提供了一种存储介质, 所述存 储介质中存储有至少一可执行指令, 所述执行指令使处理器。

40、执行以下步骤: 根据合作关系 模型以及预先创建的专家-机构关系表, 构建专家关系图谱; 利用整体分析法对所述专家关 系图谱进行消歧处理。 0107 基于上述如图1所示方法和如图5所示装置的实施例, 本发明实施例还提供了一种 计算机设备, 如图6所示, 处理器(processor)31、 通信接口(Communications Interface) 32、 存储器(memory)33、 以及通信总线34。 其中: 处理器31、 通信接口32、 以及存储器33通过 通信总线34完成相互间的通信。 通信接口34, 用于与其它设备比如用户端或其它服务器等 的网元通信。 处理器31, 用于执行程序, 具。

41、体可以执行上述实体消歧方法实施例中的相关步 骤。 具体地, 程序可以包括程序代码, 该程序代码包括计算机操作指令。 处理器31可能是中 央处理器CPU, 或者是特定集成电路ASIC(Application Specific Integrated Circuit), 或者是被配置成实施本发明实施例的一个或多个集成电路。 0108 终端包括的一个或多个处理器, 可以是同一类型的处理器, 如一个或多个CPU; 也 可以是不同类型的处理器, 如一个或多个CPU以及一个或多个ASIC。 存储器33, 用于存放程 序。 存储器33可能包含高速RAM存储器, 也可能还包括非易失性存储器(non-volati。

42、le memory), 例如至少一个磁盘存储器。 程序具体可以用于使得处理器31执行以下操作: 根据 合作关系模型以及预先创建的专家-机构关系表, 构建专家关系图谱; 利用整体分析法对所 述专家关系图谱进行消歧处理。 0109 通过本发明的技术方案, 能够通过将根据合作关系模型以及预先创建的专家-机 构关系表, 构建专家关系图谱; 利用整体分析法对所述专家关系图谱进行消歧处理。 从而能 够通过在创建专家关系图谱时, 引入机构字段, 并通过社交网络关系分析技术对构建的待 消歧子网进行处理, 从而最大化实现知识图谱中实体的消歧处理, 减少后期消歧的工作量, 提高知识图谱构建的效率, 节约人力资源。。

43、 0110 显然, 本领域的技术人员应该明白, 上述的本发明的各模块或各步骤可以用通用 的计算装置来实现, 它们可以集中在单个的计算装置上, 或者分布在多个计算装置所组成 的网络上, 可选地, 它们可以用计算装置可执行的程序代码来实现, 从而, 可以将它们存储 在存储装置中由计算装置来执行, 并且在某些情况下, 可以以不同于此处的顺序执行所示 出或描述的步骤, 或者将它们分别制作成各个集成电路模块, 或者将它们中的多个模块或 步骤制作成单个集成电路模块来实现。 这样, 本发明不限制于任何特定的硬件和软件结合。 0111 以上所述仅为本发明的优选实施例而已, 并不用于限制本发明, 对于本领域的技 术人员来说, 本发明可以有各种更改和变化。 凡在本发明的精神和原则之内, 所作的任何修 改、 等同替换、 改进等, 均应包括在本发明的保护范围之内。 说明书 8/8 页 10 CN 111680498 A 10 图1 图2 图3 说明书附图 1/3 页 11 CN 111680498 A 11 图4 说明书附图 2/3 页 12 CN 111680498 A 12 图5 图6 说明书附图 3/3 页 13 CN 111680498 A 13 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1