《论文的搜索方法及装置.pdf》由会员分享,可在线阅读,更多相关《论文的搜索方法及装置.pdf(18页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104239570 A (43)申请公布日 2014.12.24 CN 104239570 A (21)申请号 201410519986.3 (22)申请日 2014.09.30 G06F 17/30(2006.01) (71)申请人 百度在线网络技术 (北京) 有限公司 地址 100085 北京市海淀区上地十街 10 号 百度大厦三层 (72)发明人 马晋 薛洪贺 汪洋 张博 张扬 苑雪冉 曹冰 张晓婧 (74)专利代理机构 北京清亦华知识产权代理事 务所 ( 普通合伙 ) 11201 代理人 宋合成 (54) 发明名称 论文的搜索方法及装置 (57) 摘要 本发明。
2、公开了一种论文的搜索方法, 包括 : 接收搜索词 ; 根据搜索词生成多个搜索结果并提 供, 其中, 每个搜索结果包括多个属性参数, 其中, 多个属性参数中至少有部分属性参数具有对应的 实体标识 ; 以及当搜索结果中的属性参数被触发 时, 根据属性参数对应的实体标识生成新的搜索 结果并提供。 本发明实施例的方法, 彻底解决了实 体重名、 长搜索词的部分匹配等的问题, 提高了搜 索结果的精确度, 提升了用户体验。 本发明还公开 了一种论文的搜索装置。 (51)Int.Cl. 权利要求书 2 页 说明书 10 页 附图 5 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2。
3、页 说明书10页 附图5页 (10)申请公布号 CN 104239570 A CN 104239570 A 1/2 页 2 1. 一种论文的搜索方法, 其特征在于, 包括以下步骤 : S1、 接收搜索词 ; S2、 根据所述搜索词生成多个搜索结果并提供, 其中, 每个搜索结果包括多个属性参 数, 其中, 所述多个属性参数中至少有部分属性参数具有对应的实体标识 ; 以及 S3、 当搜索结果中的属性参数被触发时, 根据所述属性参数对应的实体标识生成新的 搜索结果并提供。 2. 如权利要求 1 所述的论文的搜索方法, 其特征在于, 具有所述实体标识的属性参数 包括作者姓名和 / 或发表处。 3. 如。
4、权利要求 1 所述的论文的搜索方法, 其特征在于, 在所述步骤 S1 之前, 还包括 : S11、 获取多个论文 ; S12、 从所述多个论文中分别抽取每个论文对应的作者姓名和作者所处机构 ; S13、 如果论文对应的作者姓名为唯一, 则根据所述作者姓名生成所述实体标识 ; 以及 S13、 如果论文对应的作者姓名不为唯一, 则根据所述作者姓名和所述作者所处机构生 成所述实体标识。 4. 如权利要求 1 所述的论文的搜索方法, 其特征在于, 在所述步骤 S1 之前, 还包括 : S14、 获取多个论文 ; S15、 从所述多个论文中分别获取每个论文对应的发表处 ; 以及 S16、 根据所述论文对。
5、应的发表处生成所述发表处对应的实体标识。 5.如权利要求3或4所述的论文的搜索方法, 其特征在于, 所述作者姓名或发表处对应 的实体标识通过对所述作者姓名或发表处进行签名获得。 6. 如权利要求 1 所述的论文的搜索方法, 其特征在于, 所述步骤 S3 具体包括 : 当搜索结果中的属性参数被触发时, 根据所述属性参数对应的实体标识和所述属性参 数生成新的搜索结果并提供。 7. 一种论文的搜索装置, 其特征在于, 包括 : 接收模块, 用于接收搜索词 ; 第一生成模块, 用于根据所述搜索词生成多个搜索结果并提供, 其中, 每个搜索结果包 括多个属性参数, 其中, 所述多个属性参数中至少有部分属性。
6、参数具有对应的实体标识 ; 以 及 第二生成模块, 用于在搜索结果中的属性参数被触发时, 根据所述属性参数对应的实 体标识生成新的搜索结果并提供。 8. 如权利要求 7 所述的论文的搜索装置, 其特征在于, 具有所述实体标识的属性参数 包括作者姓名和 / 或发表处。 9. 如权利要求 7 所述的论文的搜索装置, 其特征在于, 在所述接收模块接收搜索词之 前, 所述装置还包括 : 第一获取模块, 用于获取多个论文 ; 抽取模块, 用于从所述多个论文中分别抽取每个论文对应的作者姓名和作者所处机 构 ; 第三生成模块, 用于在论文对应的作者姓名为唯一时, 根据所述作者姓名生成所述实 体标识, 并在论。
7、文对应的作者姓名不为唯一时, 根据所述作者姓名和所述作者所处机构生 权 利 要 求 书 CN 104239570 A 2 2/2 页 3 成所述实体标识。 10. 如权利要求 7 所述的论文的搜索装置, 其特征在于, 在所述接收模块接收搜索词之 前, 所述装置还包括 : 第一获取模块, 用于获取多个论文 ; 第二获取模块, 用于从所述多个论文中分别获取每个论文对应的发表处 ; 以及 第四生成模块, 用于根据所述论文对应的发表处生成所述发表处对应的实体标识。 11.如权利要求9或10所述的论文的搜索装置, 其特征在于, 所述作者姓名或发表处对 应的实体标识通过对所述作者姓名或发表处进行签名获得。。
8、 12. 如权利要求 7 所述的论文的搜索装置, 其特征在于, 所述第二生成模块具体用于 : 当搜索结果中的属性参数被触发时, 根据所述属性参数对应的实体标识和所述属性参 数生成新的搜索结果并提供。 权 利 要 求 书 CN 104239570 A 3 1/10 页 4 论文的搜索方法及装置 技术领域 0001 本发明涉及搜索引擎技术领域, 尤其涉及一种论文的搜索方法及装置。 背景技术 0002 目前, 在学术科研领域, 学者/学生/科研工作者等对某个知识的研究成果最终会 以论文的方式进行发表, 而发表的论文本身包括了很多属性, 例如, 论文作者姓名、 论文发 表处(包括期刊、 会议、 学位论。
9、文等)。 然而, 多篇论文的相同属性之间又构成了各自的属性 集合, 论文集和属性集之间的关联形成了论文的知识图谱, 用户可通过图谱中的任何一个 属性都可以查看与其相关的其他属性的信息, 但因为目前存在的论文数量巨大, 因此构成 的属性集合数量也很大, 且属性集合中存在着大量的相同名称但含义不同的属性, 使得检 索速度很慢且无法精确找到对应信息。 0003 相关技术中, 可通过搜索语法制定定向搜索作者姓名或发表机构名, 搜索出目标 结果, 目前一般仅做字面上的文本匹配。例如, 如图 1(a) 所示, 当用户在搜索引擎中输入搜 索词 “南瓜组培根根系分泌物的化感效应研究” 时, 搜索引擎可根据该搜。
10、索词为用户提供相 关的搜索结果, 当用户点击搜索结果中的 “李明” 时, 搜索引擎可将 “李明” 作为搜索词进行 搜索, 以得到与 “李明” 相关的搜索结果。又如, 如图 1(b) 所示, 当用户在搜索引擎中输入 搜索词 “journal:( 生态学报 )” 时, 搜索引擎可根据该搜索词为用户提供相关的搜索结果。 0004 但是, 相关技术中存在的问题是 : (1) 无法实现重名作者的消歧, 例如, 当用户点 击如图 1(a) 中作者 “李明” 来发起搜索时, 用户希望搜索到与论文 南瓜组培根根系分泌物 的化感效应研究 的发表者 “李明” 相关的结果, 而非其他机构的 “李明” 。然而, 通过。
11、相关技 术中的搜索方法, 得到的搜索结果的 “李明” 来自各个领域, 与目标的李明完全不是同一个 人, 无法满足用户的精确人名查询需求 ; (2) 无法解决长 query( 搜索词 ) 的部分匹配问题, 例如, 如图 1(b) 所示, 使用 “journal:( 生态学报 )” 搜索 生态学报 发表的论文, 可以看 到 应用生态学报 也会被检出, 传统靠关键字匹配方式的搜索, 无法解决部分匹配问题, 从 而导致搜索结果可能不精确, 导致用户体验变差。 发明内容 0005 本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。 0006 为此, 本发明的第一个目的在于提出一种论文的搜索方。
12、法。该方法可以彻底解决 实体重名、 长搜索词的部分匹配等的问题, 提高搜索结果的精确度, 提升用户体验。 0007 本发明的第二个目的在于提出一种论文的搜索装置。 0008 为了实现上述目的, 本发明第一方面实施例的论文的搜索方法, 包括 : S1、 接收搜 索词 ; S2、 根据所述搜索词生成多个搜索结果并提供, 其中, 每个搜索结果包括多个属性参 数, 其中, 所述多个属性参数中至少有部分属性参数具有对应的实体标识 ; 以及 S3、 当搜索 结果中的属性参数被触发时, 根据所述属性参数对应的实体标识生成新的搜索结果并提 供。 说 明 书 CN 104239570 A 4 2/10 页 5 。
13、0009 本发明实施例的论文的搜索方法, 可先接收搜索词, 之后根据搜索词生成多个搜 索结果并提供, 其中, 每个搜索结果包括多个属性参数, 多个属性参数中至少有部分属性参 数具有对应的实体标识, 当搜索结果中的属性参数被触发时, 根据属性参数对应的实体标 识生成新的搜索结果并提供, 即由于属性参数可作为一个实体, 通过将实体转换为实体标 识, 根据实体标识的唯一性, 获得与其对应的搜索结果, 彻底解决了实体重名、 长搜索词的 部分匹配等的问题, 提高了搜索结果的精确度, 提升了用户体验。 0010 为了实现上述目的, 本发明第二方面实施例的论文的搜索装置, 包括 : 接收模块, 用于接收搜索。
14、词 ; 第一生成模块, 用于根据所述搜索词生成多个搜索结果并提供, 其中, 每 个搜索结果包括多个属性参数, 其中, 所述多个属性参数中至少有部分属性参数具有对应 的实体标识 ; 以及第二生成模块, 用于在搜索结果中的属性参数被触发时, 根据所述属性参 数对应的实体标识生成新的搜索结果并提供。 0011 本发明实施例的论文的搜索装置, 可通过接收模块接收搜索词, 第一生成模块根 据搜索词生成多个搜索结果并提供, 其中, 每个搜索结果包括多个属性参数, 多个属性参数 中至少有部分属性参数具有对应的实体标识, 第二生成模块在搜索结果中的属性参数被触 发时, 根据属性参数对应的实体标识生成新的搜索结。
15、果并提供, 即由于属性参数可作为一 个实体, 通过将实体转换为实体标识, 根据实体标识的唯一性, 获得与其对应的搜索结果, 彻底解决了实体重名、 长搜索词的部分匹配等的问题, 提高了搜索结果的精确度, 提升了用 户体验。 0012 本发明附加的方面和优点将在下面的描述中部分给出, 部分将从下面的描述中变 得明显, 或通过本发明的实践了解到。 附图说明 0013 本发明上述的和 / 或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解, 其中, 0014 图 1(a) 和 (b) 是现有技术中论文的搜索方法的示例图 ; 0015 图 2 是根据本发明一个实施例的论文的搜索方法的。
16、流程图 ; 0016 图 3 是根据本发明一个实施例的生成实体标识的流程图 ; 0017 图 4 是根据本发明另一个实施例的生成实体标识的流程图 ; 0018 图 5 是根据本发明一个实施例的摘要在展现页面进行展示的示意图 ; 0019 图 6(a) 和 (b) 是根据本发明一个实施例的论文的搜索方法的示例图 ; 0020 图 7 是根据本发明一个实施例的论文的搜索装置的结构示意图 ; 0021 图 8 是根据本发明另一个实施例的论文的搜索装置的结构示意图 ; 以及 0022 图 9 是根据本发明又一个实施例的论文的搜索装置的结构示意图。 具体实施方式 0023 下面详细描述本发明的实施例, 。
17、所述实施例的示例在附图中示出, 其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。 下面通过参考附 图描述的实施例是示例性的, 旨在用于解释本发明, 而不能理解为对本发明的限制。 0024 为了解决在通过相关技术中的论文搜索方法进行论文搜索时, 无法实现重名作者 说 明 书 CN 104239570 A 5 3/10 页 6 的消歧、 且无法解决长 query( 搜索词 ) 的部分匹配等的问题, 本发明提出了一种论文的搜 索方法及装置。具体地, 下面参考附图描述本发明实施例的论文的搜索方法及装置。 0025 本发明提出一种论文的搜索方法, 包括 : S1、 接收搜索。
18、词 ; S2、 根据搜索词生成多 个搜索结果并提供, 其中, 每个搜索结果包括多个属性参数, 其中, 多个属性参数中至少有 部分属性参数具有对应的实体标识 ; 以及 S3、 当搜索结果中的属性参数被触发时, 根据属 性参数对应的实体标识生成新的搜索结果并提供。 0026 图 2 是根据本发明一个实施例的论文的搜索方法的流程图。如图 2 所示, 该论文 的搜索方法可以包括 : 0027 S201, 接收搜索词。 0028 其中, 在本发明的实施例中, 搜索词可以是各种语言的字符 ( 如文字、 拼音、 符号 和 / 或数字等 ) 中的一种或者它们的组合。 0029 例如, 搜索引擎可接收用户通过浏。
19、览器提供的输入框中输入的搜索词。 0030 S202, 根据搜索词生成多个搜索结果并提供, 其中, 每个搜索结果包括多个属性参 数, 其中, 多个属性参数中至少有部分属性参数具有对应的实体标识。 0031 具体地, 在接收到搜索词之后, 可根据搜索词进行搜索, 以生成与搜索词相关的多 个搜索结果, 并将该多个搜索结果展现在搜索结果展示页面以提供给用户, 从而方便用户 的查看。 0032 应当理解, 在本发明的实施例中, 属性参数可包括但不限于标题、 关键词、 作者姓 名、 作者所处机构和发表处等。也就是说, 每个搜索结果中可包括至少两个属性参数, 如标 题、 关键词、 作者姓名和发表处等。 多。
20、个属性参数中至少有部分属性参数具有对应的实体标 识。其中, 在本发明的实施例中, 具有实体标识的属性参数可包括作者姓名和 / 或发表处 等。 0033 还可以理解, 属性参数如作者姓名、 作者所处机构和发表处等可称为实体, 实体标 识可理解为是作者姓名、 作者所处机构和发表处等实体的唯一标识。由于不同实体之间会 存在重名的问题、 全称和简称表达不一致的问题。 为了解决实体存在的上述问题, 可通过消 歧策略根据实体(如作者姓名、 作者所处机构或发表处等)以生成与实体对应的实体标识, 从而通过实体标识使得实体既能区别于其他实体又能尽最大程序包含自己的信息。 下面可 参考附图中的图 3 和图 4 以。
21、对实体标识的生成过程进行具体描述。 0034 在本发明的一个实施例中, 如图 3 所示, 实体标识可被预先生成, 即在接收搜索词 ( 即上述 S201) 之前, 该论文的搜索方法还可包括以下步骤以生成实体标识 : 0035 S301, 获取多个论文。 0036 S302, 从多个论文中分别抽取每个论文对应的作者姓名和作者所处机构。 0037 具体地, 可先对每个论文进行结构解析, 以得到每个论文的结构化信息, 如论文标 题、 摘要、 关键词、 作者姓名、 作者所处机构、 论文正文内容等, 之后可从结构化信息中抽取 出每个论文对应的作者姓名和作者所处机构。然后, 可以作者姓名为主键将每个论文中的。
22、 所有作者姓名汇集在一起, 得到作者姓名的聚簇。最后, 可对作者姓名进行判断, 判断作者 姓名是否为唯一, 即该作者姓名是否存在重名。 0038 S303, 如果论文对应的作者姓名为唯一, 则根据作者姓名生成实体标识。 0039 具体地, 当判断该论文对应的作者姓名为唯一, 即该作者姓名不存在重名时, 可通 说 明 书 CN 104239570 A 6 4/10 页 7 过预设的编码规则将作者姓名进行编码以生成与作者姓名对应的实体标识。 0040 S304, 如果论文对应的作者姓名不为唯一, 则根据作者姓名和作者所处机构生成 实体标识。 0041 具体地, 当判断该论文对应的作者姓名不为唯一,。
23、 即该作者姓名存在重名时, 可通 过预设的编码规则将作者姓名和作者所处机构进行编码以生成与作者姓名和作者所处机 构对应的实体标识。 这是由于在同一个机构中不一定具有相同姓名的作者, 由此, 解决了不 同实体之间会存在重名的问题。 0042 其中, 在本发明的实施例中, 预设的编码规则可以是一个预先约定的编码规则, 可 以按以下两种方式产出 : 0043 方式 1 : 将消歧后的作者姓名 ( 或作者姓名 + 作者所处机构 ) 赋予连续递增的整 数, 这个整数就是作者姓名 ( 或作者姓名 + 作者所处机构 ) 的实体标识例如, 论文具有两 个不同的作者, 作者姓名分别为 “张三” 、“李四” , 。
24、则可将这两个作者姓名赋予连续递增的整 数, 如 “张三” 对应的实体标识为 “14268442” 、“李四” 对应的实体标识为 “14268443” 。 0044 方式 2 : 对作者姓名 ( 或作者姓名 + 作者所处机构 ) 做数字签名, 签名结果作为作 者姓名(或作者姓名+作者所处机构)的实体标识。 也就是说, 作者姓名对应的实体标识可 通过对作者姓名进行签名获得。其中, 签名算法可采用标准的 64 或 128 位的 MD5(Message Digest Algorithm, 消息摘要算法 - 第五版 ) 签名算法。例如, 作者姓名为 “李明” , 作者 所处机构为 “中国科学院水土保持与。
25、生态环境研究中心” , 则可通过 MD5 签名算法将 “李 明” +“中国科学院水土保持与生态环境研究中心” 做数字签名, 得到对应的实体标识为 “57d2b4212e5ba064” 。 0045 由此, 根据作者姓名 ( 或作者姓名 + 作者所处机构 ) 生成与其对应的实体标识, 由 于实体标识具有唯一性, 因此实现了重名作者的消歧的目的。 0046 在本发明的另一个实施例中, 如图 4 所示, 实体标识可被预先生成, 即在接收搜索 词 ( 即上述 S201) 之前, 该论文的搜索方法还可包括以下步骤以生成实体标识 : 0047 S401, 获取多个论文。 0048 S402, 从多个论文中。
26、分别获取每个论文对应的发表处。 0049 具体地, 可先对每个论文进行结构解析, 以得到每个论文的结构化信息, 如论文发 表处、 作者姓名、 作者所处机构、 论文标题等, 之后可从结构化信息中获取每个论文对应的 发表处, 即可以理解为获取每个论文在哪个期刊、 或会议、 或学校 ( 即学位论文 ) 上进行了 发表。 0050 S403, 根据论文对应的发表处生成发表处对应的实体标识。 0051 具体地, 在获取到每个论文对应的发表处之后, 可通过预设的编码规则将论文对 应的发表处进行编码以生成与发表处对应的实体标识。 应当理解, 在本步骤中, 预设的编码 规则的实现方式与上述实施例中预设的编码规。
27、则的实现方式相同, 即可将发表处赋予连续 递增的整数, 该整数就是发表处对应的实体标识 ; 或者, 可通过对发表处进行签名以获取发 表处对应的实体标识。 0052 由此, 根据发表处生成与其对应的实体标识, 由于实体标识具有唯一性, 因此解决 了由于全称和简称表达不一致而可能导致根据全称或简称检索出来的结果不一致的问题, 即解决了长搜索词的部分匹配的问题。 说 明 书 CN 104239570 A 7 5/10 页 8 0053 需要说明的是, 在本发明的一个实施例中, 在生成实体标识之后, 可对实体标识建 立倒排索引。 具体地, 对实体标识进行建立倒排索引的过程主要可分为两步, 下面可结合实。
28、 例说明 : 例如, 假设论文 A、 B、 C 分别具有两个作者姓名, 论文 A 的两个作者姓名对应的实体 标识分别是 a1、 a2, 论文 B 的两个作者姓名实体标识分别是 b1、 b2, 论文 C 的两个作者姓名 实体标识分别是 a1、 b2, S1 : 可生成论文的 DocID( 论文编号 ) 到实体标识对应的正排数据 得到如下正排数据 “A-a1、 a2、 B-b1、 b2、 C-a1、 b2” ; S2 : 将正排数据转换为以作者姓名实 体标识为 key( 主键 ) 的到排数据, 如 “a1-A、 C ; a2-A ; b1-B ; b2-A、 C” 。由此, 通过对实 体标识建立倒。
29、排索引, 使得只要通过作者姓名实体标识即可知道该作者撰写过哪些论文。 0054 还需要说明的是, 在本发明的一个实施例中, 可将实体标识添加到摘要中, 即将实 体标识记录到实体展现内容的相同字段中, 以实现人名或机构名与实体的对应。 其中, 在本 发明的实施例中, 摘要可理解为就是最终用户可见的搜索结果以及不可见的辅助信息, 如 图 5 所示,“标题” 、“作者” 、“摘要” 、“关键词” 等均是通过摘要最终呈现给用户。 0055 应当理解, 在将实体标识进行建立倒排索引时, 由于索引存储时考虑空间和性能 因素不会存储作者姓名的明文字符串, 而是存储的作者姓名实体标识, 因此, 通过将作者姓 。
30、名和作者姓名的实体标识同时写入摘要中, 以实现通过摘要将作者姓名的实体标识与最终 展现的作者姓名对应起来。 0056 S203, 当搜索结果中的属性参数被触发时, 根据属性参数对应的实体标识生成新 的搜索结果并提供。 0057 具体而言, 在本发明的一个实施例中, 当搜索结果中的属性参数被触发时, 根据属 性参数对应的实体标识和属性参数生成新的搜索结果并提供。具体地, 当检测到用户点击 搜索结果中的属性参数 ( 标题、 或作者姓名、 或发表处等 ) 时, 可先根据属性参数查找到对 应的实体标识, 之后根据该实体标识进行搜索, 得到与该实体标识对应的搜索结果, 并将搜 索结果提供给用户。 005。
31、8 举例而言, 以属性参数为作者姓名 “李明” 为例, 如图 6(a) 所示, 当根据搜索词 “南 瓜组培根根系分泌物的化感效应研究” 生成多个搜索结果并提供给用户之后, 用户可点击 作者栏 “李明” , 当检测到用户点击 “李明” 时, 可先根据 “李明” 从摘要中读取其对应的实 体标识 “57d2b4212e5ba064” 。之后通过该实体标识 “57d2b4212e5ba064” 发起检索, 搜索 引擎根据该实体标识 “57d2b4212e5ba064” 搜索其对应的倒排索引, 以查出命中实体标识 “57d2b4212e5ba064” 的搜索结果, 读取摘要并将其展现给用户, 如图 6(。
32、b) 所示, 是通过作 者姓名 “李明” 对应的实体标识 “57d2b4212e5ba064” 检索后的最终效果。由于实体标识具 有唯一性, 因此两篇论文一定都是同一个作者 “李明” 所撰写。由此, 最终发起的检索请求 通过使用实体标识进行查询 “authoruri:(57d2b4212e5ba064)” , 代替了普通的作者姓名查 询 “author:( 李明 )” , 从而从根本上避免了歧义问题。 0059 本发明实施例的论文的搜索方法, 可先接收搜索词, 之后根据搜索词生成多个搜 索结果并提供, 其中, 每个搜索结果包括多个属性参数, 多个属性参数中至少有部分属性参 数具有对应的实体标识。
33、, 当搜索结果中的属性参数被触发时, 根据属性参数对应的实体标 识生成新的搜索结果并提供, 即由于属性参数可作为一个实体, 通过将实体转换为实体标 识, 根据实体标识的唯一性, 获得与其对应的搜索结果, 彻底解决了实体重名、 长搜索词的 部分匹配等的问题, 提高了搜索结果的精确度, 提升了用户体验。 说 明 书 CN 104239570 A 8 6/10 页 9 0060 为了实现上述实施例, 本发明还提出了一种论文的搜索装置, 包括 : 接收模块, 用 于接收搜索词 ; 第一生成模块, 用于根据搜索词生成多个搜索结果并提供, 其中, 每个搜索 结果包括多个属性参数, 其中, 多个属性参数中至。
34、少有部分属性参数具有对应的实体标识 ; 以及第二生成模块, 用于在搜索结果中的属性参数被触发时, 根据属性参数对应的实体标 识生成新的搜索结果并提供。 0061 图 7 是根据本发明一个实施例的论文的搜索装置的结构示意图。如图 7 所示, 该 论文的搜索装置可以包括 : 接收模块 10、 第一生成模块 20 和第二生成模块 30。 0062 具体地, 接收模块 10 可用于接收搜索词。其中, 在本发明的实施例中, 搜索词可以 是各种语言的字符 ( 如文字、 拼音、 符号和 / 或数字等 ) 中的一种或者它们的组合。例如, 接收模块 10 可接收用户通过浏览器提供的输入框中输入的搜索词。 006。
35、3 第一生成模块 20 可用于根据搜索词生成多个搜索结果并提供, 其中, 每个搜索结 果包括多个属性参数, 其中, 多个属性参数中至少有部分属性参数具有对应的实体标识。 更 具体地, 在接收模块 10 接收到搜索词之后, 第一生成模块 20 可根据搜索词进行搜索, 以生 成与搜索词相关的多个搜索结果, 并将该多个搜索结果展现在搜索结果展示页面以提供给 用户, 从而方便用户的查看。 0064 应当理解, 在本发明的实施例中, 属性参数可包括但不限于标题、 关键词、 作者姓 名、 作者所处机构和发表处等。也就是说, 每个搜索结果中可包括至少两个属性参数, 如标 题、 关键词、 作者姓名和发表处等。。
36、 多个属性参数中至少有部分属性参数具有对应的实体标 识。其中, 在本发明的实施例中, 具有实体标识的属性参数可包括作者姓名和 / 或发表处 等。 0065 第二生成模块 30 可用于在搜索结果中的属性参数被触发时, 根据属性参数对应 的实体标识生成新的搜索结果并提供。 具体而言, 在本发明的一个实施例中, 第二生成模块 30 可具体用于 : 当搜索结果中的属性参数被触发时, 根据属性参数对应的实体标识和属性 参数生成新的搜索结果并提供。更具体地, 当检测到用户点击搜索结果中的属性参数 ( 标 题、 或作者姓名、 或发表处等)时, 第二生成模块30可先根据属性参数查找到对应的实体标 识, 之后根。
37、据该实体标识进行搜索, 得到与该实体标识对应的搜索结果, 并将搜索结果提供 给用户。 0066 可以理解, 属性参数如作者姓名、 作者所处机构和发表处等可称为实体, 实体标识 可理解为是作者姓名、 作者所处机构和发表处等实体的唯一标识。由于不同实体之间会存 在重名的问题、 全称和简称表达不一致的问题。 为了解决实体存在的上述问题, 可通过消歧 策略根据实体(如作者姓名、 作者所处机构或发表处等)以生成与实体对应的实体标识, 从 而通过实体标识使得实体既能区别于其他实体又能尽最大程序包含自己的信息。 下面可通 过两个实施例对实体标识的生成过程进行具体描述。 0067 进一步的, 在本发明的一个实。
38、施例中, 如图 8 所示, 在接收模块 10 接收搜索词之 前, 该论文的搜索装置还可包括第一获取模块 40、 抽取模块 50 和第三生成模块 60。即通过 上述几个模块可生成实体标识。 0068 具体地, 第一获取模块 40 可用于获取多个论文。 0069 抽取模块 50 可用于从多个论文中分别抽取每个论文对应的作者姓名和作者所处 机构。更具体地, 抽取模块 50 可先对每个论文进行结构解析, 以得到每个论文的结构化信 说 明 书 CN 104239570 A 9 7/10 页 10 息, 如论文标题、 摘要、 关键词、 作者姓名、 作者所处机构、 论文正文内容等, 之后可从结构化 信息中抽。
39、取出每个论文对应的作者姓名和作者所处机构。然后, 可以作者姓名为主键将每 个论文中的所有作者姓名汇集在一起, 得到作者姓名的聚簇。最后, 可对作者姓名进行判 断, 判断作者姓名是否为唯一, 即该作者姓名是否存在重名。 0070 第三生成模块 60 可用于在论文对应的作者姓名为唯一时, 根据作者姓名生成实 体标识, 并在论文对应的作者姓名不为唯一时, 根据作者姓名和作者所处机构生成实体标 识。更具体地, 当判断该论文对应的作者姓名为唯一, 即该作者姓名不存在重名时, 第三生 成模块 60 可通过预设的编码规则将作者姓名进行编码以生成与作者姓名对应的实体标 识 ; 当判断该论文对应的作者姓名不为唯。
40、一, 即该作者姓名存在重名时, 第三生成模块 60 可通过预设的编码规则将作者姓名和作者所处机构进行编码以生成与作者姓名和作者所 处机构对应的实体标识。 这是由于在同一个机构中不一定具有相同姓名的作者, 由此, 解决 了不同实体之间会存在重名的问题。 0071 其中, 在本发明的实施例中, 预设的编码规则可以是一个预先约定的编码规则, 可 以按以下两种方式产出 : 0072 方式 1 : 将消歧后的作者姓名 ( 或作者姓名 + 作者所处机构 ) 赋予连续递增的整 数, 这个整数就是作者姓名 ( 或作者姓名 + 作者所处机构 ) 的实体标识例如, 论文具有两 个不同的作者, 作者姓名分别为 “张。
41、三” 、“李四” , 则可将这两个作者姓名赋予连续递增的整 数, 如 “张三” 对应的实体标识为 “14268442” 、“李四” 对应的实体标识为 “14268443” 。 0073 方式 2 : 对作者姓名 ( 或作者姓名 + 作者所处机构 ) 做数字签名, 签名结果作为作 者姓名(或作者姓名+作者所处机构)的实体标识。 也就是说, 作者姓名对应的实体标识可 通过对作者姓名进行签名获得。其中, 签名算法可采用标准的 64 或 128 位的 MD5(Message DigestAlgorithm, 消息摘要算法 - 第五版 ) 签名算法。例如, 作者姓名为 “李明” , 作者 所处机构为 “。
42、中国科学院水土保持与生态环境研究中心” , 则可通过 MD5 签名算法将 “李 明” +“中国科学院水土保持与生态环境研究中心” 做数字签名, 得到对应的实体标识为 “57d2b4212e5ba064” 。 0074 由此, 根据作者姓名 ( 或作者姓名 + 作者所处机构 ) 生成与其对应的实体标识, 由 于实体标识具有唯一性, 因此实现了重名作者的消歧的目的。 0075 在本发明的另一个实施例中, 如图9所示, 该接收模块10接收搜索词之前, 该论文 的搜索装置还可包括第一获取模块 40、 第二获取模块 70 和第四生成模块 80。即通过上述 几个模块可生成实体标识。 0076 具体地, 第。
43、一获取模块 40 可用于获取多个论文。 0077 第二获取模块 70 可用于从多个论文中分别获取每个论文对应的发表处。更具体 地, 第二获取模块 70 可先对每个论文进行结构解析, 以得到每个论文的结构化信息, 如论 文发表处、 作者姓名、 作者所处机构、 论文标题等, 之后可从结构化信息中获取每个论文对 应的发表处, 即可以理解为获取每个论文在哪个期刊、 或会议、 或学校 ( 即学位论文 ) 上进 行了发表。 0078 第四生成模块 80 可用于根据论文对应的发表处生成发表处对应的实体标识。更 具体地, 在第二获取模块70获取到每个论文对应的发表处之后, 第四生成模块80可通过预 设的编码规。
44、则将论文对应的发表处进行编码以生成与发表处对应的实体标识。应当理解, 说 明 书 CN 104239570 A 10 8/10 页 11 在本步骤中, 预设的编码规则的实现方式与上述实施例中预设的编码规则的实现方式相 同, 即可将发表处赋予连续递增的整数, 该整数就是发表处对应的实体标识 ; 或者, 可通过 对发表处进行签名以获取发表处对应的实体标识。 0079 由此, 根据发表处生成与其对应的实体标识, 由于实体标识具有唯一性, 因此解决 了由于全称和简称表达不一致而可能导致根据全称或简称检索出来的结果不一致的问题, 即解决了长搜索词的部分匹配的问题。 0080 在本发明的一个实施例中, 作。
45、者姓名或发表处对应的实体标识可通过对作者姓名 或发表处进行签名获得。 0081 需要说明的是, 在本发明的一个实施例中, 在生成实体标识之后, 可对实体标识建 立倒排索引。 具体地, 对实体标识进行建立倒排索引的过程主要可分为两步, 下面可结合实 例说明 : 例如, 假设论文 A、 B、 C 分别具有两个作者姓名, 论文 A 的两个作者姓名对应的实体 标识分别是 a1、 a2, 论文 B 的两个作者姓名实体标识分别是 b1、 b2, 论文 C 的两个作者姓名 实体标识分别是 a1、 b2, S1 : 可生成论文的 DocID( 论文编号 ) 到实体标识对应的正排数据 得到如下正排数据 “A-a。
46、1、 a2、 B-b1、 b2、 C-a1、 b2” ; S2 : 将正排数据转换为以作者姓名实 体标识为 key( 主键 ) 的到排数据, 如 “a1-A、 C ; a2-A ; b1-B ; b2-A、 C” 。由此, 通过对实 体标识建立倒排索引, 使得只要通过作者姓名实体标识即可知道该作者撰写过哪些论文。 0082 还需要说明的是, 在本发明的一个实施例中, 可将实体标识添加到摘要中, 即将实 体标识记录到实体展现内容的相同字段中, 以实现人名或机构名与实体的对应。 其中, 在本 发明的实施例中, 摘要可理解为就是最终用户可见的搜索结果以及不可见的辅助信息, 如 图 5 所示,“标题”。
47、 、“作者” 、“摘要” 、“关键词” 等均是通过摘要最终呈现给用户。 0083 应当理解, 在将实体标识进行建立倒排索引时, 由于索引存储时考虑空间和性能 因素不会存储作者姓名的明文字符串, 而是存储的作者姓名实体标识, 因此, 通过将作者姓 名和作者姓名的实体标识同时写入摘要中, 以实现通过摘要将作者姓名的实体标识与最终 展现的作者姓名对应起来。 0084 为了使得本领域的技术人员更加地了解本发明, 下面可举例说明。 0085 举例而言, 以属性参数为作者姓名 “李明” 为例, 如图 6(a) 所示, 当第一生成模块 20 根据搜索词 “南瓜组培根根系分泌物的化感效应研究” 生成多个搜索结。
48、果并提供给用 户之后, 用户可点击作者栏 “李明” , 当检测到用户点击 “李明” 时, 第二生成模块 30 可先根 据 “李明” 从摘要中读取其对应的实体标识 “57d2b4212e5ba064” 。之后通过该实体标识 “57d2b4212e5ba064” 发起检索, 根据该实体标识 “57d2b4212e5ba064” 搜索其对应的倒排索 引, 以查出命中实体标识 “57d2b4212e5ba064” 的搜索结果, 读取摘要并将其展现给用户, 如 图 6(b) 所示, 是通过作者姓名 “李明” 对应的实体标识 “57d2b4212e5ba064” 检索后的最终 效果。由于实体标识具有唯一性。
49、, 因此两篇论文一定都是同一个作者 “李明” 所撰写。由此, 最终发起的检索请求通过使用实体标识进行查询 “authoruri:(57d2b4212e5ba064)” , 代替 了普通的作者姓名查询 “author:( 李明 )” , 从而从根本上避免了歧义问题。 0086 本发明实施例的论文的搜索装置, 可通过接收模块接收搜索词, 第一生成模块根 据搜索词生成多个搜索结果并提供, 其中, 每个搜索结果包括多个属性参数, 多个属性参数 中至少有部分属性参数具有对应的实体标识, 第二生成模块在搜索结果中的属性参数被触 发时, 根据属性参数对应的实体标识生成新的搜索结果并提供, 即由于属性参数可作为一 说 明 书 CN 104239570 A 11 9/10 页 12 个实体, 通过将实体转换为实体标识, 根据实体标识的唯一性, 获得与其对应的搜索结果, 彻底解决了实体重名、 长搜索词的部分匹配等的问题, 提高了搜索结果的精确度, 提升。