《一种扩充实体库的方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种扩充实体库的方法及装置.pdf(11页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104102739A43申请公布日20141015CN104102739A21申请号201410364038722申请日20140728G06F17/3020060171申请人百度在线网络技术(北京)有限公司地址100085北京市海淀区上地十街10号百度大厦三层72发明人梁爽74专利代理机构北京品源专利代理有限公司11332代理人邓猛烈胡彬54发明名称一种扩充实体库的方法及装置57摘要本发明实施例公开了一种扩充实体库的方法及装置,该方法包括从用户的操作行为日志中获取用户的操作对象内容;从所述操作对象内容中识别实体词;对所述实体词按照预设规则进行筛选;如果筛选出的实体词未出现在。
2、实体库中,则将所述实体词添加到所述实体库中,以扩充所述实体库。本发明实施例的技术方案能提高扩充实体库中实体词的准确性。51INTCL权利要求书2页说明书5页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书5页附图3页10申请公布号CN104102739ACN104102739A1/2页21一种扩充实体库的方法,其特征在于,包括从用户的操作行为日志中获取用户的操作对象内容;从所述操作对象内容中识别实体词;对所述实体词按照预设规则进行筛选;如果筛选出的实体词未出现在实体库中,则将所述实体词添加到所述实体库中,以扩充所述实体库。2根据权利要求1所述的方法,其特征在于,从用。
3、户的操作行为日志中获取用户的操作对象内容的操作具体包括从用户针对百科实体库的操作行为日志中获取用户的操作对象内容。3根据权利要求1所述的方法,其特征在于,从用户的操作行为日志中获取用户的操作对象内容的操作具体包括从用户的操作行为日志中获取用户在搜索引擎中进行搜索时输入的检索式,将所述检索式作为所述操作对象内容;和/或,从用户的操作行为日志中获取用户在网页内容中加内链的行为,将加内链不成功的文字内容作为所述操作对象内容;和/或,从用户的操作行为日志中获取用户在网页内容中执行文字内容操作,将所操作的文字内容作为所述操作对象内容。4根据权利要求3所述的方法,其特征在于,所述文字内容操作包括下述至少一。
4、项执行文字内容选取、执行文字内容复制、和执行文字内容粘贴。5根据权利要求3或4所述的方法,其特征在于所述搜索引擎为百科实体库的搜索引擎;和/或,所述网页内容为百科实体库的百科词条内容。6根据权利要求1所述的方法,其特征在于,对所述实体词按照预设规则进行筛选的操作具体包括将符合下述至少一项的实体词过滤掉所述实体词中字数大于预设阈值的实体词、属于黑名单的实体词、包含预设符号的实体词、和属于预设类型的实体词。7根据权利要求1所述的方法,其特征在于,在将所述实体词添加到所述实体库中的操作之前,还包括对所述实体词进行去重处理。8一种扩充实体库的装置,其特征在于,包括操作对象内容获取单元,用于从用户的操作。
5、行为日志中获取用户的操作对象内容;实体词识别单元,用于从所述操作对象内容中识别实体词;实体词筛选单元,用于对所述实体词按照预设规则进行筛选;实体词添加单元,用于如果筛选出的实体词未出现在实体库中,则将所述实体词添加到所述实体库中,以扩充所述实体库。9根据权利要求8所述的装置,其特征在于,所述操作对象内容获取单元具体用于从用户针对百科实体库的操作行为日志中获取用户的操作对象内容。10根据权利要求8所述的装置,其特征在于,所述操作对象内容获取单元包括检索式获取子单元、内链行为获取子单元、和/或文字内容操作获取子单元所述检索式获取子单元,用于从用户的操作行为日志中获取用户在搜索引擎中进行搜权利要求书。
6、CN104102739A2/2页3索时输入的检索式,将所述检索式作为所述操作对象内容;所述内链行为获取子单元,用于从用户的操作行为日志中获取用户在网页内容中加内链的行为,将加内链不成功的文字内容作为所述操作对象内容;所述文字内容操作获取子单元,用于从用户的操作行为日志中获取用户在网页内容中执行文字内容操作,将所操作的文字内容作为所述操作对象内容。11根据权利要求10所述的装置,其特征在于,所述文字内容操作获取子单元中所述的文字内容操作包括下述至少一项执行文字内容选取、执行文字内容复制、和执行文字内容粘贴。12根据权利要求10或11所述的装置,其特征在于所述搜索引擎为百科实体库的搜索引擎;和/或。
7、,所述网页内容为百科实体库的百科词条内容。13根据权利要求8所述的装置,其特征在于,所述实体词筛选单元具体用于将符合下述至少一项的实体词过滤掉所述实体词中字数大于预设阈值的实体词、属于黑名单的实体词、包含预设符号的实体词、和属于预设类型的实体词。14根据权利要求8所述的装置,其特征在于,所述实体词筛选单元还用于在将所述实体词添加到所述实体库中的操作之前,对所述实体词进行去重处理。权利要求书CN104102739A1/5页4一种扩充实体库的方法及装置技术领域0001本发明涉及互联网信息处理技术领域,具体涉及一种扩充实体库的方法及装置。背景技术0002随着信息和网络技术的不断发展,人们越来越多地通。
8、过互联网进行各种知识和信息的搜索。内容提供商在互联网提供内容使所有用户均能平等地浏览、创造、完善内容平台。0003例如百度百科、维基百科、互动百科等,能够让互联网用户通过百科网站即能找到自己想要的全面、准确、客观的定义性信息,可供其他用户进行类似主题的查询和浏览,以便提供相应的知识或者借鉴。例如,词条是百科网站所含内容的基础分割单位,一个词条具有一个或多个单一的主题,用于阐述一件事物、一个人物、或者具备特定主题的组合等知识内容。在百科网站中包括极大数量的词条,这些百科词条可以大大地提高检索的准确性和检索的覆盖率,并且有利于从网页中提取结构化数据,可以进行垂直搜索,得到更为精确的信息。0004随。
9、着信息的广泛传播以及人们交流内容的不断扩展,新词条层出不穷。极大地发现有价值的词条,扩充百科网站的实体库是百科产品的重要目标。常见的实现方案都是从已有的数据中,利用文本切分来分析文本中可能存在的实体词,判断哪些实体词是百科实体库中存在的,哪些是百科实体库中不存在的,将不存在的实体词增加到百科实体库中。但是这种方案存在文本切分和属性识别不准确的问题。发明内容0005有鉴于此,本发明实施例提供一种扩充实体库的方法及装置,以克服现有的百科实体库扩充存在文本切分和属性识别不准确的问题。0006第一方面,本发明实施例提供了一种扩充实体库的方法,包括0007从用户的操作行为日志中获取用户的操作对象内容;0。
10、008从所述操作对象内容中识别实体词;0009对所述实体词按照预设规则进行筛选;0010如果筛选出的实体词未出现在实体库中,则将所述实体词添加到所述实体库中,以扩充所述实体库。0011第二方面,本发明实施例还提供了一种扩充实体库的装置,包括0012操作对象内容获取单元,用于从用户的操作行为日志中获取用户的操作对象内容;0013实体词识别单元,用于从所述操作对象内容中识别实体词;0014实体词筛选单元,用于对所述实体词按照预设规则进行筛选;0015实体词添加单元,用于如果筛选出的实体词未出现在实体库中,则将所述实体词添加到所述实体库中,以扩充所述实体库。说明书CN104102739A2/5页50。
11、016本发明实施例的技术方案通过从用户的操作行为日志中获取用户的操作对象内容,从操作对象内容中识别实体词,进行筛选后,将未出现在实体库中的实体词添加到实体库中,以扩充所述实体库。由于用户行为能反馈用户的需求,从用户行为挖掘实体词更有针对性,而且用户行为通常与实体词有关联,因此扩充实体词的准确性更高。附图说明0017为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。0018图1是本发明实。
12、施例一所述的扩充实体库的方法流程图;0019图2是本发明实施例二所述的扩充实体库的方法流程图;0020图3是本发明实施例二所述的示例网页内容中用户的操作对象内容示意图;0021图4是本发明实施例三所述的扩充实体库的装置的结构框图。具体实施方式0022为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。0023下面结合附图并通过具体实施方式来进一步说明。
13、本发明的技术方案。0024实施例一0025图1是本发明实施例一提供的扩充实体库的方法流程图,本实施例可适用于基于操作行为日志中用户的操作对象内容进行实体库扩充的情况,本实施例所称的实体词泛指名词与代词,也可进一步指满足预设条件的名词与代词。实体库则是用于存储各实体词的相关信息的数据库,能过为用户提供对实体词相关数据的获取。例如,在百科中实体词指词条的主题名称,词条是百科网站所含内容的基础分割单位,词条包括实体词、对该实体词的解释、以及与该实体词的相关信息。此外,其他类别的实体库,如音乐实体库、商品实体库等,也可以用音乐名称、商品名称等作为实体词,在实体库中存储各实体词的相关细节数据,如音乐背景。
14、介绍、商品产地等。0026本实施例的方法可以由配置在服务器中的扩充实体库的装置来执行,如图1所示,本实施例所述的扩充实体库的方法包括0027S101、从用户的操作行为日志中获取用户的操作对象内容。0028用户的操作行为日志是记录用户操作流的文件,包括用户点击、输入、选中、复制等操作及操作时间等信息。例如包括对用户在搜索引擎中进行搜索时输入的检索式的记录、对用户对网页内容进行加内链操作的记录、对用户选取网页内容中的文字、以及包括对用户进一步地对选取的文字进行复制、粘贴等操作的记录等。0029通过对用户的操作行为日志进行分析,从中获取用户的操作对象内容。例如,从用户的操作行为日志中获取用户在搜索引。
15、擎中进行搜索时输入的检索式,获取用户在网页内说明书CN104102739A3/5页6容中加内链的行为时加内链不成功的文字内容,以及获取用户在网页内容中执行文字内容操作例如选中、复制、粘贴等操作时所操作的文字内容。内链,即在实体库内部,如果存在某个实体词的相关数据,则此实体词出现在其他实体词的相关数据中时,会为此实体词建立内部链接,以便用户方便地找到该实体词自己的相关数据。用户也可以自己为网页内容中的实体词加入内部链接。0030需要说明的是,由于用户的操作行为中某些与需要扩充的实体词关联度较低,而某些操作行为获取实体词的概率更高,为了提高扩充实体库的效率,可预先指定用户的操作行为的类型,从用户的。
16、操作行为日志中仅筛选出该预先指定的操作行为,来获取用户的操作对象内容。0031由于本实施例的目的是扩充实体库,所述用户的操作行为日志优选是用户对该实体库的操作行为日志,例如,若用于扩充百科实体库,则可以优选用户对百科实体库的搜索引擎的操作行为日志、用户对百科实体库的百科词条的网页内容的操作行为日志等。0032S102、从所述操作对象内容中识别实体词。0033对获取的操作对象内容进行识别获取实体词。由于用户的操作对象内容比较有针对性,大多操作对象内容可以直接作为实体词,若某些操作对象内容不能直接识别出实体词,可对该操作对象内容行切分后再执行实体词识别操作即可。0034S103、对所述实体词按照预。
17、设规则进行筛选。0035所述预设规则可根据实体库的扩充目标来设置,例如,将所述实体词中字数大于预设阈值的实体词过滤掉、将属于黑名单的实体词过滤掉、和/或将属于预设类型的实体词过滤掉例如包含序号、时间、特殊符号。0036S104、如果筛选出的实体词未出现在实体库中,则将所述实体词添加到所述实体库中,以扩充所述实体库。0037为了避免重复设置实体词,操作S103获取实体词后,还需判断实体词是否已经出现在实体库的实体词中,将未出现在实体库的实体词添加到实体库中。0038本实施例的技术方案通过从用户的操作行为日志中获取用户的操作对象内容,从操作对象内容中识别实体词,进行筛选后,将未出现在实体库的实体词。
18、添加到实体库中,以扩充所述实体库。由于用户行为能反馈用户的需求,从用户行为挖掘实体词更有针对性,而且用户行为通常与实体词有关联,因此扩充实体词的准确性更高。0039实施例二0040图2是本发明实施例二所述的扩充实体库的方法流程图,本实施例以通过用户对百科实体库的操作行为日志扩充百科实体库为例公开一种扩充实体库的方法,如图2所示,本实施例所述的扩充实体库的方法包括0041S201、获取用户对百科实体库的操作行为日志。0042用户行为能反馈用户的需求,从用户行为挖掘实体词更有针对性,由于本实施例的目的是扩充百科实体库,因此,所述用户的操作行为日志优选是用户对百科实体库的操作行为日志,包括用户对百科。
19、实体库的搜索引擎的操作行为日志、用户对百科实体库的百科词条的网页内容的操作行为日志等。0043S202、获取预指定的操作行为的操作对象内容。0044用户的操作行为中某些与需要扩充的实体词关联度较低,而某些操作行为获取实说明书CN104102739A4/5页7体词的概率更高,为了提高扩充百科实体库的效率,本实施例优选为预先指定至少一种用户的操作行为的类型,从用户的操作行为日志中仅筛选出该预先指定的操作行为,来获取用户的操作对象内容。0045例如预先指定用户的操作行为的类型可为用户在搜索引擎中进行搜索时输入的检索式,用户在网页内容中加内链,以及用户在网页内容中执行文字选中、复制或粘贴内容操作。则从。
20、用户的操作行为日志中获取用户在搜索引擎中进行搜索时输入的检索式,将所述检索式作为所述操作对象内容;从用户的操作行为日志中获取用户在网页内容中加内链的行为,将加内链不成功的文字内容作为所述操作对象内容;以及从用户的操作行为日志中获取用户在网页内容中执行文字内容操作,将所操作的文字内容作为所述操作对象内容。作为优选,所述文字内容操作包括下述至少一项执行文字内容选取、执行文字内容复制、和执行文字内容粘贴。0046例如图3是百科实体库的百科词条“王文元”的词条内容片段,用户先后对该词条内容片段中的“郾城县立中学”、“汉口市立第一中学”、以及“黄陂县乾顺油厂”的文字内容进行了加内链操作,结果因加内链失败。
21、,则将这些加内链不成功的文字内容“郾城县立中学”、“汉口市立第一中学”、以及“黄陂县乾顺油厂”作为操作对象内容。0047S203、从所述操作对象内容中识别实体词。0048若某些操作对象内容不能直接识别出实体词,可对该操作对象内容行切分后再执行实体词识别操作即可。0049S204、对所述实体词按照预设规则进行筛选。0050例如,将符合下述至少一项的实体词过滤掉所述实体词中字数大于预设阈值的实体词、属于黑名单的实体词、包含预设符号的实体词、和属于预设类型的实体词。0051S205、对所述实体词进行去重处理。0052需要说明的是,本操作可在筛选之后进行,也可在筛选之前进行。通过对所识别的实体词进行去。
22、重处理,能进一步减小操作206中的实体词的数目,同时能避免重复添加。0053S206、如果所述实体词未出现在百科的实体词中,将所述实体词添加到百科实体库中。0054从用户针对百科实体库的操作行为日志中获取用户的操作对象内容。0055本实施例以通过用户对百科实体库的操作行为日志扩充百科实体库为例的技术方案在实施例一的基础之上,优选为获取用户对百科实体库的操作行为日志,并优选为获取预指定的操作行为的操作对象内容,以及增加了对实体词进行去重处理的操作,能进一步提高扩充实体库的效率。0056实施例三0057图4是本发明实施例三所述的扩充实体库的装置的结构框图,如图4所示,本实施例所述的扩充实体库的装置。
23、包括0058操作对象内容获取单元401,用于从用户的操作行为日志中获取用户的操作对象内容;0059实体词识别单元402,用于从所述操作对象内容中识别实体词;0060实体词筛选单元403,用于对所述实体词按照预设规则进行筛选;0061实体词添加单元404,用于如果筛选出的实体词未出现在实体库中,则将所述实体说明书CN104102739A5/5页8词添加到所述实体库中,以扩充所述实体库。0062进一步地,所述操作对象内容获取单元401具体用于从用户针对百科实体库的操作行为日志中获取用户的操作对象内容。0063进一步地,所述操作对象内容获取单元401包括检索式获取子单元、内链行为获取子单元、和/或文。
24、字内容操作获取子单元0064所述检索式获取子单元,用于从用户的操作行为日志中获取用户在搜索引擎中进行搜索时输入的检索式,将所述检索式作为所述操作对象内容;0065所述内链行为获取子单元,用于从用户的操作行为日志中获取用户在网页内容中加内链的行为,将加内链不成功的文字内容作为所述操作对象内容;0066所述文字内容操作获取子单元,用于从用户的操作行为日志中获取用户在网页内容中执行文字内容操作,将所操作的文字内容作为所述操作对象内容0067进一步地,所述文字内容操作获取子单元中所述的文字内容操作包括下述至少一项执行文字内容选取、执行文字内容复制、和执行文字内容粘贴。0068进一步地,所述搜索引擎为百。
25、科实体库的搜索引擎。0069进一步地,所述网页内容为百科实体库的百科词条内容。0070进一步地,所述实体词筛选单元403具体用于将符合下述至少一项的实体词过滤掉所述实体词中字数大于预设阈值的实体词、属于黑名单的实体词、包含预设符号的实体词、和属于预设类型的实体词。0071进一步地403,所述实体词筛选单元还用于在将所述实体词添加到所述实体库中的操作之前,对所述实体词进行去重处理。0072本实施例提供的扩充实体库的装置可执行本发明实施例一和实施例二所提供的扩充实体库的方法,具备执行方法相应的功能模块和有益效果。0073以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储。
26、在可读取的存储介质中,存储介质例如计算机中的硬盘、光盘或软盘。0074注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。说明书CN104102739A1/3页9图1说明书附图CN104102739A2/3页10图2图3说明书附图CN104102739A103/3页11图4说明书附图CN104102739A11。