挖掘属性和实体关联关系的方法和装置.pdf

上传人:a**** 文档编号:6166645 上传时间:2019-05-16 格式:PDF 页数:21 大小:1.87MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310714291.6

申请日:

2013.12.20

公开号:

CN103631970A

公开日:

2014.03.12

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20131220|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

百度在线网络技术(北京)有限公司

发明人:

李超; 李大任

地址:

100085 北京市海淀区上地十街10号百度大厦三层

优先权:

专利代理机构:

北京清亦华知识产权代理事务所(普通合伙) 11201

代理人:

宋合成

PDF下载: PDF下载
内容摘要

本发明提出一种挖掘属性和实体关联关系的方法和装置,其中该方法包括:获取待关联属性;根据待关联属性从多个实体中获得至少一个种子实体;以及获得至少一个种子实体的关联实体,并将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。本发明实施例的方法,可以挖掘出待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务;还可以挖掘任意领域实体和用户指定属性(即待关联属性)之间的关联关系,不受应用领域的限制,应用广泛。

权利要求书

权利要求书
1.  一种挖掘属性和实体关联关系的方法,其特征在于,包括以下步骤:
获取待关联属性;
根据所述待关联属性从多个实体中获得至少一个种子实体;以及
获得所述至少一个种子实体的关联实体,并将所述待关联属性与所述至少一个种子实体、所述至少一个种子实体的关联实体相关联。

2.  根据权利要求1所述的方法,其特征在于,所述根据待关联属性从多个实体中获得至少一个种子实体具体包括:
从预设实体库中获取所述多个实体;
从总体用户样本群中获取具有所述待关联属性的关联用户样本群;
分别获得所述多个实体在所述关联用户样本群中的多个分布差异值;以及
根据所述多个分布差异值对所述多个实体进行筛选以获得所述至少一个种子实体。

3.  根据权利要求2所述的方法,其特征在于,所述分别获取多个实体在所述关联用户样本群中的多个分布差异值具体包括:
分别获取与所述多个实体相关的多个用户在所述总体用户样本群中的多个第一分布比重;
分别获取与所述多个实体相关的多个用户在所述关联用户样本群中的第二分布比重;以及
根据所述第二分布比重和所述第一分布比重获取所述分布差异值。

4.  根据权利要求3所述的方法,其特征在于,所述总体用户样本群为多个,分别对应多个网络应用服务,则每个所述实体对应的分布差异值为多个,所述根据多个分布差异值对所述多个实体进行筛选以获得所述至少一个种子实体还包括:
根据预设分布差异值筛选规则对所述多个实体进行筛选;或,
创建分布差异值分类器,并根据所述分布差异值分类器对所述多个实体进行筛选。

5.  根据权利要求1至4中任一项所述的方法,其特征在于,所述获得至少一个种子实体的关联实体具体包括:
分别获取所述至少一个种子实体到具有所述待关联属性的用户样本群之间的第一关联关系;
获取具有所述待关联属性的用户样本群的关联实体群,并获取所述具有所述待关联属性的用户样本群到所述关联实体群之间的第二关联关系;
根据所述第一关联关系和所述第二关联关系分别获取所述至少一个种子实体到所述关 联实体群的第三关联关系;以及
根据所述第三关联关系对所述关联实体群中的每个所述关联实体进行筛选以获得所述至少一个种子实体的关联实体。

6.  一种挖掘属性和实体关联关系的装置,其特征在于,包括:
待关联属性获取模块,用于获取待关联属性;
种子实体获取模块,用于根据所述待关联属性从多个实体中获得至少一个种子实体;
关联实体获取模块,用于获得所述至少一个种子实体的关联实体;以及
关联模块,用于将所述待关联属性与所述至少一个种子实体、所述至少一个种子实体的关联实体相关联。

7.  根据权利要求6所述的装置,其特征在于,所述种子实体获取模块包括:
实体获取单元,用于从预设实体库中获取所述多个实体;
关联用户样本群获取单元,用于从总体用户样本群中获取具有所述待关联属性的关联用户样本群;
分布差异值获取单元,用于分别获得所述多个实体在所述关联用户样本群中的多个分布差异值;以及
筛选单元,用于根据所述多个分布差异值对所述多个实体进行筛选以获得所述至少一个种子实体。

8.  根据权利要求7所述的装置,其特征在于,所述分布差异值获取单元还具体用于:分别获取与所述多个实体相关的多个用户在所述总体用户样本群中的多个第一分布比重,并分别获取与所述多个实体相关的多个用户在所述关联用户样本群中的第二分布比重,以及根据所述第二分布比重和所述第一分布比重获取所述分布差异值。

9.  根据权利要求8所述的装置,其特征在于,所述总体用户样本群为多个,分别对应多个网络应用服务,则每个所述实体对应的分布差异值为多个,所述根据多个分布差异值对所述多个实体进行筛选还包括:
根据预设分布差异值筛选规则对所述多个实体进行筛选;或,
创建分布差异值分类器,并根据所述分布差异值分类器对所述多个实体进行筛选。

10.  根据权利要求6至9中任一项所述的装置,其特征在于,所述关联实体获取模块包括:
第一关联关系获取单元,用于分别获取所述至少一个种子实体到具有所述待关联属性的用户样本群之间的第一关联关系;
第二关联关系获取单元,用于获取具有所述待关联属性的用户样本群的关联实体群,并获取所述具有所述待关联属性的用户样本群到所述关联实体群之间的第二关联关系;
第三关联关系获取单元,用于根据所述第一关联关系和所述第二关联关系分别获取所述至少一个种子实体到所述关联实体群的第三关联关系;以及
筛选单元,用于根据所述第三关联关系对所述关联实体群中的每个所述关联实体进行筛选以获得所述至少一个种子实体的关联实体。

说明书

说明书挖掘属性和实体关联关系的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种挖掘属性和实体关联关系的方法和装置。
背景技术
随着互联网技术,特别是无线互联网技术的快速发展,信息服务变得越来越普遍。信息服务提供商提供信息服务时,例如,搜索引擎提供搜索服务等,通常会挖掘实体和属性之间的关联关系,并根据实体和属性之间的关联关系提供信息服务。具体地,可将现实世界中的客观事物称为实体,例如概念、事物或事件等。举例来说,影视剧“我是特种兵”、百度公司以及宇宙大爆炸理论都是实体的实例。同时,每个实体具有属性,属性反映实体的相关信息,例如,军旅题材、公司办公地点、现代宇宙理论分别是上述实体对应的属性。
目前获取实体和属性之间关联关系的方法主要是从网站的结构化数据中定向抓取实体属性对,并根据实体属性对建立实体和属性之间的关联关系。但是,主要存在以下问题,由于一个实体对应的属性是多种多样的,对应一个实体来说,从网站获取的属性只是某一个方面,该属性可能无法很好的满足用户的需求。因此现有技术无法挖掘出实体所对应的用户指定属性,例如,无法挖掘出某个电影属于“屌丝逆袭”属性等,同样地,也无法挖掘出“屌丝逆袭”、“治愈系”、“虐心”等属性对应的实体,如“屌丝逆袭”题材的电影、小说等。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种挖掘属性和实体关联关系的方法。该方法可以挖掘出待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务。
本发明的第二个目的在于提出一种挖掘属性和实体关联关系的装置。
为了实现上述目的,本发明第一方面实施例的挖掘属性和实体关联关系的方法,包括以下步骤:获取待关联属性;根据所述待关联属性从多个实体中获得至少一个种子实体;以及获得所述至少一个种子实体的关联实体,并将所述待关联属性与所述至少一个种子实体、所述至少一个种子实体的关联实体相关联。
本发明实施例的挖掘属性和实体关联关系的方法,通过待关联属性获取种子实体,再根据种子实体获取相关的关联实体,由此,可以挖掘出待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详 细服务,例如,根据用户指定属性向用户推荐实体;根据该方法还可以挖掘任意领域实体和给定属性(即待关联属性)之间的关联关系,不受应用领域的限制,应用广泛。
为了实现上述目的,本发明第二方面实施例的挖掘属性和实体关联关系的装置,包括:待关联属性获取模块,用于获取待关联属性;种子实体获取模块,用于根据所述待关联属性从多个实体中获得至少一个种子实体;关联实体获取模块,用于获得所述至少一个种子实体的关联实体;以及关联模块,用于将所述待关联属性与所述至少一个种子实体、所述至少一个种子实体的关联实体相关联。
本发明实施例的挖掘属性和实体关联关系的装置,通过待关联属性获取模块获取待关联属性,然后种子实体获取模块根据待关联属性获取种子实体,之后关联实体获取模块根据种子实体获取种子实体的关联实体,由此,可以挖掘出待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务,例如,根据用户指定属性向用户推荐实体;根据该装置还可以挖掘任意领域实体和用户指定属性(即待关联属性)之间的关联关系,不受应用领域的限制,应用广泛。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的挖掘属性和实体关联关系的方法的流程图;
图2是根据本发明一个实施例的挖掘属性和实体关联关系的方法的流程图;
图3是根据本发明一个实施例的获取分布差异值的流程图;
图4是根据本发明一个实施例的获得获取关联实体的流程图;
图5是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图;
图6是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定 和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
为了挖掘出任意领域中实体和用户指定属性(如用户指定属性)之间的关联关系,从而给用户提供更全面、更精细的信息服务,本发明提出一种挖掘属性和实体关联关系的方法和装置。下面参考附图描述本发明实施例的挖掘属性和实体关联关系的方法和装置。
一种挖掘属性和实体关联关系的方法,包括以下步骤:获取待关联属性;根据待关联属性从多个实体中获得至少一个种子实体;以及获得至少一个种子实体的关联实体,并将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。
图1是根据本发明一个实施例的挖掘属性和实体关联关系的方法的流程图。
如图1所示,挖掘属性和实体关联关系的方法包括下述步骤。
步骤S101,获取待关联属性。
在本发明的一个实施例中,待关联属性为一类描述用户感受、产品特性等特征的属性。待关联属性可以随网络语言实时更新,例如,对多个网页进行分析可获取待关联属性。举例来说,可以有“屌丝逆袭”、“邪恶战胜正义”、“治愈系”、“虐心”、“炫富”等描述用户感受的待关联属性;对于产品实体,可以有“性价比高”、“结实耐用”等描述用户使用体验的待关联属性。
步骤S102,根据待关联属性从多个实体中获得至少一个种子实体。
具体地,获取待关联属性之后,根据待关联属性从多个实体中获得至少一个种子实体。其中,将与待关联属性联系紧密、相关度高的实体命名作为种子实体。例如,如果待关联属性为“治愈系”,则获取的种子实体可以是“治愈系”的影视剧实体、“治愈系”的小说实体、“治愈系”的漫画实体或者“治愈系”的其它实体等。该过程与用户与实体的关联度、服务应用与实体的关联度有关,后续实施例中将详细叙述。
步骤S103,获得至少一个种子实体的关联实体,并将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。
具体地,从多个实体中获得至少一个种子实体后,再由至少一个种子实体为中心,获得至少一个种子实体相关度较高的关联实体。以从多个实体中获得了一个种子实体为例,例如,如果从多个实体中获得的一个种子实体为“治愈系”的影视剧种子实体A,然后获得该“治愈系”的影视剧种子实体A的关联实体,例如获得的关联实体可以是“治愈系”的小说实体B、“治愈系”的漫画实体C、“治愈系”的其他实体E、或者其他“治愈系”的影视剧种子F和G等。该过程可以扩大实体的范围,召回一些关联实体。
更具体地,获得至少一个种子实体的关联实体之后,将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。例如,获得关联实体“治愈系”的小说实体或其他“治愈系”的影视剧实体之后,将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)相关联。
其中,相关联的操作可以是给待关联属性、至少一个种子实体、至少一个种子实体的关联实体贴上标签或者建立它们之间的对应关系等。例如,可以将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)贴上“治愈系”的标签或建立它们之间的对应关系等。
本发明实施例的挖掘属性和实体关联关系的方法,通过待关联属性获取种子实体,再根据种子实体获取相关的关联实体,由此,可以挖掘出待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务,例如,根据用户指定属性向用户推荐实体;根据该方法还可以挖掘任意领域实体和给定属性(即待关联属性)之间的关联关系,不受应用领域的限制,应用广泛。
图2是根据本发明另一个实施例的挖掘属性和实体关联关系的方法的流程图。在本发明的实施例中,采用分布差异的方式从多个实体中获取种子实体。
具体地,如图2所示,挖掘属性和实体关联关系的方法包括下述步骤。
步骤S201,获取待关联属性。
在本发明的一个实施例中,待关联属性为一类描述用户感受、产品特性等特征的属性。待关联属性可以随网络语言实时更新,例如,对多个网页进行分析可获取待关联属性。举例来说,可以有“屌丝逆袭”、“邪恶战胜正义”、“治愈系”、“虐心”、“炫富”等描述用户感受的待关联属性;对于产品实体,可以有“性价比高”、“结实耐用”等描述用户使用体验的待关联属性。
步骤S202,从预设实体库中获取多个实体。
具体地,预设实体库为预先从网络中获取的实体库,预设实体库中存储有多个实体,其中,预设实体库可以存储在服务器中或者其它设备中。还可以对预设实体库进行分类,不同 的应用服务可以具有不同的预设实体库。
步骤S203,从总体用户样本群中获取具有待关联属性的关联用户样本群。
具体地,根据待关联属性,从总体用户样本群中获取具有待关联属性的关联用户样本群。例如,如果待关联属性为“炫富”,总体用户样本群为1000万个观看影视剧的用户,那么获取总体用户样本群中的100万个观看“炫富”影视剧的用户,即具有待关联属性的关联用户样本群。
步骤S204,分别获得多个实体在关联用户样本群中的多个分布差异值。
具体地,同一个实体在总体用户样本群和在具有待关联属性的关联用户样本群中的分布是不同的。分布差异值的大小可以对应的体现出实体与待关联属性的相关度的高低,便于后续根据分布差异值对实体进行筛选。具体地分布差异值的获取将在后续实施例中详细叙述。
步骤S205,根据多个分布差异值对多个实体进行筛选以获得至少一个种子实体。
具体地,获得多个实体在关联用户样本群中的多个分布差异值后,根据多个分布差异值对多个实体进行筛选以获得至少一个种子实体。其中,种子实体为根据分布差异值从多个实体中筛选出来的与待关联属性相关度较高的实体。
步骤S206,获得至少一个种子实体的关联实体,并将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。
具体地,从多个实体中获得至少一个种子实体后,再由至少一个种子实体为中心,获得至少一个种子实体相关度较高的关联实体。以从多个实体中获得了一个种子实体为例,例如,如果从多个实体中获得的一个种子实体为“治愈系”的影视剧种子实体A,然后获得该“治愈系”的影视剧种子实体A的关联实体,例如获得的关联实体可以是“治愈系”的小说实体B、“治愈系”的漫画实体C、“治愈系”的其他实体E、或者其他“治愈系”的影视剧种子F和G等。该过程可以扩大实体的范围,召回一些关联实体。
更具体地,获得至少一个种子实体的关联实体之后,将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。例如,获得关联实体“治愈系”的小说实体或其他“治愈系”的影视剧实体之后,将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)相关联。
其中,相关联的操作可以是给待关联属性、至少一个种子实体、至少一个种子实体的关联实体贴上标签或者建立它们之间的对应关系等。例如,可以将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)贴上“治愈系”的标签或建立它们之间的对应关系等。
本发明实施例的挖掘属性和实体关联关系的方法,采用分布差异值从多个实体中获取种 子实体,分布差异值真实地反映种子实体的分布,获取的种子实体与待关联属性的相关度更高、更加准确,从而进一步提升信息服务的质量。
图3是根据本发明一个实施例的获取分布差异值的流程图。在本发明的一个实施例中,如图3所示,步骤S204具体包括:
S2041,分别获取与多个实体相关的多个用户在总体用户样本群中的多个第一分布比重。
例如,总体用户样本群为1000万个观看影视剧的用户,其中有50万的用户观看了影视剧实体M,那么观看影视剧实体M的用户在总体用户样本群中的分布比重为50万除以1000万,即第一分布比重为5%。类似地,依次获取与多个实体相关的多个用户在总体用户样本群中的多个第一分布比重。
S2042,分别获取与多个实体相关的多个用户在关联用户样本群中的第二分布比重。
例如,待关联属性为“炫富”,关联用户样本群为100万个观看“炫富”影视剧的用户,其中,30万个用户观看了影视剧实体M,那么观看影视剧实体M的用户在关联用户样本群中的分布比重为30万除以100万,即第二分布比重为30%。类似地,依次获取与多个实体相关的多个用户在关联用户样本群中的多个第二分布比重。
S2043,根据第二分布比重和第一分布比重获取分布差异值。
具体地,根据获取的第二分布比重和第一分布比重,用第二分布比重除以第一分布比重即得到分布差异值。
例如,总体用户样本群为1000万个观看影视剧的用户,其中有50万的用户观看了影视剧实体M,那么第一分布比重为5%;如果待关联属性为“炫富”,关联用户样本群为100万个观看“炫富”影视剧的用户,其中,30万个用户观看了影视剧实体M,那么第二分布比重为30%,则用30%除以5%,即得到分布差异值为6。其中分布差异值越大,说明影视剧实体M与待关联属性“炫富”的相关度越高。
由此,根据第一分布比重和第二分布比重获取的分布差异值更能体现关联度,分布差异值更加准确。
在本发明的一个实施例中,在步骤S205中,总体用户样本群为多个,分别对应多个网络应用服务,则每个实体对应的分布差异值为多个,根据多个分布差异值对多个实体进行筛选以获得所述至少一个种子实体(即步骤S205)还包括:根据预设分布差异值筛选规则对所述多个实体进行筛选;或,创建分布差异值分类器,并根据分布差异值分类器对多个实体进行筛选,另外,还可以使用其它方法。
具体地,下面以实体在关联用户样本群、百度贴吧、百度知道、百度会话中的分布差异为例来说明根据预设分布差异值筛选规则对多个实体进行筛选的方法。该方法采用的筛选规则如下:
(1)输出实体在关联用户样本群、百度贴吧、百度知道、百度会话中的分布差异值较大的实体,用Suser、Stieba、Siknow、Ssession分别表示实体在关联用户样本群、百度贴吧、百度知道、百度会话中的分布差异值,如:输出Suser>10、Stieba>50、Siknow>50、或Ssession>30的实体;
(2)输出Stieba、Siknow、Ssession中至少有一个大于3并且Suser也大于3的实体;
(3)输出Stieba、Siknow、Ssession全部大于3的实体;
(4)输出Stieba、Siknow、Ssession中至少有一个大于3、一个大于8的实体。
还可以根据上述的筛选规则建立分类器,例如,可以采用现有技术的建立分类器的方法建立分类,分类器的建立可以提高效率。分类器的建立可以采用现有技术,在此不再赘述。
上述根据分布差异值在多个实体中筛选至少一个种子实体的方法准确率高,但是在设定的筛选规则中阈值以下的实体并不能被召回,为此后续还需要获得种子实体的关联实体。
图4是根据本发明一个实施例的获得获取关联实体的流程图。在本发明的一个实施例中,如图4所示,步骤S206中获得至少一个种子实体的关联实体具体包括:
S2061,分别获取至少一个种子实体到具有待关联属性的用户样本群之间的第一关联关系。
具体地,例如,可以通过矩阵来描述种子实体到具有待关联属性的用户样本群之间的第一关联关系,例如矩阵A。
S2062,获取具有待关联属性的用户样本群的关联实体群,并获取具有待关联属性的用户样本群到关联实体群之间的第二关联关系。
具体地,获取具有待关联属性的用户样本群的关联实体群,例如,如果具有待关联属性的用户样本群为观看“治愈系”的影视剧实体的用户,则获取“治愈系”的影视剧实体、“治愈系”小说实体、“治愈系”漫画实体或者“治愈系”的其它实体,即为具有待关联属性的用户样本群的关联实体群。
更具体地,可以通过矩阵来描述具有待关联属性的用户样本群到关联实体群之间的第二关联关系,例如矩阵B。
S2063,根据第一关联关系和第二关联关系分别获取至少一个种子实体到关联实体群的第三关联关系。
具体地,例如可以根据矩阵A和矩阵B来获取至少一个种子实体到关联实体群的第三关联关系,可以用矩阵C来描述。例如,可通过简单的矩阵相乘即可获取到矩阵C,还可以进行加权处理之后再进行相乘。
S2064,根据第三关联关系对关联实体群中的每个关联实体进行筛选以获得至少一个种子实体的关联实体。
例如,第三关联关系可以用矩阵C标识,矩阵C中的每个元素是该实体种子到关联实体之间的相关度信息,根据该矩阵可以获取种子实体到每个关联实体的路径上的路径相似度pathsim特征,根据该特征获取种子实体的关联实体。此外,pathsim特征还能够找到等同实体peer objects,减少热门实体的影响。其中,Pathsim特征的计算公式如下:
Pathsim(ai,aj)=pcR(ai,aj)+pcR-1(aj,ai)pcR(ai,ai)+pcR-1(aj,aj)]]>
其中,ai为第i个实体,aj为第j个实体,pcR(ai,aj)是矩阵C中第i行、第j列的元素值(即实体ai和实体aj之间的相关度),pcR(ai,ai)是矩阵C中第i行、第i列的元素值(即实体ai自身的相关度),pcR-1(aj,ai)是矩阵C的逆矩阵C-1中第j行、第i列的元素值,pcR-1(aj,aj)是矩阵C的逆矩阵C-1中第j行、第j列的元素值。
过滤上述获取的关联出的实体。具体地,可以设定阈值来过滤掉关联出的实体中疑似不相关的实体,其中,阈值可以为种子实体在关联用户样本群上的分布差异值的倍数,例如2倍、3倍或者其它倍数。
由此,获取的第三关联关系更加直接反应了种子实体的关联实体,使获得的关联实体更加准确。
为了实现上述实施例,本发明还提出一种挖掘属性和实体关联关系的装置。
一种挖掘属性和实体关联关系的装置,包括:待关联属性获取模块,用于获取待关联属性;种子实体获取模块,用于根据待关联属性从多个实体中获得至少一个种子实体;关联实体获取模块,用于获得至少一个种子实体的关联实体;以及关联模块,用于将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。
图5是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图。
如图5所示,挖掘属性和实体关联关系的装置包括:待关联属性获取模块100、种子实体获取模块200、关联实体获取模块300和关联模块400。
其中,待关联属性获取模块100用于获取待关联属性。
具体地,待关联属性为一类描述用户感受、产品特性等特征的属性。待关联属性可以随网络语言实时更新,例如,对多个网页进行分析可获取待关联属性。举例来说,可以有“屌丝逆袭”、“邪恶战胜正义”、“治愈系”、“虐心”、“炫富”等描述用户感受的待关联属性;对于产品实体,可以有“性价比高”、“结实耐用”等描述用户使用体验的待关联属性。
种子实体获取模块200用于根据待关联属性从多个实体中获得至少一个种子实体。
具体地,获取待关联属性之后,根据待关联属性从多个实体中获得至少一个种子实体。其中,将与待关联属性联系紧密、相关度高的实体命名作为种子实体。例如,如果待关联属性为“治愈系”,则获取的种子实体可以是“治愈系”的影视剧实体、“治愈系”的小说实体、 “治愈系”的漫画实体或者“治愈系”的其它实体等。该过程与用户与实体的关联度、服务应用与实体的关联度有关,后续实施例中将详细叙述。
关联实体获取模块300用于获得至少一个种子实体的关联实体。
具体地,从多个实体中获得至少一个种子实体后,再由至少一个种子实体为中心,获得至少一个种子实体相关度较高的关联实体。以从多个实体中获得了一个种子实体为例,例如,如果从多个实体中获得的一个种子实体为“治愈系”的影视剧种子实体A,然后获得该“治愈系”的影视剧种子实体A的关联实体,例如获得的关联实体可以是“治愈系”的小说实体B、“治愈系”的漫画实体C、“治愈系”的其他实体E、或者其他“治愈系”的影视剧种子F和G等。该过程可以扩大实体的范围,召回一些关联实体。
关联模块400用于将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。
具体地,获得至少一个种子实体的关联实体之后,将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。
例如,获得关联实体“治愈系”的小说实体或其他“治愈系”的影视剧实体之后,将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)相关联。
其中,相关联的操作可以是给待关联属性、至少一个种子实体、至少一个种子实体的关联实体贴上标签或者建立它们之间的对应关系等。例如,可以将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)贴上“治愈系”的标签或建立它们之间的对应关系等。
本发明实施例的挖掘属性和实体关联关系的装置,通过待关联属性获取模块获取待关联属性,然后种子实体获取模块根据待关联属性获取种子实体,之后关联实体获取模块根据种子实体获取种子实体的关联实体,由此,可以挖掘出待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务,例如,根据用户指定属性向用户推荐实体;根据该装置还可以挖掘任意领域实体和用户指定属性(即待关联属性)之间的关联关系,不受应用领域的限制,应用广泛。
图6是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图。
如图6所示,挖掘属性和实体关联关系的装置包括:待关联属性获取模块100、种子实体获取模块200、实体获取单元210、关联用户样本群获取单元220、分布差异值获取单元230、筛选单元240、关联实体获取模块300、第一关联关系获取单元310、第二关联关系获取单元320、第三关联关系获取单元330、筛选单元340和关联模块400。其中,种子实体获取模块200包括实体获取单元210、关联用户样本群获取单元220、分布差异值获取单元 230、筛选单元240;关联实体获取模块300包括第一关联关系获取单元310、第二关联关系获取单元320、第三关联关系获取单元330、筛选单元340。
在本发明的一个实施例中,第一关联关系获取单元310、第二关联关系获取单元320、第三关联关系获取单元330、筛选单元340是可选的。
具体地,待关联属性获取模块100用于获取待关联属性。
在本发明的一个实施例中,待关联属性为一类描述用户感受、产品特性等特征的属性。待关联属性可以随网络语言实时更新,例如,对多个网页进行分析可获取待关联属性。举例来说,可以有“屌丝逆袭”、“邪恶战胜正义”、“治愈系”、“虐心”、“炫富”等描述用户感受的待关联属性;对于产品实体,可以有“性价比高”、“结实耐用”等描述用户使用体验的待关联属性。
实体获取单元210用于从预设实体库中获取多个实体。
具体地,预设实体库为预先从网络中获取的实体库,预设实体库中存储有多个实体,其中,预设实体库可以存储在服务器中或者其它设备中。还可以对预设实体库进行分类,不同的应用服务可以具有不同的预设实体库。
关联用户样本群获取单元220用于从总体用户样本群中获取具有待关联属性的关联用户样本群。
具体地,根据待关联属性,从总体用户样本群中获取具有待关联属性的关联用户样本群。例如,如果待关联属性为“炫富”,总体用户样本群为1000万个观看影视剧的用户,那么获取总体用户样本群中的100万个观看“炫富”影视剧的用户,即具有待关联属性的关联用户样本群。
分布差异值获取单元230用于分别获得多个实体在关联用户样本群中的多个分布差异值。
具体地,同一个实体在总体用户样本群和在具有待关联属性的关联用户样本群中的分布是不同的。分布差异值的大小可以对应的体现出实体与待关联属性的相关度的高低,便于后续根据分布差异值对实体进行筛选。具体地分布差异值的获取将在后续实施例中详细叙述。
在本发明的一个实施例中,分布差异值获取单元230还具体用于:分别获取与多个实体相关的多个用户在总体用户样本群中的多个第一分布比重,并分别获取与多个实体相关的多个用户在关联用户样本群中的第二分布比重,以及根据第二分布比重和第一分布比重获取分布差异值。
其中,下面举例说明第一分布比重的获取,例如,总体用户样本群为1000万个观看影视剧的用户,其中有50万的用户观看了影视剧实体M,那么观看影视剧实体M的用户在总体用户样本群中的分布比重为50万除以1000万,即第一分布比重为5%。类似地,依次获 取与多个实体相关的多个用户在总体用户样本群中的多个第一分布比重。
下面举例说明第二分布比重的获取,例如,待关联属性为“炫富”,关联用户样本群为100万个观看“炫富”影视剧的用户,其中,30万个用户观看了影视剧实体M,那么观看影视剧实体M的用户在关联用户样本群中的分布比重为30万除以100万,即第二分布比重为30%。类似地,依次获取与多个实体相关的多个用户在关联用户样本群中的多个第二分布比重。
根据获取的第二分布比重和第一分布比重,用第二分布比重除以第一分布比重即得到分布差异值。例如,总体用户样本群为1000万个观看影视剧的用户,其中有50万的用户观看了影视剧实体M,那么第一分布比重为5%;如果待关联属性为“炫富”,关联用户样本群为100万个观看“炫富”影视剧的用户,其中,30万个用户观看了影视剧实体M,那么第二分布比重为30%,则用30%除以5%,即得到分布差异值为6。其中分布差异值越大,说明影视剧实体M与待关联属性“炫富”的相关度越高。
由此,根据第一分布比重和第二分布比重获取的分布差异值更能体现关联度,分布差异值更加准确。
筛选单元240用于根据多个分布差异值对多个实体进行筛选以获得至少一个种子实体。
具体地,获得多个实体在关联用户样本群中的多个分布差异值后,根据多个分布差异值对多个实体进行筛选以获得至少一个种子实体。其中,种子实体为根据分布差异值从多个实体中筛选出来的与待关联属性相关度较高的实体。
此外,总体用户样本群为多个,分别对应多个网络应用服务,则每个实体对应的分布差异值为多个,筛选单元240根据多个分布差异值对多个实体进行筛选还包括:根据预设分布差异值筛选规则对多个实体进行筛选;或,创建分布差异值分类器,并根据分布差异值分类器对多个实体进行筛选,另外,还可以使用其它方法。
具体地,下面以实体在关联用户样本群、百度贴吧、百度知道、百度会话中的分布差异为例来说明根据预设分布差异值筛选规则对多个实体进行筛选的方法。该方法采用的筛选规则如下:
(1)输出实体在关联用户样本群、百度贴吧、百度知道、百度会话中的分布差异值较大的实体,用Suser、Stieba、Siknow、Ssession分别表示实体在关联用户样本群、百度贴吧、百度知道、百度会话中的分布差异值,如:输出Suser>10、Stieba>50、Siknow>50、或Ssession>30的实体;
(2)输出Stieba、Siknow、Ssession中至少有一个大于3并且Suser也大于3的实体;
(3)输出Stieba、Siknow、Ssession全部大于3的实体;
(4)输出Stieba、Siknow、Ssession中至少有一个大于3、一个大于8的实体。
还可以根据上述的筛选规则建立分类器,例如,可以采用现有技术的建立分类器的方法建立分类,分类器的建立可以提高效率。分类器的建立可以采用现有技术,在此不再赘述。
上述根据分布差异值在多个实体中筛选至少一个种子实体的方法准确率高,但是在设定的筛选规则中阈值以下的实体并不能被召回,为此后续还需要获得种子实体的关联实体。
第一关联关系获取单元310用于分别获取至少一个种子实体到具有待关联属性的用户样本群之间的第一关联关系。
具体地,例如,可以通过矩阵来描述种子实体到具有待关联属性的用户样本群之间的第一关联关系,例如矩阵A。
第二关联关系获取单元320用于获取具有待关联属性的用户样本群的关联实体群,并获取具有待关联属性的用户样本群到关联实体群之间的第二关联关系。
具体地,获取具有待关联属性的用户样本群的关联实体群,例如,如果具有待关联属性的用户样本群为观看“治愈系”的影视剧实体的用户,则获取“治愈系”的影视剧实体、“治愈系”小说实体、“治愈系”漫画实体或者“治愈系”的其它实体,即为具有待关联属性的用户样本群的关联实体群。
更具体地,可以通过矩阵来描述具有待关联属性的用户样本群到关联实体群之间的第二关联关系,例如矩阵B。
第三关联关系获取单元330用于根据第一关联关系和第二关联关系分别获取至少一个种子实体到关联实体群的第三关联关系。
具体地,例如可以根据矩阵A和矩阵B来获取至少一个种子实体到关联实体群的第三关联关系,可以用矩阵C来描述。例如,可通过简单的矩阵相乘即可获取到矩阵C,还可以进行加权处理之后再进行相乘。
筛选单元340用于根据第三关联关系对关联实体群中的每个所述关联实体进行筛选以获得至少一个种子实体的关联实体。
例如,第三关联关系可以用矩阵C标识,矩阵C中的每个元素是该实体种子到关联实体之间的相关度信息,根据该矩阵可以获取种子实体到每个关联实体的路径上的路径相似度pathsim特征,根据该特征获取种子实体的关联实体。此外,pathsim特征还能够找到等同实体peer objects,减少热门实体的影响。其中,Pathsim特征的计算公式如下:
Pathsim(ai,aj)=pcR(ai,aj)+pcR-1(aj,ai)pcR(ai,ai)+pcR-1(aj,aj)]]>
其中,ai为第i个实体,aj为第j个实体,pcR(ai,aj)是矩阵C中第i行、第j列的元素值(即实体ai和实体aj之间的相关度),pcR(ai,ai)是矩阵C中第i行、第i列的元素值(即实体ai自身的相关度),pcR-1(aj,ai)是矩阵C的逆矩阵C-1中第j行、第i列的元素值, pcR-1(aj,aj)是矩阵C的逆矩阵C-1中第j行、第j列的元素值。
过滤上述获取的关联出的实体。具体地,可以设定阈值来过滤掉关联出的实体中疑似不相关的实体,其中,阈值可以为种子实体在关联用户样本群上的分布差异值的倍数,例如2倍、3倍或者其它倍数。
由此,获取的第三关联关系更加直接反应了种子实体的关联实体,使获得的关联实体更加准确。
关联模块400用于将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。
具体地,获得至少一个种子实体的关联实体之后,将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。
例如,获得关联实体“治愈系”的小说实体或其他“治愈系”的影视剧实体之后,将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)相关联。
其中,相关联的操作可以是给待关联属性、至少一个种子实体、至少一个种子实体的关联实体贴上标签或者建立它们之间的对应关系等。例如,可以将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)贴上“治愈系”的标签或建立它们之间的对应关系等。由此,获取的第三关联关系更加直接反应了种子实体的关联实体,使获得的关联实体更加准确。
本发明实施例的挖掘属性和实体关联关系的装置,分布差异值获取单元根据第一分布比重和第二分布比重获取的分布差异值更能体现关联度,分布差异值更加准确;第三关联关系获取单元根据第一关联关系和第二关联关系获取的第三关联关系更加直接反应了种子实体的关联实体,使获得的关联实体更加准确;由此,可以挖掘出更加准确的待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务,例如,根据用户指定属性向用户推荐实体;根据该装置还可以挖掘任意领域实体和用户指定属性(即待关联属性)之间的关联关系,不受应用领域的限制,应用广泛。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程 门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

挖掘属性和实体关联关系的方法和装置.pdf_第1页
第1页 / 共21页
挖掘属性和实体关联关系的方法和装置.pdf_第2页
第2页 / 共21页
挖掘属性和实体关联关系的方法和装置.pdf_第3页
第3页 / 共21页
点击查看更多>>
资源描述

《挖掘属性和实体关联关系的方法和装置.pdf》由会员分享,可在线阅读,更多相关《挖掘属性和实体关联关系的方法和装置.pdf(21页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103631970 A (43)申请公布日 2014.03.12 CN 103631970 A (21)申请号 201310714291.6 (22)申请日 2013.12.20 G06F 17/30(2006.01) (71)申请人 百度在线网络技术 (北京) 有限公司 地址 100085 北京市海淀区上地十街 10 号 百度大厦三层 (72)发明人 李超 李大任 (74)专利代理机构 北京清亦华知识产权代理事 务所 ( 普通合伙 ) 11201 代理人 宋合成 (54) 发明名称 挖掘属性和实体关联关系的方法和装置 (57) 摘要 本发明提出一种挖掘属性和实体关联。

2、关系 的方法和装置, 其中该方法包括 : 获取待关联属 性 ; 根据待关联属性从多个实体中获得至少一个 种子实体 ; 以及获得至少一个种子实体的关联实 体, 并将待关联属性与至少一个种子实体、 至少一 个种子实体的关联实体相关联。本发明实施例的 方法, 可以挖掘出待关联属性的多个关联实体, 同 理实现挖掘实体所对应的用户指定属性 (即待关 联属性) , 从而提供更全面、 更精细、 更优质的详细 服务 ; 还可以挖掘任意领域实体和用户指定属性 (即待关联属性) 之间的关联关系, 不受应用领域 的限制, 应用广泛。 (51)Int.Cl. 权利要求书 2 页 说明书 12 页 附图 6 页 (19。

3、)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书12页 附图6页 (10)申请公布号 CN 103631970 A CN 103631970 A 1/2 页 2 1. 一种挖掘属性和实体关联关系的方法, 其特征在于, 包括以下步骤 : 获取待关联属性 ; 根据所述待关联属性从多个实体中获得至少一个种子实体 ; 以及 获得所述至少一个种子实体的关联实体, 并将所述待关联属性与所述至少一个种子实 体、 所述至少一个种子实体的关联实体相关联。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述根据待关联属性从多个实体中获得 至少一个种子实体具体包括 : 从预设实体库。

4、中获取所述多个实体 ; 从总体用户样本群中获取具有所述待关联属性的关联用户样本群 ; 分别获得所述多个实体在所述关联用户样本群中的多个分布差异值 ; 以及 根据所述多个分布差异值对所述多个实体进行筛选以获得所述至少一个种子实体。 3. 根据权利要求 2 所述的方法, 其特征在于, 所述分别获取多个实体在所述关联用户 样本群中的多个分布差异值具体包括 : 分别获取与所述多个实体相关的多个用户在所述总体用户样本群中的多个第一分布 比重 ; 分别获取与所述多个实体相关的多个用户在所述关联用户样本群中的第二分布比重 ; 以及 根据所述第二分布比重和所述第一分布比重获取所述分布差异值。 4. 根据权利要。

5、求 3 所述的方法, 其特征在于, 所述总体用户样本群为多个, 分别对应多 个网络应用服务, 则每个所述实体对应的分布差异值为多个, 所述根据多个分布差异值对 所述多个实体进行筛选以获得所述至少一个种子实体还包括 : 根据预设分布差异值筛选规则对所述多个实体进行筛选 ; 或, 创建分布差异值分类器, 并根据所述分布差异值分类器对所述多个实体进行筛选。 5.根据权利要求1至4中任一项所述的方法, 其特征在于, 所述获得至少一个种子实体 的关联实体具体包括 : 分别获取所述至少一个种子实体到具有所述待关联属性的用户样本群之间的第一关 联关系 ; 获取具有所述待关联属性的用户样本群的关联实体群, 并。

6、获取所述具有所述待关联属 性的用户样本群到所述关联实体群之间的第二关联关系 ; 根据所述第一关联关系和所述第二关联关系分别获取所述至少一个种子实体到所述 关联实体群的第三关联关系 ; 以及 根据所述第三关联关系对所述关联实体群中的每个所述关联实体进行筛选以获得所 述至少一个种子实体的关联实体。 6. 一种挖掘属性和实体关联关系的装置, 其特征在于, 包括 : 待关联属性获取模块, 用于获取待关联属性 ; 种子实体获取模块, 用于根据所述待关联属性从多个实体中获得至少一个种子实体 ; 关联实体获取模块, 用于获得所述至少一个种子实体的关联实体 ; 以及 关联模块, 用于将所述待关联属性与所述至少。

7、一个种子实体、 所述至少一个种子实体 的关联实体相关联。 权 利 要 求 书 CN 103631970 A 2 2/2 页 3 7. 根据权利要求 6 所述的装置, 其特征在于, 所述种子实体获取模块包括 : 实体获取单元, 用于从预设实体库中获取所述多个实体 ; 关联用户样本群获取单元, 用于从总体用户样本群中获取具有所述待关联属性的关联 用户样本群 ; 分布差异值获取单元, 用于分别获得所述多个实体在所述关联用户样本群中的多个分 布差异值 ; 以及 筛选单元, 用于根据所述多个分布差异值对所述多个实体进行筛选以获得所述至少一 个种子实体。 8. 根据权利要求 7 所述的装置, 其特征在于,。

8、 所述分布差异值获取单元还具体用于 : 分 别获取与所述多个实体相关的多个用户在所述总体用户样本群中的多个第一分布比重, 并 分别获取与所述多个实体相关的多个用户在所述关联用户样本群中的第二分布比重, 以及 根据所述第二分布比重和所述第一分布比重获取所述分布差异值。 9. 根据权利要求 8 所述的装置, 其特征在于, 所述总体用户样本群为多个, 分别对应多 个网络应用服务, 则每个所述实体对应的分布差异值为多个, 所述根据多个分布差异值对 所述多个实体进行筛选还包括 : 根据预设分布差异值筛选规则对所述多个实体进行筛选 ; 或, 创建分布差异值分类器, 并根据所述分布差异值分类器对所述多个实体。

9、进行筛选。 10. 根据权利要求 6 至 9 中任一项所述的装置, 其特征在于, 所述关联实体获取模块包 括 : 第一关联关系获取单元, 用于分别获取所述至少一个种子实体到具有所述待关联属性 的用户样本群之间的第一关联关系 ; 第二关联关系获取单元, 用于获取具有所述待关联属性的用户样本群的关联实体群, 并获取所述具有所述待关联属性的用户样本群到所述关联实体群之间的第二关联关系 ; 第三关联关系获取单元, 用于根据所述第一关联关系和所述第二关联关系分别获取所 述至少一个种子实体到所述关联实体群的第三关联关系 ; 以及 筛选单元, 用于根据所述第三关联关系对所述关联实体群中的每个所述关联实体进行。

10、 筛选以获得所述至少一个种子实体的关联实体。 权 利 要 求 书 CN 103631970 A 3 1/12 页 4 挖掘属性和实体关联关系的方法和装置 技术领域 0001 本发明涉及计算机技术领域, 尤其涉及一种挖掘属性和实体关联关系的方法和装 置。 背景技术 0002 随着互联网技术, 特别是无线互联网技术的快速发展, 信息服务变得越来越普遍。 信息服务提供商提供信息服务时, 例如, 搜索引擎提供搜索服务等, 通常会挖掘实体和属性 之间的关联关系, 并根据实体和属性之间的关联关系提供信息服务。 具体地, 可将现实世界 中的客观事物称为实体, 例如概念、 事物或事件等。 举例来说, 影视剧 。

11、“我是特种兵” 、 百度公 司以及宇宙大爆炸理论都是实体的实例。 同时, 每个实体具有属性, 属性反映实体的相关信 息, 例如, 军旅题材、 公司办公地点、 现代宇宙理论分别是上述实体对应的属性。 0003 目前获取实体和属性之间关联关系的方法主要是从网站的结构化数据中定向抓 取实体属性对, 并根据实体属性对建立实体和属性之间的关联关系。 但是, 主要存在以下问 题, 由于一个实体对应的属性是多种多样的, 对应一个实体来说, 从网站获取的属性只是某 一个方面, 该属性可能无法很好的满足用户的需求。因此现有技术无法挖掘出实体所对应 的用户指定属性, 例如, 无法挖掘出某个电影属于 “屌丝逆袭” 。

12、属性等, 同样地, 也无法挖掘 出 “屌丝逆袭” 、“治愈系” 、“虐心” 等属性对应的实体, 如 “屌丝逆袭” 题材的电影、 小说等。 发明内容 0004 本发明旨在至少解决上述技术问题之一。 0005 为此, 本发明的第一个目的在于提出一种挖掘属性和实体关联关系的方法。该方 法可以挖掘出待关联属性的多个关联实体, 同理实现挖掘实体所对应的用户指定属性 (即 待关联属性) , 从而提供更全面、 更精细、 更优质的详细服务。 0006 本发明的第二个目的在于提出一种挖掘属性和实体关联关系的装置。 0007 为了实现上述目的, 本发明第一方面实施例的挖掘属性和实体关联关系的方法, 包括以下步骤 。

13、: 获取待关联属性 ; 根据所述待关联属性从多个实体中获得至少一个种子实 体 ; 以及获得所述至少一个种子实体的关联实体, 并将所述待关联属性与所述至少一个种 子实体、 所述至少一个种子实体的关联实体相关联。 0008 本发明实施例的挖掘属性和实体关联关系的方法, 通过待关联属性获取种子实 体, 再根据种子实体获取相关的关联实体, 由此, 可以挖掘出待关联属性的多个关联实体, 同理实现挖掘实体所对应的用户指定属性 (即待关联属性) , 从而提供更全面、 更精细、 更优 质的详细服务, 例如, 根据用户指定属性向用户推荐实体 ; 根据该方法还可以挖掘任意领域 实体和给定属性 (即待关联属性) 之。

14、间的关联关系, 不受应用领域的限制, 应用广泛。 0009 为了实现上述目的, 本发明第二方面实施例的挖掘属性和实体关联关系的装置, 包括 : 待关联属性获取模块, 用于获取待关联属性 ; 种子实体获取模块, 用于根据所述待关 联属性从多个实体中获得至少一个种子实体 ; 关联实体获取模块, 用于获得所述至少一个 说 明 书 CN 103631970 A 4 2/12 页 5 种子实体的关联实体 ; 以及关联模块, 用于将所述待关联属性与所述至少一个种子实体、 所 述至少一个种子实体的关联实体相关联。 0010 本发明实施例的挖掘属性和实体关联关系的装置, 通过待关联属性获取模块获取 待关联属性。

15、, 然后种子实体获取模块根据待关联属性获取种子实体, 之后关联实体获取模 块根据种子实体获取种子实体的关联实体, 由此, 可以挖掘出待关联属性的多个关联实体, 同理实现挖掘实体所对应的用户指定属性 (即待关联属性) , 从而提供更全面、 更精细、 更优 质的详细服务, 例如, 根据用户指定属性向用户推荐实体 ; 根据该装置还可以挖掘任意领域 实体和用户指定属性 (即待关联属性) 之间的关联关系, 不受应用领域的限制, 应用广泛。 0011 本发明附加的方面和优点将在下面的描述中部分给出, 部分将从下面的描述中变 得明显, 或通过本发明的实践了解到。 附图说明 0012 本发明上述的和 / 或附。

16、加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解, 其中, 0013 图 1 是根据本发明一个实施例的挖掘属性和实体关联关系的方法的流程图 ; 0014 图 2 是根据本发明一个实施例的挖掘属性和实体关联关系的方法的流程图 ; 0015 图 3 是根据本发明一个实施例的获取分布差异值的流程图 ; 0016 图 4 是根据本发明一个实施例的获得获取关联实体的流程图 ; 0017 图 5 是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图 ; 0018 图 6 是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图。 具体实施方式 0019 下面详细描述本。

17、发明的实施例, 所述实施例的示例在附图中示出, 其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考 附图描述的实施例是示例性的, 仅用于解释本发明, 而不能理解为对本发明的限制。相反, 本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、 修改和等同 物。 0020 在本发明的描述中, 需要理解的是, 术语 “第一” 、“第二” 等仅用于描述目的, 而不 能理解为指示或暗示相对重要性。 在本发明的描述中, 需要说明的是, 除非另有明确的规定 和限定, 术语 “相连” 、“连接” 应做广义理解, 例如, 可以是固定连接, 也可以是可拆卸连接。

18、, 或一体地连接 ; 可以是机械连接, 也可以是电连接 ; 可以是直接相连, 也可以通过中间媒介 间接相连。对于本领域的普通技术人员而言, 可以具体情况理解上述术语在本发明中的具 体含义。此外, 在本发明的描述中, 除非另有说明,“多个” 的含义是两个或两个以上。 0021 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为, 表示包括 一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、 片段或部 分, 并且本发明的优选实施方式的范围包括另外的实现, 其中可以不按所示出或讨论的顺 序, 包括根据所涉及的功能按基本同时的方式或按相反的顺序, 来执行功能, 这应被本发。

19、明 的实施例所属技术领域的技术人员所理解。 0022 为了挖掘出任意领域中实体和用户指定属性 (如用户指定属性) 之间的关联关系, 说 明 书 CN 103631970 A 5 3/12 页 6 从而给用户提供更全面、 更精细的信息服务, 本发明提出一种挖掘属性和实体关联关系的 方法和装置。下面参考附图描述本发明实施例的挖掘属性和实体关联关系的方法和装置。 0023 一种挖掘属性和实体关联关系的方法, 包括以下步骤 : 获取待关联属性 ; 根据待 关联属性从多个实体中获得至少一个种子实体 ; 以及获得至少一个种子实体的关联实体, 并将待关联属性与至少一个种子实体、 至少一个种子实体的关联实体相。

20、关联。 0024 图 1 是根据本发明一个实施例的挖掘属性和实体关联关系的方法的流程图。 0025 如图 1 所示, 挖掘属性和实体关联关系的方法包括下述步骤。 0026 步骤 S101, 获取待关联属性。 0027 在本发明的一个实施例中, 待关联属性为一类描述用户感受、 产品特性等特征的 属性。待关联属性可以随网络语言实时更新, 例如, 对多个网页进行分析可获取待关联属 性。举例来说, 可以有 “屌丝逆袭” 、“邪恶战胜正义” 、“治愈系” 、“虐心” 、“炫富” 等描述用户 感受的待关联属性 ; 对于产品实体, 可以有 “性价比高” 、“结实耐用” 等描述用户使用体验的 待关联属性。 0。

21、028 步骤 S102, 根据待关联属性从多个实体中获得至少一个种子实体。 0029 具体地, 获取待关联属性之后, 根据待关联属性从多个实体中获得至少一个种子 实体。其中, 将与待关联属性联系紧密、 相关度高的实体命名作为种子实体。例如, 如果待 关联属性为 “治愈系” , 则获取的种子实体可以是 “治愈系” 的影视剧实体、“治愈系” 的小说 实体、“治愈系” 的漫画实体或者 “治愈系” 的其它实体等。该过程与用户与实体的关联度、 服务应用与实体的关联度有关, 后续实施例中将详细叙述。 0030 步骤 S103, 获得至少一个种子实体的关联实体, 并将待关联属性与至少一个种子 实体、 至少一。

22、个种子实体的关联实体相关联。 0031 具体地, 从多个实体中获得至少一个种子实体后, 再由至少一个种子实体为中心, 获得至少一个种子实体相关度较高的关联实体。以从多个实体中获得了一个种子实体为 例, 例如, 如果从多个实体中获得的一个种子实体为 “治愈系” 的影视剧种子实体 A, 然后获 得该 “治愈系” 的影视剧种子实体 A 的关联实体, 例如获得的关联实体可以是 “治愈系” 的 小说实体 B、“治愈系” 的漫画实体 C、“治愈系” 的其他实体 E、 或者其他 “治愈系” 的影视剧 种子 F 和 G 等。该过程可以扩大实体的范围, 召回一些关联实体。 0032 更具体地, 获得至少一个种子。

23、实体的关联实体之后, 将待关联属性与至少一个种 子实体、 至少一个种子实体的关联实体相关联。例如, 获得关联实体 “治愈系” 的小说实体 或其他 “治愈系” 的影视剧实体之后, 将待关联属性 “治愈系” 与 “治愈系” 的影视剧种子实 体、“治愈系” 的影视剧种子实体的关联实体 (即 “治愈系” 的小说实体或其他 “治愈系” 的影 视剧实体) 相关联。 0033 其中, 相关联的操作可以是给待关联属性、 至少一个种子实体、 至少一个种子实体 的关联实体贴上标签或者建立它们之间的对应关系等。例如, 可以将待关联属性 “治愈系” 与 “治愈系” 的影视剧种子实体、“治愈系” 的影视剧种子实体的关联。

24、实体 (即 “治愈系” 的小 说实体或其他 “治愈系” 的影视剧实体) 贴上 “治愈系” 的标签或建立它们之间的对应关系 等。 0034 本发明实施例的挖掘属性和实体关联关系的方法, 通过待关联属性获取种子实 体, 再根据种子实体获取相关的关联实体, 由此, 可以挖掘出待关联属性的多个关联实体, 说 明 书 CN 103631970 A 6 4/12 页 7 同理实现挖掘实体所对应的用户指定属性 (即待关联属性) , 从而提供更全面、 更精细、 更优 质的详细服务, 例如, 根据用户指定属性向用户推荐实体 ; 根据该方法还可以挖掘任意领域 实体和给定属性 (即待关联属性) 之间的关联关系, 不。

25、受应用领域的限制, 应用广泛。 0035 图 2 是根据本发明另一个实施例的挖掘属性和实体关联关系的方法的流程图。在 本发明的实施例中, 采用分布差异的方式从多个实体中获取种子实体。 0036 具体地, 如图 2 所示, 挖掘属性和实体关联关系的方法包括下述步骤。 0037 步骤 S201, 获取待关联属性。 0038 在本发明的一个实施例中, 待关联属性为一类描述用户感受、 产品特性等特征的 属性。待关联属性可以随网络语言实时更新, 例如, 对多个网页进行分析可获取待关联属 性。举例来说, 可以有 “屌丝逆袭” 、“邪恶战胜正义” 、“治愈系” 、“虐心” 、“炫富” 等描述用户 感受的待关。

26、联属性 ; 对于产品实体, 可以有 “性价比高” 、“结实耐用” 等描述用户使用体验的 待关联属性。 0039 步骤 S202, 从预设实体库中获取多个实体。 0040 具体地, 预设实体库为预先从网络中获取的实体库, 预设实体库中存储有多个实 体, 其中, 预设实体库可以存储在服务器中或者其它设备中。还可以对预设实体库进行分 类, 不同的应用服务可以具有不同的预设实体库。 0041 步骤 S203, 从总体用户样本群中获取具有待关联属性的关联用户样本群。 0042 具体地, 根据待关联属性, 从总体用户样本群中获取具有待关联属性的关联用户 样本群。例如, 如果待关联属性为 “炫富” , 总体。

27、用户样本群为 1000 万个观看影视剧的用户, 那么获取总体用户样本群中的 100 万个观看 “炫富” 影视剧的用户, 即具有待关联属性的关 联用户样本群。 0043 步骤 S204, 分别获得多个实体在关联用户样本群中的多个分布差异值。 0044 具体地, 同一个实体在总体用户样本群和在具有待关联属性的关联用户样本群中 的分布是不同的。分布差异值的大小可以对应的体现出实体与待关联属性的相关度的高 低, 便于后续根据分布差异值对实体进行筛选。具体地分布差异值的获取将在后续实施例 中详细叙述。 0045 步骤 S205, 根据多个分布差异值对多个实体进行筛选以获得至少一个种子实体。 0046 具。

28、体地, 获得多个实体在关联用户样本群中的多个分布差异值后, 根据多个分布 差异值对多个实体进行筛选以获得至少一个种子实体。其中, 种子实体为根据分布差异值 从多个实体中筛选出来的与待关联属性相关度较高的实体。 0047 步骤 S206, 获得至少一个种子实体的关联实体, 并将待关联属性与至少一个种子 实体、 至少一个种子实体的关联实体相关联。 0048 具体地, 从多个实体中获得至少一个种子实体后, 再由至少一个种子实体为中心, 获得至少一个种子实体相关度较高的关联实体。以从多个实体中获得了一个种子实体为 例, 例如, 如果从多个实体中获得的一个种子实体为 “治愈系” 的影视剧种子实体 A, 。

29、然后获 得该 “治愈系” 的影视剧种子实体 A 的关联实体, 例如获得的关联实体可以是 “治愈系” 的 小说实体 B、“治愈系” 的漫画实体 C、“治愈系” 的其他实体 E、 或者其他 “治愈系” 的影视剧 种子 F 和 G 等。该过程可以扩大实体的范围, 召回一些关联实体。 0049 更具体地, 获得至少一个种子实体的关联实体之后, 将待关联属性与至少一个种 说 明 书 CN 103631970 A 7 5/12 页 8 子实体、 至少一个种子实体的关联实体相关联。例如, 获得关联实体 “治愈系” 的小说实体 或其他 “治愈系” 的影视剧实体之后, 将待关联属性 “治愈系” 与 “治愈系” 。

30、的影视剧种子实 体、“治愈系” 的影视剧种子实体的关联实体 (即 “治愈系” 的小说实体或其他 “治愈系” 的影 视剧实体) 相关联。 0050 其中, 相关联的操作可以是给待关联属性、 至少一个种子实体、 至少一个种子实体 的关联实体贴上标签或者建立它们之间的对应关系等。例如, 可以将待关联属性 “治愈系” 与 “治愈系” 的影视剧种子实体、“治愈系” 的影视剧种子实体的关联实体 (即 “治愈系” 的小 说实体或其他 “治愈系” 的影视剧实体) 贴上 “治愈系” 的标签或建立它们之间的对应关系 等。 0051 本发明实施例的挖掘属性和实体关联关系的方法, 采用分布差异值从多个实体中 获取种子。

31、实体, 分布差异值真实地反映种子实体的分布, 获取的种子实体与待关联属性的 相关度更高、 更加准确, 从而进一步提升信息服务的质量。 0052 图 3 是根据本发明一个实施例的获取分布差异值的流程图。在本发明的一个实施 例中, 如图 3 所示, 步骤 S204 具体包括 : 0053 S2041, 分别获取与多个实体相关的多个用户在总体用户样本群中的多个第一分 布比重。 0054 例如, 总体用户样本群为1000万个观看影视剧的用户, 其中有50万的用户观看了 影视剧实体 M, 那么观看影视剧实体 M 的用户在总体用户样本群中的分布比重为 50 万除以 1000 万, 即第一分布比重为 5%。。

32、类似地, 依次获取与多个实体相关的多个用户在总体用户 样本群中的多个第一分布比重。 0055 S2042, 分别获取与多个实体相关的多个用户在关联用户样本群中的第二分布比 重。 0056 例如, 待关联属性为 “炫富” , 关联用户样本群为 100 万个观看 “炫富” 影视剧的用 户, 其中, 30 万个用户观看了影视剧实体 M, 那么观看影视剧实体 M 的用户在关联用户样本 群中的分布比重为30万除以100万, 即第二分布比重为30%。 类似地, 依次获取与多个实体 相关的多个用户在关联用户样本群中的多个第二分布比重。 0057 S2043, 根据第二分布比重和第一分布比重获取分布差异值。 。

33、0058 具体地, 根据获取的第二分布比重和第一分布比重, 用第二分布比重除以第一分 布比重即得到分布差异值。 0059 例如, 总体用户样本群为1000万个观看影视剧的用户, 其中有50万的用户观看了 影视剧实体 M, 那么第一分布比重为 5% ; 如果待关联属性为 “炫富” , 关联用户样本群为 100 万个观看 “炫富” 影视剧的用户, 其中, 30 万个用户观看了影视剧实体 M, 那么第二分布比重 为 30%, 则用 30% 除以 5%, 即得到分布差异值为 6。其中分布差异值越大, 说明影视剧实体 M 与待关联属性 “炫富” 的相关度越高。 0060 由此, 根据第一分布比重和第二分。

34、布比重获取的分布差异值更能体现关联度, 分 布差异值更加准确。 0061 在本发明的一个实施例中, 在步骤 S205 中, 总体用户样本群为多个, 分别对应多 个网络应用服务, 则每个实体对应的分布差异值为多个, 根据多个分布差异值对多个实体 进行筛选以获得所述至少一个种子实体 (即步骤 S205) 还包括 : 根据预设分布差异值筛选 说 明 书 CN 103631970 A 8 6/12 页 9 规则对所述多个实体进行筛选 ; 或, 创建分布差异值分类器, 并根据分布差异值分类器对多 个实体进行筛选, 另外, 还可以使用其它方法。 0062 具体地, 下面以实体在关联用户样本群、 百度贴吧、。

35、 百度知道、 百度会话中的分布 差异为例来说明根据预设分布差异值筛选规则对多个实体进行筛选的方法。 该方法采用的 筛选规则如下 : 0063 (1) 输出实体在关联用户样本群、 百度贴吧、 百度知道、 百度会话中的分布差异值 较大的实体, 用 Suser、 Stieba、 Siknow、 Ssession 分别表示实体在关联用户样本群、 百度 贴吧、 百度知道、 百度会话中的分布差异值, 如 : 输出 Suser10、 Stieba50、 Siknow50、 或 Ssession30 的实体 ; 0064 (2) 输出 Stieba、 Siknow、 Ssession 中至少有一个大于 3 并。

36、且 Suser 也大于 3 的 实体 ; 0065 (3) 输出 Stieba、 Siknow、 Ssession 全部大于 3 的实体 ; 0066 (4) 输出 Stieba、 Siknow、 Ssession 中至少有一个大于 3、 一个大于 8 的实体。 0067 还可以根据上述的筛选规则建立分类器, 例如, 可以采用现有技术的建立分类器 的方法建立分类, 分类器的建立可以提高效率。 分类器的建立可以采用现有技术, 在此不再 赘述。 0068 上述根据分布差异值在多个实体中筛选至少一个种子实体的方法准确率高, 但是 在设定的筛选规则中阈值以下的实体并不能被召回, 为此后续还需要获得种子。

37、实体的关联 实体。 0069 图 4 是根据本发明一个实施例的获得获取关联实体的流程图。在本发明的一个实 施例中, 如图 4 所示, 步骤 S206 中获得至少一个种子实体的关联实体具体包括 : 0070 S2061, 分别获取至少一个种子实体到具有待关联属性的用户样本群之间的第一 关联关系。 0071 具体地, 例如, 可以通过矩阵来描述种子实体到具有待关联属性的用户样本群之 间的第一关联关系, 例如矩阵 A。 0072 S2062, 获取具有待关联属性的用户样本群的关联实体群, 并获取具有待关联属性 的用户样本群到关联实体群之间的第二关联关系。 0073 具体地, 获取具有待关联属性的用户。

38、样本群的关联实体群, 例如, 如果具有待关联 属性的用户样本群为观看 “治愈系” 的影视剧实体的用户, 则获取 “治愈系” 的影视剧实体、 “治愈系” 小说实体、“治愈系” 漫画实体或者 “治愈系” 的其它实体, 即为具有待关联属性的 用户样本群的关联实体群。 0074 更具体地, 可以通过矩阵来描述具有待关联属性的用户样本群到关联实体群之间 的第二关联关系, 例如矩阵 B。 0075 S2063, 根据第一关联关系和第二关联关系分别获取至少一个种子实体到关联实 体群的第三关联关系。 0076 具体地, 例如可以根据矩阵 A 和矩阵 B 来获取至少一个种子实体到关联实体群的 第三关联关系, 可。

39、以用矩阵C来描述。 例如, 可通过简单的矩阵相乘即可获取到矩阵C, 还可 以进行加权处理之后再进行相乘。 0077 S2064, 根据第三关联关系对关联实体群中的每个关联实体进行筛选以获得至少 说 明 书 CN 103631970 A 9 7/12 页 10 一个种子实体的关联实体。 0078 例如, 第三关联关系可以用矩阵C标识, 矩阵C中的每个元素是该实体种子到关联 实体之间的相关度信息, 根据该矩阵可以获取种子实体到每个关联实体的路径上的路径相 似度 pathsim 特征, 根据该特征获取种子实体的关联实体。此外, pathsim 特征还能够找到 等同实体 peer objects, 减。

40、少热门实体的影响。其中, Pathsim 特征的计算公式如下 : 0079 0080 其中, ai为第 i 个实体, aj为第 j 个实体, pcR(ai,aj) 是矩阵 C 中第 i 行、 第 j 列的 元素值 (即实体 ai和实体 aj之间的相关度) , pcR(ai,ai) 是矩阵 C 中第 i 行、 第 i 列的元素值 (即实体 ai自身的相关度) , pcR-1(aj,ai) 是矩阵 C 的逆矩阵 C-1中第 j 行、 第 i 列的元素值, pcR-1(aj,aj) 是矩阵 C 的逆矩阵 C-1中第 j 行、 第 j 列的元素值。 0081 过滤上述获取的关联出的实体。具体地, 可以。

41、设定阈值来过滤掉关联出的实体中 疑似不相关的实体, 其中, 阈值可以为种子实体在关联用户样本群上的分布差异值的倍数, 例如 2 倍、 3 倍或者其它倍数。 0082 由此, 获取的第三关联关系更加直接反应了种子实体的关联实体, 使获得的关联 实体更加准确。 0083 为了实现上述实施例, 本发明还提出一种挖掘属性和实体关联关系的装置。 0084 一种挖掘属性和实体关联关系的装置, 包括 : 待关联属性获取模块, 用于获取待关 联属性 ; 种子实体获取模块, 用于根据待关联属性从多个实体中获得至少一个种子实体 ; 关联实体获取模块, 用于获得至少一个种子实体的关联实体 ; 以及关联模块, 用于将。

42、待关联 属性与至少一个种子实体、 至少一个种子实体的关联实体相关联。 0085 图 5 是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图。 0086 如图 5 所示, 挖掘属性和实体关联关系的装置包括 : 待关联属性获取模块 100、 种 子实体获取模块 200、 关联实体获取模块 300 和关联模块 400。 0087 其中, 待关联属性获取模块 100 用于获取待关联属性。 0088 具体地, 待关联属性为一类描述用户感受、 产品特性等特征的属性。 待关联属性可 以随网络语言实时更新, 例如, 对多个网页进行分析可获取待关联属性。举例来说, 可以有 “屌丝逆袭” 、“邪恶战。

43、胜正义” 、“治愈系” 、“虐心” 、“炫富” 等描述用户感受的待关联属性 ; 对 于产品实体, 可以有 “性价比高” 、“结实耐用” 等描述用户使用体验的待关联属性。 0089 种子实体获取模块 200 用于根据待关联属性从多个实体中获得至少一个种子实 体。 0090 具体地, 获取待关联属性之后, 根据待关联属性从多个实体中获得至少一个种子 实体。其中, 将与待关联属性联系紧密、 相关度高的实体命名作为种子实体。例如, 如果待 关联属性为 “治愈系” , 则获取的种子实体可以是 “治愈系” 的影视剧实体、“治愈系” 的小说 实体、“治愈系” 的漫画实体或者 “治愈系” 的其它实体等。该过程。

44、与用户与实体的关联度、 服务应用与实体的关联度有关, 后续实施例中将详细叙述。 0091 关联实体获取模块 300 用于获得至少一个种子实体的关联实体。 0092 具体地, 从多个实体中获得至少一个种子实体后, 再由至少一个种子实体为中心, 获得至少一个种子实体相关度较高的关联实体。以从多个实体中获得了一个种子实体为 说 明 书 CN 103631970 A 10 8/12 页 11 例, 例如, 如果从多个实体中获得的一个种子实体为 “治愈系” 的影视剧种子实体 A, 然后获 得该 “治愈系” 的影视剧种子实体 A 的关联实体, 例如获得的关联实体可以是 “治愈系” 的 小说实体 B、“治愈。

45、系” 的漫画实体 C、“治愈系” 的其他实体 E、 或者其他 “治愈系” 的影视剧 种子 F 和 G 等。该过程可以扩大实体的范围, 召回一些关联实体。 0093 关联模块 400 用于将待关联属性与至少一个种子实体、 至少一个种子实体的关联 实体相关联。 0094 具体地, 获得至少一个种子实体的关联实体之后, 将待关联属性与至少一个种子 实体、 至少一个种子实体的关联实体相关联。 0095 例如, 获得关联实体 “治愈系” 的小说实体或其他 “治愈系” 的影视剧实体之后, 将 待关联属性 “治愈系” 与 “治愈系” 的影视剧种子实体、“治愈系” 的影视剧种子实体的关联 实体 (即 “治愈系。

46、” 的小说实体或其他 “治愈系” 的影视剧实体) 相关联。 0096 其中, 相关联的操作可以是给待关联属性、 至少一个种子实体、 至少一个种子实体 的关联实体贴上标签或者建立它们之间的对应关系等。例如, 可以将待关联属性 “治愈系” 与 “治愈系” 的影视剧种子实体、“治愈系” 的影视剧种子实体的关联实体 (即 “治愈系” 的小 说实体或其他 “治愈系” 的影视剧实体) 贴上 “治愈系” 的标签或建立它们之间的对应关系 等。 0097 本发明实施例的挖掘属性和实体关联关系的装置, 通过待关联属性获取模块获取 待关联属性, 然后种子实体获取模块根据待关联属性获取种子实体, 之后关联实体获取模 。

47、块根据种子实体获取种子实体的关联实体, 由此, 可以挖掘出待关联属性的多个关联实体, 同理实现挖掘实体所对应的用户指定属性 (即待关联属性) , 从而提供更全面、 更精细、 更优 质的详细服务, 例如, 根据用户指定属性向用户推荐实体 ; 根据该装置还可以挖掘任意领域 实体和用户指定属性 (即待关联属性) 之间的关联关系, 不受应用领域的限制, 应用广泛。 0098 图 6 是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图。 0099 如图 6 所示, 挖掘属性和实体关联关系的装置包括 : 待关联属性获取模块 100、 种 子实体获取模块 200、 实体获取单元 210、 关联。

48、用户样本群获取单元 220、 分布差异值获取单 元 230、 筛选单元 240、 关联实体获取模块 300、 第一关联关系获取单元 310、 第二关联关系 获取单元 320、 第三关联关系获取单元 330、 筛选单元 340 和关联模块 400。其中, 种子实体 获取模块 200 包括实体获取单元 210、 关联用户样本群获取单元 220、 分布差异值获取单元 230、 筛选单元 240 ; 关联实体获取模块 300 包括第一关联关系获取单元 310、 第二关联关系 获取单元 320、 第三关联关系获取单元 330、 筛选单元 340。 0100 在本发明的一个实施例中, 第一关联关系获取单元。

49、 310、 第二关联关系获取单元 320、 第三关联关系获取单元 330、 筛选单元 340 是可选的。 0101 具体地, 待关联属性获取模块 100 用于获取待关联属性。 0102 在本发明的一个实施例中, 待关联属性为一类描述用户感受、 产品特性等特征的 属性。待关联属性可以随网络语言实时更新, 例如, 对多个网页进行分析可获取待关联属 性。举例来说, 可以有 “屌丝逆袭” 、“邪恶战胜正义” 、“治愈系” 、“虐心” 、“炫富” 等描述用户 感受的待关联属性 ; 对于产品实体, 可以有 “性价比高” 、“结实耐用” 等描述用户使用体验的 待关联属性。 0103 实体获取单元 210 用于从预设实体库中获取多个实体。 说 明 书 CN 103631970 A 11 9/12 页 12 0104 具体地, 预设实体库为预先从网络中获取的实体库, 预设实体库中存储有多个实。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1