《挖掘属性和实体关联关系的方法和装置.pdf》由会员分享,可在线阅读,更多相关《挖掘属性和实体关联关系的方法和装置.pdf(21页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103631970 A (43)申请公布日 2014.03.12 CN 103631970 A (21)申请号 201310714291.6 (22)申请日 2013.12.20 G06F 17/30(2006.01) (71)申请人 百度在线网络技术 (北京) 有限公司 地址 100085 北京市海淀区上地十街 10 号 百度大厦三层 (72)发明人 李超 李大任 (74)专利代理机构 北京清亦华知识产权代理事 务所 ( 普通合伙 ) 11201 代理人 宋合成 (54) 发明名称 挖掘属性和实体关联关系的方法和装置 (57) 摘要 本发明提出一种挖掘属性和实体关联。
2、关系 的方法和装置, 其中该方法包括 : 获取待关联属 性 ; 根据待关联属性从多个实体中获得至少一个 种子实体 ; 以及获得至少一个种子实体的关联实 体, 并将待关联属性与至少一个种子实体、 至少一 个种子实体的关联实体相关联。本发明实施例的 方法, 可以挖掘出待关联属性的多个关联实体, 同 理实现挖掘实体所对应的用户指定属性 (即待关 联属性) , 从而提供更全面、 更精细、 更优质的详细 服务 ; 还可以挖掘任意领域实体和用户指定属性 (即待关联属性) 之间的关联关系, 不受应用领域 的限制, 应用广泛。 (51)Int.Cl. 权利要求书 2 页 说明书 12 页 附图 6 页 (19。
3、)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书12页 附图6页 (10)申请公布号 CN 103631970 A CN 103631970 A 1/2 页 2 1. 一种挖掘属性和实体关联关系的方法, 其特征在于, 包括以下步骤 : 获取待关联属性 ; 根据所述待关联属性从多个实体中获得至少一个种子实体 ; 以及 获得所述至少一个种子实体的关联实体, 并将所述待关联属性与所述至少一个种子实 体、 所述至少一个种子实体的关联实体相关联。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述根据待关联属性从多个实体中获得 至少一个种子实体具体包括 : 从预设实体库。
4、中获取所述多个实体 ; 从总体用户样本群中获取具有所述待关联属性的关联用户样本群 ; 分别获得所述多个实体在所述关联用户样本群中的多个分布差异值 ; 以及 根据所述多个分布差异值对所述多个实体进行筛选以获得所述至少一个种子实体。 3. 根据权利要求 2 所述的方法, 其特征在于, 所述分别获取多个实体在所述关联用户 样本群中的多个分布差异值具体包括 : 分别获取与所述多个实体相关的多个用户在所述总体用户样本群中的多个第一分布 比重 ; 分别获取与所述多个实体相关的多个用户在所述关联用户样本群中的第二分布比重 ; 以及 根据所述第二分布比重和所述第一分布比重获取所述分布差异值。 4. 根据权利要。
5、求 3 所述的方法, 其特征在于, 所述总体用户样本群为多个, 分别对应多 个网络应用服务, 则每个所述实体对应的分布差异值为多个, 所述根据多个分布差异值对 所述多个实体进行筛选以获得所述至少一个种子实体还包括 : 根据预设分布差异值筛选规则对所述多个实体进行筛选 ; 或, 创建分布差异值分类器, 并根据所述分布差异值分类器对所述多个实体进行筛选。 5.根据权利要求1至4中任一项所述的方法, 其特征在于, 所述获得至少一个种子实体 的关联实体具体包括 : 分别获取所述至少一个种子实体到具有所述待关联属性的用户样本群之间的第一关 联关系 ; 获取具有所述待关联属性的用户样本群的关联实体群, 并。
6、获取所述具有所述待关联属 性的用户样本群到所述关联实体群之间的第二关联关系 ; 根据所述第一关联关系和所述第二关联关系分别获取所述至少一个种子实体到所述 关联实体群的第三关联关系 ; 以及 根据所述第三关联关系对所述关联实体群中的每个所述关联实体进行筛选以获得所 述至少一个种子实体的关联实体。 6. 一种挖掘属性和实体关联关系的装置, 其特征在于, 包括 : 待关联属性获取模块, 用于获取待关联属性 ; 种子实体获取模块, 用于根据所述待关联属性从多个实体中获得至少一个种子实体 ; 关联实体获取模块, 用于获得所述至少一个种子实体的关联实体 ; 以及 关联模块, 用于将所述待关联属性与所述至少。
7、一个种子实体、 所述至少一个种子实体 的关联实体相关联。 权 利 要 求 书 CN 103631970 A 2 2/2 页 3 7. 根据权利要求 6 所述的装置, 其特征在于, 所述种子实体获取模块包括 : 实体获取单元, 用于从预设实体库中获取所述多个实体 ; 关联用户样本群获取单元, 用于从总体用户样本群中获取具有所述待关联属性的关联 用户样本群 ; 分布差异值获取单元, 用于分别获得所述多个实体在所述关联用户样本群中的多个分 布差异值 ; 以及 筛选单元, 用于根据所述多个分布差异值对所述多个实体进行筛选以获得所述至少一 个种子实体。 8. 根据权利要求 7 所述的装置, 其特征在于,。
8、 所述分布差异值获取单元还具体用于 : 分 别获取与所述多个实体相关的多个用户在所述总体用户样本群中的多个第一分布比重, 并 分别获取与所述多个实体相关的多个用户在所述关联用户样本群中的第二分布比重, 以及 根据所述第二分布比重和所述第一分布比重获取所述分布差异值。 9. 根据权利要求 8 所述的装置, 其特征在于, 所述总体用户样本群为多个, 分别对应多 个网络应用服务, 则每个所述实体对应的分布差异值为多个, 所述根据多个分布差异值对 所述多个实体进行筛选还包括 : 根据预设分布差异值筛选规则对所述多个实体进行筛选 ; 或, 创建分布差异值分类器, 并根据所述分布差异值分类器对所述多个实体。
9、进行筛选。 10. 根据权利要求 6 至 9 中任一项所述的装置, 其特征在于, 所述关联实体获取模块包 括 : 第一关联关系获取单元, 用于分别获取所述至少一个种子实体到具有所述待关联属性 的用户样本群之间的第一关联关系 ; 第二关联关系获取单元, 用于获取具有所述待关联属性的用户样本群的关联实体群, 并获取所述具有所述待关联属性的用户样本群到所述关联实体群之间的第二关联关系 ; 第三关联关系获取单元, 用于根据所述第一关联关系和所述第二关联关系分别获取所 述至少一个种子实体到所述关联实体群的第三关联关系 ; 以及 筛选单元, 用于根据所述第三关联关系对所述关联实体群中的每个所述关联实体进行。
10、 筛选以获得所述至少一个种子实体的关联实体。 权 利 要 求 书 CN 103631970 A 3 1/12 页 4 挖掘属性和实体关联关系的方法和装置 技术领域 0001 本发明涉及计算机技术领域, 尤其涉及一种挖掘属性和实体关联关系的方法和装 置。 背景技术 0002 随着互联网技术, 特别是无线互联网技术的快速发展, 信息服务变得越来越普遍。 信息服务提供商提供信息服务时, 例如, 搜索引擎提供搜索服务等, 通常会挖掘实体和属性 之间的关联关系, 并根据实体和属性之间的关联关系提供信息服务。 具体地, 可将现实世界 中的客观事物称为实体, 例如概念、 事物或事件等。 举例来说, 影视剧 。
11、“我是特种兵” 、 百度公 司以及宇宙大爆炸理论都是实体的实例。 同时, 每个实体具有属性, 属性反映实体的相关信 息, 例如, 军旅题材、 公司办公地点、 现代宇宙理论分别是上述实体对应的属性。 0003 目前获取实体和属性之间关联关系的方法主要是从网站的结构化数据中定向抓 取实体属性对, 并根据实体属性对建立实体和属性之间的关联关系。 但是, 主要存在以下问 题, 由于一个实体对应的属性是多种多样的, 对应一个实体来说, 从网站获取的属性只是某 一个方面, 该属性可能无法很好的满足用户的需求。因此现有技术无法挖掘出实体所对应 的用户指定属性, 例如, 无法挖掘出某个电影属于 “屌丝逆袭” 。
12、属性等, 同样地, 也无法挖掘 出 “屌丝逆袭” 、“治愈系” 、“虐心” 等属性对应的实体, 如 “屌丝逆袭” 题材的电影、 小说等。 发明内容 0004 本发明旨在至少解决上述技术问题之一。 0005 为此, 本发明的第一个目的在于提出一种挖掘属性和实体关联关系的方法。该方 法可以挖掘出待关联属性的多个关联实体, 同理实现挖掘实体所对应的用户指定属性 (即 待关联属性) , 从而提供更全面、 更精细、 更优质的详细服务。 0006 本发明的第二个目的在于提出一种挖掘属性和实体关联关系的装置。 0007 为了实现上述目的, 本发明第一方面实施例的挖掘属性和实体关联关系的方法, 包括以下步骤 。
13、: 获取待关联属性 ; 根据所述待关联属性从多个实体中获得至少一个种子实 体 ; 以及获得所述至少一个种子实体的关联实体, 并将所述待关联属性与所述至少一个种 子实体、 所述至少一个种子实体的关联实体相关联。 0008 本发明实施例的挖掘属性和实体关联关系的方法, 通过待关联属性获取种子实 体, 再根据种子实体获取相关的关联实体, 由此, 可以挖掘出待关联属性的多个关联实体, 同理实现挖掘实体所对应的用户指定属性 (即待关联属性) , 从而提供更全面、 更精细、 更优 质的详细服务, 例如, 根据用户指定属性向用户推荐实体 ; 根据该方法还可以挖掘任意领域 实体和给定属性 (即待关联属性) 之。
14、间的关联关系, 不受应用领域的限制, 应用广泛。 0009 为了实现上述目的, 本发明第二方面实施例的挖掘属性和实体关联关系的装置, 包括 : 待关联属性获取模块, 用于获取待关联属性 ; 种子实体获取模块, 用于根据所述待关 联属性从多个实体中获得至少一个种子实体 ; 关联实体获取模块, 用于获得所述至少一个 说 明 书 CN 103631970 A 4 2/12 页 5 种子实体的关联实体 ; 以及关联模块, 用于将所述待关联属性与所述至少一个种子实体、 所 述至少一个种子实体的关联实体相关联。 0010 本发明实施例的挖掘属性和实体关联关系的装置, 通过待关联属性获取模块获取 待关联属性。
15、, 然后种子实体获取模块根据待关联属性获取种子实体, 之后关联实体获取模 块根据种子实体获取种子实体的关联实体, 由此, 可以挖掘出待关联属性的多个关联实体, 同理实现挖掘实体所对应的用户指定属性 (即待关联属性) , 从而提供更全面、 更精细、 更优 质的详细服务, 例如, 根据用户指定属性向用户推荐实体 ; 根据该装置还可以挖掘任意领域 实体和用户指定属性 (即待关联属性) 之间的关联关系, 不受应用领域的限制, 应用广泛。 0011 本发明附加的方面和优点将在下面的描述中部分给出, 部分将从下面的描述中变 得明显, 或通过本发明的实践了解到。 附图说明 0012 本发明上述的和 / 或附。
16、加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解, 其中, 0013 图 1 是根据本发明一个实施例的挖掘属性和实体关联关系的方法的流程图 ; 0014 图 2 是根据本发明一个实施例的挖掘属性和实体关联关系的方法的流程图 ; 0015 图 3 是根据本发明一个实施例的获取分布差异值的流程图 ; 0016 图 4 是根据本发明一个实施例的获得获取关联实体的流程图 ; 0017 图 5 是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图 ; 0018 图 6 是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图。 具体实施方式 0019 下面详细描述本。
17、发明的实施例, 所述实施例的示例在附图中示出, 其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考 附图描述的实施例是示例性的, 仅用于解释本发明, 而不能理解为对本发明的限制。相反, 本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、 修改和等同 物。 0020 在本发明的描述中, 需要理解的是, 术语 “第一” 、“第二” 等仅用于描述目的, 而不 能理解为指示或暗示相对重要性。 在本发明的描述中, 需要说明的是, 除非另有明确的规定 和限定, 术语 “相连” 、“连接” 应做广义理解, 例如, 可以是固定连接, 也可以是可拆卸连接。
18、, 或一体地连接 ; 可以是机械连接, 也可以是电连接 ; 可以是直接相连, 也可以通过中间媒介 间接相连。对于本领域的普通技术人员而言, 可以具体情况理解上述术语在本发明中的具 体含义。此外, 在本发明的描述中, 除非另有说明,“多个” 的含义是两个或两个以上。 0021 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为, 表示包括 一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、 片段或部 分, 并且本发明的优选实施方式的范围包括另外的实现, 其中可以不按所示出或讨论的顺 序, 包括根据所涉及的功能按基本同时的方式或按相反的顺序, 来执行功能, 这应被本发。
19、明 的实施例所属技术领域的技术人员所理解。 0022 为了挖掘出任意领域中实体和用户指定属性 (如用户指定属性) 之间的关联关系, 说 明 书 CN 103631970 A 5 3/12 页 6 从而给用户提供更全面、 更精细的信息服务, 本发明提出一种挖掘属性和实体关联关系的 方法和装置。下面参考附图描述本发明实施例的挖掘属性和实体关联关系的方法和装置。 0023 一种挖掘属性和实体关联关系的方法, 包括以下步骤 : 获取待关联属性 ; 根据待 关联属性从多个实体中获得至少一个种子实体 ; 以及获得至少一个种子实体的关联实体, 并将待关联属性与至少一个种子实体、 至少一个种子实体的关联实体相。
20、关联。 0024 图 1 是根据本发明一个实施例的挖掘属性和实体关联关系的方法的流程图。 0025 如图 1 所示, 挖掘属性和实体关联关系的方法包括下述步骤。 0026 步骤 S101, 获取待关联属性。 0027 在本发明的一个实施例中, 待关联属性为一类描述用户感受、 产品特性等特征的 属性。待关联属性可以随网络语言实时更新, 例如, 对多个网页进行分析可获取待关联属 性。举例来说, 可以有 “屌丝逆袭” 、“邪恶战胜正义” 、“治愈系” 、“虐心” 、“炫富” 等描述用户 感受的待关联属性 ; 对于产品实体, 可以有 “性价比高” 、“结实耐用” 等描述用户使用体验的 待关联属性。 0。
21、028 步骤 S102, 根据待关联属性从多个实体中获得至少一个种子实体。 0029 具体地, 获取待关联属性之后, 根据待关联属性从多个实体中获得至少一个种子 实体。其中, 将与待关联属性联系紧密、 相关度高的实体命名作为种子实体。例如, 如果待 关联属性为 “治愈系” , 则获取的种子实体可以是 “治愈系” 的影视剧实体、“治愈系” 的小说 实体、“治愈系” 的漫画实体或者 “治愈系” 的其它实体等。该过程与用户与实体的关联度、 服务应用与实体的关联度有关, 后续实施例中将详细叙述。 0030 步骤 S103, 获得至少一个种子实体的关联实体, 并将待关联属性与至少一个种子 实体、 至少一。
22、个种子实体的关联实体相关联。 0031 具体地, 从多个实体中获得至少一个种子实体后, 再由至少一个种子实体为中心, 获得至少一个种子实体相关度较高的关联实体。以从多个实体中获得了一个种子实体为 例, 例如, 如果从多个实体中获得的一个种子实体为 “治愈系” 的影视剧种子实体 A, 然后获 得该 “治愈系” 的影视剧种子实体 A 的关联实体, 例如获得的关联实体可以是 “治愈系” 的 小说实体 B、“治愈系” 的漫画实体 C、“治愈系” 的其他实体 E、 或者其他 “治愈系” 的影视剧 种子 F 和 G 等。该过程可以扩大实体的范围, 召回一些关联实体。 0032 更具体地, 获得至少一个种子。
23、实体的关联实体之后, 将待关联属性与至少一个种 子实体、 至少一个种子实体的关联实体相关联。例如, 获得关联实体 “治愈系” 的小说实体 或其他 “治愈系” 的影视剧实体之后, 将待关联属性 “治愈系” 与 “治愈系” 的影视剧种子实 体、“治愈系” 的影视剧种子实体的关联实体 (即 “治愈系” 的小说实体或其他 “治愈系” 的影 视剧实体) 相关联。 0033 其中, 相关联的操作可以是给待关联属性、 至少一个种子实体、 至少一个种子实体 的关联实体贴上标签或者建立它们之间的对应关系等。例如, 可以将待关联属性 “治愈系” 与 “治愈系” 的影视剧种子实体、“治愈系” 的影视剧种子实体的关联。
24、实体 (即 “治愈系” 的小 说实体或其他 “治愈系” 的影视剧实体) 贴上 “治愈系” 的标签或建立它们之间的对应关系 等。 0034 本发明实施例的挖掘属性和实体关联关系的方法, 通过待关联属性获取种子实 体, 再根据种子实体获取相关的关联实体, 由此, 可以挖掘出待关联属性的多个关联实体, 说 明 书 CN 103631970 A 6 4/12 页 7 同理实现挖掘实体所对应的用户指定属性 (即待关联属性) , 从而提供更全面、 更精细、 更优 质的详细服务, 例如, 根据用户指定属性向用户推荐实体 ; 根据该方法还可以挖掘任意领域 实体和给定属性 (即待关联属性) 之间的关联关系, 不。
25、受应用领域的限制, 应用广泛。 0035 图 2 是根据本发明另一个实施例的挖掘属性和实体关联关系的方法的流程图。在 本发明的实施例中, 采用分布差异的方式从多个实体中获取种子实体。 0036 具体地, 如图 2 所示, 挖掘属性和实体关联关系的方法包括下述步骤。 0037 步骤 S201, 获取待关联属性。 0038 在本发明的一个实施例中, 待关联属性为一类描述用户感受、 产品特性等特征的 属性。待关联属性可以随网络语言实时更新, 例如, 对多个网页进行分析可获取待关联属 性。举例来说, 可以有 “屌丝逆袭” 、“邪恶战胜正义” 、“治愈系” 、“虐心” 、“炫富” 等描述用户 感受的待关。
26、联属性 ; 对于产品实体, 可以有 “性价比高” 、“结实耐用” 等描述用户使用体验的 待关联属性。 0039 步骤 S202, 从预设实体库中获取多个实体。 0040 具体地, 预设实体库为预先从网络中获取的实体库, 预设实体库中存储有多个实 体, 其中, 预设实体库可以存储在服务器中或者其它设备中。还可以对预设实体库进行分 类, 不同的应用服务可以具有不同的预设实体库。 0041 步骤 S203, 从总体用户样本群中获取具有待关联属性的关联用户样本群。 0042 具体地, 根据待关联属性, 从总体用户样本群中获取具有待关联属性的关联用户 样本群。例如, 如果待关联属性为 “炫富” , 总体。
27、用户样本群为 1000 万个观看影视剧的用户, 那么获取总体用户样本群中的 100 万个观看 “炫富” 影视剧的用户, 即具有待关联属性的关 联用户样本群。 0043 步骤 S204, 分别获得多个实体在关联用户样本群中的多个分布差异值。 0044 具体地, 同一个实体在总体用户样本群和在具有待关联属性的关联用户样本群中 的分布是不同的。分布差异值的大小可以对应的体现出实体与待关联属性的相关度的高 低, 便于后续根据分布差异值对实体进行筛选。具体地分布差异值的获取将在后续实施例 中详细叙述。 0045 步骤 S205, 根据多个分布差异值对多个实体进行筛选以获得至少一个种子实体。 0046 具。
28、体地, 获得多个实体在关联用户样本群中的多个分布差异值后, 根据多个分布 差异值对多个实体进行筛选以获得至少一个种子实体。其中, 种子实体为根据分布差异值 从多个实体中筛选出来的与待关联属性相关度较高的实体。 0047 步骤 S206, 获得至少一个种子实体的关联实体, 并将待关联属性与至少一个种子 实体、 至少一个种子实体的关联实体相关联。 0048 具体地, 从多个实体中获得至少一个种子实体后, 再由至少一个种子实体为中心, 获得至少一个种子实体相关度较高的关联实体。以从多个实体中获得了一个种子实体为 例, 例如, 如果从多个实体中获得的一个种子实体为 “治愈系” 的影视剧种子实体 A, 。
29、然后获 得该 “治愈系” 的影视剧种子实体 A 的关联实体, 例如获得的关联实体可以是 “治愈系” 的 小说实体 B、“治愈系” 的漫画实体 C、“治愈系” 的其他实体 E、 或者其他 “治愈系” 的影视剧 种子 F 和 G 等。该过程可以扩大实体的范围, 召回一些关联实体。 0049 更具体地, 获得至少一个种子实体的关联实体之后, 将待关联属性与至少一个种 说 明 书 CN 103631970 A 7 5/12 页 8 子实体、 至少一个种子实体的关联实体相关联。例如, 获得关联实体 “治愈系” 的小说实体 或其他 “治愈系” 的影视剧实体之后, 将待关联属性 “治愈系” 与 “治愈系” 。
30、的影视剧种子实 体、“治愈系” 的影视剧种子实体的关联实体 (即 “治愈系” 的小说实体或其他 “治愈系” 的影 视剧实体) 相关联。 0050 其中, 相关联的操作可以是给待关联属性、 至少一个种子实体、 至少一个种子实体 的关联实体贴上标签或者建立它们之间的对应关系等。例如, 可以将待关联属性 “治愈系” 与 “治愈系” 的影视剧种子实体、“治愈系” 的影视剧种子实体的关联实体 (即 “治愈系” 的小 说实体或其他 “治愈系” 的影视剧实体) 贴上 “治愈系” 的标签或建立它们之间的对应关系 等。 0051 本发明实施例的挖掘属性和实体关联关系的方法, 采用分布差异值从多个实体中 获取种子。
31、实体, 分布差异值真实地反映种子实体的分布, 获取的种子实体与待关联属性的 相关度更高、 更加准确, 从而进一步提升信息服务的质量。 0052 图 3 是根据本发明一个实施例的获取分布差异值的流程图。在本发明的一个实施 例中, 如图 3 所示, 步骤 S204 具体包括 : 0053 S2041, 分别获取与多个实体相关的多个用户在总体用户样本群中的多个第一分 布比重。 0054 例如, 总体用户样本群为1000万个观看影视剧的用户, 其中有50万的用户观看了 影视剧实体 M, 那么观看影视剧实体 M 的用户在总体用户样本群中的分布比重为 50 万除以 1000 万, 即第一分布比重为 5%。。
32、类似地, 依次获取与多个实体相关的多个用户在总体用户 样本群中的多个第一分布比重。 0055 S2042, 分别获取与多个实体相关的多个用户在关联用户样本群中的第二分布比 重。 0056 例如, 待关联属性为 “炫富” , 关联用户样本群为 100 万个观看 “炫富” 影视剧的用 户, 其中, 30 万个用户观看了影视剧实体 M, 那么观看影视剧实体 M 的用户在关联用户样本 群中的分布比重为30万除以100万, 即第二分布比重为30%。 类似地, 依次获取与多个实体 相关的多个用户在关联用户样本群中的多个第二分布比重。 0057 S2043, 根据第二分布比重和第一分布比重获取分布差异值。 。
33、0058 具体地, 根据获取的第二分布比重和第一分布比重, 用第二分布比重除以第一分 布比重即得到分布差异值。 0059 例如, 总体用户样本群为1000万个观看影视剧的用户, 其中有50万的用户观看了 影视剧实体 M, 那么第一分布比重为 5% ; 如果待关联属性为 “炫富” , 关联用户样本群为 100 万个观看 “炫富” 影视剧的用户, 其中, 30 万个用户观看了影视剧实体 M, 那么第二分布比重 为 30%, 则用 30% 除以 5%, 即得到分布差异值为 6。其中分布差异值越大, 说明影视剧实体 M 与待关联属性 “炫富” 的相关度越高。 0060 由此, 根据第一分布比重和第二分。
34、布比重获取的分布差异值更能体现关联度, 分 布差异值更加准确。 0061 在本发明的一个实施例中, 在步骤 S205 中, 总体用户样本群为多个, 分别对应多 个网络应用服务, 则每个实体对应的分布差异值为多个, 根据多个分布差异值对多个实体 进行筛选以获得所述至少一个种子实体 (即步骤 S205) 还包括 : 根据预设分布差异值筛选 说 明 书 CN 103631970 A 8 6/12 页 9 规则对所述多个实体进行筛选 ; 或, 创建分布差异值分类器, 并根据分布差异值分类器对多 个实体进行筛选, 另外, 还可以使用其它方法。 0062 具体地, 下面以实体在关联用户样本群、 百度贴吧、。
35、 百度知道、 百度会话中的分布 差异为例来说明根据预设分布差异值筛选规则对多个实体进行筛选的方法。 该方法采用的 筛选规则如下 : 0063 (1) 输出实体在关联用户样本群、 百度贴吧、 百度知道、 百度会话中的分布差异值 较大的实体, 用 Suser、 Stieba、 Siknow、 Ssession 分别表示实体在关联用户样本群、 百度 贴吧、 百度知道、 百度会话中的分布差异值, 如 : 输出 Suser10、 Stieba50、 Siknow50、 或 Ssession30 的实体 ; 0064 (2) 输出 Stieba、 Siknow、 Ssession 中至少有一个大于 3 并。
36、且 Suser 也大于 3 的 实体 ; 0065 (3) 输出 Stieba、 Siknow、 Ssession 全部大于 3 的实体 ; 0066 (4) 输出 Stieba、 Siknow、 Ssession 中至少有一个大于 3、 一个大于 8 的实体。 0067 还可以根据上述的筛选规则建立分类器, 例如, 可以采用现有技术的建立分类器 的方法建立分类, 分类器的建立可以提高效率。 分类器的建立可以采用现有技术, 在此不再 赘述。 0068 上述根据分布差异值在多个实体中筛选至少一个种子实体的方法准确率高, 但是 在设定的筛选规则中阈值以下的实体并不能被召回, 为此后续还需要获得种子。
37、实体的关联 实体。 0069 图 4 是根据本发明一个实施例的获得获取关联实体的流程图。在本发明的一个实 施例中, 如图 4 所示, 步骤 S206 中获得至少一个种子实体的关联实体具体包括 : 0070 S2061, 分别获取至少一个种子实体到具有待关联属性的用户样本群之间的第一 关联关系。 0071 具体地, 例如, 可以通过矩阵来描述种子实体到具有待关联属性的用户样本群之 间的第一关联关系, 例如矩阵 A。 0072 S2062, 获取具有待关联属性的用户样本群的关联实体群, 并获取具有待关联属性 的用户样本群到关联实体群之间的第二关联关系。 0073 具体地, 获取具有待关联属性的用户。
38、样本群的关联实体群, 例如, 如果具有待关联 属性的用户样本群为观看 “治愈系” 的影视剧实体的用户, 则获取 “治愈系” 的影视剧实体、 “治愈系” 小说实体、“治愈系” 漫画实体或者 “治愈系” 的其它实体, 即为具有待关联属性的 用户样本群的关联实体群。 0074 更具体地, 可以通过矩阵来描述具有待关联属性的用户样本群到关联实体群之间 的第二关联关系, 例如矩阵 B。 0075 S2063, 根据第一关联关系和第二关联关系分别获取至少一个种子实体到关联实 体群的第三关联关系。 0076 具体地, 例如可以根据矩阵 A 和矩阵 B 来获取至少一个种子实体到关联实体群的 第三关联关系, 可。
39、以用矩阵C来描述。 例如, 可通过简单的矩阵相乘即可获取到矩阵C, 还可 以进行加权处理之后再进行相乘。 0077 S2064, 根据第三关联关系对关联实体群中的每个关联实体进行筛选以获得至少 说 明 书 CN 103631970 A 9 7/12 页 10 一个种子实体的关联实体。 0078 例如, 第三关联关系可以用矩阵C标识, 矩阵C中的每个元素是该实体种子到关联 实体之间的相关度信息, 根据该矩阵可以获取种子实体到每个关联实体的路径上的路径相 似度 pathsim 特征, 根据该特征获取种子实体的关联实体。此外, pathsim 特征还能够找到 等同实体 peer objects, 减。
40、少热门实体的影响。其中, Pathsim 特征的计算公式如下 : 0079 0080 其中, ai为第 i 个实体, aj为第 j 个实体, pcR(ai,aj) 是矩阵 C 中第 i 行、 第 j 列的 元素值 (即实体 ai和实体 aj之间的相关度) , pcR(ai,ai) 是矩阵 C 中第 i 行、 第 i 列的元素值 (即实体 ai自身的相关度) , pcR-1(aj,ai) 是矩阵 C 的逆矩阵 C-1中第 j 行、 第 i 列的元素值, pcR-1(aj,aj) 是矩阵 C 的逆矩阵 C-1中第 j 行、 第 j 列的元素值。 0081 过滤上述获取的关联出的实体。具体地, 可以。
41、设定阈值来过滤掉关联出的实体中 疑似不相关的实体, 其中, 阈值可以为种子实体在关联用户样本群上的分布差异值的倍数, 例如 2 倍、 3 倍或者其它倍数。 0082 由此, 获取的第三关联关系更加直接反应了种子实体的关联实体, 使获得的关联 实体更加准确。 0083 为了实现上述实施例, 本发明还提出一种挖掘属性和实体关联关系的装置。 0084 一种挖掘属性和实体关联关系的装置, 包括 : 待关联属性获取模块, 用于获取待关 联属性 ; 种子实体获取模块, 用于根据待关联属性从多个实体中获得至少一个种子实体 ; 关联实体获取模块, 用于获得至少一个种子实体的关联实体 ; 以及关联模块, 用于将。
42、待关联 属性与至少一个种子实体、 至少一个种子实体的关联实体相关联。 0085 图 5 是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图。 0086 如图 5 所示, 挖掘属性和实体关联关系的装置包括 : 待关联属性获取模块 100、 种 子实体获取模块 200、 关联实体获取模块 300 和关联模块 400。 0087 其中, 待关联属性获取模块 100 用于获取待关联属性。 0088 具体地, 待关联属性为一类描述用户感受、 产品特性等特征的属性。 待关联属性可 以随网络语言实时更新, 例如, 对多个网页进行分析可获取待关联属性。举例来说, 可以有 “屌丝逆袭” 、“邪恶战。
43、胜正义” 、“治愈系” 、“虐心” 、“炫富” 等描述用户感受的待关联属性 ; 对 于产品实体, 可以有 “性价比高” 、“结实耐用” 等描述用户使用体验的待关联属性。 0089 种子实体获取模块 200 用于根据待关联属性从多个实体中获得至少一个种子实 体。 0090 具体地, 获取待关联属性之后, 根据待关联属性从多个实体中获得至少一个种子 实体。其中, 将与待关联属性联系紧密、 相关度高的实体命名作为种子实体。例如, 如果待 关联属性为 “治愈系” , 则获取的种子实体可以是 “治愈系” 的影视剧实体、“治愈系” 的小说 实体、“治愈系” 的漫画实体或者 “治愈系” 的其它实体等。该过程。
44、与用户与实体的关联度、 服务应用与实体的关联度有关, 后续实施例中将详细叙述。 0091 关联实体获取模块 300 用于获得至少一个种子实体的关联实体。 0092 具体地, 从多个实体中获得至少一个种子实体后, 再由至少一个种子实体为中心, 获得至少一个种子实体相关度较高的关联实体。以从多个实体中获得了一个种子实体为 说 明 书 CN 103631970 A 10 8/12 页 11 例, 例如, 如果从多个实体中获得的一个种子实体为 “治愈系” 的影视剧种子实体 A, 然后获 得该 “治愈系” 的影视剧种子实体 A 的关联实体, 例如获得的关联实体可以是 “治愈系” 的 小说实体 B、“治愈。
45、系” 的漫画实体 C、“治愈系” 的其他实体 E、 或者其他 “治愈系” 的影视剧 种子 F 和 G 等。该过程可以扩大实体的范围, 召回一些关联实体。 0093 关联模块 400 用于将待关联属性与至少一个种子实体、 至少一个种子实体的关联 实体相关联。 0094 具体地, 获得至少一个种子实体的关联实体之后, 将待关联属性与至少一个种子 实体、 至少一个种子实体的关联实体相关联。 0095 例如, 获得关联实体 “治愈系” 的小说实体或其他 “治愈系” 的影视剧实体之后, 将 待关联属性 “治愈系” 与 “治愈系” 的影视剧种子实体、“治愈系” 的影视剧种子实体的关联 实体 (即 “治愈系。
46、” 的小说实体或其他 “治愈系” 的影视剧实体) 相关联。 0096 其中, 相关联的操作可以是给待关联属性、 至少一个种子实体、 至少一个种子实体 的关联实体贴上标签或者建立它们之间的对应关系等。例如, 可以将待关联属性 “治愈系” 与 “治愈系” 的影视剧种子实体、“治愈系” 的影视剧种子实体的关联实体 (即 “治愈系” 的小 说实体或其他 “治愈系” 的影视剧实体) 贴上 “治愈系” 的标签或建立它们之间的对应关系 等。 0097 本发明实施例的挖掘属性和实体关联关系的装置, 通过待关联属性获取模块获取 待关联属性, 然后种子实体获取模块根据待关联属性获取种子实体, 之后关联实体获取模 。
47、块根据种子实体获取种子实体的关联实体, 由此, 可以挖掘出待关联属性的多个关联实体, 同理实现挖掘实体所对应的用户指定属性 (即待关联属性) , 从而提供更全面、 更精细、 更优 质的详细服务, 例如, 根据用户指定属性向用户推荐实体 ; 根据该装置还可以挖掘任意领域 实体和用户指定属性 (即待关联属性) 之间的关联关系, 不受应用领域的限制, 应用广泛。 0098 图 6 是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图。 0099 如图 6 所示, 挖掘属性和实体关联关系的装置包括 : 待关联属性获取模块 100、 种 子实体获取模块 200、 实体获取单元 210、 关联。
48、用户样本群获取单元 220、 分布差异值获取单 元 230、 筛选单元 240、 关联实体获取模块 300、 第一关联关系获取单元 310、 第二关联关系 获取单元 320、 第三关联关系获取单元 330、 筛选单元 340 和关联模块 400。其中, 种子实体 获取模块 200 包括实体获取单元 210、 关联用户样本群获取单元 220、 分布差异值获取单元 230、 筛选单元 240 ; 关联实体获取模块 300 包括第一关联关系获取单元 310、 第二关联关系 获取单元 320、 第三关联关系获取单元 330、 筛选单元 340。 0100 在本发明的一个实施例中, 第一关联关系获取单元。
49、 310、 第二关联关系获取单元 320、 第三关联关系获取单元 330、 筛选单元 340 是可选的。 0101 具体地, 待关联属性获取模块 100 用于获取待关联属性。 0102 在本发明的一个实施例中, 待关联属性为一类描述用户感受、 产品特性等特征的 属性。待关联属性可以随网络语言实时更新, 例如, 对多个网页进行分析可获取待关联属 性。举例来说, 可以有 “屌丝逆袭” 、“邪恶战胜正义” 、“治愈系” 、“虐心” 、“炫富” 等描述用户 感受的待关联属性 ; 对于产品实体, 可以有 “性价比高” 、“结实耐用” 等描述用户使用体验的 待关联属性。 0103 实体获取单元 210 用于从预设实体库中获取多个实体。 说 明 书 CN 103631970 A 11 9/12 页 12 0104 具体地, 预设实体库为预先从网络中获取的实体库, 预设实体库中存储有多个实。