《同名人物搜索方法及系统.pdf》由会员分享,可在线阅读,更多相关《同名人物搜索方法及系统.pdf(24页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102880623 A (43)申请公布日 2013.01.16 C N 1 0 2 8 8 0 6 2 3 A *CN102880623A* (21)申请号 201110209561.9 (22)申请日 2011.07.13 G06F 17/30(2006.01) (71)申请人富士通株式会社 地址日本神奈川县 (72)发明人张姝 贾文杰 王新文 夏迎炬 孟遥 于浩 (74)专利代理机构北京集佳知识产权代理有限 公司 11227 代理人杨林森 李春晖 (54) 发明名称 同名人物搜索方法及系统 (57) 摘要 本发明实施例公开了一种同名人物搜索方法 及装置,其中,所。
2、述方法包括:针对输入的目标人 物名称,检索得到包含所述目标人物名称的相关 文档;分别提取各个相关文档中的人物关系特征 信息,统计各个相关文档中的所述人物关系特征 信息,建立人物关系图,并计算所述目标人物名称 与所述人物关系图中其他人物名称之间的关系强 度;根据各个相关文档各自包含的人物名称,以 及所述关系强度,为各个相关文档建立人物关系 特征向量;根据所述人物关系特征向量,对各个 相关文档进行聚类,得到人物关系聚类结果,以便 至少根据所述人物关系聚类结果给出搜索结果。 通过本发明,能够提高同名人物聚类的准确度,进 而提高搜索结果的质量,提升搜索引擎的性能。 (51)Int.Cl. 权利要求书3。
3、页 说明书15页 附图5页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 3 页 说明书 15 页 附图 5 页 1/3页 2 1.一种同名人物搜索方法,包括: 针对输入的目标人物名称,检索得到包含所述目标人物名称的相关文档; 分别提取各个相关文档中的人物关系特征信息,所述人物关系特征信息为在同一相关 文档中所述目标人物名称与其他人物名称的共现信息; 统计各个相关文档中的所述人物关系特征信息,建立人物关系图,并计算所述目标人 物名称与所述人物关系图中其他人物名称之间的关系强度; 根据各个相关文档各自包含的人物名称,以及所述关系强度,为各个相关文档建立人 物关系特征向量。
4、; 根据所述人物关系特征向量,对各个相关文档进行聚类,得到人物关系聚类结果,以便 至少根据所述人物关系聚类结果给出搜索结果。 2.根据权利要求1所述的方法,所述计算所述目标人物名称与所述人物关系图中其他 人物名称之间的关系强度,包括: 根据所述目标人物名称与其他人物名称之间的直接关系强度及间接关系强度,计算得 到所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度。 3.根据权利要求2所述的方法,所述根据所述目标人物名称与其他人物名称之间的直 接关系强度及间接关系强度,计算得到所述目标人物名称与所述人物关系图中其他人物名 称之间的关系强度,包括通过如下公式计算所述关系强度: 其中,x:。
5、目标人物名称; y:与x在相关文档中共现过的其他人物名称; z:与x在相关文档中共现过、并且与y在其他相关文档中共现过的其他人物名称; U:z的集合; L(U):集合U中包含的元素的数目; N(x,y):x与y共现的相关文档数目; N(x):包含x的相关文档数目; N(y):包含y的相关文档数目; N(x,z):x与z共现的相关文档数目; N(y,z):y与z共现的相关文档数目; N(z):包含z的相关文档数目; N(x,y)/max(N(x),N(y):x与y的直接关系强度; x与y的间接关系强度; 、:权重因子。 4.根据权利要求1至3任一项所述的方法,还包括: 根据所述相关文档中包含的主。
6、题特征信息,对各个相关文档进行聚类,得到主题聚类 结果;和/或,根据所述相关文档中包含的与所述目标人物名称相关的人物属性信息,对各 个相关文档进行聚类,得到人物属性聚类结果; 权 利 要 求 书CN 102880623 A 2/3页 3 将所述主题聚类结果和/或人物属性聚类结果与所述人物关系聚类结果相融合,得到 最终的聚类结果,以便根据所述最终的聚类结果给出搜索结果。 5.根据权利要求4所述的方法,所述根据所述相关文档中包含的主题特征信息,对各 个相关文档进行聚类包括: 提取各相关文档中包含的主题特征信息; 根据各个相关文档的主题特征信息建立各相关文档的主题特征向量; 根据所述主题特征向量对各。
7、个相关文档进行相似度计算; 根据相关文档之间的相似度以及预置的第二阈值,对各个相关文档进行聚类。 6.根据权利要求5所述的方法,所述获取各相关文档中包含的主题特征信息包括: 对各个相关文档进行分词处理; 在全部相关文档中对分词得到的词语进行综合统计得到各个词语的权重; 根据所述权重选取用于表述各个相关文档主要内容的主题词语。 7.一种同名人物搜索装置,包括: 检索单元,配置为针对输入的目标人物名称,检索得到包含所述目标人物名称的相关 文档; 人物关系提取单元,配置为分别提取各个相关文档中的人物关系特征信息,所述人物 关系特征信息为在同一相关文档中所述目标人物名称与其他人物名称的共现信息; 统计。
8、单元,配置为统计各个相关文档中的所述人物关系特征信息,建立人物关系图,并 计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度; 向量建立单元,配置为根据各个相关文档各自包含的人物名称,以及所述关系强度,为 各个相关文档建立人物关系特征向量; 人物关系聚类单元,配置为根据所述人物关系特征向量,对各个相关文档进行聚类,得 到人物关系聚类结果,以便至少根据所述人物关系聚类结果给出搜索结果。 8.根据权利要求7所述的装置,所述统计单元具体配置为: 根据所述目标人物名称与其他人物名称之间的直接关系强度及间接关系强度,计算得 到所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度。 。
9、9.根据权利要求8所述的装置,所述统计单元通过如下公式计算所述关系强度: 其中,x:目标人物名称; y:与x在相关文档中共现过的其他人物名称; z:与x在相关文档中共现过、并且与y在其他相关文档中共现过的其他人物名称; U:z的集合; L(U):集合U中包含的元素的数目; N(x,y):x与y共现的相关文档数目; N(x):包含x的相关文档数目; N(y):包含y的相关文档数目; N(x,z):x与z共现的相关文档数目; N(y,z):y与z共现的相关文档数目; 权 利 要 求 书CN 102880623 A 3/3页 4 N(z):包含z的相关文档数目; N(x,y)/max(N(x),N(。
10、y):x与y的直接关系强度; x与y的间接关系强度; 、:权重因子。 10.根据权利要求7至9任一项所述的装置,还包括: 主题聚类单元,配置为根据所述相关文档中包含的主题特征信息,对各个相关文档进 行聚类,得到主题聚类结果;和/或,人物属性聚类单元,配置为根据所述相关文档中包含 的与所述目标人物名称相关的人物属性信息,对各个相关文档进行聚类,得到人物属性聚 类结果; 融合单元,配置为将所述主题聚类结果和/或人物属性聚类结果与所述人物关系聚类 结果相融合,得到最终的聚类结果,以便根据所述最终的聚类结果给出搜索结果。 权 利 要 求 书CN 102880623 A 1/15页 5 同名人物搜索方法。
11、及系统 技术领域 0001 本发明一般地涉及搜索技术领域,尤其是一种同名人物搜索方法及系统。 背景技术 0002 随着网络的发展,网络上的重名信息越来越多,如何区分这些具有相同人名的人 称为信息搜索过程中需要关注的问题。例如,当用户在搜索引擎中输入一个人名时,返回的 结果中包含了很多同名的人的信息,需要用户逐一点击浏览以确定哪些信息才是真正所需 要的,这显然会比较费时费力。当然,用户还可以通过人工添加查询词等方式来缩小搜索范 围。但是,人工添加查询词,相当于对查询结果进行了过滤,也就降低了查询的覆盖率。因 此,理想的解决方案是将搜索引擎返回的结果进行聚类,期望将同名的不同人物聚在不同 的类别中。
12、,用户可以到自己需要的类别中去查找自己搜索结果。这样,既保证了信息的不丢 失,又节约了浏览时间。 0003 现有技术中,在对同名人物进行聚类时,大多数的方案都是采用网页聚类的方法, 也即将包含相同人名的相似文档聚在一起。例如,从包含同名人物的网页文档中提取能够 代表网页内容的关键词,然后通过些关键词的相似性,来进行聚类。 0004 这种网页聚类的方法对于阐述同一个主题的文档集合而言,能够得到很好的结 果。也就是说,这种方法的有效性依赖于这样一个假设的前提:同一个人物涉及到的事件是 相同或相似的。但是本发明人在实现本发明的过程中发现,在实际应用中,同一个人可能涉 及到不同的事件,当不同的文档是针。
13、对不同的事件对同一个人物进行报道时,文档在内容 上区别是很大的,此时,就难以用网页主题之间的文档相似度,将这样的文档中的人物聚为 一类。 0005 总之,在现有技术中,依赖于文档主题之间的相似性对包含同名人物的网页进行 聚类时,可能存在聚类不准确的问题,进而在依据聚类结果提供搜索结果时,也会使得搜索 结果的质量不高,进而限制了搜索引擎性能的提高。 发明内容 0006 有鉴于此,本发明实施例提供了一种同名人物搜索方法及装置,能够提高同名人 物聚类的准确度,进而提高搜索结果的质量,提升搜索引擎的性能。 0007 根据本发明实施例的一个方面,提供一种同名人物搜索方法,包括:针对输入的目 标人物名称,。
14、检索得到包含所述目标人物名称的相关文档;分别提取各个相关文档中的人 物关系特征信息,所述人物关系特征信息为在同一相关文档中所述目标人物名称与其他人 物名称的共现信息;统计各个相关文档中的所述人物关系特征信息,建立人物关系图,并计 算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度;根据各个相关文 档各自包含的人物名称,以及所述关系强度,为各个相关文档建立人物关系特征向量;根据 所述人物关系特征向量,对各个相关文档进行聚类,得到人物关系聚类结果,以便至少根据 所述人物关系聚类结果给出搜索结果。 说 明 书CN 102880623 A 2/15页 6 0008 根据本发明实施例的另一个。
15、方面,提供一种同名人物搜索装置,包括:检索单元, 配置为针对输入的目标人物名称,检索得到包含所述目标人物名称的相关文档;人物关系 提取单元,配置为分别提取各个相关文档中的人物关系特征信息,所述人物关系特征信息 为在同一相关文档中所述目标人物名称与其他人物名称的共现信息;统计单元,配置为统 计各个相关文档中的所述人物关系特征信息,建立人物关系图,并计算所述目标人物名称 与所述人物关系图中其他人物名称之间的关系强度;向量建立单元,配置为根据各个相关 文档各自包含的人物名称,以及所述关系强度,为各个相关文档建立人物关系特征向量;人 物关系聚类单元,配置为根据所述人物关系特征向量,对各个相关文档进行聚。
16、类,得到人物 关系聚类结果,以便至少根据所述人物关系聚类结果给出搜索结果。 0009 另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可 读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处 理设备执行根据本发明的上述同名人物搜索方法。 0010 此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可 执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行 根据本发明的上述同名人物搜索方法。 0011 根据本发明实施例的上述方法,在得到包含目标人物名称的相关文档之后,会首 先从相关文档中分析出人物关系信息。
17、,也就是说,可以统计出各个相关文档中,与目标人物 名称共现过的其他人物名称,通过统计信息,可以建立起人物关系图,并计算出目标人物名 称与相关文档中出现的其他各人物名称之间的关系强度,最终以此建立起各个相关文档的 特征向量,并通过向量间的相似度计算等,即可实现对相关文档的聚类,进而根据聚类结果 向用户提供搜索结果。可见,在本发明实施例中,在对相关文档进行聚类时,可以通过挖掘 人物之间的关系来实现,这样,即使对同一人物的不同事件的报道,也可能会因为都与其他 人物共现,而被聚为一类。可见,通过该方法,可以避免相关文档中的“事件内容”在聚类过 程中所起的作用被放大,从而有利于提高聚类的准确度,进而提高。
18、搜索结果的质量,提升搜 索引擎的性能。 0012 在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分 地公开本发明实施例的优选实施例,而不对其施加限定。 附图说明 0013 下面结合具体的实施例,并参照附图,对本发明实施例的上述和其它目的和优点 做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标 记来表示。 0014 图1是示出作为本发明实施例提供的方法的流程图; 0015 图2是示出作为本发明实施例提供的人物关系图的示意图; 0016 图3是示出作为本发明实施例提供的第一装置的示意图; 0017 图4是示出作为本发明实施例提供的第二装置的示意图。
19、; 0018 图5是示出作为本发明实施例提供的第三装置的示意图; 0019 图6是示出作为本发明实施例提供的第四装置的示意图;和 0020 图7是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例 说 明 书CN 102880623 A 3/15页 7 性结构的框图。 具体实施方式 0021 下面参照附图来说明本发明实施例。 0022 参见图1,本发明实施例提供的同名人物搜索方法包括以下步骤: 0023 S101:针对输入的目标人物名称,检索得到包含所述目标人物名称的相关文档。 0024 其中,目标人物名称可以是用户根据自己的需要在搜索引擎的搜索框输入的。例 如,用户想要搜索有关“。
20、张三”的相关信息,则可以在搜索引擎的搜索框中输入“张三”作为 查询词,之后可以通过按下“回车”键,或者点击“张三”按钮等方式,触发搜索引擎开始搜 索。搜索引擎在接收到触发之后,就可以针对用户输入的查询词进行检索,得到包含查询词 的相关文档。当然在本发明实施例中,查询词主要是指用户输入的目标人物名称,如前文所 述的“张三”,则搜索引擎就可以从数据库中检索出包含有“张三”的相关文档。其中,当搜 索引擎为网页搜索引擎时,这种相关文档主要是指网页文档,例如,某网页是关于一个名为 “张三”的人的报道,其中出现了“张三”这样的文字,则这个网页就可能被作为“张三”的相 关文档而检索出来。 0025 S102。
21、:分别提取各个相关文档中的人物关系特征信息,所述人物关系特征信息为 在同一相关文档中所述目标人物名称与其他人物名称的共现信息。 0026 在检索得到各个相关文档之后,如果确定查询词是人物名称,则在本发明实施例 中,可以首先从中提取其中包含的人物关系特征,这种人物关系特征主要是根据同一相关 文档中,目标人物名称与其他人物名称的共现情况来确定的。例如,仍以查询词为“李刚”为 例,在某相关文档中,不仅出现了“张三”这一目标人物名称,还出现了“李四”等其他人物名 称,则可以认定“张三”与“李四”之间存在某种关系,因此可以将这两者之间的人物关系作 为该相关文档中包含的人物关系特征信息提取出来。此外,如果。
22、在某相关文档中,包含“张 三”、“李四”、“王五”这样三个人物名称,则不仅可以提取“张三”与“李四”、“张三”与“王 五”之间的关系,还可以提取“李四”与“王五”之间的关系。其他相关文档也可以做类似处 理。 0027 需要说明的是,在本发明实施例中,当用户输入的查询词为某人物名称时,才会按 照后续的步骤执行,因此,在接收到用户的搜索请求之后,可以首先判断用户输入的查询词 是否为人物名称,具体实现时,可以通过查询预先建立的人名词库等方式来实现。也就是 说,可以预先建立人名词库,其中包含了若干个人名词条,当用户在搜索引擎的搜索框中输 入查询词时,就可以首先判断该查询词是否出现在该人名词库中,如果是。
23、,则确定用户需要 搜索的是与某人物名称相关的信息。其中,该人名词库也是是随时更新的,例如,随着一些 新闻热点事件的发生,可以将涉及到的新的人物名称添加到该词库中,等等。当然,除了采 用预先设置人名词库的方式以外,还可以采用其他的方式来判断用户输入的查询词是否为 人名。例如,预先设置姓氏词库,此时,可以判断用户输入的查询词中的第一个字是否出现 在姓氏词库中,如果是,证明用户输入的查询词可能是人物名称,等等。 0028 此外,在从相关文档中提取人物关系特征信息时,会涉及到提取相关文档中存在 的其他人物名称。此时,可以首先对相关文档中的文本内容进行分词处理,得到一个个的词 语或短语等,然后判断各个词。
24、语或短语是否出现在预置的人名词库中,或者是否具有人物 说 明 书CN 102880623 A 4/15页 8 名称的特征等等,如果是,则可以确认为一个人物名称,从而将相关文档中的人物名称提取 出来。 0029 S103:统计各个相关文档中的所述人物关系特征信息,建立人物关系图,并计算所 述目标人物名称与所述人物关系图中其他人物名称之间的关系强度。 0030 在提取出各个相关文档中包含的人物关系特征信息之后,就可以将提取出的特征 信息综合在一起进行统计,从而建立人物关系图。其中,人物关系图中的节点为目标人物 名称,以及相关文档中与目标人物名称共现过的其他人物名称,当两个人物名称在同一相 关文档中。
25、选线时,就可以在这两个人物名称对应的节点之间建立一条边,每条边还可以具 有一定的权重,权重的大小代表其连接的两个节点共现的频率。例如,如图2所示,其中A、 BG代表各个节点上的人物名称,如果两个节点之间具有连线,则代表这两个节点之间 在同一文档中共现过。如果节点A与节点B在两篇相关文档中共现过,则这两个节点之间 的边的权重可以为2,如果节点B与节点C在四篇相关文档中共现过,则这两个节点之间的 边的权重可以为4,以此类推,当然,最后还可以将各个边的权重做归一化处理。 0031 在得到人物关系图之后,就可以在这个关系图的基础上,计算出目标人物名称与 各个其他人物名称之间的关系强度,这个关系强度可以。
26、是一个量化的值,具体的计算方法 可以有多种。例如,在其中一种方式下,可以根据目标人物名称与其他人物名称之间的直接 关系强度及间接关系强度,计算得到目标人物名称与人物关系图中其他人物名称之间的关 系强度。此时,具体可以通过以下公式计算出该关系强度: 0032 0033 其中,x是目标人物名称,y是与x在相关文档中共现过的其他人物名称,z是与x 在相关文档中共现过、并且与y在其他相关文档中共现过的其他人物名称,U是z的集合, L(U)是集合U中包含的元素的数目。N(x,y)是x与y共现的相关文档数目,N(x)是包含 x的相关文档数目,N(y)是包含y的相关文档数目,N(x,z)是x与z共现的相关文。
27、档数 目,N(y,z)是y与z共现的相关文档数目,N(z)是包含z的相关文档数目。这样,N(x,y)/ max(N(x),N(y)就可以代表x与y的直接关系强度,则可以代表 x与y的间接关系强度。其中,、为权重因子,可以根据直接关系强度与间接关系强度 的参考价值或者实际的需要,来灵活确定各自的取值。 0034 通过上述方式计算关系强度时,相当于利用了人物关系之间具有传递性这一特 点,这样可以使得计算出的关系强度能够更好地反映实际的情况。例如,某相关文档中提到 了人物B和E,但是同时提到人物B和E的相关文档数目可能比较少,则通过直接关系计算 得到这两者之间的关系可能比较弱;然而实际情况是,人物B。
28、与E之间的关系应该是比较密 切的,可见,通过上述直接关系的计算,得到的关系强度就没有很好地体现出实际的情况。 但是,当引入间接关系强度之后,就可以使得上述情况得到改善。例如,当计算得到人物B 与F、E与F之间都有很强的直接关系时,就可以通过第三方F来加强人物B和E之间的关 系,使得B与E之间的关系增强,从而更好地反映出实际的情况。 0035 当然,除了上述公式(1)的方式以外,还可以通过其他方式来计算出人物之间的 说 明 书CN 102880623 A 5/15页 9 关系强度,例如,还可以将直接关系强度与间接关系强度相乘,将所得的积作为人物之间的 关系强度,等等。此外,在计算人物之间的关系强。
29、度时,也可以不必综合考虑人物之间的直 接关系强度以及间接关系强度,单独考虑人物之间的直接关系强度或者间接关系强度也是 可以实现的,具体的实现过程这里不再赘述。 0036 S104:根据各个相关文档各自包含的人物名称,以及所述关系强度,为各个相关文 档建立人物关系特征向量。 0037 在得到目标人物名称与其他各人物名称之间的关系强度之后,就可以为各个相关 文档建立人物关系特征向量。例如,某相关文档中除了包含目标人物名称A之外,还包括人 物名称B、C、D,则针对该相关文档,可以建立一个三维向量,其中,人物名称B、C、D分别与 人物名称A之间的关系强度就作为向量各个维度上的数值。例如,A与B之间的关。
30、系强度 为0.5,A与C之间的关系强度为0.3,A与D之间的关系强度为0.7,则针对该相关文档建 立的向量可以为(0.5,0.3,0.7)。以此类推,其他的相关文档也可以分别建立起各自的人物 关系特征向量。 0038 S105:根据所述人物关系特征向量,对各个相关文档进行聚类,得到人物关系聚类 结果,以便至少根据所述人物关系聚类结果给出搜索结果。 0039 在得到各个相关文档的人物关系特征向量之后,就可以实现对各个相关文档的聚 类。其中,具体在进行相关文档的聚类时,可以通过向量之间的运算来计算文档之间的相似 度,进而实现聚类。向量之间的运算可以是计算向量之间的夹角,夹角越小,则证明对应的 两个。
31、相关文档之间的相似度越大。关于向量之间的夹角,可以采用计算余弦值的方式实现。 例如,相关文档1中包含的人物名称除了目标人物名称A以外,还有人物名称B、C、D,对应 的人物关系特征向量为(B:0.5,C:0.3,D:0.7);相关文档2中包含的人物名称除了目标 人物名称A以外,还有人物名称B、C、E、F,对应的人物关系特征向量为(B:0.4,C:0.5,E: 0.3,F:0.2),在计算这两个向量之间的相似度时,可以首先将两个向量扩展为相同维度,例 如,将相关文档1的向量扩展为(B:0.5,C:0.3,D:0.7,E:0,F:0),将相关文档2的向量扩 展为(B:0.4,C:0.5,D:0,E:。
32、0.3,F:0.2),这样,可以通过以下公式计算出这两个向量之间 的夹角的余弦值: 0040 0041 其他相关文档之间的相似度也可以通过以上方式计算出来。最后,再根据相似度 进行聚类,相当于将各个相关文档划分为多个类别,同一类别中的文档中涉及到的目标人 物名称可能指代的是同一人,而不同类别的文档中涉及到的目标人物名称则可能指代的不 是同一人,只是这些人物同名而已。然后就可以根据聚类的结果向用户提供搜索结果。 0042 例如,聚类结果为相关文档1、2、4、7是一类,相关文档3、5、6、8是另一类,则证明 在相关文档1、2、4、7中涉及到的目标人物名称可能指代的可以是同一个人物,而相关文档 3、。
33、5、6、8中涉及到的目标人物名称可能是指代的可能是另一个人物。在向用户提供搜索结 果时,就可以将相关文档1、2、4、7作为一类一起展现给用户,相关文档3、5、6、8作为另一类 一起展现给用户,这样,如果用户实际需要搜索的是第一个人物,则可以直接查看第一类搜 索结果中的信息,如果实际要搜索的是第二个人物,则可以直接查看第二类搜索结果中的 信息,而不必再手动地筛选,或者增加查询词。 0043 总之,在本发明实施例中,在得到包含目标人物名称的相关文档之后,会首先从相 说 明 书CN 102880623 A 6/15页 10 关文档中分析出人物关系信息,也就是说,可以统计出各个相关文档中,与目标人物名。
34、称共 现过的其他人物名称,通过统计信息,可以建立起人物关系图,并计算出目标人物名称与相 关文档中出现的其他各人物名称之间的关系强度,最终以此建立起各个相关文档的特征向 量,并通过向量间的相似度计算等,即可实现对相关文档的聚类,进而根据聚类结果向用户 提供搜索结果。可见,在本发明实施例中,在对相关文档进行聚类时,可以通过挖掘人物之 间的关系来实现,这样,即使对同一人物的不同事件的报道,也可能会因为都与其他人物共 现,而被聚为一类。可见,通过该方法,可以避免相关文档中的“事件内容”在聚类过程中所 起的作用被放大,从而有利于提高聚类的准确度,进而提高搜索结果的质量,提升搜索引擎 的性能。 0044 。
35、在实际应用中,还可以综合考虑多方面的因素实现对相关文档的聚类,其中,上述 人物关系特征可以作为这些因素之一,其他因素还可以是文档中的主题特征信息、人物属 性信息等等。其中,主题特征信息是指相关文档中的文本内容特征,通过对文档中的文本内 容进行分词,得到多个词语,然后分别统计各个词语在文档中的词频,可以建立主题特征模 型,这样,通过不同文档的主题特征模型之间的相似度计算,可以得到主题聚类结果。人物 属性信息是指文档中包含的与人物的职称、单位、住址、特长、爱好等属性信息,通过这些信 息的提取可以建立相关文档的人物属性模型,进而通过不同文档的人物属性模型之间的相 似度计算,可以得到人物属性聚类结果。。
36、 0045 在本发明实施例中,就可以针对各个相关文档,从多个层面分别得到聚类结果,例 如,可以将利用文档中存在的人物关系特征信息得到的人物关系聚类结果,利用文档中存 在的主题特征信息得到主题聚类结果,利用文档中存在的人物属性特征得到人物属性聚类 结果,然后再将各个层面上得到的聚类结果进行融合,得到最终的聚类结果。 0046 具体在对各个层面上的聚类结果进行融合时,可能存在各个层面上的聚类结果矛 盾的情况,此时,可以根据预先制定的策略进行融合。例如,该策略可以是人物属性聚类结 果人物关系聚类结果主题特征聚类结果,也就是说,当出现矛盾时,可以优先考虑人物 属性聚类结果。例如,在人物关系聚类结果中,。
37、文档1与2是一类,3与4是另一类,而在人 物属性聚类结果中,文档1与3是一类,2与4是另一类,此时,融合之后的结果就可以是文 档1与3是一类,2与4是另一类,相当于选择了人物属性聚类结果作为最终的聚类结果。 0047 当然,在其他的融合策略中,也可以按照一定的比例将各种聚类结果进行量化,经 加权计算得到最终的结果。或者,还可以采用投票的方式对各种聚类结果进行融合,等等。 例如,对于两篇相关文档,通过前述三个层面上的聚类,存在两种结果:被聚为一类,或者没 有被聚为一类,则采用投票的策略对结果进行融合时,可以有如下结果:首先对于三个层面 结果一致的,将其作为最后结果;其次,对于某一层面具有强相似度。
38、的(例如大于某设定的 阈值等等),确定为最后结果;最后,在两个层面结果一致的,将其作为最后结果。总之,可 以分别从多个层面来考察文档之间的相似关系,如果某一层面具有很强的相似关系,则可 以被挖掘出来。 0048 需要说明的是,在进行多个层面上的聚类时,也可以仅从人物关系特征层面及主 题特征层面进行聚类,或者,仅从人物关系特征及人物属性特征层面进行聚类,等等。 0049 另外需要说明的是,关于利用文档中存在的主题特征信息得到主题聚类结果,以 及利用文档中存在的人物属性特征得到人物属性聚类结果的具体实现,可以采用已有技术 说 明 书CN 102880623 A 10 7/15页 11 中的方法来实。
39、现。其中,在利用主题特征信息计算得到主题聚类结果时,已有技术中的方 法通常是直接对文档进行分词,然后统计各个词语在文档中的词频,从而建立起针对各个 相关文档的主题模型,再根据主题模型之间的相似度比较,进行相关文档的聚类。例如,某 相关文档中的文本内容为“李想是80后的典型代表,北京泡泡信息技术有限公司首席执行 官一家从事电脑硬件个人和办公数码产品服务网站”,利用已有技术的方法为其 建立主题模型时,可能为: 0050 ,其中,“/”后显示的数字代表对应的词语在 该文档中出现的词频。 0051 利用上述已有技术在进行相关文档的聚类时,由于主题模型中可能包含了一些区 分度比较低的词条,以至于最终的聚。
40、类结果可能不够准确。为此,在本发明实施例中,为了 提高基于主题模型进行聚类时的准确度,可以首先通过权重计算、关键词识别等方式,从相 关文档中提取能够表征该文档主要内容的词语,来刻画相关文档描述的主要内容,然后在 这些词语的基础上建立其主题模型,并进一步进行聚类。 0052 为此,可以对各个相关文档进行分词处理,然后在全部相关文档中对分词得到的 词语进行综合统计,选取用于表述各个相关文档的主题词语,最后根据各个相关文档的主 题词语,对各个相关文档进行聚类。也就是说,在选取某相关文档的主题词语时,不是仅考 虑该相关文档本身包含的词语以及词频,而是要从整个相关文档集合进行考虑。 0053 具体实现时。
41、,可以首先计算相关文档中各词语的权重,例如,针对某相关文档D,可 以通过以下方式计算该相关文档D中各个词语t i 的权重: 0054 -2log2log L(p 1 ,o 11 ,o 11 +o 12 )+log L(p 2 ,o 21 ,o 21 +o 22 ) (3) 0055 -log L(p,o 11 ,o 11 +o 12 )-log L(p,o 21 ,o 21 +o 22 ) 0056 在公式(3)中,表示词语t i 在相关文档D中的权重,O 11 表示词语t i 在相关文 档D中出现的词频,O 12 表示词语t i 在相关文档D以外的其他文档中出现的词频,O 21 表示t i 。
42、以外的其他词语在相关文档D中出现的词频,O 22 表示t i 以外的其他词语在相关文档D以外 的其他相关文档中出现的词频。L( )是一个函数,其函数表达式为:L(p,k,n)P k (1-P) (n-k) ,P 1 O 11 /(O 11 +O 12 ),P 2 O 21 /(O 21 +O 22 ),P(O 11 +O 21 )/(O 11 +O 12 +O 21 +O 22 )。 0057 经过计算各个词语的权重,可以通过设定阈值等方式来选取词语作为文档的主题 词,用来表示该相关文档的主题信息。其中,阈值可以通过统计表设定为与权重相关的某个 分值,大于某分值的词语为主题词语,也可以设定为按。
43、权重降序排列,选取前N个为主题词 语,等等。 0058 例如,对于前述例子中的相关文档,使用本发明实施例的方法进行主题词语的选 取之后,建立的主题模型可以为: 0059 。 0060 可见,相当于对文档中出现的词语进行了筛选,仅保留了能够表征文档主要内容 的词语。需要说明的是,在根据该模型建立相关文档的向量时,可以将各个词语的权重值作 说 明 书CN 102880623 A 11 8/15页 12 为向量各个维度上的数值,进而通过向量运算的方式来计算相关文档之间的相似度即可。 0061 另外需要说明的是,前述公式(3)仅仅是一种具体的实现方式,在实际应用中,还 可以采用其他的公式来计算相关文档。
44、中词语的权重,只要通过在全部相关文档中对分词得 到的词语进行综合统计的方式,来选取用于表述各个相关文档的主题词语,就都在本发明 的保护范围之内。 0062 另外,在通过提取相关文档中的人物属性特征建立人物属性模型,并得到人物属 性聚类结果的过程中,由于人物属性特征相对于主题词语等特征而言,比较稀疏,因此,在 本发明实施例中,人物属性的定义可以比较宽泛,只要与人物相关即可,如不仅仅可以是职 称、工作单位,还可以是特长、专业、爱好等等,而不是严格限定为获取哪几种属性,这样有 利于发现可能存在的具有强指示性的特征来挖掘指向同一人的相关文档。 0063 以上对本发明实施例提供的同名人物搜索方法进行了详。
45、细地介绍,在该方法中, 首先可以在相关文档中提取人物关系特征信息,根据人物关系特征信息对各个相关文档进 行聚类,这样可以解决事件对聚类结果的影响被放大、以至于内容相似度较小的相关文档 很难聚在一起的问题。 0064 在此基础上,为了进一步优化聚类结果,还可以综合考虑其他方面的因素。在考 虑这些因素时,本发明实施例并不是将这些因素放在一起、为相关文档建立一个大的模型 (模型中包含人物关系特征、人物属性特征、主题词语等等),而是从各个层面分别对相关 文档建立不同的模型(例如,分别建立人物关系属性模型、主题模型并建立人物关系网等 等),并且分别进行聚类,最后再将各个层面上的聚类结果进行融合,得到最终。
46、的聚类结果。 这样做的好处在于,能够抓住各个层面上所表述的重要信息,避免相互影响,如果某一层面 具有很强的相似关系,则可以被挖掘出来,此外,也便于相似度计算方法的选择以及阈值的 设定。 0065 与该方法相对应,本发明实施例还提供可一种同名人物搜索装置,参见图3,该装 置包括: 0066 检索单元301,配置为针对输入的目标人物名称,检索得到包含所述目标人物名称 的相关文档; 0067 人物关系提取单元302,配置为分别提取各个相关文档中的人物关系特征信息, 所述人物关系特征信息为在同一相关文档中所述目标人物名称与其他人物名称的共现信 息; 0068 统计单元303,配置为统计各个相关文档中的。
47、所述人物关系特征信息,建立人物关 系图,并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度; 0069 向量建立单元304,配置为根据各个相关文档各自包含的人物名称,以及所述关系 强度,为各个相关文档建立人物关系特征向量; 0070 人物关系聚类单元305,配置为根据所述人物关系特征向量,对各个相关文档进行 聚类,得到人物关系聚类结果,以便至少根据所述人物关系聚类结果给出搜索结果。 0071 其中,统计单元303具体可以配置为根据所述目标人物名称与其他人物名称之间 的直接关系强度及间接关系强度,计算得到所述目标人物名称与所述人物关系图中其他人 物名称之间的关系强度。 0072 。
48、具体实现时,统计单元可以采用公式(1)来计算上述关系强度,当然也可以采用 说 明 书CN 102880623 A 12 9/15页 13 其他的公式或其他方式来实现。 0073 向量建立单元304具体可以配置为:将相关文档中包含的目标人物名称以外的其 他人物名称作为向量各个维度上的参数,将目标人物名称与各其他人物名称之间的关系强 度作为各个维度上的数值,建立所述人物关系特征向量。 0074 参见图4,人物关系聚类单元305具体可以包括: 0075 第一相似度计算子单元3051,配置为根据各个相关文档的人物关系特征向量,将 各个相关文档进行相似度计算; 0076 第一聚类子单元3052,配置为根。
49、据相关文档之间的相似度以及预设的第一阈值, 对各个相关文档进行聚类。 0077 在实际应用中,为了实现更有效的聚类,还可以从多个层面上对相关文档进行挖 掘,例如,参见图5,该装置还可以包括: 0078 主题聚类单元306,配置为根据所述相关文档中包含的主题特征信息,对各个相关 文档进行聚类,得到主题聚类结果; 0079 和/或,人物属性聚类单元307,配置为根据所述相关文档中包含的与所述目标人 物名称相关的人物属性信息,对各个相关文档进行聚类,得到人物属性聚类结果; 0080 融合单元308,配置为将所述主题聚类结果和/或人物属性聚类结果与所述人物 关系聚类结果相融合,得到最终的聚类结果,以便根据所述最终的聚类结果给出搜索结果。 0081 当然,如果仅将主题聚类结果与人物关系聚类结果相融合,或者仅将人物属性聚 类结果与人物关系聚类结果相融合,也是可以的。 0082 具体实现时,参见图6,主题聚类单元306可。