一种新闻检索结果的多媒体摘要生成方法.pdf

摘要
申请专利号：	CN201110455758.0	申请日：	2011.12.30
公开号：	CN102411638A	公开日：	2012.04.11
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20111230\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	中国科学院自动化研究所
发明人：	卢汉清; 刘静; 李泽超; 徐常胜
地址：	100190 北京市海淀区中关村东路95号
优先权：
专利代理机构：	中科专利商标代理有限责任公司 11021	代理人：	周国城
PDF下载：	PDF下载

内容摘要

本发明公开了一种新闻检索结果的多媒体摘要生成方法，该方法采用自然语言处理技术预处理新闻文档，提取命名实体；采用层次潜在狄利克雷分布模型在与查询相关的新闻信息中挖掘出潜在的主题；采用基于权重聚合和最大池模型算法从每个主题中筛选出典型文档，同时也挑选出典型的新闻图片；采用考虑时间信息的最大生成树将各个主题串联成连续紧凑的摘要，生成一个与查询相关的简要概述。本发明能够对新闻信息采用综合文本与图片的多媒体形式进行总结凝练，为用户提供生动形象、全面具体的新闻时事展示，使其能够掌握到所关心新闻的前因后果和事件的发展历程。

权利要求书

1：一种新闻检索结果的多媒体摘要生成方法，其特征在于，该方法包括以下步骤：步骤 1，将从互联网新闻网站上爬取的新闻数据组成新闻数据库，并对新闻数据库中的新闻数据进行预处理；步骤 2，基于用户文本查询在新闻数据库中进行新闻信息检索，并按照新闻数据库中的新闻文档与用户文本的相关性从大到小的顺序排列检索到的新闻文档；步骤 3，基于顺序排列的新闻文档，计算新闻文档之间的文本相似度 S，并使用层次化的潜在狄利克雷分布模型挖掘出新闻检索结果中的主题层次树结构，计算新闻文档基于层 tree 次树结构的相似度 S ，最终得到新闻文档之间的相似度 Scomb ；步骤 4，根据步骤 3 得到的新闻文档之间的相似度 Scomb，基于权重聚合方法和最大池模型从下至上地为每个主题选择最具权威的代表性新闻文档和新闻图片，作为每个主题的多媒体摘要表示；步骤 5，采用考虑时间因素的最大生成树模型将各个主题串接起来，生成新闻检索结果的多媒体摘要；步骤 6，展示新闻检索结果及生成的多媒体摘要。
2：根据权利要求 1 所述的方法，其特征在于，所述步骤 1 进一步包括：按照时间信息从互联网新闻网站上爬取新闻文档和对应的新闻图片。
3：根据权利要求 2 所述的方法，其特征在于，所述步骤 1 中对新闻数据库中的新闻数据进行的预处理进一步为：采用自然语言处理技术从所述新闻文档中提取出标题、时间、摘要、正文以及新闻文档对应的网址，从所述新闻图片中提取出新闻图片的网址和新闻图片对应的文本信息，并采用自然语言处理技术根据所述新闻文档对应的网址去除重复文档。
4：根据权利要求 1 所述的方法，其特征在于，所述步骤 3 中，新闻文档之间的文本相似度S为： S ＝ 0.5×St+0.3×Ss+0.2×Sb，其中， St、 Ss 和 Sb 是分别以标题、摘要和正文为对象计算出来的新闻文档之间的文本相似度。
5：根据权利要求 1 或 4 所述的方法，其特征在于，采用基于词频 - 反文档频率的文本向量形式来表示文本内容，然后采用余弦相似性来计算各新闻文档与用户查询的文本的相关性或以标题、摘要和正文为对象的新闻文档之间的文本相似度。
6：根据权利要求 1 所述的方法，其特征在于，所述步骤 3 中，所述使用层次化的潜在狄利克雷分布模型挖掘出新闻检索结果中的主题层次树结构为：采用一个深度固定为 L 的树结构表述检索结果主题的分布，树结构中的每个节点对应一个主题，不同深度的节点对应不同层次的主题，每个节点采用该主题文档集合所包含文本关键词的概率分布来描述。
7：根据权利要求 6 所述的方法，其特征在于，新闻文档基于层次树结构的相似度 Stree 的计算进一步包括以下步骤：步骤 3.1，分别计算新闻文档 d 和 g 属于某一主题 t 的概率： pt， c， w d ＝ p(wt， d|zd ＝ t，＝ vt) 和 pt，g ＝ p(wt，g|zg ＝ t， c， w ＝ vt)，其中， wt，d 是新闻文档 d 中在路径 c 上处于第 t 层次的主题 zd 中产生的词集合， wt， g 是新闻文档 g 中在路径 c 上处于第 t 层次的主题 zg 中产生的词集合， vt 是主题 t 生成的词集合， zd 和 zg 分别是文档 d 和 g 在某个层次上对应的主题； 2 步骤 3.2，计算概率 pt， d 和 pt， g 之间的散度：其中， KL(d||g) ＝∑ idilog(di/gi) 为 Kullback-Liebler(KL) 散度；步骤 3.3，将步骤 3.2 计算得到的散度转化为相似度测度：步骤 3.4，计算新闻文档 d 和 g 对应的主题分布概率其中， α 为一个常数，表示新闻文档对应的狄利克雷参数；步骤 3.5，计算概率和之间的散度：和步骤 3.6，将步骤 3.5 计算得到的散度转化为相似度测度：步骤 3.7，根据和计算新闻文档基于层次树结构的相似度 Stree ：其中， Td，g 表示新闻文档 d 和 g 共有的主题集合， |T| 表示集合 T 的元素个数， lt 是主题 t 所处的层次。
8：根据权利要求 1 所述的方法，其特征在于，所述步骤 3 中，所述新闻文档之间的相似度 Scomb 为：
9：根据权利要求 6 所述的方法，其特征在于，所述步骤 4 进一步包括以下步骤：步骤 4.1，采用最大池模型为主题层次树结构最底层即第 L 层上每个节点选择最具权威的代表性新闻文档；步骤 4.2，计算第 l 层主题的重要性，也就是该层主题的最具权威的代表性新闻文档在该层上的重要性，作为节点的度，即权威性，采用最大池模型为第 l 层上每个节点选择最具权威的代表性新闻文档；步骤 4.3，按照步骤 4.2，从下至上地对主题层次树结构中的每一个节点所对应的主题中选出代表性新闻文档作为该主题的代表，直到到达根节点为止。
10：根据权利要求 9 所述的方法，其特征在于，所述步骤 4.1 进一步包括以下步骤：首先，计算任一路径 c 上第 L 层节点中的某一新闻文档 d 的重要性 score(d) ：其中， Dc，L 表示在第 L 层节点上处于路径 c 上的新闻文档集合， Scomb(d， g) 为步骤 3 中计算的新闻文档之间的相似度；然后，采用最大池模型选择重要性最大的新闻文档作为集合 Dc，L 的最具权威的代表性新闻文档 tdc， L ： 3
11：根据权利要求 9 所述的方法，其特征在于，所述步骤 4.2 进一步包括以下步骤：首先，计算第 l 层两个主题的代表性新闻文档 d 和 g 之间的相似度 Sl(d， g) ；然后，计算每一个新闻文档 d 在第 l 层主题上的重要性，作为其度的度量，即其中， Dc， l 表示在第 l 层主题上处于路径 c 上的代表性新闻文档集合；最后，采用最大池模型选择出重要性最大的文档作为集合 Dc，l 的最具权威的代表性新闻文档 tdc， l ：
12：根据权利要求 11 所述的方法，其特征在于，所述步骤 4.2 中，第 l 层上节点的新闻文档之间的相似度为度， Wl 为插值矩阵：其中， l ＝ L， L-1，…， 2， 1， L 为主题层次树结构的深其中， Dl 表示在第 l 层主题上的所有新闻文档集合，当 l ＝ L 时，定义 SL+1 ＝ Scomb， DL+1 是新闻文档集合。
13：根据权利要求 1 所述的方法，其特征在于，所述步骤 4 中，为每个主题选择最具权威的代表性新闻图片进一步包括以下步骤：首先，采用近似重复检测算法将属于同一个子主题的新闻图片分成几组，找出包含图片最多的那一组新闻图片作为此子主题的视觉表示，其中，几个新闻子主题组成一个新闻主题；然后，以该组内的图片为节点，图片之间的视觉相似度为边，构建一个图模型，采用每幅图片和其他图片之间的相似度之和作为该新闻图片所对应节点的度的定义；最后，从中挑选出度最大的新闻图片作为该主题的新闻图片表示。
14：根据权利要求 1 所述的方法，其特征在于，所述步骤 5 中，所述最大生成树为：若从主题层次树结构的某一节点出发，遍历访问到主题层次树结构中其他各节点，则遍历时经过的边和主题层次树结构的所有节点所构成的子图，称作该主题层次树结构的生成树，而其中边权值总和最大的生成树即为最大生成树，图中各节点之间的边权重表示了子节点所对应子主题之间的相似度。
15：根据权利要求 14 所述的方法，其特征在于，所述边权重的计算包括以下步骤：首先，将新闻的时间信息进行量化，将其表示为 “年月日” 的形式，记为 date ；然后，计算某个主题的两个子主题基于时间信息的相似度 Sdate ： 4 其中，新闻文档 d 和 g 是所述两个子主题对应的代表性新闻文档，新闻文档 q 是该主题的所有子主题对应的新闻文档集合 T 中的一员；最后，根据新闻文档相似度 Sl 和基于时间信息的相似度 Sdate 计算节点之间的边权重 SMST ： SMST(d， g) ＝ εSl(d， g)+(1-ε)Sdate(d， g) 如果 d， g ∈ Dc， l-1，其中， Dc， ε 是线性 l-1 是第 l 级上处于路径 c 上的主题的子主题代表性新闻文档集合，组合的系数。
16：根据权利要求 15 所述的方法，其特征在于，所述最大树的生成进一步包括以下步骤：步骤 5.1，首先选择时间最早的节点作为最大生成树的源节点，并将其加入到已选择节点集中，初始选择节点集合为空集；步骤 5.2，考虑余下节点与已选择节点集中所有节点的边权重，选择出具有最大边权重的节点以及对应的关联关系，并将其加入到已选择节点集中；步骤 5.3，重复步骤 5.2，直至所有节点加入到已选择节点集中；步骤 5.4，利用上述步骤得到的关联关系将各节点连接起来，就得到了对应的最大生成树。
17：根据权利要求 1 所述的方法，其特征在于，所述步骤 6 中，为了节约新闻图片的存储空间，在保证新闻图片中的新闻人物对应区域的损失尽量小的前提下，对新闻图片进行缩小。

说明书

一种新闻检索结果的多媒体摘要生成方法
    技术领域本发明涉及多媒体内容分析与理解领域，特别是一种新闻检索结果的多媒体摘要生成方法。
     背景技术随着信息技术的发展和网络的全球化，在线新闻越来越多并且也越来越受欢迎，变成了人们日常生活当中获取信息的一种重要的途径。人们可以通过一些主要的网络门户网站，如雅虎、 MSN 等；或者大型新闻网站，如 CNN、 AOL 和 MSNBC 等，及时获取和浏览各种以文本、图片或视频形式呈现的多媒体新闻信息。但是每天都有大量的多媒体新闻涌现出来，迫使用户陷入 “信息泛滥 “的尴尬境地，使其难以快速获取个人所需的新闻资讯，更难以全面了解新闻事件及其前因后果。因此，研究如何有效地挖掘与分析这些海量多媒体新闻数据，让用户快速全面地了解时事新闻是一项十分必要的任务。
     发明内容鉴于此，本发明提出了一种对于新闻检索结果的多媒体摘要生成方法，针对用户检索的相关新闻结果进行二次整合，并通过总结摘要的方式连续紧凑地展示给用户，使用户能够快速生动地了解新闻事件及其前因后果。这就需要挖掘出检索结果中潜在的主题结构，从每个主题中筛选出最具权威的代表性新闻文档和新闻图片来表示该主题，进一步将各个主题串接起来，为用户展示一个连续紧凑的新闻事件发展过程。
     为达到上述目的，本发明提出一种新闻检索结果的多媒体摘要生成方法，其特征在于，该方法包括以下步骤：
     步骤 1，将从互联网新闻网站上爬取的新闻数据组成新闻数据库，并对新闻数据库中的新闻数据进行预处理；
     步骤 2，基于用户文本查询在新闻数据库中进行新闻信息检索，并按照新闻数据库中的新闻文档与用户文本的相关性从大到小的顺序排列检索到的新闻文档；
     步骤 3，基于顺序排列的新闻文档，计算新闻文档之间的文本相似度 S，并使用层次化的潜在狄利克雷分布模型挖掘出新闻检索结果中的主题层次树结构，计算新闻文档基 tree 于层次树结构的相似度 S ，最终得到新闻文档之间的相似度 Scomb ；
     步骤 4，根据步骤 3 得到的新闻文档之间的相似度 Scomb，基于权重聚合方法和最大池模型从下至上地为每个主题选择最具权威的代表性新闻文档和新闻图片，作为每个主题的多媒体摘要表示；
     步骤 5，采用考虑时间因素的最大生成树模型将各个主题串接起来，生成新闻检索结果的多媒体摘要；
     步骤 6，展示新闻检索结果及生成的多媒体摘要。
     本发明提出的多媒体新闻摘要生成方法能够对新闻信息采用综合文本与图片的多媒体形式进行总结凝练，为用户提供生动形象、全面具体的新闻时事展示，使其能够掌握
     到所关心新闻的前因后果和事件的发展历程。附图说明
     图 1 是本发明所提出的查询相关的多媒体新闻摘要生成方法流程图。图 2 是根据本发明实施例的用户检索和浏览界面示例图。具体实施方式
     为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。
     本发明的实施例是基于英文新闻的，但是本发明的方法不受语言种类的限制。
     本发明提出了一个利用计算机的基于多媒体分析的新闻检索结果的摘要生成方法，综合利用了新闻文档的多模态信息。该方法首先从网络上获取新闻数据并对其进行预处理以及文本分析。然后采用层次化的潜在狄利克雷分布模型挖掘出检索结果中的潜在主题层次结构。通过本发明提出的基于权重聚合以及最大池模型的代表性节点筛选方法，从层次主题结构中为每个节点筛选出最具权威的代表性新闻文档以及新闻图片，作为此节点及其子节点的多媒体摘要表示。筛选过程中，考虑到了同一个父节点的不同子节点之间的文本相似性以及基于层次主题树结构的相似性，并采用权重聚合算法从下至上依次计算属于每个节点的新闻文档的度，表示新闻文档的权威性。最后采用最大池模型根据新闻文档的权威性挑选出最具权威的代表性新闻文档。另外还为每个节点挑选出了最具权威的代表性新闻图片。本发明还通过提出的考虑时间信息的最大生成树方法将主题结构串接起来，并设计了一个浏览界面，方便用户进行检索和浏览。图 1 给出了本发明所提出的新闻检索结果的多媒体摘要生成方法流程图。如图 1 所示，该方法包括以下步骤：
     步骤 1，将从互联网新闻网站上爬取的新闻数据组成新闻数据库，并对新闻数据库中的新闻数据进行预处理。
     首先，采用网络爬虫按照时间信息从 ABC、 BBC 和 CNN 新闻网站以及谷歌新闻网站上爬取新闻文档和对应的新闻图片，构建自己的新闻数据库；然后，采用自然语言处理技术从新闻数据中提取出新闻文档的标题、时间、摘要和正文以及新闻文档对应的网址，提取出新闻图片的网址和新闻图片对应的文本信息。新闻文档的标题、摘要和正文用来计算新闻文档之间的相似性；新闻文档的网址用来去除重复文档；新闻图片的网址和文本信息用来收集图片和说明图片内容；最后，采用自然语言处理技术根据新闻文档的网址去除重复文档。
     步骤 2，基于用户文本查询在新闻数据库中进行新闻信息检索，并按照新闻文档与用户文本的相关性从大到小的顺序排列检索到的新闻文档。
     给定由步骤 1 爬取得到的新闻数据库，可以使用目前常见的任何一种文本检索方法，进行与用户文本查询相关的新闻信息检索，并返回包含新闻文档、新闻图片等信息的检索结果集合。在本实施方案中，我们可采用基于词频 - 反文档频率 (Term Frequency-Inverse Document Frequency，简称为 TF-IDF) 的文本向量形式来表示每个新闻文档和用户文本查询，然后采用余弦相似性计算各文档与用户查询的文本的相关性，然
     后按照相关性从大到小的降序排列各相关的文档。
     步骤 3，基于顺序排列的新闻文档，计算新闻文档之间的文本相似度 S，并使用层次化的潜在狄利克雷分布模型挖掘出新闻检索结果中的主题层次树结构，计算新闻文档基 tree 于层次树结构的相似度 S ，最终得到新闻文档之间的相似度。
     考虑到新闻文档的标题、摘要和正文部分在信息传递中的重要性不同，本发明首先针对新闻文档的这三部分文本内容分别计算他们之间的文本相似度，然后对其进行线性组合，得到新闻文档之间的文本相似度 S ：
     S ＝ 0.5×St+0.3×Ss+0.2×Sb，
     其中， St、 Ss 和 Sb 是分别以标题、摘要和正文为对象计算出来的新闻文档之间的文本相似度。这里，文本相似度是按照文本处理中的常见做法，先通过词频 - 反文档频率模型来表示文本内容，然后利用余弦相似性来度量其两两相似度。
     采用层次化的潜在狄利克雷分布模型 (hierarchical Latent Dirichlet Allocation，简称为 hLDA) 挖掘出新闻信息检索结果中的潜在的主题层次树结构：采用一个深度固定为 L 的树结构表述检索结果主题的分布，树结构中的每个节点对应一个主题，不同深度的节点对应不同层次的主题，每个节点采用该主题文档集合所包含文本关键词的概率分布来描述。这样，一篇文档就对应一条从根节点到叶节点的路径，沿着这条路径反复地抽样主题和从抽样的主题中选择词语就生成一篇文档。采用 hLDA 模型能够挖掘出潜在的主题层次树结构，然后采用多媒体信息描述每个主题。在 hLDA 模型中，具有共享路径的新闻文档是属于同一个主题的，并且彼此之间很相似。本发明采用文本相似度和基于树结构的相似度的平均值来计算同一个主题下的新闻文档之间的相似度 Scomb。
     其中， S 是上文中提到的新闻文档之间的文本相似度， Stree 是基于树结构计算出的新闻文档之间的相似度。
     新闻文档基于层次树结构的相似度 Stree 的计算进一步包括以下步骤：
     步骤 3.1，分别计算新闻文档 d 和 g 属于某一主题的概率；
     用 t 表示所有词在层次树结构中的层次分配， c 表示具有词 w 的所有文档的路径分配。给定词语 w 在 t 已知的条件下的分布以及文档在 c 已知条件下的分布，一个词在一条路径的某个特定主题上的后验概率正比于这个词被这个主题生成的次数，即：
     p(w|t， c， w， η) ∝ #[t ＝ t， c ＝ c， w ＝ w]+η，
     其中， #[] 表示满足给定条件的元素个数， t 为层次树结构中的某一层次， c 为具有词 w 的所有新闻文档的路径分配中的某一路径， η 表示主题对应的 hLDA 模型的狄利克雷分布参数，其为一个常数。
     基于上式，可以得到新闻文档属于某一个主题的概率：文档 d 和 g 属于主题 t 的概率分别是 pt， c， w ＝ vt) 和 pt， c， w ＝ vt)，其中 wt， d ＝ p(wt， d|zd ＝ t， g ＝ p(wt， g|zg ＝ t， d 是文档 d 中在路径 c 上处于第 t 层次的主题 zd 中产生的词集合， wt，g 是文档 g 中在路径 c 上处于第 t 层次的主题 zg 中产生的词集合， vt 是主题 t 生成的词集合， zd 和 zg 分别是新闻文档 d 和 g 在某个层次上对应的主题。
     步骤 3.2，采用延森 - 香农散度计算公式计算新闻文档 d 和 g 属于主题 t 的概率即 pt， d 和 pt， g 之间的散度：
     其中， KL(d||g) ＝∑ idilog(di/gi) 为 Kullback-Liebler(KL) 散度。步骤 3.3，采用将上述步骤 3.2 计算得到的散度转化为相似度测度。相似地，给定一个文档 d，其对应的主题后验概率是：
     p(t|t， c， α) ∝ #[t ＝ t， c ＝ cd]+α，
     其中， α 表示文档对应的 hLDA 模型的狄利克雷分布参数，其亦为一个常数， cd 是文档 d 对应的路径分配。
     使用类似的步骤，可以计算出给定某一新闻文档，各个主题的分布概率。
     步骤 3.4，给定新闻文档 d 和 g，分别计算出其对应的主题分布概率
     和
     步骤 3.5，采用延森 - 香农散度计算公式计算这两个概率的散度步骤 3.6，采用步骤 3.7，根据和计算新闻文档基于主题的相似度计算新闻文档基于层次树结构的相似度提供的是新闻文档主题Stree。提供的是基于主题 - 词分布的文档之间的相似度，
     的权重。它们共同影响新闻文档的相似度，因此将它们在各个路径和各个级别上的作用结合起来得到基于树结构的新闻文档相似度：
     其中， Td， |T| 表示集合 T 的元素个数， lt 是 g 表示新闻文档 d 和 g 共有的主题集合，主题 t 所处的层次。如果两个新闻文档之间没有共享主题，那它们基于树结构的相似度是 0。得到 Stree，就可以根据上文中提到的公式计算 Scomb 了。然后基于
     相似度 Scomb，以及权重聚合方法和最大池模型为每个主题筛选出最具权威的代表性文档和新闻图片，将在以下内容阐述。
     步骤 4，根据步骤 3 得到的新闻文档之间的相似度 Scomb，基于权重聚合方法和最大池模型从下至上地为每个主题选择最具权威的代表性新闻文档和新闻图片，作为每个主题的多媒体摘要表示。
     首先根据 Scomb 为最底层的每一个节点挑选出最具权威的代表性新闻文档，作为最底层节点的表示。然后按照树结构从下至上，采用权重聚合方法计算主题层次树结构中各个节点的度 ( 各个节点的度由其最具权威的代表性新闻文档的度表示 )，然后根据节点的度来衡量每个节点的权威性。这里，采用最大池模型从主题层次树结构中为每个节点筛选出最具权威的代表性子节点，作为该节点的所有子节点的代表。采用代表性子节点的最具权威的代表性新闻文档作为该节点的最具权威的代表性新闻文档。在本步骤以下阐述内容中，对于已经选择出最具权威代表性新闻文档的节点，采用代表性新闻文档表示该节点，也不再区分代表性新闻文档和该节点。
     在为每个节点筛选代表性子节点的过程中，本发明为每个节点挑选出能够表达该节点的代表性新闻文档和新闻图片，作为每个节点对应主题的多媒体摘要表示。
     所述步骤 4 进一步包括以下步骤：
     步骤 4.1，为主题层次树结构最底层即第 L 层上每个节点选择最具权威的代表性新闻文档；
     对于树结构的最底层即第 L 层上的某个节点，可以确定从根节点到该节点的一条路径，因此也就确定了经过该路径的新闻文档，即得到了属于该节点的文档集。这里使用 Dc，已经得到了新闻 L 表示在第 L 层主题上处于任一路径 c 上的新闻文档集合。根据上述内容，文档基于新闻内容和树结构的相似度 Scomb。根据 Scomb 计算属于 Dc， L 的新闻文档 d 的重要性，作为新闻文档 d 的度的度量，即
     其中， Dc， L 表示在第 L 层主题上处于路径 c 上的新闻文档集合。
     根据每个新闻文档的度，采用最大池模型选择出度最大的新闻文档作为集合 Dc，L 的最具权威的代表性新闻文档 tdc， L，即
     步骤 4.2，计算第 l 层主题的重要性，也就是该层主题的最具权威的代表性新闻文档在该层上的重要性，作为节点的度，也就是权威性，采用最大池模型为第 l 层上每个节点选择最具权威的代表性新闻文档。
     从下至上地对每一个节点的所有子节点进行重要性计算，并采用最大池模型为该节点选择出代表性文档。按照此方法依次从每个主题中选出代表性的文档作为该主题的代表，直到到达根节点为止。这个过程就是从树结构进行抽象的过程。在每次抽象中，需要计算第 l(l ＝ L， L-1，…， 2， 1) 层上两个节点的代表性新闻文档 d 和 g 在该层上的相似度 Sl(d， g)。为此，需要建立层和层之间的联系。本发明采用一个系数的插值矩阵 Wl 建立 Dl 和 Dl+1 之间的联系，其定义为：
     其中， Dl 表示在第 l 层主题上的所有主题的代表性新闻文档集合。当 l ＝ L 时，定义 SL+1 ＝ Scomb， DL+1 表示所有新闻文档集合。
     按照树结构从下至上，即树结构层次 l 从 L 到 1 依次计算各层上节点之间的相似
     度。针对第 l 层 (l ＝ L， L-1，…， 2， 1)，根据已计算出的的 Sl+1，以及采用上式基于 Sl+1 计算出的 Wl+1，采用就可以得到第 l 层上各节点的新闻文档相似度。Sl 通过插值矩阵 Wl+1 继承了 Sl+1 的特性。
     采用 Dc， l 表示在第 l 层主题上处于路径 c 上的代表性新闻文档集合。对每一个属于 Dc，采用其和其他属于 Dc， l 的新闻文档 d， l 的新闻文档在 l 层上的相似度的和作为其在第 l 层主题上的重要性指标，作为其度的度量，即
     采用最大池模型选择出重要性 score 最大的文档作为 Dc， l 集合的最具权威的代表性新闻文档 tdc，即 l，
     此时，代表性新闻文档 tdc，l 是路径 c 上处于 l 层的节点的代表，也就是说是该节点对应主题的代表。
     步骤 4.3，按照步骤 4.2，从下至上地对主题层次树结构中的每一个节点所对应的主题中选出最具权威的代表性文档作为该主题的代表，直至到达根节点为止。
     接下来阐述如何根据 hLDA 挖掘出的层次结构，为每个主题选择代表性的新闻图片。一个新闻主题是由几个新闻子主题组成，每个新闻子主题的新闻图片之间是相似的。因此，首先，采用近似重复检测算法将属于同一个新闻子主题的新闻图片分成几组，找出包含图片最多的那一组新闻图片作为此新闻子主题的视觉表示。然后，以该组内的图片为节点，图片之间的视觉相似性为边，构建一个图模型，采用每幅图片和其他图片之间的相似度之和作为该新闻图片所对应节点的度的定义。最后，采用最大池模型从中挑选出度最大的新闻图片作为该主题的图片表示。另外，由于网页存储空间有限，在最终显示检索结果的时候，需要将图片进行缩小。但新闻图片中经常包含了新闻人物，而且新闻人物也是新闻事件一个很重要的因素，因此在缩小图片的时候应保证新闻人物对应区域的损失尽量小。首先采用人脸检测算法检测出新闻图片中的人脸部分，然后采用权重的双向相似度总结视觉信息的方法对其进行缩放，这里所涉及到的图像缩放技术是参考 CVPR2008 的 Denis Simakov 等人的工作 “Summarizing Visual Data Using Bidirectional Similarity” 。
     步骤 5，采用考虑时间因素的最大生成树模型将各个主题串接起来，生成新闻检索结果的多媒体摘要。
     在步骤 5 中，采用本发明提出的偏重时间的最大生成树将一个节点的子节点有效地串接起来以作为该节点的表述。
     本发明将上述串接子节点的工作转化成：在对应同一父节点下各子节点所构成主题层次树结构中，进行最大生成树的求解问题。这里，最大生成树的定义是：若从主题层次树结构的某一节点出发，遍历访问到主题层次树结构中其他各节点，则遍历时经过的边和主题层次树结构的所有节点所构成的子图，称作该主题层次树结构的生成树，而其中边权值总和最大的生成树即为最大生成树。图中各节点之间的边权重表示了子节点所对应子主题之间的相似性，因此，具有最大权重和的生成树可以最简洁且概括地描述父节点。
     下面，将说明上述图模型中的边权重计算方法。一方面考虑前面步骤 4 中得到的第 l 层上各子节点之间的相似度 Sl，另一方面考虑到时间是新闻内容中的一个重要元素，本
     发明引入时间信息到边权重计算任务中，认为发生在同一或相近时间的新闻可能具有一定的相似性。
     所述边权重的计算包括以下步骤：
     首先，将新闻的时间信息进行量化，将其表示为 “年月日” 的形式，如 “九月 12 号， 2010” 可表示为 “20100912” ，记为 date。
     然后，计算某个主题的两个子主题基于时间信息的相似度；
     在步骤 4 中，已经为每个节点选择出了最具权威的代表性新闻文档，作为该节点所对应的新闻主题的表示。因此，计算两个节点的基于时间信息的相似度转化为计算所对应的代表性新闻文档的基于时间信息的相似度。因此，某个主题的两个子主题的基于时间信息的相似度就是这两个子主题对应的代表性新闻文档基于时间信息的相似度，即：
     其中，新闻文档 d 和 g 是这两个子主题对应的代表性新闻文档，新闻文档 q 是该主题的所有子主题对应的新闻文档集合 T 中的一员。
     最后，根据新闻文档相似度 Sl 和基于时间信息的相似度 Sdate 计算节点之间的边权重。
     将之前计算得到的相似度 Sl 和基于时间信息的相似度 Sdate 的线性组合作为节点之间的边权重：
     SMST(d， g) ＝ εSl(d， g)+(1-ε)Sdate(d， g) 如果 d， g ∈ Dc， l-1，
     其中， Dc， l-1 是第 l 级上处于路径 c 上的主题的子主题代表性新闻文档集合。ε 是线性组合的系数。本发明更依赖于时间信息，因此，设置 ε ＝ 0.4。
     根据上述计算的节点之间的关联边权重 SMST，对每个图模型寻找其最大生成树，并按照最大生成树将各子主题串接起来作为各主题的最恰当描述。
     生成最大树的过程进一步包括以下步骤：
     步骤 5.1，首先选择时间最早的节点作为最大生成树的源节点，并将其加入到已选择节点集中 ( 初始选择节点集合为空集 )
     步骤 5.2，考虑余下节点与已选择节点集中所有节点的边权重，选择出具有最大边权重的节点以及对应的关联关系，并将其加入到已选择节点集中。
     步骤 5.3，重复步骤 5.2，直至所有节点加入到已选择节点集中。
     步骤 5.4，利用上述步骤得到的关联关系将各节点连接起来，就得到了对应的最大生成树。
     步骤 6，展示新闻检索结果及其多媒体新闻摘要。
     为了提供给用户生动快速的检索和浏览界面，本发明设计了一个新闻检索界面，如图 2 所示。该界面包含了两个视图，分别对应图 2 中左右两部分。左半部分是根据本发明所提出的方法得到的新闻检索结果的多媒体摘要视图：采用本发明的方法得到潜在的主题层次树结构以及为各主题选择出最具权威的代表性新闻文档和新闻图片，对新闻检索结果进行多媒体摘要展示。本系统采用了三级树结构，第一级对应根节点，第二级对应主题，第三级对应子主题。各主题按照时间顺序从上至下依次排列，每个主题中的各子主题采用本发明提出的考虑时间的最大生成树从左至右排列。每个子主题给出了代表新闻文档的标
     题和代表新闻图片。在界面的右半部分用于展示新闻检索结果的条目式信息，即按照相关性的降序排列给出了与查询相关的所有新闻条目，主要给出了包含新闻标题、相关新闻图片和简短文本摘要等信息内容。用户可以点击标题获取该新闻文档的全部报道内容。
     以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

资源描述

《一种新闻检索结果的多媒体摘要生成方法.pdf》由会员分享，可在线阅读，更多相关《一种新闻检索结果的多媒体摘要生成方法.pdf（14页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102411638 A (43)申请公布日 2012.04.11 C N 1 0 2 4 1 1 6 3 8 A *CN102411638A* (21)申请号 201110455758.0 (22)申请日 2011.12.30 G06F 17/30(2006.01) (71)申请人中国科学院自动化研究所地址 100190 北京市海淀区中关村东路95 号 (72)发明人卢汉清刘静李泽超徐常胜 (74)专利代理机构中科专利商标代理有限责任公司 11021 代理人周国城 (54) 发明名称一种新闻检索结果的多媒体摘要生成方法 (57) 摘要本发明公开了一种新闻。

2、检索结果的多媒体摘要生成方法，该方法采用自然语言处理技术预处理新闻文档，提取命名实体；采用层次潜在狄利克雷分布模型在与查询相关的新闻信息中挖掘出潜在的主题；采用基于权重聚合和最大池模型算法从每个主题中筛选出典型文档，同时也挑选出典型的新闻图片；采用考虑时间信息的最大生成树将各个主题串联成连续紧凑的摘要，生成一个与查询相关的简要概述。本发明能够对新闻信息采用综合文本与图片的多媒体形式进行总结凝练，为用户提供生动形象、全面具体的新闻时事展示，使其能够掌握到所关心新闻的前因后果和事件的发展历程。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申。

3、请权利要求书 4 页说明书 8 页附图 1 页 CN 102411648 A 1/4页 2 1.一种新闻检索结果的多媒体摘要生成方法，其特征在于，该方法包括以下步骤：步骤1，将从互联网新闻网站上爬取的新闻数据组成新闻数据库，并对新闻数据库中的新闻数据进行预处理；步骤2，基于用户文本查询在新闻数据库中进行新闻信息检索，并按照新闻数据库中的新闻文档与用户文本的相关性从大到小的顺序排列检索到的新闻文档；步骤3，基于顺序排列的新闻文档，计算新闻文档之间的文本相似度S，并使用层次化的潜在狄利克雷分布模型挖掘出新闻检索结果中的主题层次树结构，计算新闻文档基于层次树结构的相似度S tre。

4、e ，最终得到新闻文档之间的相似度S comb ；步骤4，根据步骤3得到的新闻文档之间的相似度S comb ，基于权重聚合方法和最大池模型从下至上地为每个主题选择最具权威的代表性新闻文档和新闻图片，作为每个主题的多媒体摘要表示；步骤5，采用考虑时间因素的最大生成树模型将各个主题串接起来，生成新闻检索结果的多媒体摘要；步骤6，展示新闻检索结果及生成的多媒体摘要。 2.根据权利要求1所述的方法，其特征在于，所述步骤1进一步包括：按照时间信息从互联网新闻网站上爬取新闻文档和对应的新闻图片。 3.根据权利要求2所述的方法，其特征在于，所述步骤1中对新闻数据库中的新闻数据进行的预处理进一。

5、步为：采用自然语言处理技术从所述新闻文档中提取出标题、时间、摘要、正文以及新闻文档对应的网址，从所述新闻图片中提取出新闻图片的网址和新闻图片对应的文本信息，并采用自然语言处理技术根据所述新闻文档对应的网址去除重复文档。 4.根据权利要求1所述的方法，其特征在于，所述步骤3中，新闻文档之间的文本相似度S为： S0.5S t +0.3S s +0.2S b ，其中，S t 、S s 和S b 是分别以标题、摘要和正文为对象计算出来的新闻文档之间的文本相似度。 5.根据权利要求1或4所述的方法，其特征在于，采用基于词频-反文档频率的文本向量形式来表示文本内容，然后采用余弦相似性来计算各新。

6、闻文档与用户查询的文本的相关性或以标题、摘要和正文为对象的新闻文档之间的文本相似度。 6.根据权利要求1所述的方法，其特征在于，所述步骤3中，所述使用层次化的潜在狄利克雷分布模型挖掘出新闻检索结果中的主题层次树结构为：采用一个深度固定为L的树结构表述检索结果主题的分布，树结构中的每个节点对应一个主题，不同深度的节点对应不同层次的主题，每个节点采用该主题文档集合所包含文本关键词的概率分布来描述。 7.根据权利要求6所述的方法，其特征在于，新闻文档基于层次树结构的相似度S tree 的计算进一步包括以下步骤：步骤3.1，分别计算新闻文档d和g属于某一主题t的概率：p t，d p(w t，。

7、d |z d t，c，w v t )和p t，g p(w t，g |z g t，c，wv t )，其中，w t，d 是新闻文档d中在路径c上处于第t 层次的主题z d 中产生的词集合，w t，g 是新闻文档g中在路径c上处于第t层次的主题z g 中产生的词集合，v t 是主题t生成的词集合，z d 和z g 分别是文档d和g在某个层次上对应的主题；权利要求书CN 102411638 A CN 102411648 A 2/4页 3 步骤3.2，计算概率p t，d 和p t，g 之间的散度：其中，KL(d|g) i d i log(d i /g i )为Kullback-Liebl。

8、er(KL)散度；步骤3.3，将步骤3.2计算得到的散度转化为相似度测度：步骤3.4，计算新闻文档d和g对应的主题分布概率和其中，为一个常数，表示新闻文档对应的狄利克雷参数；步骤3.5，计算概率和之间的散度：步骤3.6，将步骤3.5计算得到的散度转化为相似度测度：步骤3.7，根据和计算新闻文档基于层次树结构的相似度S tree ：其中，T d，g 表示新闻文档d和g共有的主题集合，|T|表示集合T的元素个数，l t 是主题t所处的层次。 8.根据权利要求1所述的方法，其特征在于，所述步骤3中，所述新闻文档之间的相似度S comb 为： 9.根据权利要求6所述的方法，其特征在于。

9、，所述步骤4进一步包括以下步骤：步骤4.1，采用最大池模型为主题层次树结构最底层即第L层上每个节点选择最具权威的代表性新闻文档；步骤4.2，计算第l层主题的重要性，也就是该层主题的最具权威的代表性新闻文档在该层上的重要性，作为节点的度，即权威性，采用最大池模型为第l层上每个节点选择最具权威的代表性新闻文档；步骤4.3，按照步骤4.2，从下至上地对主题层次树结构中的每一个节点所对应的主题中选出代表性新闻文档作为该主题的代表，直到到达根节点为止。 10.根据权利要求9所述的方法，其特征在于，所述步骤4.1进一步包括以下步骤：首先，计算任一路径c上第L层节点中的某一新闻文档d的重要性。

10、score(d)：其中，D c，L 表示在第L层节点上处于路径c上的新闻文档集合，S comb (d，g)为步骤3中计算的新闻文档之间的相似度；然后，采用最大池模型选择重要性最大的新闻文档作为集合D c，L 的最具权威的代表性新闻文档td c，L ：权利要求书CN 102411638 A CN 102411648 A 3/4页 4 11.根据权利要求9所述的方法，其特征在于，所述步骤4.2进一步包括以下步骤：首先，计算第l层两个主题的代表性新闻文档d和g之间的相似度S l (d，g)；然后，计算每一个新闻文档d在第l层主题上的重要性，作为其度的度量，即其中，D c，l 。

11、表示在第l层主题上处于路径c上的代表性新闻文档集合；最后，采用最大池模型选择出重要性最大的文档作为集合D c，l 的最具权威的代表性新闻文档td c，l ： 12.根据权利要求11所述的方法，其特征在于，所述步骤4.2中，第l层上节点的新闻文档之间的相似度为其中，lL，L-1，2，1，L为主题层次树结构的深度，W l 为插值矩阵：其中，D l 表示在第l层主题上的所有新闻文档集合，当lL时，定义S L+1 S comb ，D L+1 是新闻文档集合。 13.根据权利要求1所述的方法，其特征在于，所述步骤4中，为每个主题选择最具权威的代表性新闻图片进一步包括以下步骤：首先，采用近似。

12、重复检测算法将属于同一个子主题的新闻图片分成几组，找出包含图片最多的那一组新闻图片作为此子主题的视觉表示，其中，几个新闻子主题组成一个新闻主题；然后，以该组内的图片为节点，图片之间的视觉相似度为边，构建一个图模型，采用每幅图片和其他图片之间的相似度之和作为该新闻图片所对应节点的度的定义；最后，从中挑选出度最大的新闻图片作为该主题的新闻图片表示。 14.根据权利要求1所述的方法，其特征在于，所述步骤5中，所述最大生成树为：若从主题层次树结构的某一节点出发，遍历访问到主题层次树结构中其他各节点，则遍历时经过的边和主题层次树结构的所有节点所构成的子图，称作该主题层次树结构的生成树，而。

13、其中边权值总和最大的生成树即为最大生成树，图中各节点之间的边权重表示了子节点所对应子主题之间的相似度。 15.根据权利要求14所述的方法，其特征在于，所述边权重的计算包括以下步骤：首先，将新闻的时间信息进行量化，将其表示为“年月日”的形式，记为date；然后，计算某个主题的两个子主题基于时间信息的相似度S date ：权利要求书CN 102411638 A CN 102411648 A 4/4页 5 其中，新闻文档d和g是所述两个子主题对应的代表性新闻文档，新闻文档q是该主题的所有子主题对应的新闻文档集合T中的一员；最后，根据新闻文档相似度S l 和基于时间信息的相似度S 。

14、date 计算节点之间的边权重 SMST： S MST (d，g)S l (d，g)+(1-)S date (d，g)如果d，gD c，l-1 ，其中，D c，l-1 是第l级上处于路径c上的主题的子主题代表性新闻文档集合，是线性组合的系数。 16.根据权利要求15所述的方法，其特征在于，所述最大树的生成进一步包括以下步骤：步骤5.1，首先选择时间最早的节点作为最大生成树的源节点，并将其加入到已选择节点集中，初始选择节点集合为空集；步骤5.2，考虑余下节点与已选择节点集中所有节点的边权重，选择出具有最大边权重的节点以及对应的关联关系，并将其加入到已选择节点集中；步骤5.3，重复。

15、步骤5.2，直至所有节点加入到已选择节点集中；步骤5.4，利用上述步骤得到的关联关系将各节点连接起来，就得到了对应的最大生成树。 17.根据权利要求1所述的方法，其特征在于，所述步骤6中，为了节约新闻图片的存储空间，在保证新闻图片中的新闻人物对应区域的损失尽量小的前提下，对新闻图片进行缩小。权利要求书CN 102411638 A CN 102411648 A 1/8页 6 一种新闻检索结果的多媒体摘要生成方法技术领域 0001 本发明涉及多媒体内容分析与理解领域，特别是一种新闻检索结果的多媒体摘要生成方法。背景技术 0002 随着信息技术的发展和网络的全球化，在线新闻越。

16、来越多并且也越来越受欢迎，变成了人们日常生活当中获取信息的一种重要的途径。人们可以通过一些主要的网络门户网站，如雅虎、MSN等；或者大型新闻网站，如CNN、AOL和MSNBC等，及时获取和浏览各种以文本、图片或视频形式呈现的多媒体新闻信息。但是每天都有大量的多媒体新闻涌现出来，迫使用户陷入“信息泛滥“的尴尬境地，使其难以快速获取个人所需的新闻资讯，更难以全面了解新闻事件及其前因后果。因此，研究如何有效地挖掘与分析这些海量多媒体新闻数据，让用户快速全面地了解时事新闻是一项十分必要的任务。发明内容 0003 鉴于此，本发明提出了一种对于新闻检索结果的多媒体摘要生成方法，针对用户检索。

17、的相关新闻结果进行二次整合，并通过总结摘要的方式连续紧凑地展示给用户，使用户能够快速生动地了解新闻事件及其前因后果。这就需要挖掘出检索结果中潜在的主题结构，从每个主题中筛选出最具权威的代表性新闻文档和新闻图片来表示该主题，进一步将各个主题串接起来，为用户展示一个连续紧凑的新闻事件发展过程。 0004 为达到上述目的，本发明提出一种新闻检索结果的多媒体摘要生成方法，其特征在于，该方法包括以下步骤： 0005 步骤1，将从互联网新闻网站上爬取的新闻数据组成新闻数据库，并对新闻数据库中的新闻数据进行预处理； 0006 步骤2，基于用户文本查询在新闻数据库中进行新闻信息检索，并按照新闻数据库。

18、中的新闻文档与用户文本的相关性从大到小的顺序排列检索到的新闻文档； 0007 步骤3，基于顺序排列的新闻文档，计算新闻文档之间的文本相似度S，并使用层次化的潜在狄利克雷分布模型挖掘出新闻检索结果中的主题层次树结构，计算新闻文档基于层次树结构的相似度S tree ，最终得到新闻文档之间的相似度S comb ； 0008 步骤4，根据步骤3得到的新闻文档之间的相似度S comb ，基于权重聚合方法和最大池模型从下至上地为每个主题选择最具权威的代表性新闻文档和新闻图片，作为每个主题的多媒体摘要表示； 0009 步骤5，采用考虑时间因素的最大生成树模型将各个主题串接起来，生成新闻检索结果的。

19、多媒体摘要； 0010 步骤6，展示新闻检索结果及生成的多媒体摘要。 0011 本发明提出的多媒体新闻摘要生成方法能够对新闻信息采用综合文本与图片的多媒体形式进行总结凝练，为用户提供生动形象、全面具体的新闻时事展示，使其能够掌握说明书CN 102411638 A CN 102411648 A 2/8页 7 到所关心新闻的前因后果和事件的发展历程。附图说明 0012 图1是本发明所提出的查询相关的多媒体新闻摘要生成方法流程图。 0013 图2是根据本发明实施例的用户检索和浏览界面示例图。具体实施方式 0014 为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照。

20、附图，对本发明进一步详细说明。 0015 本发明的实施例是基于英文新闻的，但是本发明的方法不受语言种类的限制。 0016 本发明提出了一个利用计算机的基于多媒体分析的新闻检索结果的摘要生成方法，综合利用了新闻文档的多模态信息。该方法首先从网络上获取新闻数据并对其进行预处理以及文本分析。然后采用层次化的潜在狄利克雷分布模型挖掘出检索结果中的潜在主题层次结构。通过本发明提出的基于权重聚合以及最大池模型的代表性节点筛选方法，从层次主题结构中为每个节点筛选出最具权威的代表性新闻文档以及新闻图片，作为此节点及其子节点的多媒体摘要表示。筛选过程中，考虑到了同一个父节点的不同子节点之间的文本相似。

21、性以及基于层次主题树结构的相似性，并采用权重聚合算法从下至上依次计算属于每个节点的新闻文档的度，表示新闻文档的权威性。最后采用最大池模型根据新闻文档的权威性挑选出最具权威的代表性新闻文档。另外还为每个节点挑选出了最具权威的代表性新闻图片。本发明还通过提出的考虑时间信息的最大生成树方法将主题结构串接起来，并设计了一个浏览界面，方便用户进行检索和浏览。 0017 图1给出了本发明所提出的新闻检索结果的多媒体摘要生成方法流程图。如图1 所示，该方法包括以下步骤： 0018 步骤1，将从互联网新闻网站上爬取的新闻数据组成新闻数据库，并对新闻数据库中的新闻数据进行预处理。 0019 首先，采用。

22、网络爬虫按照时间信息从ABC、BBC和CNN新闻网站以及谷歌新闻网站上爬取新闻文档和对应的新闻图片，构建自己的新闻数据库；然后，采用自然语言处理技术从新闻数据中提取出新闻文档的标题、时间、摘要和正文以及新闻文档对应的网址，提取出新闻图片的网址和新闻图片对应的文本信息。新闻文档的标题、摘要和正文用来计算新闻文档之间的相似性；新闻文档的网址用来去除重复文档；新闻图片的网址和文本信息用来收集图片和说明图片内容；最后，采用自然语言处理技术根据新闻文档的网址去除重复文档。 0020 步骤2，基于用户文本查询在新闻数据库中进行新闻信息检索，并按照新闻文档与用户文本的相关性从大到小的顺序排列检。

23、索到的新闻文档。 0021 给定由步骤1爬取得到的新闻数据库，可以使用目前常见的任何一种文本检索方法，进行与用户文本查询相关的新闻信息检索，并返回包含新闻文档、新闻图片等信息的检索结果集合。在本实施方案中，我们可采用基于词频-反文档频率(Term Frequency-Inverse Document Frequency，简称为TF-IDF)的文本向量形式来表示每个新闻文档和用户文本查询，然后采用余弦相似性计算各文档与用户查询的文本的相关性，然说明书CN 102411638 A CN 102411648 A 3/8页 8 后按照相关性从大到小的降序排列各相关的文档。 0022 步骤3。

24、，基于顺序排列的新闻文档，计算新闻文档之间的文本相似度S，并使用层次化的潜在狄利克雷分布模型挖掘出新闻检索结果中的主题层次树结构，计算新闻文档基于层次树结构的相似度S tree ，最终得到新闻文档之间的相似度。 0023 考虑到新闻文档的标题、摘要和正文部分在信息传递中的重要性不同，本发明首先针对新闻文档的这三部分文本内容分别计算他们之间的文本相似度，然后对其进行线性组合，得到新闻文档之间的文本相似度S： 0024 S0.5S t +0.3S s +0.2S b ， 0025 其中，S t 、S s 和S b 是分别以标题、摘要和正文为对象计算出来的新闻文档之间的文本相似度。这里，文。

25、本相似度是按照文本处理中的常见做法，先通过词频-反文档频率模型来表示文本内容，然后利用余弦相似性来度量其两两相似度。 0026 采用层次化的潜在狄利克雷分布模型(hierarchical Latent Dirichlet Allocation，简称为hLDA)挖掘出新闻信息检索结果中的潜在的主题层次树结构：采用一个深度固定为L的树结构表述检索结果主题的分布，树结构中的每个节点对应一个主题，不同深度的节点对应不同层次的主题，每个节点采用该主题文档集合所包含文本关键词的概率分布来描述。这样，一篇文档就对应一条从根节点到叶节点的路径，沿着这条路径反复地抽样主题和从抽样的主题中选择词语就生成。

26、一篇文档。采用hLDA模型能够挖掘出潜在的主题层次树结构，然后采用多媒体信息描述每个主题。 0027 在hLDA模型中，具有共享路径的新闻文档是属于同一个主题的，并且彼此之间很相似。本发明采用文本相似度和基于树结构的相似度的平均值来计算同一个主题下的新闻文档之间的相似度S comb 。 0028 0029 其中，S是上文中提到的新闻文档之间的文本相似度，S tree 是基于树结构计算出的新闻文档之间的相似度。 0030 新闻文档基于层次树结构的相似度S tree 的计算进一步包括以下步骤： 0031 步骤3.1，分别计算新闻文档d和g属于某一主题的概率； 0032 用t表示所有词在层次。

27、树结构中的层次分配，c表示具有词w的所有文档的路径分配。给定词语w在t已知的条件下的分布以及文档在c已知条件下的分布，一个词在一条路径的某个特定主题上的后验概率正比于这个词被这个主题生成的次数，即： 0033 p(w|t，c，w，)#tt，cc，ww+， 0034 其中，#表示满足给定条件的元素个数，t为层次树结构中的某一层次，c为具有词w的所有新闻文档的路径分配中的某一路径，表示主题对应的hLDA模型的狄利克雷分布参数，其为一个常数。 0035 基于上式，可以得到新闻文档属于某一个主题的概率：文档d和g属于主题t的概率分别是p t，d p(w t，d |z d t，c，wv t )。

28、和p t，g p(w t，g |z g t，c，wv t )，其中w t，d 是文档d中在路径c上处于第t层次的主题z d 中产生的词集合，w t，g 是文档g中在路径c上处于第t层次的主题z g 中产生的词集合，v t 是主题t生成的词集合，z d 和z g 分别是新闻文档d和g在某个层次上对应的主题。说明书CN 102411638 A CN 102411648 A 4/8页 9 0036 步骤3.2，采用延森-香农散度计算公式计算新闻文档d和g属于主题t的概率即 p t，d 和p t，g 之间的散度： 0037 0038 其中，KL(d|g) i d i log(d i /g 。

29、i )为Kullback-Liebler(KL)散度。 0039 步骤3.3，采用将上述步骤3.2计算得到的散度转化为相似度测度。 0040 相似地，给定一个文档d，其对应的主题后验概率是： 0041 p(t|t，c，)#tt，cc d +， 0042 其中，表示文档对应的hLDA模型的狄利克雷分布参数，其亦为一个常数，c d 是文档d对应的路径分配。 0043 使用类似的步骤，可以计算出给定某一新闻文档，各个主题的分布概率。 0044 步骤3.4，给定新闻文档d和g，分别计算出其对应的主题分布概率和 0045 步骤3.5，采用延森-香农散度计算公式计算这两个概率的散度 0046 004。

30、7 步骤3.6，采用计算新闻文档基于主题的相似度 0048 步骤3.7，根据和计算新闻文档基于层次树结构的相似度 S tree 。 0049 提供的是基于主题-词分布的文档之间的相似度，提供的是新闻文档主题的权重。它们共同影响新闻文档的相似度，因此将它们在各个路径和各个级别上的作用结合起来得到基于树结构的新闻文档相似度： 0050 0051 其中，T d，g 表示新闻文档d和g共有的主题集合，|T|表示集合T的元素个数，l t 是主题t所处的层次。如果两个新闻文档之间没有共享主题，那它们基于树结构的相似度是 0。 0052 得到S tree ，就可以根据上文中提到的公式计算S comb 。

31、了。然后基于相似度S comb ，以及权重聚合方法和最大池模型为每个主题筛选出最具权威的代表性文档和新闻图片，将在以下内容阐述。 0053 步骤4，根据步骤3得到的新闻文档之间的相似度S comb ，基于权重聚合方法和最大池模型从下至上地为每个主题选择最具权威的代表性新闻文档和新闻图片，作为每个主题的多媒体摘要表示。 0054 首先根据S comb 为最底层的每一个节点挑选出最具权威的代表性新闻文档，作为最底层节点的表示。然后按照树结构从下至上，采用权重聚合方法计算主题层次树结构中各个节点的度(各个节点的度由其最具权威的代表性新闻文档的度表示)，然后根据节点的说明书CN 10。

32、2411638 A CN 102411648 A 5/8页 10 度来衡量每个节点的权威性。这里，采用最大池模型从主题层次树结构中为每个节点筛选出最具权威的代表性子节点，作为该节点的所有子节点的代表。采用代表性子节点的最具权威的代表性新闻文档作为该节点的最具权威的代表性新闻文档。在本步骤以下阐述内容中，对于已经选择出最具权威代表性新闻文档的节点，采用代表性新闻文档表示该节点，也不再区分代表性新闻文档和该节点。 0055 在为每个节点筛选代表性子节点的过程中，本发明为每个节点挑选出能够表达该节点的代表性新闻文档和新闻图片，作为每个节点对应主题的多媒体摘要表示。 0056 所述步骤4进一。

33、步包括以下步骤： 0057 步骤4.1，为主题层次树结构最底层即第L层上每个节点选择最具权威的代表性新闻文档； 0058 对于树结构的最底层即第L层上的某个节点，可以确定从根节点到该节点的一条路径，因此也就确定了经过该路径的新闻文档，即得到了属于该节点的文档集。这里使用D c， L 表示在第L层主题上处于任一路径c上的新闻文档集合。根据上述内容，已经得到了新闻文档基于新闻内容和树结构的相似度S comb 。根据S comb 计算属于D c，L 的新闻文档d的重要性，作为新闻文档d的度的度量，即 0059 0060 其中，D c，L 表示在第L层主题上处于路径c上的新闻文档集合。 006。

34、1 根据每个新闻文档的度，采用最大池模型选择出度最大的新闻文档作为集合D c，L 的最具权威的代表性新闻文档tdc，L，即 0062 0063 步骤4.2，计算第l层主题的重要性，也就是该层主题的最具权威的代表性新闻文档在该层上的重要性，作为节点的度，也就是权威性，采用最大池模型为第l层上每个节点选择最具权威的代表性新闻文档。 0064 从下至上地对每一个节点的所有子节点进行重要性计算，并采用最大池模型为该节点选择出代表性文档。按照此方法依次从每个主题中选出代表性的文档作为该主题的代表，直到到达根节点为止。这个过程就是从树结构进行抽象的过程。在每次抽象中，需要计算第l(lL，L-1，。

35、2，1)层上两个节点的代表性新闻文档d和g在该层上的相似度 S l (d，g)。为此，需要建立层和层之间的联系。本发明采用一个系数的插值矩阵W l 建立D l 和D l+1 之间的联系，其定义为： 0065 0066 其中，D l 表示在第l层主题上的所有主题的代表性新闻文档集合。当lL时，定义S L+1 S comb ，D L+1 表示所有新闻文档集合。 0067 按照树结构从下至上，即树结构层次l从L到1依次计算各层上节点之间的相似说明书CN 102411638 A CN 102411648 A 6/8页 11 度。针对第l层(lL，L-1，2，1)，根据已计算出的的S l+1 ，。

36、以及采用上式基于S l+1 计算出的W l+1 ，采用就可以得到第l层上各节点的新闻文档相似度。S l 通过插值矩阵W l+1 继承了S l+1 的特性。 0068 采用D c，l 表示在第l层主题上处于路径c上的代表性新闻文档集合。对每一个属于D c，l 的新闻文档d，采用其和其他属于D c，l 的新闻文档在l层上的相似度的和作为其在第 l层主题上的重要性指标，作为其度的度量，即 0069 0070 采用最大池模型选择出重要性score最大的文档作为D c，l 集合的最具权威的代表性新闻文档td c，l ，即 0071 0072 此时，代表性新闻文档td c，l 是路径c上处于l层的。

37、节点的代表，也就是说是该节点对应主题的代表。 0073 步骤4.3，按照步骤4.2，从下至上地对主题层次树结构中的每一个节点所对应的主题中选出最具权威的代表性文档作为该主题的代表，直至到达根节点为止。 0074 接下来阐述如何根据hLDA挖掘出的层次结构，为每个主题选择代表性的新闻图片。一个新闻主题是由几个新闻子主题组成，每个新闻子主题的新闻图片之间是相似的。因此，首先，采用近似重复检测算法将属于同一个新闻子主题的新闻图片分成几组，找出包含图片最多的那一组新闻图片作为此新闻子主题的视觉表示。然后，以该组内的图片为节点，图片之间的视觉相似性为边，构建一个图模型，采用每幅图片和其他图片。

38、之间的相似度之和作为该新闻图片所对应节点的度的定义。最后，采用最大池模型从中挑选出度最大的新闻图片作为该主题的图片表示。另外，由于网页存储空间有限，在最终显示检索结果的时候，需要将图片进行缩小。但新闻图片中经常包含了新闻人物，而且新闻人物也是新闻事件一个很重要的因素，因此在缩小图片的时候应保证新闻人物对应区域的损失尽量小。首先采用人脸检测算法检测出新闻图片中的人脸部分，然后采用权重的双向相似度总结视觉信息的方法对其进行缩放，这里所涉及到的图像缩放技术是参考CVPR2008的Denis Simakov 等人的工作“Summarizing Visual Data Using Bidir。

39、ectional Similarity”。 0075 步骤5，采用考虑时间因素的最大生成树模型将各个主题串接起来，生成新闻检索结果的多媒体摘要。 0076 在步骤5中，采用本发明提出的偏重时间的最大生成树将一个节点的子节点有效地串接起来以作为该节点的表述。 0077 本发明将上述串接子节点的工作转化成：在对应同一父节点下各子节点所构成主题层次树结构中，进行最大生成树的求解问题。这里，最大生成树的定义是：若从主题层次树结构的某一节点出发，遍历访问到主题层次树结构中其他各节点，则遍历时经过的边和主题层次树结构的所有节点所构成的子图，称作该主题层次树结构的生成树，而其中边权值总和最大的生。

40、成树即为最大生成树。图中各节点之间的边权重表示了子节点所对应子主题之间的相似性，因此，具有最大权重和的生成树可以最简洁且概括地描述父节点。 0078 下面，将说明上述图模型中的边权重计算方法。一方面考虑前面步骤4中得到的第l层上各子节点之间的相似度S l ，另一方面考虑到时间是新闻内容中的一个重要元素，本说明书CN 102411638 A CN 102411648 A 7/8页 12 发明引入时间信息到边权重计算任务中，认为发生在同一或相近时间的新闻可能具有一定的相似性。 0079 所述边权重的计算包括以下步骤： 0080 首先，将新闻的时间信息进行量化，将其表示为“年月日”的形式。

41、，如“九月12号， 2010”可表示为“20100912”，记为date。 0081 然后，计算某个主题的两个子主题基于时间信息的相似度； 0082 在步骤4中，已经为每个节点选择出了最具权威的代表性新闻文档，作为该节点所对应的新闻主题的表示。因此，计算两个节点的基于时间信息的相似度转化为计算所对应的代表性新闻文档的基于时间信息的相似度。因此，某个主题的两个子主题的基于时间信息的相似度就是这两个子主题对应的代表性新闻文档基于时间信息的相似度，即： 0083 0084 其中，新闻文档d和g是这两个子主题对应的代表性新闻文档，新闻文档q是该主题的所有子主题对应的新闻文档集合T中的一员。 0。

42、085 最后，根据新闻文档相似度S l 和基于时间信息的相似度S date 计算节点之间的边权重。 0086 将之前计算得到的相似度S l 和基于时间信息的相似度S date 的线性组合作为节点之间的边权重： 0087 S MST (d，g)S l (d，g)+(1-)S date (d，g)如果d，gD c，l-1 ， 0088 其中，D c，l-1 是第l级上处于路径c上的主题的子主题代表性新闻文档集合。是线性组合的系数。本发明更依赖于时间信息，因此，设置0.4。 0089 根据上述计算的节点之间的关联边权重S MST ，对每个图模型寻找其最大生成树，并按照最大生成树将各子主题串接。

43、起来作为各主题的最恰当描述。 0090 生成最大树的过程进一步包括以下步骤： 0091 步骤5.1，首先选择时间最早的节点作为最大生成树的源节点，并将其加入到已选择节点集中(初始选择节点集合为空集) 0092 步骤5.2，考虑余下节点与已选择节点集中所有节点的边权重，选择出具有最大边权重的节点以及对应的关联关系，并将其加入到已选择节点集中。 0093 步骤5.3，重复步骤5.2，直至所有节点加入到已选择节点集中。 0094 步骤5.4，利用上述步骤得到的关联关系将各节点连接起来，就得到了对应的最大生成树。 0095 步骤6，展示新闻检索结果及其多媒体新闻摘要。 0096 为了提供给用户生。

44、动快速的检索和浏览界面，本发明设计了一个新闻检索界面，如图2所示。该界面包含了两个视图，分别对应图2中左右两部分。左半部分是根据本发明所提出的方法得到的新闻检索结果的多媒体摘要视图：采用本发明的方法得到潜在的主题层次树结构以及为各主题选择出最具权威的代表性新闻文档和新闻图片，对新闻检索结果进行多媒体摘要展示。本系统采用了三级树结构，第一级对应根节点，第二级对应主题，第三级对应子主题。各主题按照时间顺序从上至下依次排列，每个主题中的各子主题采用本发明提出的考虑时间的最大生成树从左至右排列。每个子主题给出了代表新闻文档的标说明书CN 102411638 A CN 10241164。

45、8 A 8/8页 13 题和代表新闻图片。在界面的右半部分用于展示新闻检索结果的条目式信息，即按照相关性的降序排列给出了与查询相关的所有新闻条目，主要给出了包含新闻标题、相关新闻图片和简短文本摘要等信息内容。用户可以点击标题获取该新闻文档的全部报道内容。 0097 以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。说明书CN 102411638 A CN 102411648 A 1/1页 14 图1 图2 说明书附图CN 102411638 A 。

展开阅读全文