大规模数据下的新闻事件自动挖掘系统及其方法.pdf

上传人:00****42 文档编号:4838331 上传时间:2018-11-16 格式:PDF 页数:8 大小:878.21KB
返回 下载 相关 举报
摘要
申请专利号:

CN201210558059.3

申请日:

2012.12.20

公开号:

CN103020251A

公开日:

2013.04.03

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20130403|||实质审查的生效IPC(主分类):G06F 17/30申请日:20121220|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

人民搜索网络股份公司

发明人:

付万宇; 黄丛蕊; 薛飞; 徐海瑞; 杨之光; 杨青

地址:

100020 北京市朝阳区东三环中路1号环球金融中心西塔16层

优先权:

专利代理机构:

北京汇泽知识产权代理有限公司 11228

代理人:

刘淑敏

PDF下载: PDF下载
内容摘要

本发明公开了一种大规模数据下的新闻事件自动挖掘系统及其方法,包括接收模块,接收一个时间片段内推送到所述事件挖掘系统的新闻数据,并将上一时间片段内积攒的新闻数据发送给聚类处理模块进行事件挖掘;聚类处理模块,对接收到的新闻数据按照彼此间的标题或正文文本的相似程度进行层次式聚类处理,以挖掘出具有相同事件属性的新闻族;事件合并模块,将经聚类处理形成的新事件与历史上形成的旧事件按照所述事件间的相似程度进行合并处理;缓存处理模块,将新形成的事件与经过修改的历史事件发送到缓存模块作缓存处理。采用本发明,能够对海量新闻数据进行自动挖掘,并满足时效性和准确性要求。

权利要求书

权利要求书一种大规模数据下的新闻事件自动挖掘系统,其特征在于,主要包括接收模块、聚类处理模块、事件合并模块和缓存处理模块;其中:
所述接收模块,用于接收一个时间片段内推送到所述事件挖掘系统的新闻数据,并将上一个时间片段内积攒的新闻数据发送给聚类处理模块进行事件挖掘;
所述聚类处理模块,用于对接收到的新闻数据按照彼此间的标题或正文文本的相似程度进行层次式聚类处理,以挖掘出具有相同事件属性的若干个族,即新闻族;将所述新闻簇作为事件合并模块的输入,以便与历史事件进行比较;
所述事件合并模块,用于将经聚类处理形成的新事件与历史上形成的旧事件按照所述事件间的相似程度进行合并处理;以及
所述缓存处理模块,将新形成的事件与经过修改的历史事件发送到缓存模块作缓存处理。
根据权利要求1所述大规模数据下的新闻事件自动挖掘系统,其特征在于,所述时间合并模块,还用于对经过修改的旧事件与其他事件进行合并处理。
一种大规模数据下的新闻事件自动挖掘方法,其特征在于,该方法包括:
A、接收一个时间片段内推送到事件自动挖掘系统的新闻数据,并将上一个时间片段内积攒的新闻数据发送给聚类处理模块进行事件挖掘处理;
B、利用聚类处理模块对接收的新闻数据按照彼此之间标题或正文文本的相似程度进行层次式的聚类处理,挖掘出具有相同事件属性的若干个簇,即新闻族;然后将新闻簇作为下一个处理阶段的事件合并模块的输入;
C、通过事件合并模块对经过聚类处理形成的新事件与历史旧事件按照事件间的相似程度进行合并处理;
D、将新形成的事件或经过修改的历史事件发送到缓存模块作缓存处理。
根据权利要求3所述大规模数据下的新闻事件自动挖掘方法,其特征在于,所述步骤C进一步包括:对经过修改的旧事件与其他事件进行合并处理。
根据权利要求3所述大规模数据下的新闻事件自动挖掘方法,其特征在于,步骤B所述聚合的标准是按照新闻间标题以及正文的相似程度大小来进行判断的,而计算两条新闻之间的相似程度时,如果大于预设阈值则合并两篇新闻作为一个类别,即具有相同的事件属性,否则,不处理。
根据权利要求5所述大规模数据下的新闻事件自动挖掘方法,其特征在于,进一步包括:对于两个已经包含了多篇新闻的类别,按照UPGMA算法计算所述两个类别间的相似程度,大于预设阈值则认为其具有相同的事件属性,做合并处理,否则,不合并。
根据权利要求3所述大规模数据下的新闻事件自动挖掘方法,其特征在于,步骤C所述对新事件与历史旧事件进行合并处理,包括:
C1、将聚类处理后形成的新事件与历史旧事件按照规则进行合并处理,所述规则是:如果新事件与历史旧事件相似程度大于设定的阈值,则将新旧两个事件合并,否则不做任何处理;
C2、在旧事件中寻找可以合并处理的新闻事件进行合并处理。
根据权利要求7所述大规模数据下的新闻事件自动挖掘方法,其特征在于,步骤C1进一步包括:当一个新类别无法找到与其相似程度大于阈值的旧事件时,则将该类别作为新增事件添加到历史事件队列中。
根据权利要求3所述大规模数据下的新闻事件自动挖掘方法,其特征在于,所述缓存处理具体包括:定期淘汰过期事件。

说明书

说明书大规模数据下的新闻事件自动挖掘系统及其方法
技术领域
 本发明涉及数据挖掘技术领域,尤其涉及大规模数据下的新闻事件自动挖掘系统及其方法。
背景技术
 随着互联网技术的蓬勃发展,互联网上的新闻报道也呈现爆发式的增长。如何在海量的新闻信息中快速挖掘出需要的信息是一件值得研究的问题。
现有的层次式聚类是对给定的数据集合进行层次式的合并(或分解)的处理过程,在数据处理的过程中将根据数据间的相似程度来决定彼此之间合并的顺序。层次式聚类法与其他聚类或者分类方法相比,优点是层次式聚类法并不需要预先知道数据将会被划分为类别的数目,更适合互联网上新闻事件数目无法确切统计这一特点。但是层次聚类由于其算法本身的特性决定了其计算的复杂度较高,不利于在海量数据集合上进行扩展。因此面对互联网海量的新闻报道,如何设计一种能够在海量数据集合下使用的新闻事件挖掘技术是很有意义的。
发明内容
 有鉴于此,本发明的主要目的在于提供一种大规模数据下的新闻事件自动挖掘系统及其方法,在新闻信息量较大且不断递增时,能够对海量的新闻报道内容进行自动挖掘,动态修正挖掘结果,并满足时效性和准确性的要求。
为达到上述目的,本发明的技术方案是这样实现的:
一种大规模数据下的新闻事件自动挖掘系统,主要包括接收模块、聚类处理模块、事件合并模块和缓存处理模块;其中:
所述接收模块,用于接收一个时间片段内推送到所述事件挖掘系统的新闻数据,并将上一个时间片段内积攒的新闻数据发送给聚类处理模块进行事件挖掘;
所述聚类处理模块,用于对接收到的新闻数据按照彼此间的标题或正文文本的相似程度进行层次式聚类处理,以挖掘出具有相同事件属性的若干个族,即新闻族;将所述新闻簇作为事件合并模块的输入,以便与历史事件进行比较;
所述事件合并模块,用于将经聚类处理形成的新事件与历史上形成的旧事件按照所述事件间的相似程度进行合并处理;以及
所述缓存处理模块,将新形成的事件与经过修改的历史事件发送到缓存模块作缓存处理。
其中:所述时间合并模块,还用于对经过修改的旧事件与其他事件进行合并处理。
一种大规模数据下的新闻事件自动挖掘方法,该方法包括:
A、接收一个时间片段内推送到事件自动挖掘系统的新闻数据,并将上一个时间片段内积攒的新闻数据发送给聚类处理模块进行事件挖掘处理;
B、利用聚类处理模块对接收的新闻数据按照彼此之间标题或正文文本的相似程度进行层次式的聚类处理,挖掘出具有相同事件属性的若干个簇,即新闻族;然后将新闻簇作为下一个处理阶段的事件合并模块的输入;
C、通过事件合并模块对经过聚类处理形成的新事件与历史旧事件按照事件间的相似程度进行合并处理;
D、将新形成的事件或经过修改的历史事件发送到缓存模块作缓存处理。
其中:所述步骤C进一步包括:对经过修改的旧事件与其他事件进行合并处理。
步骤B所述聚合的标准是按照新闻间标题以及正文的相似程度大小来进行判断的,而计算两条新闻之间的相似程度时,如果大于预设阈值则合并两篇新闻作为一个类别,即具有相同的事件属性,否则,不处理。
进一步包括:对于两个已经包含了多篇新闻的类别,按照UPGMA算法计算所述两个类别间的相似程度,大于预设阈值则认为其具有相同的事件属性,做合并处理,否则,不合并。
步骤C所述对新事件与历史旧事件进行合并处理,包括:
C1、将聚类处理后形成的新事件与历史旧事件按照规则进行合并处理,所述规则是:如果新事件与历史旧事件相似程度大于设定的阈值,则将新旧两个事件合并,否则不做任何处理;
C2、在旧事件中寻找可以合并处理的新闻事件进行合并处理。
步骤C1进一步包括:当一个新类别无法找到与其相似程度大于阈值的旧事件时,则将该类别作为新增事件添加到历史事件队列中。
所述缓存处理具体包括:定期淘汰过期事件。
本发明所提供的大规模数据下的新闻事件自动挖掘系统及其方法,具有以下优点:
本发明提出的在海量递增的新闻数据下能够快速准确地进行事件自动挖掘系统,运用该系统能够解决同类系统无法同时满足的及时性及准确性的需求。
附图说明
图1为本发明大规模数据下的新闻事件自动挖掘系统框架示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的自动挖掘系统及其方法作进一步详细的说明。
本发明针对大规模新闻数据信息环境下,如何及时准确的挖掘出新闻事件而提出的自动聚类系统,主要利用了两次不同粒度的层次聚类的方法进行数据处理。
目前对对新闻数据进行事件挖掘的方法是把全部的新闻数据作为整体输入进行分类或者聚类的一次性处理方法。这种方法有两个缺陷:第一,这种集中式处理的方法的在数据规模上扩展性很差。此类方法在大规模新闻数据集合上的处理时间将会变得很长,不符合新闻事件挖掘及时性的需求。第二,一轮集中式的处理不利于事件的扩展。实际应用中的新闻报道是随着时间不断增多的,集中式的处理过程不利于将新增加的新闻报道添加到已经得到的事件结果中。
图1为本发明大规模数据下的新闻事件自动挖掘系统框架示意图,描述了该新闻事件自动挖掘系统的组成结构和对新闻事件的自动挖掘过程。所述新闻事件自动挖掘系统,主要包括接收模块、聚类处理模块、事件合并模块和缓存处理模块。其中:
所述接收模块,用于接收一个时间片段内推送到事件挖掘系统的新闻数据,并将上一个时间片段内积攒的新闻数据发送给聚类处理模块进行事件挖掘。
这里,该接收模块能够实时地接收新闻数据,并将一定时间片段内接收到的新闻数据交给聚类处理模块进行聚类处理。该过程是一直持续进行的,在接收本时间片段内的新闻数据的同时,上一个时间片段内的新闻数据已经被拿去进行聚类处理。
所述聚类处理模块,用于对接收的新闻数据按照彼此之间标题或正文文本的相似程度进行层次式的聚类处理,通过所述聚类处理可以挖掘出具有相同事件属性的若干个簇,称为新闻族;然后将所述新闻簇作为下一个处理阶段的事件合并模块的输入,以便与历史事件进行比较。
这里,聚类处理模块对新闻数据进行聚类处理的过程中,在一定时间窗口内由接收模块接收到的新闻数据会发送给聚类处理模块进行聚类处理。聚合的标准是按照新闻间标题以及正文的相似程度大小来进行判断的。计算两条新闻之间的相似程度时,如果大于阈值则合并两篇新闻作为一个类别,认为它们具有相同的事件属性,否则不做处理。同理,对于两个已经包含了多篇新闻的类别而言,按照UPGMA算法计算两个类别间的相似程度,大于阈值则认为它们具有相同的事件属性,应当被合并处理,否则不能合并。
所述事件合并模块,用于将经所述聚类处理形成的新事件与历史事件按照事件间的相似程度进行合并处理,然后再对经过修改的旧事件与其他事件进行合并处理。
下面简要介绍利用事件合并模块对新闻事件进行合并的过程:新闻数据在经过聚类处理后会形成一些具有相同事件属性的类别,因此这些类别可以被看成是不同的新闻事件。但是在这些新闻事件中,有些事件是新出现的事件,有些则是已有事件的延续报道,需要一个新旧事件合并处理的过程。
本过程可以分为两个步骤:首先是将聚类处理后形成的新事件与历史上的旧事件按照规则进行合并处理,这个规则是如果新事件与历史事件相似程度大于设定的阈值,则将新旧两个事件合并,否则不做任何处理。当一个新类别无法找到与其相似程度大于阈值的旧事件时,则把这个类别作为新增事件添加到历史事件队列中。第二个过程是在旧事件中寻找可以合并处理的新闻事件进行合并处理。进行这步处理的原因是在此之前的处理过程中会导致部分旧事件的属性发生变化,因此需要在这个过程中对修改的旧事件进行处理,将历史事件中与它们相似程度超过阈值的事件进行合并。
所述缓存处理模块,将新形成的事件与经过修改的历史事件发送到缓存模块作缓存处理。
下面对新闻事件的缓存处理过程进行介绍:经过合并处理后的新闻事件会被推送到缓存模块进行缓存处理,以方便前台读取或者其他有需求的模块读取。缓存模块会存储一定时间内的新闻事件,一个典型的例子是保存7天(注:时长可调)内有信息变动的新闻事件。所述缓存处理模块除了可以起到缓存事件并且定期淘汰过期事件的作用外,还可以使得数据处理与数据存储分隔开,避免数据处理过程中意外错误导致无法取得数据的缺点。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

大规模数据下的新闻事件自动挖掘系统及其方法.pdf_第1页
第1页 / 共8页
大规模数据下的新闻事件自动挖掘系统及其方法.pdf_第2页
第2页 / 共8页
大规模数据下的新闻事件自动挖掘系统及其方法.pdf_第3页
第3页 / 共8页
点击查看更多>>
资源描述

《大规模数据下的新闻事件自动挖掘系统及其方法.pdf》由会员分享,可在线阅读,更多相关《大规模数据下的新闻事件自动挖掘系统及其方法.pdf(8页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103020251 A (43)申请公布日 2013.04.03 CN 103020251 A *CN103020251A* (21)申请号 201210558059.3 (22)申请日 2012.12.20 G06F 17/30(2006.01) (71)申请人 人民搜索网络股份公司 地址 100020 北京市朝阳区东三环中路 1 号 环球金融中心西塔 16 层 (72)发明人 付万宇 黄丛蕊 薛飞 徐海瑞 杨之光 杨青 (74)专利代理机构 北京汇泽知识产权代理有限 公司 11228 代理人 刘淑敏 (54) 发明名称 大规模数据下的新闻事件自动挖掘系统及其 方法。

2、 (57) 摘要 本发明公开了一种大规模数据下的新闻事件 自动挖掘系统及其方法, 包括接收模块, 接收一个 时间片段内推送到所述事件挖掘系统的新闻数 据, 并将上一时间片段内积攒的新闻数据发送给 聚类处理模块进行事件挖掘 ; 聚类处理模块, 对 接收到的新闻数据按照彼此间的标题或正文文本 的相似程度进行层次式聚类处理, 以挖掘出具有 相同事件属性的新闻族 ; 事件合并模块, 将经聚 类处理形成的新事件与历史上形成的旧事件按照 所述事件间的相似程度进行合并处理 ; 缓存处理 模块, 将新形成的事件与经过修改的历史事件发 送到缓存模块作缓存处理。 采用本发明, 能够对海 量新闻数据进行自动挖掘, 。

3、并满足时效性和准确 性要求。 (51)Int.Cl. 权利要求书 2 页 说明书 4 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 4 页 附图 1 页 1/2 页 2 1. 一种大规模数据下的新闻事件自动挖掘系统, 其特征在于, 主要包括接收模块、 聚类 处理模块、 事件合并模块和缓存处理模块 ; 其中 : 所述接收模块, 用于接收一个时间片段内推送到所述事件挖掘系统的新闻数据, 并将 上一个时间片段内积攒的新闻数据发送给聚类处理模块进行事件挖掘 ; 所述聚类处理模块, 用于对接收到的新闻数据按照彼此间的标题或正文文本的相似程 度进。

4、行层次式聚类处理, 以挖掘出具有相同事件属性的若干个族, 即新闻族 ; 将所述新闻簇 作为事件合并模块的输入, 以便与历史事件进行比较 ; 所述事件合并模块, 用于将经聚类处理形成的新事件与历史上形成的旧事件按照所述 事件间的相似程度进行合并处理 ; 以及 所述缓存处理模块, 将新形成的事件与经过修改的历史事件发送到缓存模块作缓存处 理。 2. 根据权利要求 1 所述大规模数据下的新闻事件自动挖掘系统, 其特征在于, 所述时 间合并模块, 还用于对经过修改的旧事件与其他事件进行合并处理。 3. 一种大规模数据下的新闻事件自动挖掘方法, 其特征在于, 该方法包括 : A、 接收一个时间片段内推送。

5、到事件自动挖掘系统的新闻数据, 并将上一个时间片段内 积攒的新闻数据发送给聚类处理模块进行事件挖掘处理 ; B、 利用聚类处理模块对接收的新闻数据按照彼此之间标题或正文文本的相似程度进 行层次式的聚类处理, 挖掘出具有相同事件属性的若干个簇, 即新闻族 ; 然后将新闻簇作为 下一个处理阶段的事件合并模块的输入 ; C、 通过事件合并模块对经过聚类处理形成的新事件与历史旧事件按照事件间的相似 程度进行合并处理 ; D、 将新形成的事件或经过修改的历史事件发送到缓存模块作缓存处理。 4. 根据权利要求 3 所述大规模数据下的新闻事件自动挖掘方法, 其特征在于, 所述步 骤 C 进一步包括 : 对经。

6、过修改的旧事件与其他事件进行合并处理。 5.根据权利要求3所述大规模数据下的新闻事件自动挖掘方法, 其特征在于, 步骤B所 述聚合的标准是按照新闻间标题以及正文的相似程度大小来进行判断的, 而计算两条新闻 之间的相似程度时, 如果大于预设阈值则合并两篇新闻作为一个类别, 即具有相同的事件 属性, 否则, 不处理。 6. 根据权利要求 5 所述大规模数据下的新闻事件自动挖掘方法, 其特征在于, 进一步 包括 : 对于两个已经包含了多篇新闻的类别, 按照 UPGMA 算法计算所述两个类别间的相似 程度, 大于预设阈值则认为其具有相同的事件属性, 做合并处理, 否则, 不合并。 7.根据权利要求3所。

7、述大规模数据下的新闻事件自动挖掘方法, 其特征在于, 步骤C所 述对新事件与历史旧事件进行合并处理, 包括 : C1、 将聚类处理后形成的新事件与历史旧事件按照规则进行合并处理, 所述规则是 : 如 果新事件与历史旧事件相似程度大于设定的阈值, 则将新旧两个事件合并, 否则不做任何 处理 ; C2、 在旧事件中寻找可以合并处理的新闻事件进行合并处理。 8. 根据权利要求 7 所述大规模数据下的新闻事件自动挖掘方法, 其特征在于, 步骤 C1 进一步包括 : 当一个新类别无法找到与其相似程度大于阈值的旧事件时, 则将该类别作为 权 利 要 求 书 CN 103020251 A 2 2/2 页 3。

8、 新增事件添加到历史事件队列中。 9. 根据权利要求 3 所述大规模数据下的新闻事件自动挖掘方法, 其特征在于, 所述缓 存处理具体包括 : 定期淘汰过期事件。 权 利 要 求 书 CN 103020251 A 3 1/4 页 4 大规模数据下的新闻事件自动挖掘系统及其方法 技术领域 0001 本发明涉及数据挖掘技术领域, 尤其涉及大规模数据下的新闻事件自动挖掘系 统及其方法。 背景技术 0002 随着互联网技术的蓬勃发展, 互联网上的新闻报道也呈现爆发式的增长。 如何在 海量的新闻信息中快速挖掘出需要的信息是一件值得研究的问题。 0003 现有的层次式聚类是对给定的数据集合进行层次式的合并 。

9、(或分解) 的处理过程, 在数据处理的过程中将根据数据间的相似程度来决定彼此之间合并的顺序。 层次式聚类法 与其他聚类或者分类方法相比, 优点是层次式聚类法并不需要预先知道数据将会被划分为 类别的数目, 更适合互联网上新闻事件数目无法确切统计这一特点。但是层次聚类由于其 算法本身的特性决定了其计算的复杂度较高, 不利于在海量数据集合上进行扩展。因此面 对互联网海量的新闻报道, 如何设计一种能够在海量数据集合下使用的新闻事件挖掘技术 是很有意义的。 发明内容 0004 有鉴于此, 本发明的主要目的在于提供一种大规模数据下的新闻事件自动挖掘 系统及其方法, 在新闻信息量较大且不断递增时, 能够对海。

10、量的新闻报道内容进行自动挖 掘, 动态修正挖掘结果, 并满足时效性和准确性的要求。 0005 为达到上述目的, 本发明的技术方案是这样实现的 : 一种大规模数据下的新闻事件自动挖掘系统, 主要包括接收模块、 聚类处理模块、 事件 合并模块和缓存处理模块 ; 其中 : 所述接收模块, 用于接收一个时间片段内推送到所述事件挖掘系统的新闻数据, 并将 上一个时间片段内积攒的新闻数据发送给聚类处理模块进行事件挖掘 ; 所述聚类处理模块, 用于对接收到的新闻数据按照彼此间的标题或正文文本的相似程 度进行层次式聚类处理, 以挖掘出具有相同事件属性的若干个族, 即新闻族 ; 将所述新闻簇 作为事件合并模块的。

11、输入, 以便与历史事件进行比较 ; 所述事件合并模块, 用于将经聚类处理形成的新事件与历史上形成的旧事件按照所述 事件间的相似程度进行合并处理 ; 以及 所述缓存处理模块, 将新形成的事件与经过修改的历史事件发送到缓存模块作缓存处 理。 0006 其中 : 所述时间合并模块, 还用于对经过修改的旧事件与其他事件进行合并处理。 0007 一种大规模数据下的新闻事件自动挖掘方法, 该方法包括 : A、 接收一个时间片段内推送到事件自动挖掘系统的新闻数据, 并将上一个时间片段内 积攒的新闻数据发送给聚类处理模块进行事件挖掘处理 ; B、 利用聚类处理模块对接收的新闻数据按照彼此之间标题或正文文本的相。

12、似程度进 说 明 书 CN 103020251 A 4 2/4 页 5 行层次式的聚类处理, 挖掘出具有相同事件属性的若干个簇, 即新闻族 ; 然后将新闻簇作为 下一个处理阶段的事件合并模块的输入 ; C、 通过事件合并模块对经过聚类处理形成的新事件与历史旧事件按照事件间的相似 程度进行合并处理 ; D、 将新形成的事件或经过修改的历史事件发送到缓存模块作缓存处理。 0008 其中 : 所述步骤 C 进一步包括 : 对经过修改的旧事件与其他事件进行合并处理。 0009 步骤 B 所述聚合的标准是按照新闻间标题以及正文的相似程度大小来进行判断 的, 而计算两条新闻之间的相似程度时, 如果大于预设。

13、阈值则合并两篇新闻作为一个类别, 即具有相同的事件属性, 否则, 不处理。 0010 进一步包括 : 对于两个已经包含了多篇新闻的类别, 按照 UPGMA 算法计算所述两 个类别间的相似程度, 大于预设阈值则认为其具有相同的事件属性, 做合并处理, 否则, 不 合并。 0011 步骤 C 所述对新事件与历史旧事件进行合并处理, 包括 : C1、 将聚类处理后形成的新事件与历史旧事件按照规则进行合并处理, 所述规则是 : 如 果新事件与历史旧事件相似程度大于设定的阈值, 则将新旧两个事件合并, 否则不做任何 处理 ; C2、 在旧事件中寻找可以合并处理的新闻事件进行合并处理。 0012 步骤 C。

14、1 进一步包括 : 当一个新类别无法找到与其相似程度大于阈值的旧事件时, 则将该类别作为新增事件添加到历史事件队列中。 0013 所述缓存处理具体包括 : 定期淘汰过期事件。 0014 本发明所提供的大规模数据下的新闻事件自动挖掘系统及其方法, 具有以下优 点 : 本发明提出的在海量递增的新闻数据下能够快速准确地进行事件自动挖掘系统, 运用 该系统能够解决同类系统无法同时满足的及时性及准确性的需求。 附图说明 0015 图 1 为本发明大规模数据下的新闻事件自动挖掘系统框架示意图。 具体实施方式 0016 下面结合附图及本发明的实施例对本发明的自动挖掘系统及其方法作进一步详 细的说明。 001。

15、7 本发明针对大规模新闻数据信息环境下, 如何及时准确的挖掘出新闻事件而提出 的自动聚类系统, 主要利用了两次不同粒度的层次聚类的方法进行数据处理。 0018 目前对对新闻数据进行事件挖掘的方法是把全部的新闻数据作为整体输入进行 分类或者聚类的一次性处理方法。 这种方法有两个缺陷 : 第一, 这种集中式处理的方法的在 数据规模上扩展性很差。此类方法在大规模新闻数据集合上的处理时间将会变得很长, 不 符合新闻事件挖掘及时性的需求。第二, 一轮集中式的处理不利于事件的扩展。实际应用 中的新闻报道是随着时间不断增多的, 集中式的处理过程不利于将新增加的新闻报道添加 到已经得到的事件结果中。 说 明 。

16、书 CN 103020251 A 5 3/4 页 6 0019 图 1 为本发明大规模数据下的新闻事件自动挖掘系统框架示意图, 描述了该新闻 事件自动挖掘系统的组成结构和对新闻事件的自动挖掘过程。所述新闻事件自动挖掘系 统, 主要包括接收模块、 聚类处理模块、 事件合并模块和缓存处理模块。其中 : 所述接收模块, 用于接收一个时间片段内推送到事件挖掘系统的新闻数据, 并将上一 个时间片段内积攒的新闻数据发送给聚类处理模块进行事件挖掘。 0020 这里, 该接收模块能够实时地接收新闻数据, 并将一定时间片段内接收到的新闻 数据交给聚类处理模块进行聚类处理。该过程是一直持续进行的, 在接收本时间片。

17、段内的 新闻数据的同时, 上一个时间片段内的新闻数据已经被拿去进行聚类处理。 0021 所述聚类处理模块, 用于对接收的新闻数据按照彼此之间标题或正文文本的相似 程度进行层次式的聚类处理, 通过所述聚类处理可以挖掘出具有相同事件属性的若干个 簇, 称为新闻族 ; 然后将所述新闻簇作为下一个处理阶段的事件合并模块的输入, 以便与历 史事件进行比较。 0022 这里, 聚类处理模块对新闻数据进行聚类处理的过程中, 在一定时间窗口内由接 收模块接收到的新闻数据会发送给聚类处理模块进行聚类处理。 聚合的标准是按照新闻间 标题以及正文的相似程度大小来进行判断的。计算两条新闻之间的相似程度时, 如果大于 。

18、阈值则合并两篇新闻作为一个类别, 认为它们具有相同的事件属性, 否则不做处理。同理, 对于两个已经包含了多篇新闻的类别而言, 按照 UPGMA 算法计算两个类别间的相似程度, 大于阈值则认为它们具有相同的事件属性, 应当被合并处理, 否则不能合并。 0023 所述事件合并模块, 用于将经所述聚类处理形成的新事件与历史事件按照事件间 的相似程度进行合并处理, 然后再对经过修改的旧事件与其他事件进行合并处理。 0024 下面简要介绍利用事件合并模块对新闻事件进行合并的过程 : 新闻数据在经过聚 类处理后会形成一些具有相同事件属性的类别, 因此这些类别可以被看成是不同的新闻事 件。但是在这些新闻事件。

19、中, 有些事件是新出现的事件, 有些则是已有事件的延续报道, 需 要一个新旧事件合并处理的过程。 0025 本过程可以分为两个步骤 : 首先是将聚类处理后形成的新事件与历史上的旧事件 按照规则进行合并处理, 这个规则是如果新事件与历史事件相似程度大于设定的阈值, 则 将新旧两个事件合并, 否则不做任何处理。当一个新类别无法找到与其相似程度大于阈值 的旧事件时, 则把这个类别作为新增事件添加到历史事件队列中。第二个过程是在旧事件 中寻找可以合并处理的新闻事件进行合并处理。进行这步处理的原因是在此之前的处理 过程中会导致部分旧事件的属性发生变化, 因此需要在这个过程中对修改的旧事件进行处 理, 将。

20、历史事件中与它们相似程度超过阈值的事件进行合并。 0026 所述缓存处理模块, 将新形成的事件与经过修改的历史事件发送到缓存模块作缓 存处理。 0027 下面对新闻事件的缓存处理过程进行介绍 : 经过合并处理后的新闻事件会被推 送到缓存模块进行缓存处理, 以方便前台读取或者其他有需求的模块读取。缓存模块会存 储一定时间内的新闻事件, 一个典型的例子是保存 7 天 (注 : 时长可调) 内有信息变动的新 闻事件。所述缓存处理模块除了可以起到缓存事件并且定期淘汰过期事件的作用外, 还可 以使得数据处理与数据存储分隔开, 避免数据处理过程中意外错误导致无法取得数据的缺 点。 说 明 书 CN 103020251 A 6 4/4 页 7 0028 以上所述, 仅为本发明的较佳实施例而已, 并非用于限定本发明的保护范围。 说 明 书 CN 103020251 A 7 1/1 页 8 图 1 说 明 书 附 图 CN 103020251 A 8 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1