《基于排序学习技术的热门事件排名方法.pdf》由会员分享,可在线阅读,更多相关《基于排序学习技术的热门事件排名方法.pdf(6页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103077190 A(43)申请公布日 2013.05.01CN103077190A*CN103077190A*(21)申请号 201210560212.6(22)申请日 2012.12.20G06F 17/30(2006.01)(71)申请人人民搜索网络股份公司地址 100020 北京市朝阳区东三环中路1号环球金融中心西塔16层(72)发明人黄丛蕊 薛飞 付万宇 杨之光杨青(74)专利代理机构北京汇泽知识产权代理有限公司 11228代理人刘淑敏(54) 发明名称基于排序学习技术的热门事件排名方法(57) 摘要本发明公开了一种基于排序学习技术的热门事件排名方法,该方。
2、法包括:A、在线上抓取新闻网页,通过聚类处理将新闻网页映射为事件的步骤;B、为每个事件提取排名所需的各种特征项的步骤;通过特征提取,获得与新闻事件相关的各项特征,为计算模型做输入准备;C、收集训练数据,并标注事件热度的步骤;D、利用排序学习中的Pairwise方法训练出事件热度排名模型,利用该模型计算新闻事件的热度得分并存入事件索引,从而得到热门事件的排名信息。利用本发明方法,能够对互联网上的新闻数据进行处理,并根据事件的相关特征,获得对有新闻价值的新闻事件的排名,增强新闻的分类性。(51)Int.Cl.权利要求书1页 说明书3页 附图1页(19)中华人民共和国国家知识产权局(12)发明专利申。
3、请权利要求书1页 说明书3页 附图1页(10)申请公布号 CN 103077190 ACN 103077190 A1/1页21.一种基于排序学习技术的热门事件排名方法,其特征在于,该方法包括:A、在线上抓取新闻网页,通过聚类处理将新闻网页映射为事件的步骤;B、为每个事件提取排名所需的各种特征项的步骤;通过特征提取,获得与新闻事件相关的各项特征,为计算模型做输入准备;C、收集训练数据,并标注事件热度的步骤;D、利用排序学习中的Pairwise方法训练出事件热度排名模型,利用该模型计算新闻事件的热度得分并存入事件索引,从而得到热门事件的排名信息。2.根据权利要求1所述的基于排序学习技术的热门事件排。
4、名方法,其特征在于,步骤B所述的特征项,主要包括事件中热词的比例、事件新闻数比例、知名媒体新闻比例、知名媒体评论比例、相关微博数量比例以及事件热度得分。3.根据权利要求2所述的基于排序学习技术的热门事件排名方法,其特征在于,所述事件热度得分hot(d)具体为:其中:decay(t)为衰减函数,d为当前时刻,t为事件在第t个时刻新增的报道量;d为事件在当前时刻的报道量。权 利 要 求 书CN 103077190 A1/3页3基于排序学习技术的热门事件排名方法技术领域0001 本发明涉及计算机数据挖掘领域,尤其涉及一种基于排序学习(learning torank)技术的热门事件排名方法。背景技术0。
5、002 随着互联网的发展,新闻已经不再局限于电视、报纸这类传统传播方式,网络平台已经成为新闻传播的新途径。新闻网站、论坛、社交网络等都是发布新闻或发表言论的新型媒介。海量信息带来资讯价值的同时,也给用户阅读带来了不便,不利于用户关注热点事件,如何从海量信息中挖掘出热门新闻事件,使得用户不遗漏值得关注的新闻事件成为当下热门的研究点。0003 目前大部分的网站都在显著位置对新闻事件进行排名或推荐,有些网站只给出最新的新闻事件,有的则根据新闻的点击量给出简单的新闻事件排名,部分网站的热点新闻是由编辑提供的,新闻搜索则只能根据特定关键词给出相关新闻。由此可见,自动有效的热点新闻事件排名对于新闻的展示非。
6、常有必要。0004 排序学习(Learning to Rank),作为一种基于监督学习的排序方法,最早用于搜索引擎检索结果的排序。传统的排序方法一般是通过构造一个排序函数(Scoring Function)来实现,但由于影响排序的因素很多,对于传统的排序模型,参数增加会使传统的经验方法调整参数变得困难。发明内容0005 有鉴于此,本发明的主要目的在于提供一种基于排序学习(learning to rank)技术的热门事件排名方法,其利用机器学习技术,对互联网上的新闻数据进行处理,并根据事件的相关特征,获得对有新闻价值的新闻事件的排名,增强新闻的分类性。0006 为达到上述目的,本发明的技术方案是。
7、这样实现的:0007 一种基于排序学习技术的热门事件排名方法,该方法包括:0008 A、在线上抓取新闻网页,通过聚类处理将新闻网页映射为事件的步骤;0009 B、为每个事件提取排名所需的各种特征项的步骤;通过特征提取,获得与新闻事件相关的各项特征,为计算模型做输入准备;0010 C、收集训练数据,并标注事件热度的步骤;0011 D、利用排序学习中的Pairwise方法训练出事件热度排名模型,利用该模型计算新闻事件的热度得分并存入事件索引,从而得到热门事件的排名信息。0012 其中:步骤B所述的特征项,主要包括事件中热词的比例、事件新闻数比例、知名媒体新闻比例、知名媒体评论比例、相关微博数量比例。
8、以及事件热度得分。0013 所述事件热度得分hot(d)具体为:说 明 书CN 103077190 A2/3页40014 0015 其中:decay(t)为衰减函数,d为当前时刻,t为事件在第t个时刻新增的报道量;d为事件在当前时刻的报道量。0016 本发明所提供的基于排序学习(learning to rank)技术的热门事件排名方法,具有以下优点:0017 本发明方法主要针对当前新闻网页资源过多,可读性差的现况,利用机器学习技术,利用聚类处理将新闻网页映射为事件,通过提取排名所需的各项特征,将新闻事件进行排名,增强新闻事件的分类性。利用该方法,能够增强可读性,不仅提高了用户体验,还提升了新闻。
9、价值。附图说明0018 图1为本发明基于排序学习技术的热门事件排名方法。具体实施方式0019 下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。0020 图1为本发明基于排序学习(Learning to rank)技术的热门事件排名方法。这里,基于排序学习的热门事件排名策略,分为线上和线下两部分。线下部分用于收集数据,利用聚类算法生成事件,在提取相关事件特征之后,人工标注数据,并将数据划分为训练集合测试集,根据训练样本和测试样本训练出排序模型。0021 如图1所示,该方法主要包括如下步骤:0022 步骤10:在线上抓取新闻网页,通过聚类处理将新闻网页映射为事件的步骤。进一步地,还可。
10、利用事件的开始时间,将事件划分到不同的日期。0023 这里,新闻网页抓取的过程。例如:收集部分新闻网站作为抓取种子,如人民网、新华网、网易新闻等,从这些网站上获取新闻网页,并进行正文提取,获得新闻的发布时间和媒体信息,如新闻有评论模块,则抓取其页面上的评论数目。从新闻网页获取事件,主要通过聚类算法实现,利用聚类算法将新闻网页映射到事件。0024 步骤11:为每个事件提取排名所需的各种特征的步骤。通过特征提取,获得与新闻事件相关的各项特征,为计算模型做输入准备。0025 例如,主要特征项包括但不限于如下几项。0026 1)事件中热词的比例:对于每天的事件,我们利用TFIDF统计这一天中出现在各个。
11、新闻中的词,并认为前N个词为这一天的新闻热词,统计各个事件中热词的比例。统计事件热词比例,可利用TF-IDF模型将新闻网页转化为向量空间,为新闻中的每个词计算权重weight(d,w),计算方法如公式(1)所示:0027 0028 其中:tf(d,w)为一个词w在新闻d中出现的次数,df(w)是词w出现的新闻文档数,N是训练数据中一天的文档数。0029 利用词的权重,我们可以获得每天的热词,并可以间接获得每个事件的关键词。说 明 书CN 103077190 A3/3页50030 2)事件新闻数比例:对于每个事件,统计新闻的数量,并计算其在新闻总量中的比重。0031 3)知名媒体新闻比例:收集知。
12、名媒体表,如新浪、网易、人民网等,统计事件中新闻知名媒体的数量占其新闻报道媒体总量的比例。0032 4)知名媒体评论比例:对于各个事件,收集知名媒体新闻页面上用户评论的数量,针对每个事件,统计评论数量占据新闻评论总量的比例。0033 5)相关微博数量比例:对于各个事件,根据事件关键词在微博上搜索微博数量,统计每个事件微博数量占整个微博数量的比例。0034 6)热度得分:对于各个事件而言,为其计算热度得分,一般而言,媒体报道量直观的反应了这个事件的流行度,但是随着时间的推移之前的报道在当前看来已经没那么重要,本发明提出了一种热度得分公式来为每个事件计算其热度得分。计算计算热度得分的过程:0035。
13、 事件的报道量是一个事件是否热门最直接的反应,新闻事件有其特定的生命周期,从发生、发展到衰亡,事件的影响力随着时间的推移而逐步下降,且这种衰减因子不应当是一个固定的值,衰减因子应当随时间的增长而变大。我们借助艾宾浩斯记忆曲线来计算衰减因子,因此衰减函数decay(t)如公式(2)所示:0036 0037 设定当前时刻为d,t为事件在第t个时刻新增的报道量,d为事件在当前时刻的报道量。则事件热度得分hot(d)可利用(3)式获得:0038 0039 步骤12:收集训练数据,并标注事件热度的步骤。如,可以将事件热度规定为5个等级。具体如下:0040 给出以下评判标准,先标注事件后给相应事件打分,针对一个事件,取所有打分的平均分。0041 0042 步骤13:利用排序学习中的Pairwise方法训练出事件热度排名模型,利用该模型计算新闻事件的热度得分,存入事件索引,从而得到热门事件的排名信息。0043 这里,该排名(Learning to Rank)模型,利用排序向量机(Ranking SVM),将不同等级得分的事件映射为偏序关系,建立模型输入,调节参数,并利用测试数据,测试准确率。0044 以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。说 明 书CN 103077190 A1/1页6图1说 明 书 附 图CN 103077190 A。