一种相关文章的选取方法和装置.pdf

上传人:n****g 文档编号:1026104 上传时间:2018-03-26 格式:PDF 页数:23 大小:1.04MB
返回 下载 相关 举报
摘要
申请专利号:

CN200910107940.X

申请日:

2009.06.11

公开号:

CN101576928A

公开日:

2009.11.11

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20091111|||实质审查的生效|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

腾讯科技(深圳)有限公司

发明人:

付 恒; 赵琳霖; 耿方圆

地址:

518057广东省深圳市高新科技园南区高新南一道飞亚达高科技大厦5-10层

优先权:

专利代理机构:

深圳市顺天达专利商标代理有限公司

代理人:

郭伟刚

PDF下载: PDF下载
内容摘要

本发明涉及一种相关文章的选取方法和装置,所述方法包括:S1.建立希望被推荐的文章的索引数据库;S2.分析给定的文章以确定所述给定的文章的核心词;S3.根据所述核心词从所述索引数据库中选取所述给定文章的相关文章。所述装置包括索引数据库,用于存储希望被推荐的文章;核心词确定模块,用于分析给定的文章以确定所述给定的文章的核心词;选取模块,用于根据所述核心词从所述索引数据库中选取所述给定文章的相关文章。本发明通过用于分析给定的文章以确定所述给定的文章的核心词,从而选取所述给定文章的相关文章,无需人工操作,简化了操作流程,并且能针对不同文章的不同读者,有针对性地提供相关文章,满足读者的个性化需求。

权利要求书

1、  一种相关文章的选取方法,其特征在于,所述方法包括:
S1、建立希望被推荐的文章的索引数据库;
S2、分析给定的文章以确定所述给定的文章的核心词;
S3、根据所述核心词从所述索引数据库中选取所述给定文章的相关文章。

2、
  根据权利要求1所述的相关文章的选取方法,其特征在于,所述步骤S1进一步包括:
S11、对希望被推荐的文章进行预处理;
S12、对预处理后的希望被推荐的文章进行分词;
S13、根据分词结果建立每个词到包含所述词的文章的索引并存储到所述索引数据库。

3、
  根据权利要求2所述的相关文章的选取方法,其特征在于,所述步骤S11进一步包括:
S 111、过滤掉不符合预设规定的希望被推荐的文章;
S112、对符合预设规定的希望被推荐的文章设定权重;
S113、对希望被推荐的文章中文章标题相同的文章进行排重。

4、
  根据权利要求2所述的相关文章的选取方法,其特征在于,所述步骤S12进一步包括:去掉分词结果中的单字和停用词。

5、
  根据权利要求1-4中任一权利要求所述的相关文章的选取方法,其特征在于,所述步骤S2包括:
S21、对给定的文章进行分词;
S22、选择至少一个词频最高的词作为核心词。

6、
  根据权利要求5所述的相关文章的选取方法,其特征在于,所述步骤S22进一步包括:
S221、当获得的文章正文的分词结果少于一定数量时,将所有的词都作为核心词;否则将文章正文中词频大于1的词进行类别;
S222、在各个类别中选取至少一个词频最高的词作为正文核心词并按照词频大小赋予不同权重;
S223、将文章标题中的词进行类别以作为标题核心词,并按照词频大小赋予不同权重;
S224、对正文核心词和标题核心词进行排重以获得全文核心词及其权重。

7、
  根据权利要求6所述的相关文章的选取方法,其特征在于,所述步骤S22进一步包括加入文章所在的版面名称及其权重,并对所述版面名称和所述全文核心词进行排重以获得核心词。

8、
  根据权利要求6或7所述的相关文章的选取方法,其特征在于,所述步骤S3进一步包括:
S31、基于所述核心词在所述索引数据库中查询出与所述给定文章相关的希望被推荐的文章;
S32、基于所述核心词的权重和所述希望被推荐的文章的权重选择相关文章。

9、
  根据权利要求8所述的相关文章的选取方法,其特征在于,所述步骤S32进一步包括:
S321、基于所述核心词的权重和所述希望被推荐的文章的权重确定所述希望被推荐的文章的相关性评分并去掉所述相关性评分低于设定值的文章;
S322、采用数学方法将所述相关性评分高于设定值的文章的评分拟合成一条曲线,计算出所述曲线的第一拐点,并去掉所述拐点以后的文章。

10、
  一种相关文章的选取装置,其特征在于,所述装置包括:
索引数据库,用于存储希望被推荐的文章;
核心词确定模块,用于分析给定的文章以确定所述给定的文章的核心词;
选取模块,用于根据所述核心词从所述索引数据库中选取所述给定文章的相关文章。

11、
  根据权利要求10所述的相关文章的选取装置,其特征在于,所述索引数据库进一步包括:
预处理单元,用于对希望被推荐的文章进行预处理;
第一分词单元,用于对预处理后的希望被推荐的文章进行分词;
构建单元,用于根据分词结果建立每个词到包含所述词的文章的索引并存储到所述索引数据库。

12、
  根据权利要求11所述的相关文章的选取装置,其特征在于,所述预处理包括:过滤掉不符合预设规定的希望被推荐的文章、对符合预设规定的希望被推荐的文章设定权重和/或对希望被推荐的文章中文章标题相同的文章进行排重。

13、
  根据权利要求10-12中任一权利要求所述的相关文章的选取装置,其特征在于,所述核心词确定模块进一步包括:
第二分词单元,用于对给定的文章进行分词;
核心词选定单元,用于选择至少一个词频最高的词作为核心词。

14、
  根据权利要求13所述的相关文章的选取装置,其特征在于,所述选取模块进一步包括:
查询单元,用于基于所述核心词在所述索引数据库中查询出与所述给定文章相关的希望被推荐的文章;
选定单元,用于基于所述核心词的权重和所述希望被推荐的文章的权重选择相关文章。

说明书

一种相关文章的选取方法和装置
技术领域
本发明涉及计算机网络技术领域,更具体地说,涉及一种网络中相关文章的选取方法和装置。
背景技术
随着互联网技术的发展,网络逐渐成为人们获取资讯的重要来源。然而随着互联网信息量呈几何级增长,摆在用户面前的是纷繁复杂的各种信息。为了将信息迅速、有针对性地提供感兴趣给用户,各个门户网站都在用户阅读门户新闻、博客或帖子时,向用户提供推荐文章。
这些推荐文章一般是通过人工整理的方式确定的,也就是通过编辑人员阅读大量的文章,然后人为的将某些相关的文章确定为针对某一文章的读者的推荐文章。以这种方式向读者提供推荐文章的缺陷在于,其需要大量的人工操作,所需的人工成本很高。
这些推荐文章也可以是固定推荐的,也就是通过人工整理的方式确定一组或是多组推荐文章,然后将这一组推荐文章提供给该网站上所有文章的读者或是将多组推荐文章随机地提供给所有的读者。以这种方式向读者提供推荐文章的缺陷在于,推荐内容不够灵活,不能针对每个文章的读者来推荐不同的内容,因此不能满足读者的个性化需求。
综上所述,现有技术的向网络文章读者提供推荐文章的技术方案,要不需要大量的人工操作,所需的人工成本很高;要不推荐的内容不够灵活,不能满足读者的个性化需求,所以需要一种能够同时满足两方面的要求的相关文章的选取方法。
发明内容
本发明要解决的技术问题在于,针对现有技术的要不需要大量的人工操作,所需的人工成本很高;要不推荐的内容不够灵活,不能满足读者的个性化需求的缺陷,提供一种网络中相关文章的选取方法和装置。
为了实现发明目的,提供了一种网络中相关文章的选取方法,所述方法包括:
S1、建立希望被推荐的文章的索引数据库;
S2、分析给定的文章以确定所述给定的文章的核心词;
S3、根据所述核心词从所述索引数据库中选取所述给定文章的相关文章。
优选地,所述步骤S1进一步包括:
S11、对希望被推荐的文章进行预处理;
S12、对预处理后的希望被推荐的文章进行分词;
S13、根据分词结果建立每个词到包含所述词的文章的索引并存储到所述索引数据库。
优选地,所述步骤S11进一步包括:
S111、过滤掉不符合预设规定的希望被推荐的文章;
S112、对符合预设规定的希望被推荐的文章设定权重;
S113、对希望被推荐的文章中文章标题相同的文章进行排重。
优选地,所述步骤S12进一步包括:去掉分词结果中的单字和停用词。
优选地,所述步骤S2包括:
S21、对给定的文章进行分词;
S22、选择至少一个词频最高的词作为核心词。
优选地,所述步骤S22进一步包括:
S221、当获得的文章正文的分词结果少于一定数量时,将所有的词都作为核心词;否则将文章正文中词频大于1的词进行类别;
S222、在各个类别中选取至少一个词频最高的词作为正文核心词并按照词频大小赋予不同权重;
S223、将文章标题中的词进行类别以作为标题核心词,并按照词频大小赋予不同权重;
S224、对正文核心词和标题核心词进行排重以获得全文核心词及其权重。
优选地,所述步骤S22进一步包括加入文章所在的版面名称及其权重,并对所述版面名称和所述全文核心词进行排重以获得核心词。
优选地,所述步骤S3进一步包括:
S31、基于所述核心词在所述索引数据库中查询出与所述给定文章相关的希望被推荐的文章;
S32、基于所述核心词的权重和所述希望被推荐的文章的权重选择相关文章。
优选地,所述步骤S32进一步包括:
S321、基于所述核心词的权重和所述希望被推荐的文章的权重确定所述希望被推荐的文章的相关性评分并去掉所述相关性评分低于设定值的文章;
S322、采用数学方法将所述相关性评分高于设定值的文章的评分拟合成一条曲线,计算出所述曲线的第一拐点,并去掉所述拐点以后的文章。
为了更好地实现发明目的,提供了一种相关文章的选取装置,所述装置包括:
索引数据库,用于存储希望被推荐的文章;
核心词确定模块,用于分析给定的文章以确定所述给定的文章的核心词;
选取模块,用于根据所述核心词从所述索引数据库中选取所述给定文章的相关文章。
优选地,所述索引数据库进一步包括:
预处理单元,用于对希望被推荐的文章进行预处理;
第一分词单元,用于对预处理后的希望被推荐的文章进行分词;
构建单元,用于根据分词结果建立每个词到包含所述词的文章的索引并存储到所述索引数据库。
优选地,所述预处理包括:过滤掉不符合预设规定的希望被推荐的文章、对符合预设规定的希望被推荐的文章设定权重和/或对希望被推荐的文章中文章标题相同的文章进行排重。
优选地,所述核心词确定模块进一步包括:
第二分词单元,用于对给定的文章进行分词;
核心词选定单元,用于选择至少一个词频最高的词作为核心词。
优选地,所述选取模块进一步包括:
查询单元,用于基于所述核心词在所述索引数据库中查询出与所述给定文章相关的希望被推荐的文章;
选定单元,用于基于所述核心词的权重和所述希望被推荐的文章的权重选择相关文章。
本发明通过用于分析给定的文章以确定所述给定的文章的核心词,从而选取所述给定文章的相关文章,无需人工操作,简化了操作流程,并且能针对不同文章的不同读者,有针对性地提供相关文章,满足读者的个性化需求。
更进一步地,由于本发明中将分词、索引技术引入相关性计算,大大降低处理问题的难度;并且确定文章权重设置规则,从而提高相关性计算的效果。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明的一种相关文章的选取方法的第一实施例的流程图;
图2是本发明的一种相关文章的选取方法的第二实施例的流程图;
图3是本发明的一种相关文章的选取方法的第三实施例的流程图;
图4是图3示出的本发明一种相关文章的选取方法的第三实施例的步骤S306的又一实施例的流程图;
图5是本发明的一种相关文章的选取装置的第一实施例的原理框图;
图6是本发明的一种相关文章的选取装置的第二实施例的原理框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明中用到的表述“相关”是指两篇或多篇文章表达相同或相近的主题;表述“分词”是指将连续的文章分割成单独的词汇;表述“索引”是指将文章中的词汇按照一定方式有序编排,使可以快速通过词汇查找到包含该词汇的文章;表述“词频”是指某个词在整段/篇文章中出现的次数。
图1是本发明的一种相关文章的选取方法的第一实施例的流程图,其具体过程如下:
在步骤S100中,建立希望被推荐的文章的索引数据库。该索引数据库中可包括某个论坛、网站中所有发布的帖子、新闻和/或博客文章等。在本发明的具体实施例中,可采用现有技术的各种方法,将文章中的词汇按照一定的方式进行有序地编排,从而可通过词汇快速地找到包含该词汇的文章。
在步骤S200中,分析给定的文章以确定所述给定的文章的核心词。核心词是可以代表文章主题的词汇,通过确定文章的核心词,可以确定文章的主题,从而简单地确定文章要表达的意思。在本发明的简化实施例中,可以通过人工的方式确定给定文章的核心词。在本发明的优选实施例中,也可采用计算机自动检索的方式确定核心词,例如将词频大于设定值的词作为核心词。
在步骤S300中,可根据所述核心词从所述索引数据库中选取所述给定文章的相关文章。这些相关文章可以在用户阅读门户新闻、博客或社区帖子的时候,以列表的方式给出,也可通过电子邮件等方式传送给用户。
图2是本发明的一种相关文章的选取方法的第二实施例的流程图,其具体过程如下:
在步骤S201中,对希望被推荐的文章进行预处理。在本发明的一个优选实施例中,所述预处理可包括过滤掉不符合预设规定的希望被推荐的文章。比如字数少的、本身质量不高的文章可以被过滤掉,不用在对其进行下一步的处理。
在本发明的又一优选实施例中,所述预处理步骤可以进一步包括权重设置步骤,也就是对符合预设规定的希望被推荐的文章设定权重。例如,对于新近发表的文章、含有图片的文章、点击数较多的文章等给予较高的权重,而对于较老的文章、点击数较低的文章则给予较低的权重。权重规则可以根据需要人工调整。设计良好的权重规则可以明显地影响最终的推荐效果,使得最新最热的内容得到更多的展现;同时,权重规则也给人工干预推荐结果提供了接口,使得推荐结果可以快速方便的被调整,这可以更好地响应突发需求。
在本发明的再一优选实施例中,所述预处理步骤还进一步包括对希望被推荐的文章中文章标题相同的文章进行排重。这是由于标题是文章语义的重要体现,在进行相关性计算的时候,标题相同的文章往往被同时展现或推送给用户,影响阅读体验,这里对文章标题相同的文章进行排重就解决了这个问题。排重是指对多个标题相同的文章,最终会保留一个文章,这样文章可以是字数最多的、最新发表的,也可以是在权重设置步骤中设置的权重最高的文章。
在步骤S202中,对预处理后的希望被推荐的文章进行分词。在这一步骤,可以采用现有的分词模块进行分词。由于本发明主要处理的是中文文章,因此下面采用中文分词模块对本发明进行介绍。但是本领域技术人员知悉,本发明的思想和教导显然可以用于英文以及其他文字。
在本发明的一个实施例中,可以采用现有的中文分词模块对中文文章进行分词,并对分词结果进行如下处理:
A、除去分词结果中的单字,如“的”,“了”等,避免单字对文章语义判断的干扰;
B、除去分词结果中的停用词。停用词为一个词表,包含了汉语中经常出现却对文章表达的意义关系不大的词汇,例如“如果”、“但是”等词。去除停用词,避免一些无明确意义但在汉语中较常用的词,减少对相关计算的干扰。
在步骤S203中,可根据分词结果建立每个词到包含所述词的文章的索引并存储到所述索引数据库。由此,该索引数据库中可包括某个论坛、网站中一些质量较高的文章,并且将这些文章和他们所包含的词对应起来,便于后续步骤的查找。
在步骤S204中,对给定的文章进行分词。在这一步骤中,可采用与步骤S202相同的方法加以实现。并且也可对分词的结果进行与步骤S202类似的预处理。
在步骤S205中,从获得的分词结果中,选择至少一个词频最高的词作为核心词。在本发明的一个优选实施例中,可以将出现词频大于1的词按照词频降序排列,并按照顺序选择最前面的一个或多个。
在本发明的一个优选实施例中(以中文文章为例),当获得的分词结果小于一定的数量(比如10个词或20个词)时,可以认为所有的词都是核心词。
在本发明的又一优选实施例中,也可对分词结果进行类别,比如将其划分三类:
第一类,名词、人名、姓、名、地名、机构团体、其他专名
第二类,形容词、成语、简称略语、习用语、动词、动词后接成分
第三类,其他
当获得的分词结果小于一定数量时,将第一类和第二类词直接认为是核心词。当分词结果大于一定数量时,将各个类别中词频最高的词作为核心词。
本领域技术人员知悉,除了上述公开的方法外,还可采用任何其他的方法或将上述方法进行组合、或将上述方法与本领域已知的方法进行组合,进而从分词结果中获取核心词。
在步骤S206中,基于所述核心词在所述索引数据库中查询出与所述给定文章相关的希望被推荐的文章。对于该查询步骤,可以采用solr全文搜索服务器来执行。当然,本领域技术人员也可采用其他已知的方法来进行查询。
在步骤S207中,可列表显示所述相关文章。在本发明的一个实施例中,这些相关文章可以在用户阅读门户新闻、博客或社区帖子的时候,以列表的方式给出,也可通过电子邮件等方式传送给用户。
图3是本发明的一种相关文章的选取方法的第三实施例的流程图;其具体流程如下:
在步骤S301中,可以将过滤掉不符合预设规定的希望被推荐的文章。比如重复的文章、字数太少的文章可以被过滤掉,不用在对其进行下一步的处理。其中预设规定可以根据需要进行设定,而无需限制在本发明所公开的内容。
在步骤S302中,对符合预设规定的希望被推荐的文章设定权重。比如在论坛中,对于回复数量较多、长度较长和/或点击量较大的文章给予较高的权重。
在步骤S303中,对设置权重后的希望被推荐的文章进行分词。在这一步骤,可以采用现有的分词模块进行分词,还可对分词结果进行预处理。以英文文章为例,可以对分词结果进行如下处理:
A、除去分词结果中的单字(也就是,冠词或是无确定意义的词),如“a”,“an”,“the”等;
B、除去分词结果中的停用词。停用词为一个词表,包含了英语中经常出现却对文章表达的意义关系不大的词汇,如“although”,“but”,“and”,“However”之类的词。
对于不同的语种和对应的分词模块,可以对分词结果采用不同的预处理方式,以便于删除一些对文章表达其意义关系不大的词汇。本领域技术人员可根据本发明的教导构建这样的模块。
在步骤S304中,根据分词结果建立每个词到包含所述词的文章的索引并将所述索引和被推荐文章的权重存储到所述索引数据库。由此,该索引数据库中可包括某个论坛、网站中一些质量较高的文章,并且将这些文章和他们所包含的词对应起来,便于后续步骤的查找。
在步骤S305中,对给定的文章进行分词。在这一步骤中,可采用与步骤S202和/或S303相同的方法加以实现。并且也可对分词的结果进行与步骤S202和/或S303类似的预处理。
在步骤S306,选择多个词频最高的核心词,并按照词频大小赋予不同的权重。在本发明的一个实施例中,可选择词频最高的前4个词,分别赋予1.4、1.2、1.1和1.0的权重。
在本发明的又一实施例中,可将词频大于1的所有词进行类别,如分成以下三类:
第一类,名词、人名、姓、名、地名、机构团体、其他专名
第二类,形容词、成语、简称略语、习用语、动词、动词后接成分
第三类,其他
然后在每一类中选取词频最高的一个词,比如在第一类中包括A1/A2,第二类中包括B1/B2/B3,第三类中包括C1/C2/C3,以上各个类别中各词均按照词频的降序排列,因此,可选取词A1/B1/C1,而在剩余的所有词中,A2的词频最高,因此最后获得的核心词为A1/B1/C1/A2,并对其赋予权重。如A1的权重是1.4,B1的权重是1.2,C1的权重是1.1,A2的权重是1.0。
在本发明的一个简化实施例中,也可分别选择各个类别中词频最高的词作为核心词,并对其赋予权重,比如,A1的权重是1.3、B1的权重是1.2、C1的权重是1。本领域技术人员也可根据需要,设置其他大小的权重。
在步骤S307中,基于所述核心词在所述索引数据库中查询出与所述给定文章相关的希望被推荐的文章。对于该查询步骤,可以采用solr全文搜索服务器来执行。当然,本领域技术人员也可采用其他已知的方法来进行查询。
在步骤S308中,基于所述核心词的权重和所述希望被推荐的文章的权重选择相关文章。在本发明的一个实施例中,可以基于所述核心词的权重和所述希望被推荐的文章的权重确定所述希望被推荐的文章的相关性评分并去掉所述相关性评分低于设定值的文章,这样可以保证相关性差的文章不会出现在最终的推荐列表中。
在本发明的又一实施例中,该选取进一步包括采用数学方法将所述相关性评分高于设定值的文章的评分拟合成一条曲线,计算出所述曲线的第一拐点,并去掉所述拐点以后的文章,这样可以保证出现在列表中的文章具有较好的一致性。
在本发明的再一实施例中,也可由网络编辑人员对查询出与所述给定文章相关的希望被推荐的文章进行筛选,进而满足一些互联网应用中的临时需要。
在步骤S309中,可列表显示所述相关文章。在本发明的一个实施例中,这些相关文章可以在用户阅读门户新闻、博客或社区帖子的时候,以列表的方式给出,也可通过电子邮件等方式传送给用户。
图4是图3示出的本发明一种相关文章的选取方法的第三实施例的步骤S306的又一实施例的流程图;其具体流程如下:
在步骤S401中分别对文章标题和文章正文进行分词。在该步骤中,可以采用现有的分词模块进行分词,还可对分词结果进行预处理。
在步骤S402中,判断分词结果是否小于10词,如果是,则进入步骤S412,直接判定所有的词都是核心词,并确定其权重;否则执行步骤S403。在分词结果小于10词的实施例中,可以通过判断这些词的词性来确定其权重,比如,对于名词和形容词,赋予权重1.4,对于其他词性的词,赋予权重1.2。在另一实施例中,也可将名词和形容词确定成核心词,并分别赋予1.4和1.3的权重。
在步骤S403中,判断各个词的词频是否大于1。对于词频大于1的词,执行步骤S404,对于词频等于1的词,不进行下一步的处理。
在步骤S404中,判断该词是不是属于文章正文,如果是则执行步骤S405,否则该词是属于文章标题,执行步骤S413。
在步骤S405中,按照词性将文章正文中的词分成以下三类,并执行步骤S406:
第一类,名词、人名、姓、名、地名、机构团体、其他专名
第二类,形容词、成语、简称略语、习用语、动词、动词后接成分
第三类,其他
在步骤S406中,在各个类别中将各词作词频的降序排列,选取前4个词。在本发明的一个实施例中,可以在每一类中选取词频最高的一个词,比如在第一类中包括A1/A2,第二类中包括B1/B2/B3,第三类中包括C1/C2/C3,以上各个类别中各词均按照词频的降序排列,因此,可选取词A1/B1/C1,然后在第一类中选取词频第二高的词A2,因此最后获得的核心词为A1、B1、C1、A2。在本发明的又一实施例中,也可直接选取词频最高的4个词,而不考虑其所述的类别。在本发明的再一实施例中,也可在各个类别中分别选取词频最高的一个词,再选取设定类别中词频第二高的词。
在步骤S407中,按照词频大小对选取的词分别赋予1.4、1.2、1.1和1.0的权重。如核心词A1、B1、C1、A2的按词频降序排列为A1/B1/C1/A2,那么,A1的权重是1.4,B1的权重是1.2,C1的权重是1.1,A2的权重是1.0。本领域技术人员知悉,根据本发明的教导,可以选取其他数量的核心词,并按照需要设定不同数值的权重。
在步骤S413中,按照词性将文章标题中的词分为两类,并执行步骤S414:
第一类,名词、人名、姓、名、地名、机构团体、其他专名
第二类,形容词、成语、简称略语、习用语、动词、动词后接成分
在步骤S414中,在各个类别中将各词作词频的降序排列并选取前两个词。在本发明的其他实施例中,也可直接选取词频最高的词而不考虑其类别,或者也可选择其他数量的词。
在步骤S415中,对选取的词分别赋予1.2的权重。在本发明的一个实施例中,也可按照类别的不同和/或词频的大小对选取的词赋予相同或不同的权重。
在步骤S408中,判定在文章标题中选取的词和在文章正文中选取的词是否有相同的词,如果有执行步骤S409,否则执行步骤S410。
在步骤S409中,选取其中权重最高的词进行排重,也就是只保留权重最高的词。在本发明的又一优选实施例中,除了保留权重最高的词以外,还可将该词的权重再乘以1.1。在本发明的其他实施例中,还可对保留的词和权重作进一步的处理。
在步骤S410中,判断在步骤S409中获得的词是否与文章所在的版面名称重复,其中版面名称的权重是1.1。如果是,执行步骤S411,否则执行步骤S412。
在步骤S411中,选取权重最高的词进行排重。也就是说,如果在步骤S409中获得的词“网络游戏”的权重是1.3,而该文章所在的版面名称“网络游戏”的权重是1.1,那么获得的词“网络游戏”的权重是1.3。在本发明的其他实施例中,还可对保留的词和权重作进一步的处理,比如将其乘以1.1。
在步骤S412,可以最后确定核心词及其权重。核心词和它的权重将在后面的检索过程中发挥进一步的作用。
图5是本发明的一种相关文章的选取装置的第一实施例的原理框图。如图5所示,本发明的相关文章的选取装置包括索引数据库501、核心词确定模块502和选取模块503。其中,所述索引数据库501可用于存储希望被推荐的文章。该索引数据库501中可包括某个论坛、网站中所有发布的帖子、新闻和/或博客文章等。在本发明的具体实施例中,可采用现有技术的各种方法,将文章中的词汇按照一定的方式进行有序地编排,从而可通过词汇快速地找到包含该词汇的文章。
所述核心词确定模块502可用于分析给定的文章以确定所述给定的文章的核心词。在本发明的优选实施例中,也可采用计算机自动检索的方式、或是已知的任何分词技术来确定核心词。
所述选取模块503可用于根据所述核心词从所述索引数据库502中选取所述给定文章的相关文章。这些相关文章可以在用户阅读门户新闻、博客或社区帖子的时候,以列表的方式给出,也可通过电子邮件等方式传送给用户。
图6是本发明的一种相关文章的选取装置的第二实施例的原理框图。如图6所示,所述索引数据库501进一步包括:预处理单元101,用于对希望被推荐的文章进行预处理;第一分词单元102,用于对预处理后的希望被推荐的文章进行分词;构建单元103,用于根据分词结果建立每个词到包含所述词的文章的索引并存储到所述索引数据库。
在本发明的一个实施例中,所述预处理包括:过滤掉不符合预设规定的希望被推荐的文章、对符合预设规定的希望被推荐的文章设定权重和/或对希望被推荐的文章中文章标题相同的文章进行排重。
所述核心词确定模块502进一步包括:第二分词单元201,用于对给定的文章进行分词;核心词选定单元202,用于选择至少一个词频最高的词作为核心词。其中所述第二分词单元202和第一分词单元102可采用本领域中已知的分词模块进行设置。
所述选取模块503进一步包括:查询单元301,用于基于所述核心词在所述索引数据库中查询出与所述给定文章相关的希望被推荐的文章;选定单元302,用于基于所述核心词的权重和所述希望被推荐的文章的权重选择相关文章。
在本发明的一个实施例中,该选取包括可以基于所述核心词的权重和所述希望被推荐的文章的权重确定所述希望被推荐的文章的相关性评分并去掉所述相关性评分低于设定值的文章,这样可以保证相关性差的文章不会出现在最终的推荐列表中。
在本发明的又一实施例中,该选取进一步包括采用数学方法将所述相关性评分高于设定值的文章的评分拟合成一条曲线,计算出所述曲线的第一拐点,并去掉所述拐点以后的文章,这样可以保证出现在列表中的文章具有较好的一致性。
在本发明的其他实施例中,本发明的相关文章的选取装置可按照前述相关文章的选取方法来进行构建,本领域技术人员根据本发明的教导,可以构建这样的相关文章的选取装置,因此在此就不在累述。
本发明的一种相关文章的选取装置和方法,可以用于在用户阅读门户新闻、博客的时候,计算与其相关的社区帖子并展现;或通过采用“分析关键词,提取语义”的办法提取语义,用于聚合散乱的文章、图片;或用于分析用户浏览过的网页、文章,分析其语义,进而用于分析用户喜好。
根据本发明的教导和指示,本领域技术人员还可将本发明的方法和装置与其他现有技术和方法和装置相结合,以应用于其他合适的领域。
因此,本发明可以通过硬件、软件,或者软、硬件结合来实现。本发明可以在至少一个计算机系统中以集中方式实现,或者由分布在几个互连的计算机系统中的不同部分以分散方式实现。任何可以实现方法的计算机系统或其它设备都是可适用的。常用软硬件的结合可以是安装有计算机程序的通用计算机系统,通过安装和执行程序控制计算机系统,使其按方法运行。
虽然本发明是通过具体实施例进行说明的,本领域技术人员应当明白,在不脱离本发明范围的情况下,还可以对本发明进行各种变换及等同替代。另外,针对特定情形或材料,可以对本发明做各种修改,而不脱离本发明的范围。因此,本发明不局限于所公开的具体实施例,而应当包括落入本发明权利要求范围内的全部实施方式。

一种相关文章的选取方法和装置.pdf_第1页
第1页 / 共23页
一种相关文章的选取方法和装置.pdf_第2页
第2页 / 共23页
一种相关文章的选取方法和装置.pdf_第3页
第3页 / 共23页
点击查看更多>>
资源描述

《一种相关文章的选取方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种相关文章的选取方法和装置.pdf(23页珍藏版)》请在专利查询网上搜索。

本发明涉及一种相关文章的选取方法和装置,所述方法包括:S1.建立希望被推荐的文章的索引数据库;S2.分析给定的文章以确定所述给定的文章的核心词;S3.根据所述核心词从所述索引数据库中选取所述给定文章的相关文章。所述装置包括索引数据库,用于存储希望被推荐的文章;核心词确定模块,用于分析给定的文章以确定所述给定的文章的核心词;选取模块,用于根据所述核心词从所述索引数据库中选取所述给定文章的相关文章。本。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1