《面向领域整体的关键词集的评价和提取方法.pdf》由会员分享,可在线阅读,更多相关《面向领域整体的关键词集的评价和提取方法.pdf(7页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN102375842A43申请公布日20120314CN102375842ACN102375842A21申请号201010259047122申请日20100820G06F17/3020060171申请人姚尹雄地址200030上海市徐汇区华山路1954号浩然大厦11楼1115室申请人唐新怀72发明人姚尹雄唐新怀54发明名称面向领域整体的关键词集的评价和提取方法57摘要本发明涉及一种领域关键词集的提取方法,它提出领域关键词集的概念,提出构建领域文集的词网、通过基于图结构的RANKING算法计算词网节点的权重、利用搜索引擎调整词权、进而提取领域关键词集的方法。本发明的领域关键词集的提。
2、取方法,能够提高提取结果的领域特性和提取精度,能够适用于WEB环境下大规模领域文集的领域关键词集的提取。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书3页附图2页CN102375849A1/1页21一种领域关键词集的提取方法,其特征在于提出构建领域文集的词网,通过基于图结构的RANKING算法计算词网节点的权重,利用搜索引擎调整词权,进而提取领域关键词集的方法,其具体步骤如下1打开一批领域文集;2初始化词网对领域文集预处理,将过滤后的实词作为词网的节点;3通过兴趣度创建词网的有向边;4用RANKING算法计算节点的权重;5通过搜索引擎来调整节点对应的实词的词。
3、权;6统计实词的词权的排名;7选择关键词将排名最高的N个词作为领域关键词集。2按权利要求1所述的领域关键词集的提取方法,其特征在于,上述步骤3中所述的通过兴趣度创建词网有向边的方法,其步骤如下1对一篇文本中共同出现的词A和词B,用置信度CONFIDENCE来度量文本中词A出现后词B出现的可信程度,置信度计算公式如下其中,TA和TB表示词A和词B,PTA,TB表示词A和词B同时出现在领域文集D中的概率;PTA表示词A出现在领域文集中的概率;2用相似度COSINE来度量词A与词B的相关程度,相似度计算公式如下其中,TA和TB表示词A和词B,D表示领域文集;3用兴趣度INTERESTINGNESS综。
4、合衡量词A对词B的关联性,兴趣度计算公式如下INTERESTINGNESSTA,TBCONFIDENCETA,TBCOSINETA,TB4若词A和词B共同出现次数高于最小共现次数,并且词A对词B的兴趣度也高于最小兴趣度阈值,则建立词A对应节点到词B对应节点的一条有向边,用计算的兴趣度作为该边的权重。3按权利要求1所述的领域关键词集的提取方法,其特征在于,上述步骤4中所述的RANKING算法,是通过节点间的“投票”决定节点重要性,当一个节点连接到另一节点时,它会向这个被连的节点进行一个“投票”,节点得到的“票数”越多,它就越重要,同时它投出的票就越重要;RANKING算法中最常用的是PAGERA。
5、NK算法和HITS算法。4按权利要求1所述的领域关键词集的提取方法,其特征在于,上述步骤5中所述的通过搜索引擎调整词权的方法,其词权WEIGHTT的计算公式如下WEIGHTTRANKINGTIDFT其中,RANKINGT表示词T经过RANKING算法计算后的权值;IDFT表示通过搜索引擎搜计算的词T的反文档频率IDFINVERSEDOCUMENTFREQUENCY,其计算公式为IDFTLOGN/PT/LOGN,其中N表示搜索引擎索引总页面数、PT表示检索词T返回的页面数。权利要求书CN102375842ACN102375849A1/3页3面向领域整体的关键词集的评价和提取方法技术领域0001本。
6、发明涉及一种领域关键词集的提取方法,更具体的是提出构建领域文集的词网,利用基于图结构的RANKING算法提取领域关键词集的方法。背景技术0002目前,关键词提取技术的研究主要有基于统计、基于图、基于机器学习的三类方法。用现有的关键词提取技术来提取一个领域的整体关键词,存在不足之处,具体如下0003基于统计的方法,主要通过统计文本中词语的出现规律提取关键词;该方法的缺点是,提取的关键词难以准确概括领域内容。基于图结构的方法,主要考虑文本中词之间的联系,以词为节点、以词间的关系为边、组成一个网络,通过挖掘网络中的特殊节点来发现关键词;该方法的缺点是,关键词提取的精度只能体现在文本较长的文本上。基于。
7、机器学习的方法,是通过人工标注的关键词实例训练生成分类器,再用分类器确定新文本的关键词;该方法的缺点是,训练分类器需要大量的人工标注关键词,领域变化时需重定学习规则,在WEB环境下难以大规模使用。0004领域关键词集,也就是一个领域的整体关键词,应具有概括领域内容和区分于其他领域的特性。目前,以出现次数最多的词作为领域关键词集难以准确反应整个领域的特性。但是由于领域文本难以整体获得,领域关键词集的提取方法并没有得到太多研究。发明内容0005本发明的目的在于针对现有技术的不足,提供一种领域关键词集的提取方法,该方法能提高关键词提取精度,能提高提取结果的领域特性,并能方便应用于提取WEB环境下网页。
8、文本的领域关键词集。0006为了达到上述的目的,本发明构思如下0007定义领域关键词集的概念领域关键词集是领域主题中最重要的N个词,即权重最大的前N个词。其中,词的权重表示对领域主题的贡献程度。0008在提取领域关键词集时,以词为节点、以词的关联规律为边、构建领域文集的词网,通过基于图结构的RANKING算法计算词网节点的权重,再利用搜索引擎检验词的普遍性;进而提取出权重最大的前N个词作为领域关键词集。0009根据上述的发明构思,本发明采用下述技术方案0010一种领域关键词集的提取方法,其特征在于提出构建领域文集的词网,通过基于图结构的RANKING算法计算词网节点的权重,利用搜索引擎调整词权。
9、,进而提取领域关键词集的方法,其具体步骤如下00111打开一批领域文集;00122初始化词网对领域文集预处理,将过滤后的实词作为词网的节点;00133通过兴趣度创建词网的有向边;00144用RANKING算法计算节点的权重;说明书CN102375842ACN102375849A2/3页400155通过搜索引擎来调整节点对应的实词的词权;00166统计实词的词权的排名;00177选择关键词将排名最高的N个词作为领域关键词集。0018上述步骤3所述的通过兴趣度创建词网有向边的方法,其步骤如下00191对一篇文本中共同出现的词A和词B,用置信度CONFIDENCE来度量文本中词A出现后词B出现的可信。
10、程度,置信度计算公式如下00200021其中,TA和TB表示词A和词B,PTA,TB表示词A和词B同时出现在领域文集D中的概率;PTA表示词A出现在领域文集中的概率;00222用相似度COSINE来度量词A与词B的相关程度,相似度计算公式如下00230024其中,TA和TB表示词A和词B,D表示领域文集;00253用兴趣度INTERESTINGNESS综合衡量词A对词B的关联性,兴趣度计算公式如下0026INTERESTINGNESSTA,TBCONFIDENCETA,TBCOSINETA,TB00274若词A和词B共同出现次数高于最小共现次数,并且词A对词B的兴趣度也高于最小兴趣度阈值,则建。
11、立词A对应节点到词B对应节点的一条有向边,用计算的兴趣度作为该边的权重。0028上述步骤4所述的RANKING算法,是通过节点间的“投票”决定节点重要性,当一个节点连接到另一节点时,它会向这个被连的节点进行一个“投票”,节点得到的“票数”越多,它就越重要,同时它投出的票就越重要;RANKING算法中最常用的是PAGERANK算法和HITS算法。0029上述步骤5所述的通过搜索引擎调整词权的方法,其词权WEIGHTT的计算公式如下0030WEIGHTTRANKINGTIDFT0031其中,RANKINGT表示词T经过RANKING算法计算后的权值;IDFT表示通过搜索引擎搜计算的词T的反文档频率。
12、IDFINVERSEDOCUMENTFREQUENCY,其计算公式为IDFTLOGN/PT/LOGN,其中N表示搜索引擎索引总页面数、PT表示检索词T返回的页面数。0032本发明的领域关键词集的提取方法与现有技术相比较,具有如下优点0033本发明构建的领域文集的词网,能结合统计方法和图结构方法的优点,通过统计方法考察文本中词的出现规律,通过基于图结构的RANKING算法挖掘词网关键节点。该方法提取的领域关键词集,能够准确概括领域内容和区分于其他领域。0034该方法通过搜索引擎来调整领域文集的词网的节点词权,能够避免领域文集文本长短的影响,能够在更大范围检验一个词的普遍性,进而能够提高领域关键词。
13、集的提取精度,还能适用于WEB环境下大规模领域文集的领域关键词集的提取。说明书CN102375842ACN102375849A3/3页5附图说明0035图1是本发明的领域关键词集提取方法的流程图;0036图2是本发明实例构建的路透社新闻网站的环境领域词网示意图。具体实施方式0037下面通过具体的实施方式对本发明的技术方案作进一步更详细的描述。0038本发明的一个优选实例是从新闻领域文集中提取领域关键词集,领域关键词集提取方法,如图1所示,其具体步骤如下0039S1打开2748篇路透社新闻网站的环境领域网页正文;0040S2初始化词网对网页正文集预处理,将过滤后的实词作为词网的节点,节点用如图2。
14、所示的圆点表示;0041S3通过兴趣度创建词网的有向边,有向边用如图2所示的箭头线表示;0042S4用RANKING算法计算词网中节点的权重;0043S5通过搜索引擎调整词权;0044S6统计词权的排名;0045S7选择关键词将排名最高的前N个作为环境领域的领域关键词集。0046如表1所示的关键词,是在路透社新闻网站的环境领域网页正文中,排名最高的前20个,由它们组成路透社新闻网站的环境领域关键词集。0047表1路透社新闻网站的环境领域关键词集0048说明书CN102375842ACN102375849A1/2页6图1说明书附图CN102375842ACN102375849A2/2页7图2说明书附图CN102375842A。