一种情感词倾向性的分析方法.pdf

上传人:g**** 文档编号:972008 上传时间:2018-03-22 格式:PDF 页数:11 大小:598.36KB
返回 下载 相关 举报
摘要
申请专利号:

CN201010133149.9

申请日:

2010.03.25

公开号:

CN101782898A

公开日:

2010.07.21

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/27申请公布日:20100721|||实质审查的生效IPC(主分类):G06F 17/27申请日:20100325|||公开

IPC分类号:

G06F17/27; G06F17/30

主分类号:

G06F17/27

申请人:

中国科学院计算技术研究所

发明人:

蒋喻新; 张勇东; 郭俊波

地址:

100190 北京市海淀区中关村科学院南路6号

优先权:

专利代理机构:

北京泛华伟业知识产权代理有限公司 11280

代理人:

王勇

PDF下载: PDF下载
内容摘要

本发明提供一种情感词倾向性的分析方法,包括:抓取网络上带有星级的评论信息;抽取评论信息中的情感词;通过将利用星级数值化计算得到的情感词倾向性、利用构建的种子情感词基于PMI-IR算法获取的情感词倾向性以及基于连词性质计算的情感词倾向性加权求和,获取情感词的倾向性。通过应用本方法,减轻了情感分析系统构建的工作量;利用网络上的星级评论,减少人工标注中人的主观因素对情感词的标注的影响;通过多种算法的结合,对情感词的倾向性进行加权求和,降低了种子情感词选择不当所带来的影响以及语料库质量对情感词倾向性计算的影响。

权利要求书

1: 一种情感词倾向性的分析方法,包括: 步骤10)、抓取网络上带有星级的评论信息; 步骤20)、抽取所述评论信息中的情感词; 步骤30)、通过将利用所述星级数值化计算得到的情感词倾向性、利用构建的种子情感词基于PMI-IR算法获取的情感词倾向性以及基于连词性质计算的情感词倾向性加权求和,获取所述情感词的倾向性。
2: 权利要求1所述的方法,还包括: 步骤40)、将具有倾向性的所述情感词的列表归类,对于倾向性的值大于阈值的情感词作为正向情感词,对于倾向性的值小于阈值的情感词作为负向情感词,其它的作为中性的情感词,获取情感词词典。
3: 权利要求1的所述的方法,其中,步骤10)还包括:根据网页内容的布局来设置不同的抽取模板与规则,抓取网页中的评论信息及其对应的星级信息。
4: 权利要求3所述的方法,其中,步骤10)包括: 步骤110)、按照所述评论信息的来源不同,基于网站定制对应的评论信息和星级信息抽取模板; 步骤120)、下载整个网页的内容; 步骤130)、根据抽取模板以及网页内容的源代码,抽取所述网页内容中的评论信息以及对应的星级信息,构成评论信息语料库。
5: 权利要求1所述的方法,其中,在步骤20)中,抽取所述评论信息中的形容词、动词、副词或者名词作为情感词。
6: 权利要求5所述的方法,其中,步骤20)进一步包括: 步骤210)、定义情感词,并将情感词划分为正向、反向和中性; 步骤220)、将评论信息分词; 步骤230)、将分词后的评论信息中的所有情感词与该评论信息所对应的星级组成二元对,构成情感词和星级二元对列表。
7: 权利要求6所述的方法,其中,步骤30)还包括: 步骤310)、将星级数值化,计算所述二元对列表中情感词的倾向性; 步骤320)、构建种子情感词集合; 步骤330)、基于所述种子情感词集合,利用PMI-IR算法计算二元对列表中情感词的倾向性; 步骤340)、创建连词处理规则,基于种子情感词集合,循环迭代计算与种子情感词共同出现过的情感词的倾向性; 步骤350)、将上述三种倾向性进行加权求和。
8: 权利要求7所述的方法,其中,步骤310)还包括:将所述情感词所有的倾向性值进行平均,将该情感词平均值作为该情感词的倾向性。
9: 权利要求7所述的方法,其中,步骤320)包括:选择不受上下文以及领域影响的强烈的情感词作为种子情感词,其中,对于面向单一领域的情感分析系统,选择该领域的强烈的情感词作为种子情感词。
10: 权利要求7的所述的方法,其中,步骤330)包括:根据所述种子情感词集合,基于 PMI-IR算法,利用搜索引擎的获取的搜索结果,计算情感词的倾向性,即 I ( w , w i ) = log ( p ( w , w i ) p ( w ) * p ( w i ) ) ]]> SO ( w ) = Σ i = 1 n I ( w , P i ) - Σ i = 1 n I ( w , N i ) ]]> 其中,I(w,w i )表示情感词w和情感词w i 之间的互信息,p(w,w i )表示两个词直接间的共现概率,P i 表示正向种子情感词,N i 表示反向种子情感词,SO(w)表示情感词w的情感倾向性值。
11: 权利要求7所述的方法,其中,步骤340)还包括:根据所述种子情感词集合,通过在情感语料库中使用并列关系连词和转折关系连词进行循环迭代,对情感词词典进行扩展,得到部分或者全部情感词列表中情感词的倾向性。
12: 一种情感词词典的构建方法,包括: 步骤10)、抓取网络上带有星级的评论信息; 步骤20)、抽取所述评论信息中的情感词; 步骤30)、通过将利用所述星级数值化计算得到的情感词倾向性、利用构建的种子情感词基于PMI-IR算法获取的情感词倾向性以及基于连词性质计算的情感词倾向性加权求和,获取所述情感词的倾向性; 步骤40)、将具有倾向性的情感词的列表归类,输出情感词词典。
13: 权利要求12所述的方法,其中,步骤40)还包括:将具有倾向性的所述情感词的列表归类,对于倾向性的值大于阈值的情感词作为正向情感词,对于倾向性的值小于阈值的情感词作为负向情感词,其它的作为中性的情感词,获取情感词词典。

说明书


一种情感词倾向性的分析方法

    【技术领域】

    本发明涉及情感词的分类技术,更具体地,本发明涉及一种情感词倾向性的分析方法。

    背景技术

    随着web2.0技术的快速发展与广泛应用,网络上出现了越来越多的用户原创内容(UGC,User Generated Content),例如BBS系统上发布的内容,网上商店中用户对商品或者卖家的评论,现在的网络视频及其评论信息,以及诸如博客和微博客系统的各种让网络用户能够畅谈自己想法的系统。随着人们上网的便利性和手机上网的普及性,用户原创内容迅速膨胀,各个方面对这种信息的关注也逐渐增多。例如厂家希望通过分析买家对商品的评论信息,来获知人们对该商品的期望以及该商品存在的优点和缺点,从而更好的对该产品进行改进和促销,以增加该产品的销售。人们可以通过对电影评论的情感倾向性的分析,来获知观众对该电影的认可程度。政府可以通过对网络上的评论进行情感倾向性的分析,来了解群众对某一政策或者事件所持的观点,从而更好地实施政策或者处理事件。

    当前对情感词的倾向性的计算,比较经典的有Turney的PMI-IR(PointMutual Information-Information Retrieval)算法,该算法需要非常大量的语料库,通过计算当前情感词与正反向种子情感词之间的相关性,得到情感词的倾向性。该算法非常依赖种子情感词的选择和语料库的质量,并且很难获取到大规模的带有情感的语料库,另外该算法没有考虑到情感词所依赖的词的上下文环境,只是简单的从词的共现频数方面进行计算。

    此外,还存在利用同义词的方法来计算情感词的倾向性,该方法需要找到一个同义词词典,并且该同义词词典中,必须对每个词的同义词集合按照关联紧密程度进行了排序。在计算同义词的相关性时,必须要考虑到一个词在经过一定的跳转后,可能与意义相反的两个词的词义均相同,这使得在计算一个词的情感倾向性时,既要求种子情感词的选择很严格,同时又要求同义词词典能够符合上述要求。由于部分情感词的倾向性依赖于上下文,这又使得同义词词典中同义词集合的排序可能对某些领域中该词的情感倾向性计算有利,而对其它的领域来说可能会得到该词错误的情感倾向性。

    【发明内容】

    为克服现有情感词的倾向性计算中词库难以获取、准确性差以及人工影响的缺陷,本发明提出一种情感倾向性的分析方法。

    根据本发明的一个方面,提出了一种情感词倾向性的分析方法,包括:

    步骤10)、抓取网络上带有星级的评论信息;

    步骤20)、抽取评论信息中的情感词;

    步骤30)、通过将利用星级数值化计算得到的情感词倾向性、利用构建的种子情感词基于PMI-IR算法获取的情感词倾向性以及基于连词性质计算的情感词倾向性加权求和,获取情感词的倾向性。

    该方法还包括:步骤40)、将具有倾向性的情感词的列表归类,对于倾向性值大于阈值地情感词作为正向情感词,对于倾向性值小于阈值的情感词作为负向情感词,其它的作为中性的情感词,获取情感词词典。

    其中,步骤10)还包括:根据网页内容的布局来设置不同的抽取模板与规则,抓取网页中的评论信息及其对应的星级信息。

    其中,步骤10)包括:

    步骤110)、按照评论信息的来源不同,基于网站定制对应的评论信息和星级信息抽取模板;

    步骤120)、下载整个网页的内容;

    步骤130)、根据抽取模板以及网页内容的源代码,抽取所述网页内容中的评论信息以及对应的星级信息,构成评论信息语料库。

    其中,在步骤20)中,抽取所述评论信息中的形容词、动词、副词或者名词作为情感词。

    其中,步骤20)进一步包括:

    步骤210)、定义情感词,并将情感词划分为正向、反向和中性;

    步骤220)、将评论信息分词;

    步骤230)、将分词后的评论信息中的所有情感词与该评论信息所对应的星级组成二元对,构成情感词和星级二元对列表。

    其中,步骤30)还包括:

    步骤310)、将星级数值化,计算所述二元对列表中情感词的倾向性;

    步骤320)、构建种子情感词集合;

    步骤330)、基于所述种子情感词集合,利用PMI-IR算法计算二元对列表中情感词的倾向性;

    步骤340)、创建连词处理规则,基于种子情感词集合,循环迭代计算与种子情感词共同出现过的情感词的倾向性;

    步骤350)、将上述三种倾向性进行加权求和。

    其中,步骤310)还包括:将所述情感词的所有倾向性值进行平均,将该情感词平均值作为该情感词的倾向性。

    其中,步骤320)包括:选择不受上下文以及领域影响的强烈的情感词作为种子情感词,其中,对于面向单一领域的情感分析系统,选择该领域的强烈的情感词作为种子情感词。

    根据本发明的另一方面,提供一种情感词词典的构建方法,包括:

    步骤10)、抓取网络上带有星级的评论信息;

    步骤20)、抽取所述评论信息中的情感词;

    步骤30)、通过将利用所述星级数值化计算得到的情感词倾向性、利用构建的种子情感词基于PMI-IR算法获取的情感词倾向性以及基于连词性质计算的情感词倾向性加权求和,获取所述情感词的倾向性;

    步骤40)、将具有倾向性的情感词的列表归类,输出情感词词典。

    其中,步骤40)还包括:将具有倾向性的所述情感词的列表归类,对于倾向性的值大于阈值的情感词作为正向情感词,对于倾向性的值小于阈值的情感词作为负向情感词,其它的作为中性的情感词,获取情感词词典。

    通过应用本发明的方法,减少了人工对情感语料库的标注,很大程度上减轻了情感分析系统构建的工作量;利用网络上的星级评论,最小程度地减少人工标注中人的主观因素对情感词的标注的影响;通过多种算法的结合,对情感词的倾向性进行加权求和,降低了种子情感词选择不当所带来的影响以及语料库质量对情感词倾向性计算的影响。而且,高质量的种子情感词和情感语料库可以进一步提高情感词倾向性计算的准确性。使得本发明公开的方法能够快速、准确的构建一个情感词词典,加快情感分析系统的构建。

    【附图说明】

    图1示出根据本发明实施例的一种情感词倾向性分析方法的流程图;

    图2示出根据本发明实施例的信息抽取模板的样式图。

    【具体实施方式】

    下面结合附图和具体实施例对本发明提供的一种情感词倾向性的分析方法进行详细描述。

    本发明提出了一种独立于应用领域的情感词倾向性的分析方法,该方法可以应用或者移植到多个具体领域中,包括但不限于:网络视频的情感分析,新闻、博客、微博客及其评论的情感分析,电影评论的情感分析,商品评论的情感分析等。

    参考图1,示出并描述根据本发明实施例的一种情感词倾向性的分析方法。如图1所示,该方法包括:步骤10)、抓取网络上带有星级的评论信息;步骤20)、抽取评论信息中的情感词;步骤30)、通过将星级数值化计算得到的情感词倾向性、利用构建的种子情感词基于PMI-IR算法获取的情感词倾向性以及基于连词性质计算的情感词倾向性加权求和,获取情感词的倾向性。本发明还包括步骤40)、将具有倾向性的情感词的列表归类,输出情感词词典。也就是说,基于上述情感词的倾向性分析结果,可以获取情感词词典。

    进一步参考图1,对本发明方法的各个步骤进行详细描述。在步骤10)中,根据网页内容的布局来设置不同的抽取模板与规则,抓取网页中的评论信息及其对应的星级信息;包括:步骤110)、按照评论信息的来源不同,基于网站定制对应的评论信息和星级信息抽取模板。步骤120)、下载整个网页的内容(例如,网页源代码)。步骤130)、根据抽取模板以及网页源代码的内容,抽取步骤120中下载的网页内容中的评论文本信息以及相对应的星级信息,构成评论信息语料库。包括如下具体操作步骤:

    在步骤110)中,对于评论信息的不同来源,比如豆瓣网上的评论信息,时光网上的评论信息或者其它带有这种星级信息的网站的评论信息,都可以作为数据的来源。通常,大部分网站都是由通过模板来生成网页数据的,具有相同或者相似语义内容的网页具有相同或者相似的HTML语法结构。通过提取网站中包含有评论信息和星级信息的网页所有共有的语法结构来构建信息抽取的正则表达式。

    在一个具体实例中,根据要抽取评论信息和星级信息的网站,分别制定信息抽取的模板,信息抽取模板的样式如图2所示。进一步,利用开源工具HTMLParser对页面的HTML文本内容进行分析,并制定信息抽取的正则表达式。

    在步骤20中,抽取评论语句中的形容词作为情感词。情感的表达可以使用形容词、动词、副词或者名词,但大部分情感的表达还是通过形容词,在此处为了简化情感分析的构建,具体以形容词为例,但本方法还可以考虑评论语句中的动词、名词或者副词。

    步骤20)包括:步骤210)、定义情感词;步骤220)、评论信息的分词;步骤230)、将情感词与星级进行对应;和步骤240)、得到情感词和星级对列表。

    在步骤210中,一般的情感定义有喜、怒、哀、乐等几种情感分类,本发明的方法将情感分为正向、反向和中性,比如说“伟大”、“和蔼”、“美好”等认为是正向情感词,“悲哀”、“低俗”、“恶劣”等认为反向情感词,对于那些既不属于正向情感词的,又不属于反向情感词的,则认为属于中性的情感词。在一个实施例中,定义一个情感分值区间[1,-1],以及一个阈值t,对于一个情感词w,w的情感分值v,如果|v|<=t,则认为该情感词为中性情感词,如果v>t,则认为是正向情感词,否则为反向情感词。其中,分值区间是分值v的取值范围,阈值也是分值区间的一个大于0的值,分值区间可以有其它定义。这里可以对得到的分值进行归一化处理,使它在[1,-1]间,阈值的选择主要还是依据经验值,一般选择大约在0.15-0.20之间的一个值。

    在步骤220中,使用带有词性标注的中国科学院计算技术研究所开发的分词系统ictclas的开源版本对评论信息进行分词。该系统的分词速度和准确性都可以满足本发明的需要,并且该系统的开源版本可以从网络上任意下载获取。

    在步骤230中,依据分词后所提取的内容和该内容对应的星级,将分词后的评论文本信息中的所有情感词抽取出来,与该评论信息所对应的星级组成二元对{<wi,p>|i=1到该评论文本信息中包含的情感词的个数),构成一个二元对列表,例如表1。

    表1

      情感词  倾向性值  难看  -0.9047619047619047  没意思  -0.25  好奇  0.1282051282051283  积极  0.4285714285714286

    在步骤30)中,计算情感词倾向性的步骤包括:步骤310)、将星级数值化;步骤320)、计算二元对列表中情感词的倾向性;步骤330)、构建种子情感词集合;步骤340)、利用PMI-IR算法计算二元对列表中情感词的倾向性;步骤350)、创建连词处理规则;步骤360)、循环迭代计算与种子情感词共同出现过的情感词的倾向性;步骤370)将三种计算倾向性进行加权求和。

    在步骤310中,当前网络上的各种星级评论大部分都是5星级评论,即最低是1颗星,最高是5颗星,这样将这这些星级评论分别与[-2,2]中的5个数值进行对应,负数代表反向评论,正数代表正向评论,0则认为是中性评论。当然,还存在其它的评论方式,有的网站是直接打分,例如淘宝是从星到钻,但这样的打分都有一个从低到高的顺序,将由低到高构成的区间均分为多个等级,分别与数值进行对应。这样,所有的评论信息相当于已经进行了人工标注,而且这种方法相对与那些人工对语料库进行的标注来说,存在的一个优点就是这些所谓的“标注”是通过大量的网民进行的,很大程度上降低了人工标注中由于人少而导致的标注偏置问题。

    在步骤320中,对一个情感词的倾向性的计算,将该词的出现的所有倾向性值进行一个平均,将该平均值作为该情感词的倾向性值,假设情感词W的所有的标注值为V1,V2,...,Vn。则该情感词W的情感倾向性值SO为:

    SO(w)=Σi=1nVin]]>

    通过步骤320可以得到情感词列表中所有情感词的情感倾向性值,由于网络数据的随意性,星级评论是网民给评论做的一个总体打分,但一个评论中并不代表只有一种观点,有可能存在两种截然相反的两种观点在一个评论中,这就可能对情感词的倾向性分析造成误判。为了降低这种风险,进一步添加了后面两种算法,对情感词的倾向性进行进一步的确定。

    步骤330中,种子情感词的选择会受到领域的影响,比如“长”这个词,在电影领域里面可能不是一个正向的词,但对某些商品来说,“长”又是一个正向词。为了使得该发明能够尽量独立于领域,选择的种子情感词尽量是那些不受上下文以及领域影响的强烈的情感词。对于面向单一领域的情感分析系统,可以选择该领域的强烈的情感词作为种子情感词。根据经验,一般选择正反向种子情感词各10个,这既考虑了准确性,同时又考虑了计算速度问题。

    在步骤340中,根据步骤330中得到的种子情感词集合,对情感词列表中的情感词基于PMI-IR算法进行倾向性计算,可以不需要很大的利于PMI-IR算法的情感语料库,而可以利用搜索引擎的帮助,来计算情感词的倾向性。该算法的计算公式如下

    I(w,wi)=log(p(w,wi)p(w)*p(wi))]]>

    SO(w)=Σi=1nI(w,Pi)-Σi=1nI(w,Ni)]]>

    其中I(w,wi)表示情感词w和情感词wi之间的互信息,p(w,wi)表示两个词直接间的共现概率,Pi表示正向种子情感词,Ni表示反向种子情感词,SO(w)表示情感词w的情感倾向性值。由于计算两个词的共现频数是通过搜索引擎,则认为词的总数都是一样的,这样,将搜索结果的hits(搜索结果数)作为两个词之间的共现概率,简化计算过程。

    对于一个情感词w,如果SO(w)的值的绝对值小于阈值,认为该情感词为中性词,如果SO(w)的值大于阈值,则认为该情感词为正向的,否则,则为反向情感词(该阈值即为前述阈值)。这样,通过PMI-IR算法得到情感词列表中所有情感词的倾向性。

    在步骤350)中,本发明考虑了并列关系连词和转折关系连词两个连词集合,比如并列关系连词“和”,“与”,“以及”等,同时,本发明也将递进关系连词也认为是并列连词,如“并且”,“而且”等。对于由并列连词连接起来的情感词,认为是具有相同情感倾向性。而转折关系连词,如“但是”,“但”,“然而”等,对于有转折关系连词连接起来的情感词,认为是具有相反情感倾向性。同样,利用操作步骤330中所选择的种子情感词,通过在情感语料库中使用并列关系连词和转折关系连词不断的进行循环迭代,对情感词词典进行扩展,直到情感词词典没有增加为止。这样,可以得到部分或者全部情感词列表中情感词的倾向性。对于那些在情感词列表中但是通过关系连词没有扩展到的情感词的倾向性值认为是0。其中,该种子情感词集合可以根据需要和不同的应用领域进行扩大,因为这一步利用现有的情感语料库进行计算,不用实时地从网上获取数据,所以速度方面不会因为种子情感词的适度增大而有所影响。

    在步骤370中,将以上三种方式得到的情感词列表中情感词的倾向性值进行归一化,进行加权求和。

    SO′(w)=so(w)-min(so(wi))max(so(wi))-min(so(wi))]]>

    so(w)表示情感词w的情感倾向性值,min(so(wi))则表示所有情感词中情感倾向性最小的值,max(so(wi))则表示所有情感词中情感倾向性最大的值,so(w)则表示情感词w的情感倾向性。SO’(w)则表示w进行归一化后的倾向性值,并且符号保持与原先的符号一样。这样,在进行了归一化后,每个情感词都有三个倾向性值(即上述利用三种算法分别得到的该情感词的倾向性值),对它们进行加权求和,得到该情感词最终的情感倾向性值:

    SO′′(w)=Σi=1nαiSOi′(w)]]>

    SO”(w)表示进行加权求和后情感词w的倾向性值,αi表示权重系数(权重的选择主要还是根据经验值,对所处理的语料的质量和语料的领域的不同,权重可以有所不同),SOi′(w)表示列表i中w的倾向性值,这里n=3。

    在步骤40)中,将得到的带有情感倾向性值的情感词列表进行归类,设置一个阈值,对于倾向性值大于阈值的情感词作为正向情感词,对于倾向性值小于阈值的情感词作为负向情感词,其它的作为中性的情感词,构成无监督的情感词词典。

    最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其它的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

一种情感词倾向性的分析方法.pdf_第1页
第1页 / 共11页
一种情感词倾向性的分析方法.pdf_第2页
第2页 / 共11页
一种情感词倾向性的分析方法.pdf_第3页
第3页 / 共11页
点击查看更多>>
资源描述

《一种情感词倾向性的分析方法.pdf》由会员分享,可在线阅读,更多相关《一种情感词倾向性的分析方法.pdf(11页珍藏版)》请在专利查询网上搜索。

本发明提供一种情感词倾向性的分析方法,包括:抓取网络上带有星级的评论信息;抽取评论信息中的情感词;通过将利用星级数值化计算得到的情感词倾向性、利用构建的种子情感词基于PMI-IR算法获取的情感词倾向性以及基于连词性质计算的情感词倾向性加权求和,获取情感词的倾向性。通过应用本方法,减轻了情感分析系统构建的工作量;利用网络上的星级评论,减少人工标注中人的主观因素对情感词的标注的影响;通过多种算法的结合。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1