一种基于聚类的形容词极性判断系统和方法.pdf

摘要
申请专利号：	CN200910078786.8	申请日：	2009.03.03
公开号：	CN101576875A	公开日：	2009.11.11
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回IPC(主分类):G06F 17/27公开日:20091111\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G06F17/27	主分类号：	G06F17/27
申请人：	杜小勇
发明人：	杜小勇; 刘红岩; 何军; 杨慧; 魏巍
地址：	100872北京市海淀区中关村大街59号中国人民大学信息学院
优先权：
专利代理机构：	北京中创阳光知识产权代理有限责任公司	代理人：	尹振启
PDF下载：	PDF下载

内容摘要

一种基于聚类的形容词极性判断系统和方法，其中该系统包括：句子切分单元，用于对需要判断的句子进行切分；同极性句子合并单元，用于将每个句子中的句子片段按照极性是否相同分为两堆；同极性形容词合并单元，用于检查每堆中的子句片段含有的否定词个数；初始语义矩阵形成单元，用于形成初始语义矩阵；相似度矩阵计算单元，用于对初始语义矩阵形成单元生成的初始语义矩阵进行扩展计算，计算出矩阵中对应位置没有值的那些形容词的相似度；以及语义极性聚类单元，用于利用相似度矩阵计算单元得到的矩阵进行聚类以聚成两类。

权利要求书

1、  一种基于聚类的形容词极性判断系统包括：
句子切分单元，用于对需要判断的句子进行切分以形成句子片段；
同极性句子合并单元，用于将每个句子中的句子片段按照极性是否相同分为两堆，每堆中的句子片段具有相同的语义极性；
同极性形容词合并单元，用于检查每堆中的子句片段含有的否定词个数，若含有奇数个否定词，则把相应的形容词放到另一堆中，若为偶数个否定词，则继续留在该堆中；
初始语义矩阵形成单元，用于形成初始语义矩阵；
相似度矩阵计算单元，用于对初始语义矩阵形成单元生成的初始语义矩阵进行扩展计算，计算出矩阵中对应位置没有值的那些形容词的相似度；以及
语义极性聚类单元，用于利用相似度矩阵计算单元得到的矩阵进行聚类以聚成两类，并判断两个类别的极性。

2、  根据权利要求1的系统，其中句子切分单元进一步包括：
层次切分单元，用于将包含众多形容词的句子切分成句子-同极性句-子句的层次；
形容词编号单元，用于对每个形容词进行定位编号。

3、  根据权利要求2的系统，其中同极性形容词合并单元进一步包括：
检查单元，用于检查每个句子的两类子句集合每一类中的每个子句含有的否定词个数是偶数还是奇数；
抽取单元，用于在该子句的否定词个数为奇数的情况下将抽取出的形容词加入到另一类中。

4、  根据权利要求1的系统，其中初始语义矩阵形成单元将句子号相同并且处于该句子相同的极性类中的两个形容词的语义相似度设为1，将形容词的句子号相同但是处于该句子不同的极性类中的两个形容词词的语义相似度设为-1，并且将处于同一堆中但不在同一子句中的两个形容词词的语义相似度设为α，其中0＜α＜1，以待在相似度矩阵计算单元中进行扩展。

5、  根据权利要求4的系统，其中相似度矩阵计算单元利用下述计算出矩阵中对应位置没有值的那些形容词的相似度，其中i和j表示句子中任意两个没有语义关系的形容词，k是与i和j均有语义关系的形容词：
SimilarityMatrix[i][j]＝Max_k∈[0，n](SimilarityMatrix[i][k]×SimilarityMatrix[k][j])

6、  一种基于聚类的形容词极性判断方法包括步骤：
A、对需要判断的句子进行切分以形成句子片段；
B、将每个句子中的句子片段按照极性是否相同分为两堆，每堆中的句子片段具有相同的语义极性；
C、检查每堆中的子句片段含有的否定词个数，若含有奇数个否定词，则把相应的形容词放到另一堆中，若为偶数个否定词，则继续留在该堆中；
D、形成初始语义矩阵；
E、对步骤D生成的初始语义矩阵进行扩展计算，计算出矩阵中对应位置没有值的那些形容词的相似度；以及
F、利用在步骤E得到的矩阵进行聚类以聚成两类，并判断两个类别的极性。

7、  根据权利要求6的方法，其中步骤A进一步包括：
将包含众多形容词的句子切分成句子-同极性句-子句的层次；
对每个形容词进行定位编号。

8、  根据权利要求7的方法，其中步骤C进一步包括：
检查每个句子的两类子句集合每一类中的每个子句含有的否定词个数是偶数还是奇数；
在该子句的否定词个数为奇数的情况下将抽取出的形容词加入到另一类中。

9、  根据权利要求6的方法，其中在步骤D中将句子号相同并且处于该句子相同的极性类中的两个形容词的语义相似度设为1，将形容词的句子号相同但是处于该句子不同的极性类中的两个形容词词的语义相似度设为-1，并且将处于同一堆中但不在同一子句中的两个形容词词的语义相似度设为α，其中0＜α＜1，以待在步骤E中进行扩展。

10、  根据权利要求9的系统，其中在步骤E中利用下述计算出矩阵中对应位置没有值的那些形容词的相似度，其中i和j表示句子中任意两个没有语义关系的形容词，k是与i和j均有语义关系的形容词：
SimilarityMatrix[i][j]＝Max_k∈[0，n](SimilarityMatrix[i][k]×SimilarityMatrix[k][j])

说明书

一种基于聚类的形容词极性判断系统和方法
技术领域
本发明涉及一种形容词极性判断系统和方法，尤其是涉及一种基于聚类的形容词极性判断系统和方法。
背景技术
在评论中，形容词总是富含评论者的语义极性或称情感倾向，那么如何有效的判断这些形容词的情感倾向，将是很多实际应用(比如意见挖掘，基于内容的广告投放)的核心内容。
形容词按照其语义极性与上下文的关系，可以分为上下文相关的形容词和上下文无关的形容词。上下文无关的形容词是指其语义极性不随所处句子的上下文而改变的那些形容词，而上下文相关的形容词是指其语义极性可能会随不同的句子上下文而发生根本性的改变。比如，这里给出三条评论句子如下：
1、这款相机的外观真的很漂亮；
2、这款相机太大了，携带不方便；
3、相机屏幕很大很清晰。
可以看出句子1中的形容词“漂亮”是与上下文无关的，因为“漂亮”无论放在任何上下文中，其语义极性都是正面的；相比句子2和句子3中的形容词都是“大”，但是句子2中是负面的语义极性，而句子3是正面的语义极性，同样一个形容词在不同的上下文中会有完全相反的语义极性。
目前的形容词的语义极性判断方法，主要有三类：
1、构建语义极性词典；
2、基于上下文规则的方法；
3、结合方法1和方法2。
对于第一类方法，目的是试图构建一个形容词的语义极性词典，在这个词典中记下每个词的语义极性。英文语种中通常是借助WordNet这个词库本体来得到词典中形容词的语义极性；由于中文语种还没有类似WordNet的本体，所以该方法主要是集中在英文语种上。这类方法的最大缺陷是，无法判断上下文相关的形容词的极性，因为能够记录在词典中的形容词都是上下文无关的词，对于上下文相关的词由于不同的环境极性可能会不同，所以不能作为词典中的单个条目。
对于第二类方法，目的是给出一些上下文规则，来辅助判断上下文相关的形容词的极性，比如：句子中的转折词“但是”和连词“而且”等。这些词的存在说明该句子的语义极性发生逆转或递进。这种方法对于判断上下文相关的形容词的极性比较有效，但是对于上下文无关的形容词的极性判断仍然需要借助于大型的语义词典。
第三类方法是结合了第一类方法和第二类方法，即事先还是构建一个上下文无关的形容词的语义词典，对于词典无法判断的形容词，利用方法二来判断。这个方法存在的缺陷是：对语义词典的要求过高，如果语义词典中的词不全，则很多情况下会判断失效。
综上所述，现有的判断形容词的语义极性的方法对语义词典的要求过高，这就限制了极性判断的广度，这样总是会存在无法判断的词存在(词典中不存在的情况)，所以正是基于这样的缺陷，提出了本发明。
发明内容
本发明是鉴于上述技术问题而产生的。本发明的一个目的是提出一种基于聚类的形容词极性判断系统和方法。
在一个方面中，根据本发明的基于聚类的形容词极性判断系统包括：句子切分单元，用于对需要判断的句子进行切分以形成句子片段；同极性句子合并单元，用于将每个句子中的句子片段按照极性是否相同分为两堆，每堆中的句子片段具有相同的语义极性；同极性形容词合并单元，用于检查每堆中的子句片段含有的否定词个数，若含有奇数个否定词，则把相应的形容词放到另一堆中，若为偶数个否定词，则继续留在该堆中；初始语义矩阵形成单元，用于形成初始语义矩阵；相似度矩阵计算单元，用于对初始语义矩阵形成单元生成的初始语义矩阵进行扩展计算，计算出矩阵中对应位置没有值的那些形容词的相似度；以及语义极性聚类单元，用于利用相似度矩阵计算单元得到的矩阵进行聚类以聚成两类，并判断两个类别的极性。
在这个方面中，其中句子切分单元进一步包括：层次切分单元用于将包含众多形容词的句子切分成句子-同极性句-子句的层次；形容词编号单元，用于对每个形容词进行定位编号。
在这个方面中，其中同极性形容词合并单元进一步包括：检查单元，用于检查每个句子的两类子句集合每一类中的每个子句含有的否定词个数是偶数还是奇数；抽取单元，用于在该子句的否定词个数为奇数的情况下将抽取出的形容词加入到另一类中。
在这个方面中，其中初始语义矩阵形成单元将句子号相同并且处于该句子相同的极性类中的两个形容词的语义相似度设为1，将形容词的句子号相同但是处于该句子不同的极性类中的两个形容词词的语义相似度设为-1，并且将处于同一堆中但不在同一子句中的两个形容词词的语义相似度设为α，其中0＜α＜1，以待在相似度矩阵计算单元中进行扩展。
在这个方面中，其中相似度矩阵计算单元利用下述计算出矩阵中对应位置没有值的那些形容词的相似度，其中i和j表示句子中任意两个没有语义关系的形容词，k是与i和j均有语义关系的形容词：
SimilarityMatrix[i][j]＝Max_k∈[0，n](SimilarityMatrix[i][k]×SimilarityMatrix[k][j])
在另一个方面中，根据本发明的基于聚类的形容词极性判断方法包括步骤：A、对需要判断的句子进行切分以形成句子片段；B、将每个句子中的句子片段按照极性是否相同分为两堆，每堆中的句子片段具有相同的语义极性；C、检查每堆中的子句片段含有的否定词个数，若含有奇数个否定词，则把相应的形容词放到另一堆中，若为偶数个否定词，则继续留在该堆中；D、形成初始语义矩阵；E、对步骤D生成的初始语义矩阵进行扩展计算，计算出矩阵中对应位置没有值的那些形容词的相似度；以及F、利用在步骤E得到的矩阵进行聚类以聚成两类，并判断两个类别的极性。
在这个方面中，其中步骤A进一步包括：将包含众多形容词的句子切分成句子-同极性句-子句的层次；对每个形容词进行定位编号。
在这个方面中，其中步骤C进一步包括：检查每个句子的两类子句集合每一类中的每个子句含有的否定词个数是偶数还是奇数；在该子句的否定词个数为奇数的情况下将抽取出的形容词加入到另一类中。
在这个方面中，其中在步骤D中将句子号相同并且处于该句子相同的极性类中的两个形容词的语义相似度设为1，将形容词的句子号相同但是处于该句子不同的极性类中的两个形容词词的语义相似度设为-1，并且将处于同一堆中但不在同一子句中的两个形容词词的语义相似度设为α，其中0＜α＜1，以待在步骤E中进行扩展。
在这个方面中，其中在步骤E中利用下述计算出矩阵中对应位置没有值的那些形容词的相似度，其中i和j表示句子中任意两个没有语义关系的形容词，k是与i和j均有语义关系的形容词：
SimilarityMatrix[i][j]＝Max_k∈[0，n](SimilarityMatrix[i][k]×SimilarityMatrix[k][j])
通过本发明，既能判断上下文无关的形容词的语义极性，又能高效的判断上下文相关的形容词的语义极性。本发明仅需要少量的上下文无关的形容词作为种子词，通过一次聚类就能准确的判断句子中所有形容词的语义极性。不需要含大量词的语义极性词典，本发明仅需要借助少量的种子词，而不需要限制在词典的规模上。
附图说明
结合随后的附图，从下面的详细说明中可显而易见的得出本发明的上述及其他目的、特征及优点。在附图中：
图1给出了根据本发明的基于聚类的形容词极性判断方法的流程图；
图2给出了根据本发明的对句子的切分粒度层次的示意图；
图3给出了根据本发明的示例；
图4给出了根据本发明的基于聚类的形容词极性判断系统的方框图；
图5给出了根据本发明的句子切分单元的详细方框图；
图6给出了根据本发明的同极性形容词合并单元的详细方框图；以及
图7给出了能够实施本发明的一个示例环境的示意图。
具体实施方式
在下文中将详细地论述的，本公开可以采用完全硬件的实施例、完全软件的实施例或包括硬件和软件元件两者的实施例的形式。在优选实施例中，本公开可以用软件来实施，其可以包括但不局限于固件、驻留软件、微码等等。
首先，参考图1，对根据本发明的基于聚类的形容词极性判断方法进行详细地描述。
如图1所示，根据本发明的基于聚类的形容词极性判断方法包括步骤：
A、将需要判断的句子，例如按照转折连词和标点符号进行切分，形成一个个的句子片段。
具体地说，如图2所示，将包含众多形容词的句子切分成句子-同极性句-子句的层次。其中同极性句是依据句子中的诸如“但是”，“然而”等这样的转折连词切分开的，子句是在同极性句中依据标点符号切分开的。切分成这样的目的是使每个子句都是单一的语义极性，这样处于该子句中的所有形容词的语义极性都默认是相同的。
此外，在该处理的过程中给每个形容词进行定位编号。如图2所示，图中从上到下的第二个层次为句子级别，给每个句子编号，如：1-n等。由于每个句子按照前述的方法被切成若干子句，则每个形容词所处的子句按顺序都有唯一的偏移量，例如比如某个句子被切分为A、B、C三个子句，且该句子的编号为a，则三个子句的偏移量分别为1，2、3，即a+1为a句的第一个子句，a+2为a句的第二个子句，依此类推。这样结合前面的句子编号，可以给每个形容词分配一个唯一的句子号，例如：A.b这样的形式，其中A表示句子号，b表示该形容词在该句子中的子句偏移量。
通过该步骤的处理，每条句子都被切成若干个片段，这些片段成为子句，若干子句又组成同极性句，若干同极性句组成该条句子，因此每个同极性句中的若干子句的语义极性是相同的。此外，由于相邻的同极性句是由转折连词联接，所以相邻的同极性句具有相反的语义极性，故相邻的同极性句中的子句均具有相反的语义极性。
B、将每个句子中的句子片段按照极性是否相同分为两堆，每堆中的句子片段具有相同的语义极性。通过此，得到每个句子的两类极性子句集合。在这里，“极性”例如包含两种：正面和负面，比如：“完美”是表示正面的情感倾向的形容词，而“糟糕”则是表示负面的情感倾向的形容词。
C、对每个句子中的每堆子句，检查每堆中的子句片段含有的否定词个数并对此记录。若含有奇数个否定词，则把相应的形容词放到另一堆中；若为偶数个否定词，则继续留在该堆中。
具体地说，对于每个句子的两类子句集合中的每个类中的每个子句，记录该子句中存在的否定词的个数。若该子句的否定词个数为奇数，则将抽取出的形容词加入到另一类中；若子句中的否定词个数为偶数，则这些形容词继续保留在该类中。经过这个步骤的处理，将每条句子转换成两类极性的形容词的集合。此外，在类中记录形容词时，还要记录该形容词所处的句子号，即若两个形容词完全相同的充要条件是形容词本身相同，而且所处的句子号也相同。
D、形成初始语义矩阵。
具体地说，对于句子中的每个形容词，按照其所属的堆，构建初始语义矩阵，即：该矩阵的横轴和纵轴均表示句子中的形容词，也就是说，该矩阵中每个单元是表示0、1、-1这样的值，而这些值所对应的意义是表示对应的横轴和纵轴表示的两个形容词的相似度。矩阵中的对应位置为值，形容词的相似度为该值所指的意义。这个矩阵利用以下的方式进行初始化：若两个对应的形容词的句子号相同，并且处于该句子相同的极性类中，则这两个词的语义相似度设为1；若两个对应的形容词的句子号相同，但是处于该句子不同的极性类中，则这两个词的语义相似度设为-1；若两个对应的形容词处于同一堆中但不在同一子句中，则值为α(0＜α＜1)，即留着下一步骤的时候进行扩展。通过这个方式可以建立一个初始语义极性相似度矩阵。
E、计算相似度矩阵，即依据步骤D生成的初始语义矩阵进行扩展计算，计算出矩阵中对应位置没有值的那些形容词的相似度。
具体地说，利用少量的事先已知的上下文无关的形容词的语义极性词典，对该初始化语义极性矩阵进行扩展。即利用下述公式，通过已知词的语义极性，得到相互之间没有之间语义关系的形容词之间的语义极性相似度。
SimilarityMatrix[i][j]＝Max_k∈[0，n](SimilarityMatrix[i][k]×SimilarityMatrix[k][j])
其中，i和j表示句子中任意两个没有语义关系的形容词，该公式的含义是若求出形容词i和形容词j最终的极性相似度，则要求出所有形容词i和某个其它形容词k(其中k可以取到所有的形容词集合)的相似度，并乘以该形容词k与形容词j的相似度，根据不同的k可以得到若干个值，最后选取最大的相似度值作为最终的形容词i和j的相似度。其中形容词i和某个其它形容词k的相似度、形容词k与形容词j的相似度均为在步骤D中所生成的初始极性矩阵中对应的值。通过这个步骤，可以进一步计算出间接相关的两个形容词的语义相似度。
F、语义极性聚类，即利用步骤E得到的矩阵进行聚类，聚成两类，按照多数原则，来判断两个类别的极性。
具体地说，对于步骤E得到的完整语义极性矩阵，利用经典的聚类方法(如K-Means等方法)对这些形容词的语义极性进行聚类。聚成两类，按照多数原则，来判断两个类别的极性。
通过该方法，可以得到数据源句子中的所有形容词，包括上下文无关的形容词和上下文相关的形容词的语义极性。
下面，参考图3，通过示例对图1的流程进行更加详细的说明。
如图3所示，第一个方框给出了需要判断的若干评论信息；随后通过上述步骤A、B、C的处理，将初始句子切分成第二个方框中的内容；接着形成步骤D中提到的初始化极性相似度矩阵；此后通过步骤E获得最终矩阵；最终通过聚类操作，获得最终的聚类结果，即将评论信息中的形容词中的形容词(红字标出)分成两类，一类为正面极性，一类为负面极性。
接下来，参考图4，对根据本发明的基于聚类的形容词极性判断系统进行详细地描述。
如图4所示，根据本发明的基于聚类的形容词极性判断系统包括：句子切分单元、同极性句子合并单元、同极性形容词合并单元、初始语义矩阵形成单元、相似度矩阵计算单元、以及语义极性聚类单元。
句子切分单元用于对需要判断的句子进行切分以形成句子片段，例如可按照转折连词和标点符号进行切分。
具体地说，如图5所示，该句子切分单元进一步包括层次切分单元和形容词编号单元。
层次切分单元将包含众多形容词的句子切分成句子-同极性句-子句的层次。如上所述，同极性句是依据句子中的诸如“但是”，“然而”等这样的转折连词切分开的，子句是在同极性句中依据标点符号切分开的。切分成这样的目的是使每个子句都是单一的语义极性，这样处于该子句中的所有形容词的语义极性都默认是相同的。
形容词编号单元对每个形容词进行定位编号。如上所述，如图2所示，图中从上到下的第二个层次为句子级别，给每个句子编号，如：1-n等。由于每个句子按照前述的方法被切成若干子句，则每个形容词所处的子句按顺序都有唯一的偏移量。这样结合前面的句子编号，可以给每个形容词分配一个唯一的句子号，例如：A.b这样的形式，其中A表示句子号，b表示该形容词在该句子中的子句偏移量。
同极性句子合并单元用于将每个句子中的句子片段按照极性是否相同分为两堆，每堆中的句子片段具有相同的语义极性。通过此，得到每个句子的两类极性子句集合。
同极性形容词合并单元用于检查每堆中的子句片段含有的否定词个数，若含有奇数个否定词，则把相应的形容词放到另一堆中，若为偶数个否定词，则继续留在该堆中。
具体地说，如图6所示，该同极性形容词合并单元进一步包括检查单元和抽取单元。
检查单元用于检查单元用于检查每个句子的两类子句集合每一类中的每个子句含有的否定词个数是偶数还是奇数。
抽取单元用于在该子句的否定词个数为奇数的情况下将抽取出的形容词加入到另一类中。
初始语义矩阵形成单元用于形成初始语义矩阵。具体地说，如上所述，这个矩阵利用以下的方式进行初始化：若两个对应的形容词的句子号相同，并且处于该句子相同的极性类中，则这两个词的语义相似度设为1；若两个对应的形容词的句子号相同，但是处于该句子不同的极性类中，则这两个词的语义相似度设为-1；若两个对应的形容词处于同一堆中但不在同一子句中，则值为α(0＜α＜1)，即留着下一步骤的时候进行扩展。通过这个方式可以建立一个初始语义极性相似度矩阵。
相似度矩阵计算单元用于对初始语义矩阵形成单元生成的初始语义矩阵进行扩展计算，计算出矩阵中对应位置没有值的那些形容词的相似度。具体地说，如上所述，利用下述公式，通过已知词的语义极性，得到相互之间没有之间语义关系的形容词之间的语义极性相似度。
SimilarityMatrix[i][j]＝Max_k∈[0，n](SimilarityMatrix[i][k]×SimilarityMatrix[k][j])
其中，i和j表示句子中任意两个没有语义关系的形容词，该公式的含义是若求出形容词i和形容词j最终的极性相似度，则要求出所有形容词i和某个其它形容词k(其中k可以取到所有的形容词集合)的相似度，并乘以该形容词k与形容词j的相似度，根据不同的k可以得到若干个值，最后选取最大的相似度值作为最终的形容词i和j的相似度。其中形容词i和某个其它形容词k的相似度、形容词k与形容词j的相似度均为在步骤D中所生成的初始极性矩阵中对应的值。
语义极性聚类单元用于利用相似度矩阵计算单元得到的矩阵进行聚成两类，并判断两个类别的极性。具体地说，对于相似度矩阵计算单元得到的完整语义极性矩阵，利用经典的聚类方法(如K-Means等方法)对这些形容词的语义极性进行聚类。聚成两类，按照多数原则，来判断两个类别的极性。
通过上面的描述可知，利用本发明的方法，可快速准确的判断句子中所有形容词的语义极性，并且既能判断上下文无关的形容词的语义极性，又能高效的判断上下文相关的形容词的语义极性；同时，不需要含大量词的语义极性词典。本发明仅需要借助少量的种子词，而不需要限制在词典的规模上。
下面将会结合图7来提供关于本发明处理范例的详细描述。
在该范例中，评论数据可通过多种方式输入设备输入，如存储设备(硬盘，闪存)，光驱，键盘输入或通过网络传输。在逻辑结构上，这种评论数据有多种表现形式，最常见的是线性结构表示方法。这种结构随后会被读入内存。然后，如图1所示，该流程将会被调用，该过程会将句子切分，同极性句子合并，同极性形容词合并，建立相似度矩阵以及聚类。这些过程的详细步骤已在上文得到解释。
对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此，具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此，在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下，可对其做出各种修改。