一种应用于评论语料的情感信息压缩方法及系统.pdf

摘要
申请专利号：	CN201410494394.0	申请日：	2014.09.24
公开号：	CN104199980A	公开日：	2014.12.10
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/30申请日:20140924\|\|\|公开
IPC分类号：	G06F17/30; G06F17/27	主分类号：	G06F17/30
申请人：	苏州大学
发明人：	李寿山; 高伟; 周国栋; 王红玲
地址：	215137 江苏省苏州市相城区济学路8号
优先权：
专利代理机构：	北京集佳知识产权代理有限公司 11227	代理人：	常亮
PDF下载：	PDF下载

内容摘要

本发明提供一种应用于评论语料的情感信息压缩方法及系统。上述方法包括以下步骤。S1、将待用数据分为K份，并取其中1份作为测试样本，其余K-1份作为训练样本。S2、使用机器学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数。S3、将所有样本根据情感代表性分值从大到小排序，并根据压缩规模N，抽取排在前面的N个样本作为压缩样本集。本发明能够有效的压缩评论语料，并最大程度上保存原语料的情感分类信息，达到了在小存储容量的移动设备上实现情感分类任务的目的。

权利要求书

1.  一种应用于评论语料的情感信息压缩方法，其特征在于，包括以下步骤：
S1、将待用数据分为K份，并取其中1份作为测试样本，其余K-1份作为训练样本；
S2、使用机器学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数；
S3、将所有样本根据情感代表性分值从大到小排序，并根据压缩规模N，抽取排在前面的N个样本作为压缩样本集。

2.  根据权利要求1所述的方法，其特征在于，在步骤S1中，对所述待用数据采用顺序切分或者随机抽取的方式，组成K份均等的样本集。

3.  根据权利要求1所述的方法，其特征在于，在步骤S1中，每次从K份中取其中1份作为测试样本，剩下的K-1份作为训练样本，共循环迭代K次。

4.  根据权利要求1所述的方法，其特征在于，在步骤S2中，使用的机器学习方法为最大熵的机器学习方法。

5.  根据权利要求1所述的方法，其特征在于，在步骤S2中，所述后验概率是使用机器学习方法训练的分类器对样本进行分类时获得的。

6.  根据权利要求1所述的方法，其特征在于，在步骤S2中，使用机器学习的分类方法在训练样本上进行训练，并对测试样本进行分类，得到其属于每个类别的后验概率。

7.  根据权利要求1所述的方法，其特征在于，在步骤S3中，所述排在前面的N个样本作为压缩样本集，并作为最终的压缩结果。

8.  一种应用于评论语料的情感信息压缩系统，其特征在于，包括情感代表性打分模块和压缩模块，所述情感代表性打分模块连接压缩模块，
所述情感代表性打分模块，包括预处理装置及分类装置，所述预处理装置连接分类装置，
所述预处理装置，用于将待用数据分为K份，并取其中1份作为测试样本，其余K-1份作为训练样本；
所述分类装置，用于使用机器学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数；
所述压缩模块，包括排序装置及输出装置，所述排序装置连接输出装置，
所述排序装置，用于将所有样本根据情感代表性分值从大到小排序；
所述输出装置，用于根据压缩规模N，抽取排在前面的N个样本作为压缩样本集。

说明书

一种应用于评论语料的情感信息压缩方法及系统
技术领域
本发明涉及自然语言处理技术领域及模式识别领域，具体涉及一种应用于评论语料的情感信息压缩方法及系统。
背景技术
随着互联网的迅猛发展，人们越来越习惯于在网络上表达自己的观点，从而使网络上涌现出大量带情感的文本。这些倾向性文本往往以商品评论、论坛评论和博客的形式存在。这些文本往往是关键文本，或者是用户感兴趣的文本。如何从海量文本中提取这一类文本，并对其进行情感倾向性的分析，具有很强的应用价值。例如：用户可以根据商品的评论了解商品的信息，选择合适的品牌；商家根据用户的评论改进商品的品质，争取更大的市场；追踪社会舆论趋势，发现社会热点问题等。情感分析就是针对这些应用问题提出的一个新兴研究课题。
所谓文本倾向性分析，就是对说话人的态度(或称观点、情感)进行分析，也就是对文本中的主观性信息进行分析。情感分类(Sentiment Classification)是情感分析中的一个基本任务。该任务旨在将文本按照情感倾向进行褒贬分类。与传统基于主题的文本分类相比，情感分类被认为更具有挑战性。该任务具体是指将文本分为正面文本或者负面文本的任务。例如：“我很喜欢这部电影”，通过情感分类，这句话将被分为正面文本；而“这个电影很差劲”，被分类为负面文本。
目前，主流的情感分类方法大致可以分为两种。
第一种分类方法是基于情感词表的非监督学习方法，这种方法主要是基于词计数的方法。利用情感词表去统计样本中正面情感词和负面情感词的数目，如果正面词的数目多于负面词的数目，则判断样本为正面样本，否则为负面样本。该方法的实现非常简单，执行效率高，适合任何领域，但是分类效果与实际需求仍存在较大差距。
第二种是基于机器学习的监督分类方法，该方法分为两个过程：训练过程和分类过程。其中，在训练过程中，需要人工标注一定规模的正负样本。这种方法的分类准确率比较高，但是随着训练样本数目的增加，特征数目也随之大幅度地提高，分类过程中需要占用大量的内存空间，对于移动终端设备往往受到内存容量的限制，很难进行文本分类的任务。
另外，对于一些特殊的任务，如不平衡情感分类任务，其中某一类别的样本数目远远多于另一类别的样本数目，样本数目的不平衡往往导致很差的分类效果。
鉴于上述原因，本发明提供一种应用于评论语料的情感信息压缩方法及系统，对评论语料进行压缩，使之最大程度上保留情感分类信息，从而能够适应于移动设备上的情感分类任务，以及为某些特殊的任务(如不平衡情感分类任务)提供服务，以实现对多类别的语料进行压缩。
发明内容
为了更好地理解本发明，首先将本发明涉及的常用的术语与标记介绍如下。
机器学习分类方法(Classification Methods Based on Machine Learning)：用于构建分类器的统计学习方法，输入是表示样本的向量，输出是样本的类别标签。常见的机器学习分类方法有朴素贝叶斯、最大熵、支持向量机等。评论语料：对产品进行评论的文本。情感分类：通过分析文本的主观性信息，将文本分为褒义文本或者贬义文本的任务。
本发明提供一种应用于评论语料的情感信息压缩方法，包括以下步骤。
S1、将待用数据分为K份，并取其中1份作为测试样本，其余K-1份作为训练样本。
S2、使用机器学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数。
S3、将所有样本根据情感代表性分值从大到小排序，并根据压缩规模N，抽取排在前面的N个样本作为压缩样本集。
优选的，在步骤S1中，对所述待用数据采用顺序切分或者随机抽取的方式，组成K份均等的样本集。
优选的，在步骤S1中，每次从K份中取其中1份作为测试样本，剩下的K-1份作为训练样本，共循环迭代K次。
优选的，在步骤S2中，使用的机器学习方法为最大熵的机器学习方法。
优选的，在步骤S2中，所述后验概率是使用机器学习方法训练的分类器对样本进行分类时获得的。
优选的，在步骤S2中，使用机器学习的分类方法在训练样本上进行训练，并对测试样本进行分类，得到其属于每个类别的后验概率。
优选的，在步骤S3中，所述排在前面的N个样本作为压缩样本集，并作为最终的压缩结果。
本发明还提供一种应用于评论语料的情感信息压缩系统，包括情感代表性打分模块和压缩模块，所述情感代表性打分模块连接压缩模块。所述情感代表性打分模块，包括预处理装置及分类装置，所述预处理装置连接分类装置。所述预处理装置，用于将待用数据分为K份，并取其中1份作为测试样本，其余K-1份作为训练样本。所述分类装置，用于使用机器学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数。所述压缩模块，包括排序装置及输出装置，所述排序装置连接输出装置。所述排序装置，用于将所有样本根据情感代表性分值从大到小排序。所述输出装置，用于根据压缩规模N，抽取排在前面的N个样本作为压缩样本集。
通过本发明提供的应用于评论语料的情感信息压缩方法及系统，采用机器学习方法训练分类器对测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数。同时，将所有样本根据情感代表性分值从大到小排序，并抽取排在前面的N个样本作为压缩样本集。如此，能够有效的压缩评论语料，并最大程度上保存原语料的情感分类信息，达到了在小存储容量的移动设备上实现情感分类任务的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
图1是本发明较佳实施例提供的应用于评论语料的情感信息压缩方法流程图；
图2是本发明较佳实施例提供的对样本进行情感代表性打分的算法流程图；
图3是本发明较佳实施例提供的压缩过程的算法流程图；
图4是本发明较佳实施例提供的应用于评论语料的情感信息压缩系统示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。
图1是本发明较佳实施例提供的应用于评论语料的情感信息压缩方法流程图。如图1所示，本发明较佳实施例提供的应用于评论语料的情感信息压缩方法包括步骤S1～S3。
步骤S1：将待用数据分为K份，并取其中1份作为测试样本，其余K-1份作为训练样本。
具体而言，本实施例中，对所述待用数据采用顺序切分或者随机抽取的方式，组成K份均等的样本集。其中，每次从K份中取其中1份作为测试样本，剩下的K-1份作为训练样本，共循环迭代K次。
步骤S2：使用机器学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数。
具体而言，所述后验概率是使用机器学习方法训练的分类器对样本进行分类时获得的。使用机器学习的分类方法在训练样本上进行训练，并对测试样本进行分类，得到其属于每个类别的后验概率。
图2是本发明较佳实施例提供的对样本进行情感代表性打分的算法流程图。本实施例中，文档采用TF向量表示法，即文档向量的分量为相应的单词在该文档中出现的频度。文本的向量作为机器学习分类方法实现的分类器的输入。
本步骤中所使用的机器学习方法包括K近邻，贝叶斯，最大熵，SVM等，本实施例使用的机器学习方法为最大熵的机器学习方法。于此，最大熵分类方法是基于最大熵信息理论，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是说，要找到一种概率分布，满足所有已知的事实，但是让未知的因素最随机化。相对于朴素贝叶斯方法，该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。
在最大熵模型下，预测条件概率P(c|D)的公式如下：
P(ci|D)=1Z(D)exp(Σkλk,cFk,c(D,ci)).]]>其中Z(D)是归一化因子，F_k,c是特征函数，定义为：
Fk,c(D,c′)=1,nk(d)>0andc′=c0,otherwise.]]>
样本的情感倾向性类别判定通过后验概率P_l(c₊|D)和P_l(c_-|D)来决定，具体判定规则为：如果P(c₊|D)>P(c_-|D)，则样本属于褒义；否则样本属于贬义。
样本的最大后验概率是对后验概率P_l(c₊|D)和P_l(c_-|D)进行比较获得，最大后验概率判定为：如果P(c₊|D)>P(c_-|D)，则最大后验概率为P_l(c₊|D)；否则最大后验概率为P_l(c_-|D)。
步骤S3：将所有样本根据情感代表性分值从大到小排序，并根据压缩规模N，抽取排在前面的N个样本作为压缩样本集。
具体而言，本实施例中，将所有样本排序的算法可以自行选择，包括冒泡排序法，选择排序法，快速排序法，归并排序法等，对此本发明并不作限定。其中，排在前面的N个样本作为压缩样本集，并作为最终的压缩结果。
图3是本发明较佳实施例提供的压缩过程的算法流程图。本实施例中所采用的语料是多领域产品评论语料，其中共有4个领域的数据，分别为书籍(Book)、DVD、电子(Electronic)及厨房(Kitchen)。每个领域各有褒义和贬义评论1000篇，各选500篇正面评论和500篇负面评论作为测试语料。其余7000篇作为训练语料。实验选择的评价标准是压缩率(CR)和损失率(LR)：
CR＝Size_C/Size_O
LR＝(Acc_O-Acc_C)/Acc_O
其中，Size_C是压缩语料规模，Size_O是原语料规模，ACC_C是利用压缩语料训练的分类器的分类准确率，ACC_O是用原语料训练的分类器的分类准确率。
表1所示是根据本发明提供的情感信息压缩方法对上述7000个训练语料进行压缩的实验结果。具体实验过程为：首先将训练样本分成K份，然后依次取其中一份作为测试样本，另外K-1份作为训练样本，用分类器对测试样本进行分类；然后取分类结果的最大后验概率作为每个样本的情感代表性打分；最后，根据压缩规模N，挑选情感代表性最高的N个样本作为压缩后的样本集。本实验中的K值设定为10。
从表1可以看出，本发明的方法能够有效的压缩训练语料，在压缩率为0.185时，损失率仅仅只有0.026。即使用1300个训练语料可以达到与原来的7000个训练语料相似的分类性能。

压缩规模10050090013001700压缩率0.0140.0710.1280.1850.242损失率0.1450.0800.0560.0260.028

表1
在情感分类的过程中，随着训练样本的增加，特征数目不断增大，在具有小存储量的移动设备中，传统的情感分类方法很难运行，本发明的方法能够有效压缩训练样本，避免情感分类对存储容量的高需求，在移动设备上实现高准确率的情感分类任务。另外，本发明也可以辅助其它需要对训练语料进行压缩的任务，适用于任何需要对语料进行压缩的环境。
图4是本发明较佳实施例提供的应用于评论语料的情感信息压缩系统示意图。如图4所示，本发明较佳实施例提供的应用于评论语料的情感信息压缩系统包括情感代表性打分模块1和压缩模块2，所述情感代表性打分模块1连接压缩模块2。所述情感代表性打分模块1，包括预处理装置11及分类装置12，所述预处理装置11连接分类装置12。所述预处理装置11，用于将待用数据分为K份，并取其中1份作为测试样本，其余K-1份作为训练样本。所述分类装置12，用于使用机器学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数。所述压缩模块2，包括排序装置21及输出装置22，所述排序装置21连接输出装置22。所述排序装置21，用于将所有样本根据情感代表性分值从大到小排序，所述输出装置22，用于根据压缩规模N，抽取排在前面的N个样本作为压缩样本集。关于上述系统的操作流程与本发明方法类似，故于此不再赘述。
通过本发明较佳实施例提供的应用于评论语料的情感信息压缩方法及系统，将全部训练语料分为K份，选择其中K-1份对另一份进行分类，取其分类结果的最大后验概率作为情感代表性打分，能够充分利用已有样本，不需要另外寻找样本训练分类器。此外，选取情感代表性高的样本，含有更丰富的情感分类信息，能够帮助获得更好的分类性能。同时，对评论语料进行压缩后，可以避免评论语料占用太多的内存，并且可以将其移植到移动设备上。
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

资源描述

《一种应用于评论语料的情感信息压缩方法及系统.pdf》由会员分享，可在线阅读，更多相关《一种应用于评论语料的情感信息压缩方法及系统.pdf（10页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104199980A43申请公布日20141210CN104199980A21申请号201410494394022申请日20140924G06F17/30200601G06F17/2720060171申请人苏州大学地址215137江苏省苏州市相城区济学路8号72发明人李寿山高伟周国栋王红玲74专利代理机构北京集佳知识产权代理有限公司11227代理人常亮54发明名称一种应用于评论语料的情感信息压缩方法及系统57摘要本发明提供一种应用于评论语料的情感信息压缩方法及系统。上述方法包括以下步骤。S1、将待用数据分为K份，并取其中1份作为测试样本，其余K1份作为训练样本。S2、使用机器。

2、学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数。S3、将所有样本根据情感代表性分值从大到小排序，并根据压缩规模N，抽取排在前面的N个样本作为压缩样本集。本发明能够有效的压缩评论语料，并最大程度上保存原语料的情感分类信息，达到了在小存储容量的移动设备上实现情感分类任务的目的。51INTCL权利要求书1页说明书5页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书5页附图3页10申请公布号CN104199980ACN104199980A1/1页21一种应用于评论语料的情感信息压缩方法，其特征在于，包括以下步骤S1、将待用数。

3、据分为K份，并取其中1份作为测试样本，其余K1份作为训练样本；S2、使用机器学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数；S3、将所有样本根据情感代表性分值从大到小排序，并根据压缩规模N，抽取排在前面的N个样本作为压缩样本集。2根据权利要求1所述的方法，其特征在于，在步骤S1中，对所述待用数据采用顺序切分或者随机抽取的方式，组成K份均等的样本集。3根据权利要求1所述的方法，其特征在于，在步骤S1中，每次从K份中取其中1份作为测试样本，剩下的K1份作为训练样本，共循环迭代K次。4根据权利要求1所述的方法，其特征在于，在步骤S2中，使用的机器学习。

4、方法为最大熵的机器学习方法。5根据权利要求1所述的方法，其特征在于，在步骤S2中，所述后验概率是使用机器学习方法训练的分类器对样本进行分类时获得的。6根据权利要求1所述的方法，其特征在于，在步骤S2中，使用机器学习的分类方法在训练样本上进行训练，并对测试样本进行分类，得到其属于每个类别的后验概率。7根据权利要求1所述的方法，其特征在于，在步骤S3中，所述排在前面的N个样本作为压缩样本集，并作为最终的压缩结果。8一种应用于评论语料的情感信息压缩系统，其特征在于，包括情感代表性打分模块和压缩模块，所述情感代表性打分模块连接压缩模块，所述情感代表性打分模块，包括预处理装置及分类装置，所述预处理装置连。

5、接分类装置，所述预处理装置，用于将待用数据分为K份，并取其中1份作为测试样本，其余K1份作为训练样本；所述分类装置，用于使用机器学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数；所述压缩模块，包括排序装置及输出装置，所述排序装置连接输出装置，所述排序装置，用于将所有样本根据情感代表性分值从大到小排序；所述输出装置，用于根据压缩规模N，抽取排在前面的N个样本作为压缩样本集。权利要求书CN104199980A1/5页3一种应用于评论语料的情感信息压缩方法及系统技术领域0001本发明涉及自然语言处理技术领域及模式识别领域，具体涉及一种应用于评论语料的情。

6、感信息压缩方法及系统。背景技术0002随着互联网的迅猛发展，人们越来越习惯于在网络上表达自己的观点，从而使网络上涌现出大量带情感的文本。这些倾向性文本往往以商品评论、论坛评论和博客的形式存在。这些文本往往是关键文本，或者是用户感兴趣的文本。如何从海量文本中提取这一类文本，并对其进行情感倾向性的分析，具有很强的应用价值。例如用户可以根据商品的评论了解商品的信息，选择合适的品牌；商家根据用户的评论改进商品的品质，争取更大的市场；追踪社会舆论趋势，发现社会热点问题等。情感分析就是针对这些应用问题提出的一个新兴研究课题。0003所谓文本倾向性分析，就是对说话人的态度或称观点、情感进行分析，也就是对文本。

7、中的主观性信息进行分析。情感分类SENTIMENTCLASSICATION是情感分析中的一个基本任务。该任务旨在将文本按照情感倾向进行褒贬分类。与传统基于主题的文本分类相比，情感分类被认为更具有挑战性。该任务具体是指将文本分为正面文本或者负面文本的任务。例如“我很喜欢这部电影”，通过情感分类，这句话将被分为正面文本；而“这个电影很差劲”，被分类为负面文本。0004目前，主流的情感分类方法大致可以分为两种。0005第一种分类方法是基于情感词表的非监督学习方法，这种方法主要是基于词计数的方法。利用情感词表去统计样本中正面情感词和负面情感词的数目，如果正面词的数目多于负面词的数目，则判断样本为正面样。

8、本，否则为负面样本。该方法的实现非常简单，执行效率高，适合任何领域，但是分类效果与实际需求仍存在较大差距。0006第二种是基于机器学习的监督分类方法，该方法分为两个过程训练过程和分类过程。其中，在训练过程中，需要人工标注一定规模的正负样本。这种方法的分类准确率比较高，但是随着训练样本数目的增加，特征数目也随之大幅度地提高，分类过程中需要占用大量的内存空间，对于移动终端设备往往受到内存容量的限制，很难进行文本分类的任务。0007另外，对于一些特殊的任务，如不平衡情感分类任务，其中某一类别的样本数目远远多于另一类别的样本数目，样本数目的不平衡往往导致很差的分类效果。0008鉴于上述原因，本发明提供。

9、一种应用于评论语料的情感信息压缩方法及系统，对评论语料进行压缩，使之最大程度上保留情感分类信息，从而能够适应于移动设备上的情感分类任务，以及为某些特殊的任务如不平衡情感分类任务提供服务，以实现对多类别的语料进行压缩。发明内容0009为了更好地理解本发明，首先将本发明涉及的常用的术语与标记介绍如下。说明书CN104199980A2/5页40010机器学习分类方法CLASSICATIONMETHODSBASEDONMACHINELEARNING用于构建分类器的统计学习方法，输入是表示样本的向量，输出是样本的类别标签。常见的机器学习分类方法有朴素贝叶斯、最大熵、支持向量机等。评论语料对产品进行评论的。

10、文本。情感分类通过分析文本的主观性信息，将文本分为褒义文本或者贬义文本的任务。0011本发明提供一种应用于评论语料的情感信息压缩方法，包括以下步骤。0012S1、将待用数据分为K份，并取其中1份作为测试样本，其余K1份作为训练样本。0013S2、使用机器学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数。0014S3、将所有样本根据情感代表性分值从大到小排序，并根据压缩规模N，抽取排在前面的N个样本作为压缩样本集。0015优选的，在步骤S1中，对所述待用数据采用顺序切分或者随机抽取的方式，组成K份均等的样本集。0016优选的，在步骤S1中，每次从K。

11、份中取其中1份作为测试样本，剩下的K1份作为训练样本，共循环迭代K次。0017优选的，在步骤S2中，使用的机器学习方法为最大熵的机器学习方法。0018优选的，在步骤S2中，所述后验概率是使用机器学习方法训练的分类器对样本进行分类时获得的。0019优选的，在步骤S2中，使用机器学习的分类方法在训练样本上进行训练，并对测试样本进行分类，得到其属于每个类别的后验概率。0020优选的，在步骤S3中，所述排在前面的N个样本作为压缩样本集，并作为最终的压缩结果。0021本发明还提供一种应用于评论语料的情感信息压缩系统，包括情感代表性打分模块和压缩模块，所述情感代表性打分模块连接压缩模块。所述情感代表性打分。

12、模块，包括预处理装置及分类装置，所述预处理装置连接分类装置。所述预处理装置，用于将待用数据分为K份，并取其中1份作为测试样本，其余K1份作为训练样本。所述分类装置，用于使用机器学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数。所述压缩模块，包括排序装置及输出装置，所述排序装置连接输出装置。所述排序装置，用于将所有样本根据情感代表性分值从大到小排序。所述输出装置，用于根据压缩规模N，抽取排在前面的N个样本作为压缩样本集。0022通过本发明提供的应用于评论语料的情感信息压缩方法及系统，采用机器学习方法训练分类器对测试样本进行分类，并将分类结果的最大后。

13、验概率作为每个样本的情感代表性分数。同时，将所有样本根据情感代表性分值从大到小排序，并抽取排在前面的N个样本作为压缩样本集。如此，能够有效的压缩评论语料，并最大程度上保存原语料的情感分类信息，达到了在小存储容量的移动设备上实现情感分类任务的目的。附图说明0023为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以说明书CN104199980A3/5页5根据这些附图获得其他的附图。0024图1是本发明较佳实施例提供的应用于。

14、评论语料的情感信息压缩方法流程图；0025图2是本发明较佳实施例提供的对样本进行情感代表性打分的算法流程图；0026图3是本发明较佳实施例提供的压缩过程的算法流程图；0027图4是本发明较佳实施例提供的应用于评论语料的情感信息压缩系统示意图。具体实施方式0028下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。0029图1是本发明较佳实施例提供的应用于评论语料的情感信息压缩方法流程图。如图1所示，本发明较佳实施例提供的应用于评论语料的情感信息压缩方法包括步骤S1S3。0030步骤S1将待用数据分为K份，并取其中1份作为测。

15、试样本，其余K1份作为训练样本。0031具体而言，本实施例中，对所述待用数据采用顺序切分或者随机抽取的方式，组成K份均等的样本集。其中，每次从K份中取其中1份作为测试样本，剩下的K1份作为训练样本，共循环迭代K次。0032步骤S2使用机器学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数。0033具体而言，所述后验概率是使用机器学习方法训练的分类器对样本进行分类时获得的。使用机器学习的分类方法在训练样本上进行训练，并对测试样本进行分类，得到其属于每个类别的后验概率。0034图2是本发明较佳实施例提供的对样本进行情感代表性打分的算法流程图。本实施例中。

16、，文档采用TF向量表示法，即文档向量的分量为相应的单词在该文档中出现的频度。文本的向量作为机器学习分类方法实现的分类器的输入。0035本步骤中所使用的机器学习方法包括K近邻，贝叶斯，最大熵，SVM等，本实施例使用的机器学习方法为最大熵的机器学习方法。于此，最大熵分类方法是基于最大熵信息理论，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是说，要找到一种概率分布，满足所有已知的事实，但是让未知的因素最随机化。相对于朴素贝叶斯方法，该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。0036在最大熵模型下，。

18、样本排序的算法可以自行选择，包括冒泡排序法，选择排序法，快速排序法，归并排序法等，对此本发明并不作限定。其中，排在前面的N个样本作为压缩样本集，并作为最终的压缩结果。0043图3是本发明较佳实施例提供的压缩过程的算法流程图。本实施例中所采用的语料是多领域产品评论语料，其中共有4个领域的数据，分别为书籍BOOK、DVD、电子ELECTRONIC及厨房KITCHEN。每个领域各有褒义和贬义评论1000篇，各选500篇正面评论和500篇负面评论作为测试语料。其余7000篇作为训练语料。实验选择的评价标准是压缩率CR和损失率LR0044CRSIZE_C/SIZE_O0045LRACC_OACC_C/A。

19、CC_O0046其中，SIZE_C是压缩语料规模，SIZE_O是原语料规模，ACC_C是利用压缩语料训练的分类器的分类准确率，ACC_O是用原语料训练的分类器的分类准确率。0047表1所示是根据本发明提供的情感信息压缩方法对上述7000个训练语料进行压缩的实验结果。具体实验过程为首先将训练样本分成K份，然后依次取其中一份作为测试样本，另外K1份作为训练样本，用分类器对测试样本进行分类；然后取分类结果的最大后验概率作为每个样本的情感代表性打分；最后，根据压缩规模N，挑选情感代表性最高的N个样本作为压缩后的样本集。本实验中的K值设定为10。0048从表1可以看出，本发明的方法能够有效的压缩训练语料。

20、，在压缩率为0185时，损失率仅仅只有0026。即使用1300个训练语料可以达到与原来的7000个训练语料相似的分类性能。0049压缩规模10050090013001700压缩率00140071012801850242损失率014500800056002600280050表10051在情感分类的过程中，随着训练样本的增加，特征数目不断增大，在具有小存储量的移动设备中，传统的情感分类方法很难运行，本发明的方法能够有效压缩训练样本，避免情感分类对存储容量的高需求，在移动设备上实现高准确率的情感分类任务。另外，本发明也可以辅助其它需要对训练语料进行压缩的任务，适用于任何需要对语料进行压缩的环境。00。

21、52图4是本发明较佳实施例提供的应用于评论语料的情感信息压缩系统示意图。如说明书CN104199980A5/5页7图4所示，本发明较佳实施例提供的应用于评论语料的情感信息压缩系统包括情感代表性打分模块1和压缩模块2，所述情感代表性打分模块1连接压缩模块2。所述情感代表性打分模块1，包括预处理装置11及分类装置12，所述预处理装置11连接分类装置12。所述预处理装置11，用于将待用数据分为K份，并取其中1份作为测试样本，其余K1份作为训练样本。所述分类装置12，用于使用机器学习方法训练分类器对所述测试样本进行分类，并将分类结果的最大后验概率作为每个样本的情感代表性分数。所述压缩模块2，包括排序装。

22、置21及输出装置22，所述排序装置21连接输出装置22。所述排序装置21，用于将所有样本根据情感代表性分值从大到小排序，所述输出装置22，用于根据压缩规模N，抽取排在前面的N个样本作为压缩样本集。关于上述系统的操作流程与本发明方法类似，故于此不再赘述。0053通过本发明较佳实施例提供的应用于评论语料的情感信息压缩方法及系统，将全部训练语料分为K份，选择其中K1份对另一份进行分类，取其分类结果的最大后验概率作为情感代表性打分，能够充分利用已有样本，不需要另外寻找样本训练分类器。此外，选取情感代表性高的样本，含有更丰富的情感分类信息，能够帮助获得更好的分类性能。同时，对评论语料进行压缩后，可以避免。

23、评论语料占用太多的内存，并且可以将其移植到移动设备上。0054对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。说明书CN104199980A1/3页8图1说明书附图CN104199980A2/3页9图2图3说明书附图CN104199980A3/3页10图4说明书附图CN104199980A10。

展开阅读全文