一种情绪文本的情绪特征确定方法及装置.pdf

上传人:b*** 文档编号:4695278 上传时间:2018-10-27 格式:PDF 页数:13 大小:1.03MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410571054.3

申请日:

2014.10.23

公开号:

CN104346326A

公开日:

2015.02.11

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/28申请公布日:20150211|||实质审查的生效IPC(主分类):G06F 17/28申请日:20141023|||公开

IPC分类号:

G06F17/28; G06F17/30; G06F17/27

主分类号:

G06F17/28

申请人:

苏州大学

发明人:

李寿山; 刘欢欢; 周国栋; 段湘煜

地址:

215137江苏省苏州市相城区济学路8号

优先权:

专利代理机构:

北京集佳知识产权代理有限公司11227

代理人:

常亮

PDF下载: PDF下载
内容摘要

本申请提供的情绪文本的情绪特征确定方法及装置,通过在确定的情绪文本中,提取情绪词的特征词集合,并依据情绪文本集合及特征词集合构建分类器,利用分类器对待确定情绪文本进行分类,获得分类结果,依据分类结果确定出待确定情绪文本的情绪特征为情绪发生或情绪隐藏。需要说明,本实施例中确定出的特征词集合是与情绪词具有上下文关联特征的特征词,利用所述特征词构建分类器,因此,构建的分类器充分考虑上下文对情绪表达的影响,相较于现有技术简单机械地利用情绪词表对情绪特征确定的方式,本实施例确定的准确率大大提高。

权利要求书

权利要求书
1.  一种情绪文本的情绪特征确定方法,其特征在于,包括:
在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本为包含目标情绪词的情绪文本;
在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语;
依据所述情绪文本集合及所述特征词集合,生成分类器;
利用所述分类器对所述待确定情绪文本进行分类,获得分类结果;
依据所述分类结果,确定所述待确定情绪文本的情绪特征;其中,所述情绪特征为情绪发生或情绪隐藏。

2.  根据权利要求1所述的情绪文本的情绪特征确定方法,其特征在于,所述依据所述情绪文本集合及所述特征词集合,生成分类器,包括:
对所述情绪文本集合中的部分情绪文本进行标注,获得训练集;其中,所述标注为正标注或负标注;
利用所述训练集对所述特征词集合进行训练,获得分类器。

3.  根据权利要求2所述的情绪文本的情绪特征确定方法,其特征在于,所述利用所述训练集对所述特征词集合进行训练,获得分类器,包括:
依据所述正标注及所述负标注,将所述训练集划分为正负两个训练子集;
针对所述特征词集合中每个特征词,计算分别在所述正负两个训练子集中出现的概率,获得贝叶斯分类器。

4.  根据权利要求3所述的情绪文本的情绪特征确定方法,其特征在于,所述贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率;
其中,所述利用所述分类器对所述待确定情绪文本进行分类,获得分类结果,包括:
利用所述预设先验概率及正训练子集对应的概率,计算第一后验概率;
利用所述预设先验概率及负训练子集对应的概率,计算第二后验概率;
将所述第一后验概率及所述第二后验概率中的较大值确定为分类结果。

5.  根据权利要求4所述的情绪文本的情绪特征确定方法,其特征在于,所述依据所述分类结果,确定所述待确定情绪文本的情绪特征,包括:
当所述分类结果为第一后验概率时,确定所述待确定情绪文本的情绪特征为情绪发生;
当所述分类结果为第二后验概率时,确定所述待确定情绪文本的情绪特征为情绪隐藏。

6.  根据权利要求1所述的情绪文本的情绪特征确定方法,其特征在于,所述特征词集合包括:段落特征词集合、句子特征词集合、子句特征词集合及关键词集合中的任意一个或多个的组合;其中:
所述段落特征词集合包含的是与所述情绪词在同一段落的词语;
所述句子特征词集合包含的是与所述情绪词在同一句子的词语;
所述子句特征词集合包含的是与所述情绪词在同一子句的词语;
所述关键词集合包含的是表达预设假设含义的词语。

7.  一种情绪文本的情绪特征确定装置,其特征在于,包括:
情绪文本确定模块,用于在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本为包含目标情绪词的情绪文本;
特征词提取模块,用于在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语;
分类器构建模块,用于依据所述情绪文本集合及所述特征词集合,生成分类器;
分类器分类模块,用于利用所述分类器对所述待确定情绪文本进行分类,获得分类结果;
情绪特征确定模块,用于依据所述分类结果,确定所述待确定情绪文本的情绪特征;其中,所述情绪特征为情绪发生或情绪隐藏。

8.  根据权利要求7所述的情绪文本的情绪特征确定装置,其特征在于,所述分类器构建模块包括:
训练集获得单元,用于对所述情绪文本集合中的部分情绪文本进行标注,获得训练集;其中,所述标注为正标注或负标注;
分类器生成单元,用于利用所述训练集对所述特征词集合进行训练,获得分类器。

9.  根据权利要求8所述的情绪文本的情绪特征确定装置,其特征在于,所述分类器生成单元包括:
标注子单元,用于依据所述正标注及所述负标注,将所述训练集划分为正负两个训练子集;
训练子单元,用于针对所述特征词集合中每个特征词,计算分别在所述正负两个训练子集中出现的概率,获得贝叶斯分类器。

10.  根据权利要求9所述的情绪文本的情绪特征确定装置,其特征在于,所述训练子单元获得的贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率;其中,所述分类器分类模块包括:
第一后验概率计算单元,用于利用所述预设先验概率及正训练子集对应的概率,计算第一后验概率;
第二后验概率计算单元,用于利用所述预设先验概率及负训练子集对应的概率,计算第二后验概率;
分类结果确定单元,用于将所述第一后验概率及所述第二后验概率中的较大值确定为分类结果。

说明书

说明书一种情绪文本的情绪特征确定方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其是一种情绪词文本的情绪特征确定方法及装置。
背景技术
当今,互联网已经成为信息的重要载体,尤其是近些年,随着电子商务及社交网站的兴起,互联网上出现了大量的评论,评论中一般包含情绪词,包含情绪词的文本可以称为情绪文本。研究情绪文本的情绪信息有助于了解和分析人们对事物或事件的观点态度,例如,包含开心、高兴等情绪词的文本表达的是对事物或事件的支持,相反,包含生气、烦恼等情绪词的文本标的是反对。在此背景下,情绪分析正逐渐称为自然语言处理领域中一项越来越受关注的研究课题。
目前,利用现有的情绪词表对情绪文本的情绪进行确定,即若情绪文本中出现了情绪词表中的某个情绪词,则认为该情绪文本具有该类情绪特征。例如,情绪文本出现了情绪词表中包含的“开心”,则确定该文本具有“开心”的情绪特征。
然而,现实的情绪文本中经常存在情绪隐藏的情况,即虽然情绪文本中出现了某个情绪词,但并未真正表达该情绪,例如“要是你在的话,她可能就开心了”。因此,利用现有的情绪确定方法确定出来的情绪特征存在误差,准确性较差。
发明内容
有鉴于此,本发明提供了一种情绪文本的情绪特征确定方法及装置,用以解决现有技术中的情绪特征确定方法准确性较差的技术问题。为实现所述发明目的,本发明提供的技术方案如下:
一种情绪文本的情绪特征确定方法,包括:
在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本 为包含目标情绪词的情绪文本;
在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语;
依据所述情绪文本集合及所述特征词集合,生成分类器;
利用所述分类器对所述待确定情绪文本进行分类,获得分类结果;
依据所述分类结果,确定所述待确定情绪文本的情绪特征;其中,所述情绪特征为情绪发生或情绪隐藏。
可选地,上述的情绪文本的情绪特征确定方法,所述依据所述情绪文本集合及所述特征词集合,生成分类器,包括:
对所述情绪文本集合中的部分情绪文本进行标注,获得训练集;其中,所述标注为正标注或负标注;
利用所述训练集对所述特征词集合进行训练,获得分类器。
可选地,上述的情绪文本的情绪特征确定方法,所述利用所述训练集对所述特征词集合进行训练,获得分类器,包括:
依据所述正标注及所述负标注,将所述训练集划分为正负两个训练子集;
针对所述特征词集合中每个特征词,计算分别在所述正负两个训练子集中出现的概率,获得贝叶斯分类器。
可选地,上述的情绪文本的情绪特征确定方法,所述贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率;
其中,所述利用所述分类器对所述待确定情绪文本进行分类,获得分类结果,包括:
利用所述预设先验概率及正训练子集对应的概率,计算第一后验概率正分类值;
利用所述预设先验概率及负训练子集对应的概率,计算第二后验概率负分类值;
将所述正分类值第一后验概率及所述负分类值第二后验概率中的较大值确定为分类结果。
可选地,上述的情绪文本的情绪特征确定方法,所述依据所述分类结果,确定所述待确定情绪文本的情绪特征,包括:
当所述分类结果为正分类值第一后验概率时,确定所述待确定情绪文本 的情绪特征为情绪发生;
当所述分类结果为负分类值第二后验概率时,确定所述待确定情绪文本的情绪特征为情绪隐藏。
可选地,上述的情绪文本的情绪特征确定方法,所述特征词集合包括:段落特征词集合、句子特征词集合、子句特征词集合及关键词集合中的任意一个或多个的组合;其中:
所述段落特征词集合包含的是与所述情绪词在同一段落的词语;
所述句子特征词集合包含的是与所述情绪词在同一句子的词语;
所述子句特征词集合包含的是与所述情绪词在同一子句的词语;
所述关键词集合包含的是表达预设假设含义的词语。
本申请还提供了一种情绪文本的情绪特征确定装置,包括:
情绪文本确定模块,用于在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本为包含目标情绪词的情绪文本;
特征词提取模块,用于在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语;
分类器构建模块,用于依据所述情绪文本集合及所述特征词集合,生成分类器;
分类器分类模块,用于利用所述分类器对所述待确定情绪文本进行分类,获得分类结果;
情绪特征确定模块,用于依据所述分类结果,确定所述待确定情绪文本的情绪特征;其中,所述情绪特征为情绪发生或情绪隐藏。
可选地,上述的情绪文本的情绪特征确定装置,所述分类器构建模块包括:
训练集获得单元,用于对所述情绪文本集合中的部分情绪文本进行标注,获得训练集;其中,所述标注为正标注或负标注;
分类器生成单元,用于利用所述训练集对所述特征词集合进行训练,获得分类器。
可选地,上述的情绪文本的情绪特征确定装置,所述分类器生成单元包括:
标注子单元,用于依据所述正标注及所述负标注,将所述训练集划分为正负两个训练子集;
训练子单元,用于针对所述特征词集合中每个特征词,计算分别在所述正负两个训练子集中出现的概率,获得贝叶斯分类器。
可选地,上述的情绪文本的情绪特征确定装置,所述训练子单元获得的贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率;其中,所述分类器分类模块包括:
正分类值第一后验概率计算单元,用于利用所述预设先验概率及正训练子集对应的概率,计算正分类值第一后验概率;
负分类值第二后验概率计算单元,用于利用所述预设先验概率及负训练子集对应的概率,计算负分类值第二后验概率;
分类结果确定单元,用于将所述正分类值第一后验概率及所述负分类值第二后验概率中的较大值确定为分类结果。
本发明提供的情绪文本的情绪特征确定方法及装置,通过在确定的情绪文本中,提取情绪词的特征词集合,并依据情绪文本集合及特征词集合构建分类器,利用分类器对待确定情绪文本进行分类,获得分类结果,依据分类结果确定出待确定情绪文本的情绪特征为情绪发生或情绪隐藏。需要说明,本实施例中确定出的特征词集合是与情绪词具有上下文关联特征的特征词,利用所述特征词构建分类器,因此,构建的分类器充分考虑上下文对情绪表达的影响,相较于现有技术简单机械地利用情绪词表对情绪特征确定的方式,本实施例确定的准确率大大提高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的情绪文本的情绪特征确定方法的流程图;
图2为本发明实施例提供的情绪文本的情绪特征确定装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,其示出了本发明实施例提供的一种情绪文本的情绪特征确定方法,具体包括以下步骤:
步骤S101:在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本为包含目标情绪词的情绪文本。
其中,情绪文本集合是从各种文本中提取到的,需要说明的是,情绪文本集合中包含多个情绪文本,情绪文本是指包含情绪词的文本。确定情绪文本集合的方式可以是利用包含情绪词的词表在各种文本中进行提取,即当文本中包含情绪词表中的情绪词时,将该文本提取出来。
当前判断的情绪词为目标情绪词,本发明实施例的目的即是判断包含目标情绪词的情绪文本中的情绪是否发生。例如:目标情绪词为“开心”,则包含“开心”的情绪文本为待确定的情绪文本,即判断待确定情绪文本中包含的“开心”是否发生。
步骤S102:在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语。
其中,本发明实施例利用现有的分词工具将待确定情绪文本划分为多个词语。根据自然语言的语法特征,词语按照一定的语法规则拼接成文本。同理,待确定情绪文本由多个划分为的词语组成,其中包含情绪词,与情绪词具有上下文关联关系的词语即是特征词语。需要说明,确定出的特征词语包含情绪词本身。
例如:待确定情绪文本为“今天天气很晴朗,非常适合郊游。要是她也来了,我就非常开心。”当前确定判断的情绪词为“开心”,与“开心”具有上下文关联关系的特征词语分别为“今天”“天气”“很”“晴朗”“非常”“适合”“郊游”“要是”“她”“也”“来了”“我”“就”“非常”“开心”。
需要说明,上述示例中将组成段落的词语作为特征词,当然,特征词还可以是其他多种形式,详见下文说明。
步骤S103:依据所述情绪文本集合及所述特征词集合,生成分类器。
其中,分类器本质是数学模型,用于数据分析与预测。其通过自动学习后,可自动将数据分到已知类别。本实施例中,分类器可以是贝叶斯分类器、最大熵分类器等。生成分类器的方式可以是,依据情绪文本集合确定出训练集,利用训练集对各个特征词进行训练,从而生成分类器。其中,分类器中包含各个特征词训练得到的概率。
步骤S104:利用所述分类器对所述待确定情绪文本进行分类,获得分类结果。
其中,分类器可以识别出多个类,将待确定情绪文本作为分类器的输入信息,进而分类器可以判断出待确定情绪文本具体属于哪个类。本实施例中构建的分类器是对情绪特征进行确定,即确定情绪发生与否,因此,本实施例中的分类器可以识别的类为两个,即情绪发生、情绪未发生(或称为情绪隐藏)。
利用分类器中训练得到的概率对待确定情绪文本进行分类,从而获得分类结果。分类过程中生成每个类别各自对应的概率值,将最大的概率值确定为分类结果,也就是说,分类结果是某个类别对应的概率。
步骤S105:依据所述分类结果,确定所述待确定情绪文本的情绪特征;其中,所述情绪特征为情绪发生或情绪隐藏。
其中,将分类结果即最大概率值对应的类别确定为待确定情绪文本的情绪特征。例如,最大概率值对应的类为情绪发生,则待确定情绪文本的情绪特征为情绪发生。
由以上的技术方案可知,本实施例提供的情绪文本的情绪特征确定方法,通过在确定的情绪文本中,提取情绪词的特征词集合,并依据情绪文本集合及特征词集合构建分类器,利用分类器对待确定情绪文本进行分类,获得分类结果,依据分类结果确定出待确定情绪文本的情绪特征为情绪发生或情绪隐藏。需要说明,本实施例中确定出的特征词集合是与情绪词具有上下文关联特征的特征词,利用所述特征词构建分类器,因此,构建的分类器充分考虑上下文对情绪表达的影响,相较于现有技术简单机械地利用情绪词表对情 绪特征确定的方式,本实施例确定的准确率大大提高。
上述实施例中,步骤S102中提取的特征词集合可以是段落特征词集合、句子特征词集合、子句特征词集合及关键词集合中的任意一个或多个的组合;其中:
所述段落特征词集合包含的是与所述情绪词在同一段落的词语。
例如,待确定情绪文本为“今天天气很晴朗,非常适合郊游。要是她也来了,我就非常开心。”当前确定判断的情绪词为“开心”。段落特征词集合包含的是:“今天”“天气”“很”“晴朗”“非常”“适合”“郊游”“要是”“她”“也”“来了”“我”“就”“非常”“开心”。
所述句子特征词集合包含的是与所述情绪词在同一句子的词语。
例如,待确定情绪文本为“今天天气很晴朗,非常适合郊游。要是她也来了,我就非常开心。”当前确定判断的情绪词为“开心”。确定的句子特征词集合包含的是:“要是”“她”“也”“来了”“我”“就”“非常”“开心”。
所述子句特征词集合包含的是与所述情绪词在同一子句的词语。
例如,待确定情绪文本为“今天天气很晴朗,非常适合郊游。要是她也来了,我就非常开心。”当前确定判断的情绪词为“开心”。确定的子句特征词集合包含的是:“我”“就”“非常”“开心”。
所述关键词集合包含的是包含的是表达预设假设含义的词语。
其中,预设假设含义可以是假设、希望、条件等连接词,因此,关键词集合包含的是表达假设、希望、条件等含义的词语。本实施例中可以预设包含关键词表,详见表1。当然,关键词表的具体形式包括但不限于此。
表1

具体地,待确定情绪文本为由至少三个句子组成的段落时,特征词语集合可以包含段落特征词集合及句子特征词集合。当然,句子中包含子句时,还可以包括子句特征词集合。进一步地,当情绪词文本中包含表达预设假设含义的词语时,还可以包括关键词集合。
需要说明,当特征词集合中包含多种特征词集合时,例如,包含段落特征词集合、句子特征词集合、子句特征词集合及关键词集合四类时,每种类型的特征词具有各自的标签,从而与其他类中的特征词进行区分。
需要说明,上述实施例中步骤S103依据所述情绪文本集合及所述特征词集合,生成分类器的具体实现方式可以是:
对所述情绪文本集合中的部分情绪文本进行标注,获得训练集;其中,所述标注为正类标注或负标注。
具体地,情绪文本集合中包含多个情绪文本,例如,包含多个段落。当然,每个情绪文本中均包含情绪词,但不一定都包含当前判断的情绪词。
在情绪文本集合中提取部分情绪文本,可以是任意提取,提取的数量可以是预先设置的数值,例如任意提取出两个段落。人工对提取出来的部分情绪文本进行批注,其中包括正批注及负批注。其中,正批注指的是若情绪文本中情绪词表达的情绪发生,则将该情绪文本批注为正;负批注指的是若情绪文本中情绪词表达的情绪未发生,则将该情绪文本批注为负。
例如,提取的情绪文本包括:“能和朋友一起去看演唱会,我感到很高兴。”该情绪文本中情绪词“高兴”表达的情绪实际发生了,因此,将该情绪文本进行正批注。又如,提取的情绪文本包括:“今天天气很晴朗,非常适合郊游。要是她也来了,我就非常开心。”该情绪文本中情绪词“开心”表达的情绪未实际发生,因此,对该情绪文本进行负批注。
其中,批注可以是对情绪文本进行标记,正批注的文本标记为1,负批注的文本标记为0。
利用所述训练集对所述特征词集合进行训练,获得分类器。
其中,训练指的是对特征词集合中的各个特征词在训练集中出现的概率进行统计,得到分类器。若使用的训练方法为贝叶斯训练方法,则获得的分类器为贝叶斯分类器。具体地,获得贝叶斯分类器的具体方式可以是:
依据所述正标注及所述负标注,将所述训练集划分为正负两个训练子集;针对所述特征词集合中每个特征词,计算分别在所述正负两个训练子集中出现的概率,获得贝叶斯分类器。
其中,经过标注的训练集可以根据正负标注两种类型划分为正负两个训练子集,即正训练子集中包含的是具有正标注的情绪文本,负训练子集包含的是具有负标注的情绪文本。贝叶斯分类器中包含各个特征词的概率,因此,针对特征词集合中的每个特征词,分别计算其在两个训练子集中出现的概率。其中,出现的概率指的是出现的次数与该集合中的词语总量的比值。
例如,特征词为“我”,且该特征词为句子特征词,统计句子特征词“我”出现的次数为1,正训练子集中的词语总数为1000,则句子特征词“我”的概率为0.001。
需要说明,当特征词集合中的特征词在训练集中出现的次数为0时,则默认将该特征词的概率设置为预设的极小数值。
同时,需要说明的是,特征词是具有标签的特征词,统计概率时并不是对所有的特征词都进行统计,而是统计具有相应标签的特征词。因为同一词语的词语可能出现在多个句子中,不仅仅只是包含当前目标情绪词的句子。
例如,“非常”为句子特征词集合“要是”“她”“也”“来了”“我”“就”“非常”“开心”中的特征词,但是,训练集中包含的“今天天气很晴朗,非常适合郊游。”句子中同样包含“非常”,但是该句中的“非常”并不具有句子特征词标签,因此,并不统计该句中的“非常”。
利用上述实施例确定出的贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率,进而,利用所述分类器对所述待确定情绪文本进行分类,获得分类结果,包括:
利用所述预设先验概率及正训练子集对应的概率,计算第一后验概率;利用所述预设先验概率及负训练子集对应的概率,计算第二后验概率;将所述第一后验概率及所述第二后验概率中的较大值确定为分类结果。
具体地,贝叶斯分类器的数学模型为:
P=argmaxciP(ci)[ΠP(tki)];]]>
其中:ci包括正训练子集及负训练子集;P(ci)为待确定情绪文本中,各 个特征词集合中特征词k出现在ci中的先验概率;P(tki)为待确定情绪文本中,各个特征词集合中的特征词k出现在ci中的概率;∏P(tki)为各个P(tki)的乘积;是指每个ci各自对应的P(ci)[∏P(tki)]中的最大值。
需要说明,在本实施例中,预设先验概率P(ci)为1/2,且P(tki)的值在训练过程中获得,即为训练中统计的各个特征词在ci中出现的概率。
例如,待确定情绪文本对应的特征词集合为:“我”“就”“非常”“开心”,每个特征词在正训练子集中的概率分别为0.1、0.2、0.05及0.003,每个特征词在负训练子集中的概率分别为0.12、0.03、0.007及0.002,则P(ci)[∏P(tki)]对应的正训练子集概率总乘积为0.000003,对应的负训练子集概率总乘积为0.000000504,显然前者较大,则将前者数值确定为分类结果。
进而,上述实施例中的依据所述分类结果,确定所述待确定情绪文本的情绪特征的具体实现方式可以是:
当所述分类结果为第一后验概率时,确定所述待确定情绪文本的情绪特征为情绪发生;当所述分类结果为第二后验概率时,确定所述待确定情绪文本的情绪特征为情绪隐藏。
也就是说,根据最大概率值出自正训练子集还是负训练子集,如果是出自正分类子集,则可知情绪特征为情绪发生,否则,情绪特征为情绪隐藏。
为了体现本发明中各个实施例的确定准确率较高,现提供以下实验数据作为佐证。
本实验使用一定的训练语料和测试语料进行训练和测试。实验中使用的语料是从Sinica语料库中使用一系列情绪关键词匹配得到的4000条语料,每条语料包含三个句子,即情绪关键词所在的句子,以及所在句子的前一句和后一句。由于语料中含有两种以上情绪的语料很少,因此,我们确保每条语料只含有一种情绪。然后,根据情绪关键词所表达的情绪在文中发生与否,对语料进行标注,分为情绪词所表达的情绪发生(正训练子集)和情绪词所表达的情绪隐藏(负训练子集)。选用正负训练子集各自的20%作为测试语料,并在剩余的语料中选取训练样本。
本文采用准确率Acc作为分类效果的衡量标准,计算方式为,分类正确的样本数量与总样本数量的比值。具体的测试结果参见下表2。
表2
训练样本量段落特征词添加子句特征词添加句子特征词添加关键词20%0.70290.71150.72550.742240%0.71280.72850.74230.754360%0.72780.73950.75230.766880%0.73780.74880.76620.7852
从表2可以看出,随着特征词的逐渐添加,分类结果准确率不断上升,并且,随着语料规模的增大,准确率还进一步地提升,这为提高基于情绪词典的文本分类效果提供了有效依据。
下面对本发明实施例提供的情绪文本的情绪特征确定装置进行介绍,需要说明,有关情绪文本的情绪特征确定装置可以参见上文的情绪文本的情绪特征确定方法,以下并不做赘述。
参见图2,其示出了本发明实施例提供的情绪文本的情绪特征确定装置的结构,具体包括:情绪文本确定模块101、特征词提取模块102、分类器构建模块103、分类器分类模块104及情绪特征确定模块105。其中:
情绪文本确定模块101,用于在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本为包含目标情绪词的情绪文本;
特征词提取模块102,用于在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语;
分类器构建模块103,用于依据所述情绪文本集合及所述特征词集合,生成分类器;
分类器分类模块104,用于利用所述分类器对所述待确定情绪文本进行分类,获得分类结果;
情绪特征确定模块105,用于依据所述分类结果,确定所述待确定情绪文本的情绪特征;其中,所述情绪特征为情绪发生或情绪隐藏。
由以上的技术方案可知,本实施例提供的情绪文本的情绪特征确定装置,特征词提取模块102通过在确定的情绪文本中,提取情绪词的特征词集合,分类器构建模块103依据情绪文本集合及特征词集合构建分类器,分类器分 类模块104利用分类器对待确定情绪文本进行分类,获得分类结果,情绪特征确定模块105依据分类结果确定出待确定情绪文本的情绪特征为情绪发生或情绪隐藏。需要说明,本实施例中确定出的特征词集合是与情绪词具有上下文关联特征的特征词,利用所述特征词构建分类器,因此,构建的分类器充分考虑上下文对情绪表达的影响,相较于现有技术简单机械地利用情绪词表对情绪特征确定的方式,本实施例确定的准确率大大提高。
可选地,上述的情绪文本的情绪特征确定装置中的分类器构建模块103可以包括:
训练集获得单元,用于对所述情绪文本集合中的部分情绪文本进行标注,获得训练集;其中,所述标注为正标注或负标注;
分类器生成单元,用于利用所述训练集对所述特征词集合进行训练,获得分类器。
可选地,分类器生成单元包括:
标注子单元,用于依据所述正标注及所述负标注,将所述训练集划分为正负两个训练子集;
训练子单元,用于针对所述特征词集合中每个特征词,计算分别在所述正负两个训练子集中出现的概率,获得贝叶斯分类器。
当然,若训练子单元获得的贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率;则分类器分类模块104可以包括:
第一后验概率计算单元,用于利用所述预设先验概率及正训练子集对应的概率,计算第一后验概率;
第二后验概率计算单元,用于利用所述预设先验概率及负训练子集对应的概率,计算第二后验概率;
分类结果确定单元,用于将所述第一后验概率及所述第二后验概率中的较大值确定为分类结果。
有关本装置的实验结果数据可参见上文表2,通过表2中的数据可知,各个装置的准确率均可以达到0.7以上,分类效果较好。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个 实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

一种情绪文本的情绪特征确定方法及装置.pdf_第1页
第1页 / 共13页
一种情绪文本的情绪特征确定方法及装置.pdf_第2页
第2页 / 共13页
一种情绪文本的情绪特征确定方法及装置.pdf_第3页
第3页 / 共13页
点击查看更多>>
资源描述

《一种情绪文本的情绪特征确定方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种情绪文本的情绪特征确定方法及装置.pdf(13页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 104346326 A (43)申请公布日 2015.02.11 CN 104346326 A (21)申请号 201410571054.3 (22)申请日 2014.10.23 G06F 17/28(2006.01) G06F 17/30(2006.01) G06F 17/27(2006.01) (71)申请人 苏州大学 地址 215137 江苏省苏州市相城区济学路 8 号 (72)发明人 李寿山 刘欢欢 周国栋 段湘煜 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 常亮 (54) 发明名称 一种情绪文本的情绪特征确定方法及装置 (57)。

2、 摘要 本申请提供的情绪文本的情绪特征确定方法 及装置, 通过在确定的情绪文本中, 提取情绪词的 特征词集合, 并依据情绪文本集合及特征词集合 构建分类器, 利用分类器对待确定情绪文本进行 分类, 获得分类结果, 依据分类结果确定出待确定 情绪文本的情绪特征为情绪发生或情绪隐藏。需 要说明, 本实施例中确定出的特征词集合是与情 绪词具有上下文关联特征的特征词, 利用所述特 征词构建分类器, 因此, 构建的分类器充分考虑上 下文对情绪表达的影响, 相较于现有技术简单机 械地利用情绪词表对情绪特征确定的方式, 本实 施例确定的准确率大大提高。 (51)Int.Cl. 权利要求书 2 页 说明书 9。

3、 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书9页 附图1页 (10)申请公布号 CN 104346326 A CN 104346326 A 1/2 页 2 1. 一种情绪文本的情绪特征确定方法, 其特征在于, 包括 : 在情绪文本集合中, 确定待确定情绪文本 ; 其中, 所述待确定情绪文本为包含目标情绪 词的情绪文本 ; 在所述待确定情绪文本中, 提取所述情绪词的特征词集合 ; 其中, 所述特征词集合包含 的是与所述情绪词具有上下文关联关系的特征词语 ; 依据所述情绪文本集合及所述特征词集合, 生成分类器 ; 利用所述分类器对所述待确定。

4、情绪文本进行分类, 获得分类结果 ; 依据所述分类结果, 确定所述待确定情绪文本的情绪特征 ; 其中, 所述情绪特征为情绪 发生或情绪隐藏。 2. 根据权利要求 1 所述的情绪文本的情绪特征确定方法, 其特征在于, 所述依据所述 情绪文本集合及所述特征词集合, 生成分类器, 包括 : 对所述情绪文本集合中的部分情绪文本进行标注, 获得训练集 ; 其中, 所述标注为正标 注或负标注 ; 利用所述训练集对所述特征词集合进行训练, 获得分类器。 3. 根据权利要求 2 所述的情绪文本的情绪特征确定方法, 其特征在于, 所述利用所述 训练集对所述特征词集合进行训练, 获得分类器, 包括 : 依据所述正。

5、标注及所述负标注, 将所述训练集划分为正负两个训练子集 ; 针对所述特征词集合中每个特征词, 计算分别在所述正负两个训练子集中出现的概 率, 获得贝叶斯分类器。 4. 根据权利要求 3 所述的情绪文本的情绪特征确定方法, 其特征在于, 所述贝叶斯分 类器包含预设先验概率及正负两个训练子集各自对应的概率 ; 其中, 所述利用所述分类器对所述待确定情绪文本进行分类, 获得分类结果, 包括 : 利用所述预设先验概率及正训练子集对应的概率, 计算第一后验概率 ; 利用所述预设先验概率及负训练子集对应的概率, 计算第二后验概率 ; 将所述第一后验概率及所述第二后验概率中的较大值确定为分类结果。 5. 根。

6、据权利要求 4 所述的情绪文本的情绪特征确定方法, 其特征在于, 所述依据所述 分类结果, 确定所述待确定情绪文本的情绪特征, 包括 : 当所述分类结果为第一后验概率时, 确定所述待确定情绪文本的情绪特征为情绪发 生 ; 当所述分类结果为第二后验概率时, 确定所述待确定情绪文本的情绪特征为情绪隐 藏。 6. 根据权利要求 1 所述的情绪文本的情绪特征确定方法, 其特征在于, 所述特征词集 合包括 : 段落特征词集合、 句子特征词集合、 子句特征词集合及关键词集合中的任意一个或 多个的组合 ; 其中 : 所述段落特征词集合包含的是与所述情绪词在同一段落的词语 ; 所述句子特征词集合包含的是与所述。

7、情绪词在同一句子的词语 ; 所述子句特征词集合包含的是与所述情绪词在同一子句的词语 ; 所述关键词集合包含的是表达预设假设含义的词语。 7. 一种情绪文本的情绪特征确定装置, 其特征在于, 包括 : 权 利 要 求 书 CN 104346326 A 2 2/2 页 3 情绪文本确定模块, 用于在情绪文本集合中, 确定待确定情绪文本 ; 其中, 所述待确定 情绪文本为包含目标情绪词的情绪文本 ; 特征词提取模块, 用于在所述待确定情绪文本中, 提取所述情绪词的特征词集合 ; 其 中, 所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语 ; 分类器构建模块, 用于依据所述情绪文本集合及。

8、所述特征词集合, 生成分类器 ; 分类器分类模块, 用于利用所述分类器对所述待确定情绪文本进行分类, 获得分类结 果 ; 情绪特征确定模块, 用于依据所述分类结果, 确定所述待确定情绪文本的情绪特征 ; 其 中, 所述情绪特征为情绪发生或情绪隐藏。 8. 根据权利要求 7 所述的情绪文本的情绪特征确定装置, 其特征在于, 所述分类器构 建模块包括 : 训练集获得单元, 用于对所述情绪文本集合中的部分情绪文本进行标注, 获得训练集 ; 其中, 所述标注为正标注或负标注 ; 分类器生成单元, 用于利用所述训练集对所述特征词集合进行训练, 获得分类器。 9. 根据权利要求 8 所述的情绪文本的情绪特。

9、征确定装置, 其特征在于, 所述分类器生 成单元包括 : 标注子单元, 用于依据所述正标注及所述负标注, 将所述训练集划分为正负两个训练 子集 ; 训练子单元, 用于针对所述特征词集合中每个特征词, 计算分别在所述正负两个训练 子集中出现的概率, 获得贝叶斯分类器。 10. 根据权利要求 9 所述的情绪文本的情绪特征确定装置, 其特征在于, 所述训练子单 元获得的贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率 ; 其中, 所 述分类器分类模块包括 : 第一后验概率计算单元, 用于利用所述预设先验概率及正训练子集对应的概率, 计算 第一后验概率 ; 第二后验概率计算单元, 用于利用。

10、所述预设先验概率及负训练子集对应的概率, 计算 第二后验概率 ; 分类结果确定单元, 用于将所述第一后验概率及所述第二后验概率中的较大值确定为 分类结果。 权 利 要 求 书 CN 104346326 A 3 1/9 页 4 一种情绪文本的情绪特征确定方法及装置 技术领域 0001 本发明涉及自然语言处理技术领域, 尤其是一种情绪词文本的情绪特征确定方法 及装置。 背景技术 0002 当今, 互联网已经成为信息的重要载体, 尤其是近些年, 随着电子商务及社交网站 的兴起, 互联网上出现了大量的评论, 评论中一般包含情绪词, 包含情绪词的文本可以称为 情绪文本。研究情绪文本的情绪信息有助于了解和。

11、分析人们对事物或事件的观点态度, 例 如, 包含开心、 高兴等情绪词的文本表达的是对事物或事件的支持, 相反, 包含生气、 烦恼等 情绪词的文本标的是反对。在此背景下, 情绪分析正逐渐称为自然语言处理领域中一项越 来越受关注的研究课题。 0003 目前, 利用现有的情绪词表对情绪文本的情绪进行确定, 即若情绪文本中出现了 情绪词表中的某个情绪词, 则认为该情绪文本具有该类情绪特征。 例如, 情绪文本出现了情 绪词表中包含的 “开心” , 则确定该文本具有 “开心” 的情绪特征。 0004 然而, 现实的情绪文本中经常存在情绪隐藏的情况, 即虽然情绪文本中出现了某 个情绪词, 但并未真正表达该情。

12、绪, 例如 “要是你在的话, 她可能就开心了” 。 因此, 利用现有 的情绪确定方法确定出来的情绪特征存在误差, 准确性较差。 发明内容 0005 有鉴于此, 本发明提供了一种情绪文本的情绪特征确定方法及装置, 用以解决现 有技术中的情绪特征确定方法准确性较差的技术问题。为实现所述发明目的, 本发明提供 的技术方案如下 : 0006 一种情绪文本的情绪特征确定方法, 包括 : 0007 在情绪文本集合中, 确定待确定情绪文本 ; 其中, 所述待确定情绪文本为包含目标 情绪词的情绪文本 ; 0008 在所述待确定情绪文本中, 提取所述情绪词的特征词集合 ; 其中, 所述特征词集合 包含的是与所述。

13、情绪词具有上下文关联关系的特征词语 ; 0009 依据所述情绪文本集合及所述特征词集合, 生成分类器 ; 0010 利用所述分类器对所述待确定情绪文本进行分类, 获得分类结果 ; 0011 依据所述分类结果, 确定所述待确定情绪文本的情绪特征 ; 其中, 所述情绪特征为 情绪发生或情绪隐藏。 0012 可选地, 上述的情绪文本的情绪特征确定方法, 所述依据所述情绪文本集合及所 述特征词集合, 生成分类器, 包括 : 0013 对所述情绪文本集合中的部分情绪文本进行标注, 获得训练集 ; 其中, 所述标注为 正标注或负标注 ; 0014 利用所述训练集对所述特征词集合进行训练, 获得分类器。 说。

14、 明 书 CN 104346326 A 4 2/9 页 5 0015 可选地, 上述的情绪文本的情绪特征确定方法, 所述利用所述训练集对所述特征 词集合进行训练, 获得分类器, 包括 : 0016 依据所述正标注及所述负标注, 将所述训练集划分为正负两个训练子集 ; 0017 针对所述特征词集合中每个特征词, 计算分别在所述正负两个训练子集中出现的 概率, 获得贝叶斯分类器。 0018 可选地, 上述的情绪文本的情绪特征确定方法, 所述贝叶斯分类器包含预设先验 概率及正负两个训练子集各自对应的概率 ; 0019 其中, 所述利用所述分类器对所述待确定情绪文本进行分类, 获得分类结果, 包 括 。

15、: 0020 利用所述预设先验概率及正训练子集对应的概率, 计算第一后验概率正分类值 ; 0021 利用所述预设先验概率及负训练子集对应的概率, 计算第二后验概率负分类值 ; 0022 将所述正分类值第一后验概率及所述负分类值第二后验概率中的较大值确定为 分类结果。 0023 可选地, 上述的情绪文本的情绪特征确定方法, 所述依据所述分类结果, 确定所述 待确定情绪文本的情绪特征, 包括 : 0024 当所述分类结果为正分类值第一后验概率时, 确定所述待确定情绪文本的情绪特 征为情绪发生 ; 0025 当所述分类结果为负分类值第二后验概率时, 确定所述待确定情绪文本的情绪特 征为情绪隐藏。 0。

16、026 可选地, 上述的情绪文本的情绪特征确定方法, 所述特征词集合包括 : 段落特征词 集合、 句子特征词集合、 子句特征词集合及关键词集合中的任意一个或多个的组合 ; 其中 : 0027 所述段落特征词集合包含的是与所述情绪词在同一段落的词语 ; 0028 所述句子特征词集合包含的是与所述情绪词在同一句子的词语 ; 0029 所述子句特征词集合包含的是与所述情绪词在同一子句的词语 ; 0030 所述关键词集合包含的是表达预设假设含义的词语。 0031 本申请还提供了一种情绪文本的情绪特征确定装置, 包括 : 0032 情绪文本确定模块, 用于在情绪文本集合中, 确定待确定情绪文本 ; 其中。

17、, 所述待 确定情绪文本为包含目标情绪词的情绪文本 ; 0033 特征词提取模块, 用于在所述待确定情绪文本中, 提取所述情绪词的特征词集合 ; 其中, 所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语 ; 0034 分类器构建模块, 用于依据所述情绪文本集合及所述特征词集合, 生成分类器 ; 0035 分类器分类模块, 用于利用所述分类器对所述待确定情绪文本进行分类, 获得分 类结果 ; 0036 情绪特征确定模块, 用于依据所述分类结果, 确定所述待确定情绪文本的情绪特 征 ; 其中, 所述情绪特征为情绪发生或情绪隐藏。 0037 可选地, 上述的情绪文本的情绪特征确定装置,。

18、 所述分类器构建模块包括 : 0038 训练集获得单元, 用于对所述情绪文本集合中的部分情绪文本进行标注, 获得训 练集 ; 其中, 所述标注为正标注或负标注 ; 0039 分类器生成单元, 用于利用所述训练集对所述特征词集合进行训练, 获得分类器。 说 明 书 CN 104346326 A 5 3/9 页 6 0040 可选地, 上述的情绪文本的情绪特征确定装置, 所述分类器生成单元包括 : 0041 标注子单元, 用于依据所述正标注及所述负标注, 将所述训练集划分为正负两个 训练子集 ; 0042 训练子单元, 用于针对所述特征词集合中每个特征词, 计算分别在所述正负两个 训练子集中出现的。

19、概率, 获得贝叶斯分类器。 0043 可选地, 上述的情绪文本的情绪特征确定装置, 所述训练子单元获得的贝叶斯分 类器包含预设先验概率及正负两个训练子集各自对应的概率 ; 其中, 所述分类器分类模块 包括 : 0044 正分类值第一后验概率计算单元, 用于利用所述预设先验概率及正训练子集对应 的概率, 计算正分类值第一后验概率 ; 0045 负分类值第二后验概率计算单元, 用于利用所述预设先验概率及负训练子集对应 的概率, 计算负分类值第二后验概率 ; 0046 分类结果确定单元, 用于将所述正分类值第一后验概率及所述负分类值第二后验 概率中的较大值确定为分类结果。 0047 本发明提供的情绪。

20、文本的情绪特征确定方法及装置, 通过在确定的情绪文本中, 提取情绪词的特征词集合, 并依据情绪文本集合及特征词集合构建分类器, 利用分类器对 待确定情绪文本进行分类, 获得分类结果, 依据分类结果确定出待确定情绪文本的情绪特 征为情绪发生或情绪隐藏。需要说明, 本实施例中确定出的特征词集合是与情绪词具有上 下文关联特征的特征词, 利用所述特征词构建分类器, 因此, 构建的分类器充分考虑上下文 对情绪表达的影响, 相较于现有技术简单机械地利用情绪词表对情绪特征确定的方式, 本 实施例确定的准确率大大提高。 附图说明 0048 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或。

21、现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 发明的实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据 提供的附图获得其他的附图。 0049 图 1 为本发明实施例提供的情绪文本的情绪特征确定方法的流程图 ; 0050 图 2 为本发明实施例提供的情绪文本的情绪特征确定装置的结构框图。 具体实施方式 0051 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。基于 本发明中的实施例, 本领域普通技术人员在没有做出创造。

22、性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0052 参见图 1, 其示出了本发明实施例提供的一种情绪文本的情绪特征确定方法, 具体 包括以下步骤 : 0053 步骤 S101 : 在情绪文本集合中, 确定待确定情绪文本 ; 其中, 所述待确定情绪文本 为包含目标情绪词的情绪文本。 说 明 书 CN 104346326 A 6 4/9 页 7 0054 其中, 情绪文本集合是从各种文本中提取到的, 需要说明的是, 情绪文本集合中包 含多个情绪文本, 情绪文本是指包含情绪词的文本。确定情绪文本集合的方式可以是利用 包含情绪词的词表在各种文本中进行提取, 即当文本中包含情绪词。

23、表中的情绪词时, 将该 文本提取出来。 0055 当前判断的情绪词为目标情绪词, 本发明实施例的目的即是判断包含目标情绪词 的情绪文本中的情绪是否发生。例如 : 目标情绪词为 “开心” , 则包含 “开心” 的情绪文本为 待确定的情绪文本, 即判断待确定情绪文本中包含的 “开心” 是否发生。 0056 步骤 S102 : 在所述待确定情绪文本中, 提取所述情绪词的特征词集合 ; 其中, 所述 特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语。 0057 其中, 本发明实施例利用现有的分词工具将待确定情绪文本划分为多个词语。根 据自然语言的语法特征, 词语按照一定的语法规则拼接成文本。。

24、 同理, 待确定情绪文本由多 个划分为的词语组成, 其中包含情绪词, 与情绪词具有上下文关联关系的词语即是特征词 语。需要说明, 确定出的特征词语包含情绪词本身。 0058 例如 : 待确定情绪文本为 “今天天气很晴朗, 非常适合郊游。要是她也来了, 我 就非常开心。 ” 当前确定判断的情绪词为 “开心” , 与 “开心” 具有上下文关联关系的特征 词语分别为 “今天” “天气” “很” “晴朗” “非常” “适合” “郊游” “要是” “她” “也” “来 了” “我” “就” “非常” “开心” 。 0059 需要说明, 上述示例中将组成段落的词语作为特征词, 当然, 特征词还可以是其他 。

25、多种形式, 详见下文说明。 0060 步骤 S103 : 依据所述情绪文本集合及所述特征词集合, 生成分类器。 0061 其中, 分类器本质是数学模型, 用于数据分析与预测。其通过自动学习后, 可自动 将数据分到已知类别。本实施例中, 分类器可以是贝叶斯分类器、 最大熵分类器等。生成分 类器的方式可以是, 依据情绪文本集合确定出训练集, 利用训练集对各个特征词进行训练, 从而生成分类器。其中, 分类器中包含各个特征词训练得到的概率。 0062 步骤 S104 : 利用所述分类器对所述待确定情绪文本进行分类, 获得分类结果。 0063 其中, 分类器可以识别出多个类, 将待确定情绪文本作为分类器。

26、的输入信息, 进而 分类器可以判断出待确定情绪文本具体属于哪个类。 本实施例中构建的分类器是对情绪特 征进行确定, 即确定情绪发生与否, 因此, 本实施例中的分类器可以识别的类为两个, 即情 绪发生、 情绪未发生 ( 或称为情绪隐藏 )。 0064 利用分类器中训练得到的概率对待确定情绪文本进行分类, 从而获得分类结果。 分类过程中生成每个类别各自对应的概率值, 将最大的概率值确定为分类结果, 也就是说, 分类结果是某个类别对应的概率。 0065 步骤 S105 : 依据所述分类结果, 确定所述待确定情绪文本的情绪特征 ; 其中, 所述 情绪特征为情绪发生或情绪隐藏。 0066 其中, 将分类。

27、结果即最大概率值对应的类别确定为待确定情绪文本的情绪特征。 例如, 最大概率值对应的类为情绪发生, 则待确定情绪文本的情绪特征为情绪发生。 0067 由以上的技术方案可知, 本实施例提供的情绪文本的情绪特征确定方法, 通过在 确定的情绪文本中, 提取情绪词的特征词集合, 并依据情绪文本集合及特征词集合构建分 类器, 利用分类器对待确定情绪文本进行分类, 获得分类结果, 依据分类结果确定出待确定 说 明 书 CN 104346326 A 7 5/9 页 8 情绪文本的情绪特征为情绪发生或情绪隐藏。需要说明, 本实施例中确定出的特征词集合 是与情绪词具有上下文关联特征的特征词, 利用所述特征词构建。

28、分类器, 因此, 构建的分类 器充分考虑上下文对情绪表达的影响, 相较于现有技术简单机械地利用情绪词表对情绪特 征确定的方式, 本实施例确定的准确率大大提高。 0068 上述实施例中, 步骤 S102 中提取的特征词集合可以是段落特征词集合、 句子特征 词集合、 子句特征词集合及关键词集合中的任意一个或多个的组合 ; 其中 : 0069 所述段落特征词集合包含的是与所述情绪词在同一段落的词语。 0070 例如, 待确定情绪文本为 “今天天气很晴朗, 非常适合郊游。要是她也来了, 我 就非常开心。 ” 当前确定判断的情绪词为 “开心” 。段落特征词集合包含的是 :“今天” “天 气” “很” “。

29、晴朗” “非常” “适合” “郊游” “要是” “她” “也” “来了” “我” “就” “非常” “开 心” 。 0071 所述句子特征词集合包含的是与所述情绪词在同一句子的词语。 0072 例如, 待确定情绪文本为 “今天天气很晴朗, 非常适合郊游。要是她也来了, 我 就非常开心。 ” 当前确定判断的情绪词为 “开心” 。确定的句子特征词集合包含的是 :“要 是” “她” “也” “来了” “我” “就” “非常” “开心” 。 0073 所述子句特征词集合包含的是与所述情绪词在同一子句的词语。 0074 例如, 待确定情绪文本为 “今天天气很晴朗, 非常适合郊游。 要是她也来了, 我就非。

30、 常开心。 ” 当前确定判断的情绪词为 “开心” 。 确定的子句特征词集合包含的是 :“我”“就”“非 常” “开心” 。 0075 所述关键词集合包含的是包含的是表达预设假设含义的词语。 0076 其中, 预设假设含义可以是假设、 希望、 条件等连接词, 因此, 关键词集合包含的是 表达假设、 希望、 条件等含义的词语。本实施例中可以预设包含关键词表, 详见表 1。当然, 关键词表的具体形式包括但不限于此。 0077 表 1 0078 0079 具体地, 待确定情绪文本为由至少三个句子组成的段落时, 特征词语集合可以包 含段落特征词集合及句子特征词集合。 当然, 句子中包含子句时, 还可以包。

31、括子句特征词集 合。进一步地, 当情绪词文本中包含表达预设假设含义的词语时, 还可以包括关键词集合。 0080 需要说明, 当特征词集合中包含多种特征词集合时, 例如, 包含段落特征词集合、 句子特征词集合、 子句特征词集合及关键词集合四类时, 每种类型的特征词具有各自的标 签, 从而与其他类中的特征词进行区分。 0081 需要说明, 上述实施例中步骤 S103 依据所述情绪文本集合及所述特征词集合, 生 说 明 书 CN 104346326 A 8 6/9 页 9 成分类器的具体实现方式可以是 : 0082 对所述情绪文本集合中的部分情绪文本进行标注, 获得训练集 ; 其中, 所述标注为 正。

32、类标注或负标注。 0083 具体地, 情绪文本集合中包含多个情绪文本, 例如, 包含多个段落。 当然, 每个情绪 文本中均包含情绪词, 但不一定都包含当前判断的情绪词。 0084 在情绪文本集合中提取部分情绪文本, 可以是任意提取, 提取的数量可以是预先 设置的数值, 例如任意提取出两个段落。 人工对提取出来的部分情绪文本进行批注, 其中包 括正批注及负批注。 其中, 正批注指的是若情绪文本中情绪词表达的情绪发生, 则将该情绪 文本批注为正 ; 负批注指的是若情绪文本中情绪词表达的情绪未发生, 则将该情绪文本批 注为负。 0085 例如, 提取的情绪文本包括 :“能和朋友一起去看演唱会, 我感。

33、到很高兴。 ” 该情绪 文本中情绪词 “高兴” 表达的情绪实际发生了, 因此, 将该情绪文本进行正批注。又如, 提取 的情绪文本包括 :“今天天气很晴朗, 非常适合郊游。要是她也来了, 我就非常开心。 ” 该情 绪文本中情绪词 “开心” 表达的情绪未实际发生, 因此, 对该情绪文本进行负批注。 0086 其中, 批注可以是对情绪文本进行标记, 正批注的文本标记为 1, 负批注的文本标 记为 0。 0087 利用所述训练集对所述特征词集合进行训练, 获得分类器。 0088 其中, 训练指的是对特征词集合中的各个特征词在训练集中出现的概率进行统 计, 得到分类器。若使用的训练方法为贝叶斯训练方法,。

34、 则获得的分类器为贝叶斯分类器。 具体地, 获得贝叶斯分类器的具体方式可以是 : 0089 依据所述正标注及所述负标注, 将所述训练集划分为正负两个训练子集 ; 针对所 述特征词集合中每个特征词, 计算分别在所述正负两个训练子集中出现的概率, 获得贝叶 斯分类器。 0090 其中, 经过标注的训练集可以根据正负标注两种类型划分为正负两个训练子集, 即正训练子集中包含的是具有正标注的情绪文本, 负训练子集包含的是具有负标注的情绪 文本。贝叶斯分类器中包含各个特征词的概率, 因此, 针对特征词集合中的每个特征词, 分 别计算其在两个训练子集中出现的概率。其中, 出现的概率指的是出现的次数与该集合中。

35、 的词语总量的比值。 0091 例如, 特征词为 “我” , 且该特征词为句子特征词, 统计句子特征词 “我” 出现的次数 为 1, 正训练子集中的词语总数为 1000, 则句子特征词 “我” 的概率为 0.001。 0092 需要说明, 当特征词集合中的特征词在训练集中出现的次数为 0 时, 则默认将该 特征词的概率设置为预设的极小数值。 0093 同时, 需要说明的是, 特征词是具有标签的特征词, 统计概率时并不是对所有的特 征词都进行统计, 而是统计具有相应标签的特征词。因为同一词语的词语可能出现在多个 句子中, 不仅仅只是包含当前目标情绪词的句子。 0094 例如,“非常” 为句子特征。

36、词集合 “要是” “她” “也” “来了” “我” “就” “非常” “开 心” 中的特征词, 但是, 训练集中包含的 “今天天气很晴朗, 非常适合郊游。 ” 句子中同样包含 “非常” , 但是该句中的 “非常” 并不具有句子特征词标签, 因此, 并不统计该句中的 “非常” 。 0095 利用上述实施例确定出的贝叶斯分类器包含预设先验概率及正负两个训练子集 说 明 书 CN 104346326 A 9 7/9 页 10 各自对应的概率, 进而, 利用所述分类器对所述待确定情绪文本进行分类, 获得分类结果, 包括 : 0096 利用所述预设先验概率及正训练子集对应的概率, 计算第一后验概率 ; 。

37、利用所述 预设先验概率及负训练子集对应的概率, 计算第二后验概率 ; 将所述第一后验概率及所述 第二后验概率中的较大值确定为分类结果。 0097 具体地, 贝叶斯分类器的数学模型为 : 0098 0099 其中 : ci包括正训练子集及负训练子集 ; P(ci) 为待确定情绪文本中, 各个特征词 集合中特征词k出现在ci中的先验概率 ; P(tki)为待确定情绪文本中, 各个特征词集合中的 特征词 k 出现在 ci中的概率 ; P(tki) 为各个 P(tki) 的乘积 ;是指每个 ci各自 对应的 P(ci) P(tki) 中的最大值。 0100 需要说明, 在本实施例中, 预设先验概率P(。

38、ci)为1/2, 且P(tki)的值在训练过程中 获得, 即为训练中统计的各个特征词在 ci中出现的概率。 0101 例如, 待确定情绪文本对应的特征词集合为 :“我” “就” “非常” “开心” , 每个特征 词在正训练子集中的概率分别为 0.1、 0.2、 0.05 及 0.003, 每个特征词在负训练子集中的概 率分别为0.12、 0.03、 0.007及0.002, 则P(ci)P(tki)对应的正训练子集概率总乘积为 0.000003, 对应的负训练子集概率总乘积为 0.000000504, 显然前者较大, 则将前者数值确 定为分类结果。 0102 进而, 上述实施例中的依据所述分类。

39、结果, 确定所述待确定情绪文本的情绪特征 的具体实现方式可以是 : 0103 当所述分类结果为第一后验概率时, 确定所述待确定情绪文本的情绪特征为情绪 发生 ; 当所述分类结果为第二后验概率时, 确定所述待确定情绪文本的情绪特征为情绪隐 藏。 0104 也就是说, 根据最大概率值出自正训练子集还是负训练子集, 如果是出自正分类 子集, 则可知情绪特征为情绪发生, 否则, 情绪特征为情绪隐藏。 0105 为了体现本发明中各个实施例的确定准确率较高, 现提供以下实验数据作为佐 证。 0106 本实验使用一定的训练语料和测试语料进行训练和测试。 实验中使用的语料是从 Sinica 语料库中使用一系列。

40、情绪关键词匹配得到的 4000 条语料, 每条语料包含三个句子, 即情绪关键词所在的句子, 以及所在句子的前一句和后一句。由于语料中含有两种以上情 绪的语料很少, 因此, 我们确保每条语料只含有一种情绪。然后, 根据情绪关键词所表达的 情绪在文中发生与否, 对语料进行标注, 分为情绪词所表达的情绪发生(正训练子集)和情 绪词所表达的情绪隐藏 ( 负训练子集 )。选用正负训练子集各自的 20作为测试语料, 并 在剩余的语料中选取训练样本。 0107 本文采用准确率 Acc 作为分类效果的衡量标准, 计算方式为, 分类正确的样本数 量与总样本数量的比值。具体的测试结果参见下表 2。 0108 表 。

41、2 0109 说 明 书 CN 104346326 A 10 8/9 页 11 训练样本量段落特征词添加子句特征词添加句子特征词添加关键词 200.70290.71150.72550.7422 400.71280.72850.74230.7543 600.72780.73950.75230.7668 800.73780.74880.76620.7852 0110 从表 2 可以看出, 随着特征词的逐渐添加, 分类结果准确率不断上升, 并且, 随着 语料规模的增大, 准确率还进一步地提升, 这为提高基于情绪词典的文本分类效果提供了 有效依据。 0111 下面对本发明实施例提供的情绪文本的情绪特征。

42、确定装置进行介绍, 需要说明, 有关情绪文本的情绪特征确定装置可以参见上文的情绪文本的情绪特征确定方法, 以下并 不做赘述。 0112 参见图 2, 其示出了本发明实施例提供的情绪文本的情绪特征确定装置的结构, 具 体包括 : 情绪文本确定模块 101、 特征词提取模块 102、 分类器构建模块 103、 分类器分类模 块 104 及情绪特征确定模块 105。其中 : 0113 情绪文本确定模块 101, 用于在情绪文本集合中, 确定待确定情绪文本 ; 其中, 所 述待确定情绪文本为包含目标情绪词的情绪文本 ; 0114 特征词提取模块 102, 用于在所述待确定情绪文本中, 提取所述情绪词的。

43、特征词集 合 ; 其中, 所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语 ; 0115 分类器构建模块 103, 用于依据所述情绪文本集合及所述特征词集合, 生成分类 器 ; 0116 分类器分类模块 104, 用于利用所述分类器对所述待确定情绪文本进行分类, 获得 分类结果 ; 0117 情绪特征确定模块 105, 用于依据所述分类结果, 确定所述待确定情绪文本的情绪 特征 ; 其中, 所述情绪特征为情绪发生或情绪隐藏。 0118 由以上的技术方案可知, 本实施例提供的情绪文本的情绪特征确定装置, 特征词 提取模块102通过在确定的情绪文本中, 提取情绪词的特征词集合, 分类。

44、器构建模块103依 据情绪文本集合及特征词集合构建分类器, 分类器分类模块 104 利用分类器对待确定情绪 文本进行分类, 获得分类结果, 情绪特征确定模块 105 依据分类结果确定出待确定情绪文 本的情绪特征为情绪发生或情绪隐藏。需要说明, 本实施例中确定出的特征词集合是与情 绪词具有上下文关联特征的特征词, 利用所述特征词构建分类器, 因此, 构建的分类器充分 考虑上下文对情绪表达的影响, 相较于现有技术简单机械地利用情绪词表对情绪特征确定 的方式, 本实施例确定的准确率大大提高。 0119 可选地, 上述的情绪文本的情绪特征确定装置中的分类器构建模块 103 可以包 括 : 0120 训。

45、练集获得单元, 用于对所述情绪文本集合中的部分情绪文本进行标注, 获得训 练集 ; 其中, 所述标注为正标注或负标注 ; 说 明 书 CN 104346326 A 11 9/9 页 12 0121 分类器生成单元, 用于利用所述训练集对所述特征词集合进行训练, 获得分类器。 0122 可选地, 分类器生成单元包括 : 0123 标注子单元, 用于依据所述正标注及所述负标注, 将所述训练集划分为正负两个 训练子集 ; 0124 训练子单元, 用于针对所述特征词集合中每个特征词, 计算分别在所述正负两个 训练子集中出现的概率, 获得贝叶斯分类器。 0125 当然, 若训练子单元获得的贝叶斯分类器包。

46、含预设先验概率及正负两个训练子集 各自对应的概率 ; 则分类器分类模块 104 可以包括 : 0126 第一后验概率计算单元, 用于利用所述预设先验概率及正训练子集对应的概率, 计算第一后验概率 ; 0127 第二后验概率计算单元, 用于利用所述预设先验概率及负训练子集对应的概率, 计算第二后验概率 ; 0128 分类结果确定单元, 用于将所述第一后验概率及所述第二后验概率中的较大值确 定为分类结果。 0129 有关本装置的实验结果数据可参见上文表 2, 通过表 2 中的数据可知, 各个装置的 准确率均可以达到 0.7 以上, 分类效果较好。 0130 需要说明的是, 本说明书中的各个实施例均。

47、采用递进的方式描述, 每个实施例重 点说明的都是与其他实施例的不同之处, 各个实施例之间相同相似的部分互相参见即可。 0131 还需要说明的是, 在本文中, 诸如第一和第二等之类的关系术语仅仅用来将一个 实体或者操作与另一个实体或操作区分开来, 而不一定要求或者暗示这些实体或操作之间 存在任何这种实际的关系或者顺序。而且, 术语 “包括” 、“包含” 或者其任何其他变体意在 涵盖非排他性的包含, 从而使得包括一系列要素的过程、 方法、 物品或者设备不仅包括那些 要素, 而且还包括没有明确列出的其他要素, 或者是还包括为这种过程、 方法、 物品或者设 备所固有的要素。在没有更多限制的情况下, 由。

48、语句 “包括一个” 限定的要素, 并不排 除在包括上述要素的过程、 方法、 物品或者设备中还存在另外的相同要素。 0132 对所公开的实施例的上述说明, 使本领域专业技术人员能够实现或使用本发明。 对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的, 本文中所定义的 一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。 因此, 本发明 将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一 致的最宽的范围。 说 明 书 CN 104346326 A 12 1/1 页 13 图 1 图 2 说 明 书 附 图 CN 104346326 A 13 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1