《基于关键句的多语言情感数据处理分类方法及系统.pdf》由会员分享,可在线阅读,更多相关《基于关键句的多语言情感数据处理分类方法及系统.pdf(12页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103995853 A (43)申请公布日 2014.08.20 C N 1 0 3 9 9 5 8 5 3 A (21)申请号 201410198519.5 (22)申请日 2014.05.12 G06F 17/30(2006.01) (71)申请人中国科学院计算技术研究所 地址 100190 北京市海淀区中关村科学院南 路6号 (72)发明人程学旗 林政 张瑾 谭松波 徐学可 (74)专利代理机构北京律诚同业知识产权代理 有限公司 11006 代理人祁建国 梁挥 (54) 发明名称 基于关键句的多语言情感数据处理分类方法 及系统 (57) 摘要 本发明公开了一种基。
2、于关键句的多语言情感 数据处理分类方法及系统,方法包括:步骤1,从 未标注的情感数据集中自动抽取一部情感词典数 据包,通过K近邻算法和投票规则来最终判定情 感词的极性;步骤2,用抽取出的情感词典数据包 计算情感属性的得分,然后再综合考虑位置属性 和关键词属性,自动为每一篇文本抽取若干句情 感关键句;步骤3,把抽取出的情感关键句直接应 用于有监督情感数据分类和无监督情感数据分类 中。由此解决多语言翻译时语言迁移和情感数据 分析的双重难点问题,以提高情感数据分析的准 确性。 (51)Int.Cl. 权利要求书2页 说明书8页 附图1页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权。
3、利要求书2页 说明书8页 附图1页 (10)申请公布号 CN 103995853 A CN 103995853 A 1/2页 2 1.一种基于关键句的多语言情感数据处理分类方法,其特征在于,包括: 步骤1,从未标注的情感数据集中自动抽取一部情感词典数据包,通过K近邻算法和投 票规则来最终判定情感词的极性; 步骤2,用抽取出的情感词典数据包计算情感属性的得分,然后再综合考虑位置属性和 关键词属性,自动为每一篇文本抽取若干句情感关键句; 步骤3,把抽取出的情感关键句直接应用于有监督情感数据分类和无监督情感数据分 类中。 2.如权利要求1所述基于关键句的多语言情感数据处理分类方法,其特征在于,步骤1。
4、 包括: 步骤21,以中文为例,根据模式匹配“很XX”和“非常XX”从整个数据集中抽出情感词 XX; 步骤22,以互信息作为相似度度量,根据K近邻算法为每个情感词指定一个情感极性; 步骤23,通过投票原则,对已经指定的情感极性进行优化。 3.如权利要求1所述基于关键句的多语言情感数据处理分类方法,其特征在于,步骤2 包括: 步骤31,根据抽取出的情感词典数据包计算每个句子的情感得分; 步骤32,根据高斯分布计算每个句子的位置得分; 步骤33,根据关键词列表计算每个句子的关键词得分; 步骤34,对情感得分、位置得分、关键词得分进行加权求和,将得分最高的N个句子定 为情感关键句。 4.如权利要求1。
5、所述基于关键句的多语言情感数据处理分类方法,其特征在于,步骤3 包括: 无监督的情感数据分类:每一篇文本用若干句情感关键句替代,然后用已经抽取出的 情感词典数据包在关键句上判定每篇文本的极性; 有监督的情感数据分类:从未标注样本中分别按照正类和负类情感词的得分挑选出最 确信的样本作为标注集,然后训练情感数据分类器,最后在关键句上判别每篇文章的极性。 5.一种基于关键句的多语言情感数据处理分类系统,其特征在于,包括: 极性判定模块,用于从未标注的情感数据集中自动抽取一部情感词典数据包,通过K 近邻算法和投票规则来最终判定情感词的极性; 关键句抽取模块,用于通过抽取出的情感词典数据包计算情感属性的。
6、得分,然后再综 合考虑位置属性和关键词属性,自动为每一篇文本抽取若干句情感关键句; 情感数据分类模块,用于把抽取出的情感关键句直接应用于有监督情感数据分类和无 监督情感数据分类中。 6.如权利要求5所述基于关键句的多语言情感数据处理分类系统,其特征在于,所述 极性判定模块包括: 情感词抽取模块,用于以中文为例,根据模式匹配“很XX”和“非常XX”从整个数据集 中抽出情感词XX; 极性赋予模块,用于以互信息作为相似度度量,根据K近邻算法为每个情感词指定一 个情感极性; 权 利 要 求 书CN 103995853 A 2/2页 3 极性优化模块,用于通过投票原则,对已经指定的情感极性进行优化。 7。
7、.如权利要求5所述基于关键句的多语言情感数据处理分类系统,其特征在于,所述 关键句抽取模块包括: 情感得分计算模块,用于根据抽取出的情感词典数据包计算每个句子的情感得分; 位置得分计算模块,用于根据高斯分布计算每个句子的位置得分; 关键词得分计算模块,用于根据关键词列表计算每个句子的关键词得分; 关键句确定模块,用于对情感得分、位置得分、关键词得分进行加权求和,将得分最高 的N个句子定为情感关键句。 8.如权利要求5所述基于关键句的多语言情感数据处理分类系统,其特征在于,所述 情感数据分类模块包括: 无监督的情感数据分类模块,用于通过将每一篇文本用若干句情感关键句替代,然后 用已经抽取出的情感。
8、词典数据包在关键句上判定每篇文本的极性; 有监督的情感数据分类模块,用于从未标注样本中分别按照正类和负类情感词的得分 挑选出最确信的样本作为标注集,然后训练情感数据分类器,最后在关键句上判别每篇文 章的极性。 权 利 要 求 书CN 103995853 A 1/8页 4 基于关键句的多语言情感数据处理分类方法及系统 技术领域 0001 本发明涉及文本情感数据分析,尤其是涉及一种基于关键句的多语言情感数据处 理分类方法及系统。 背景技术 0002 随着论坛、博客、评论、微博等网络交流平台不断涌现,人们越来越习惯于在网上 发表主观性评论,这些评论用于表达人们对于日常事件、产品、政策等观点和看法。与。
9、此同 时,随着全球化进程的加快,网络所提供的信息资源呈现出多语言化的特点。情感分类是一 种将文本按照所表达的情感极性分为褒贬的分类任务;多语言情感分类是指利用源语言对 其他语言进行情感分类。多语言情感分类,旨在借助最少的资源,研究多语言情感文本所蕴 含的观点、看法和态度,不仅可以参考全球用户对商品的评价以做出合理的购买决定,而且 可以更加及时地了解全世界各国的网络民意。 0003 目前,多语言情感数据分析主要面临两个难点问题,分别是跨语言翻译过程中出 现的语言迁移和情感数据分析的双重难点问题。 0004 对于语言迁移,主要采用以下两种方法: 0005 借助统计机器翻译系统来进行跨语言情感数据分。
10、类器迁移。一方面,可以将有标 注的源语言数据集翻译成目标语言,然后在翻译后的训练语料上训练分类器对测试集进行 判别;另一方面,可以将目标语言测试集翻译成源语言,然后直接应用在源语言上训练的分 类器。然而,基于机器翻译的方法会损失跨语言情感分析的精度。一方面,机器翻译系统生 成唯一解,所以翻译未必正确;另一方面,机器翻译系统依赖于训练集,当目标语言的领域 与训练集相差较大时性能不佳。 0006 借助双语词典来进行跨语言情感数据分类器迁移。在有监督学习中,可以先在源 语言上学习情感数据分类器,然后借助双语词典将特征空间翻译成目标语言;在无监督学 习中,可以将源语言的情感词典通过双语词典翻译成目标语。
11、言。然而,大部分基于双语词典 的工作在选取翻译词的时候没有考虑情感词的上下文依赖关系。此外,情感词的极性(支 持或反对)具有领域依赖性,面对不同实体会表现出不同极性,所以将通用的情感词典用 于特定领域往往性能不佳。 0007 对于情感数据分析,主要采用以下三种方法: 0008 在有监督学习的方法中,文本的情感倾向性分析可以看成文本分类过程,借助朴 素贝叶斯、最大熵、支持向量机等机器学习的方法对文本倾向性进行判别。以机器学习方法 为基础,还可以进行特征融合或者特征约简,以进一步提高情感数据分类的性能。 0009 在无监督学习的方法中,情感数据分析在没有任何标注数据的条件下进行。经典 的做法是:首。
12、先对文本进行词性标注,按照预定义的规则选取形容词和副词的某些搭配,然 后计算每一个搭配与一对极性相反的情感词,比如excellent(好)和poor(差)的互信息 之差,最后对一个文本所有搭配的互信息差进行求和以判断其情感类别。 0010 在半监督学习的方法中,大量无标注数据与少量有标注数据相结合。半监督学习 说 明 书CN 103995853 A 2/8页 5 可以减少有监督学习对标注样本的依赖,可以取得比无监督学习更好的性能,是一种折中 的方法。 0011 然而,以往的情感分析方法并没有解决评论文本中情感歧义对情感数据分类的干 扰问题。情感数据分类和普通文本分类有些类似,但比普通文本分类更。
13、复杂。在基于主题 的文本分类中,因为主题不同的文本之间词语运用不同,词语的领域相关性使得不同主题 的文本可以很好的进行区分。然而,情感数据分类的正确率比基于主题的文本分类低很多, 这主要是由情感文本中复杂的情感表达和大量的情感歧义造成的。此外,在一篇文章中,客 观句子与主观句子可能相互交错,或者一个主观句子同时具有两种以上情感,因此文本情 感数据分类是一项非常复杂的任务。这里,以一篇网络上的图书评论为例: 0012 “很多人说这是一个充满悲伤、流溢无奈的故事,或许正是这种评论让我一直没有 勇气去认真阅读。我趁人自己是个沦落俗套的人,虽然被拒让人震撼而且极易深刻,但从感 情上更愿意看到美好的大团。
14、圆结局,虽然这样的通话在显示中是如此脆弱而不堪一击。 0013 这本书,我是一口气看完的,很喜欢。” 0014 文中作者用了大量消极的词汇来描述阅读前的感受,比如“悲伤”和“脆弱”,但是 在文章结尾,作者又用很积极的态度表达了他是喜欢这本书的。在这个例子中,整篇文本的 极性是正面的,但由于出现大量负面词汇所以很容易被判别成负面的。在判定整篇文章的 极性时,文章中所有句子的情感贡献度是不同的,如果对情感表达关键句和描述细节的句 子进行区分,将有助于提高文本情感数据分类的性能。 0015 综上所述,多语言的情感倾向性分析主要存在以下两个问题: 0016 (1)多语言情感分析过于依赖外部资源 001。
15、7 大部分多语言情感分析技术是依赖于机器翻译或者双语词典的。如果没有机器翻 译系统或编纂好的双语词典,多语言情感分析的工作将很难进行。 0018 (2)多语言情感分析容易受到情感歧义的干扰 0019 在一篇文章中,客观句子与主观句子可能相互交错,或者一个主观句子同时具有 两种以上情感,因此文本情感数据分类是一项非常复杂的任务。 0020 (3)多语言情感分析性能差强人意 0021 不同语言的情感表达差异很大,从原始空间导出的模型被转换到目标语言空间时 存在信息损失。比如,机器翻译系统只生成唯一解,基于机器翻译的方法会损失跨语言情感 分析的精度。 发明内容 0022 为了解决上述问题,本发明的目。
16、的在于提出一种语言无关的多语言情感数据分类 方法及系统,以解决跨语言翻译过程中出现的语言迁移和情感分析的双重难点问题。该方 法不仅资源依赖少,可以很容易移植到多语言场景,而且可以通过关键句抽取模块把握作 者最主要的观点,以提高多语言情感数据分类的准确性。 0023 为实现上述目的,本发明提出了一种基于关键句的多语言情感数据处理分类方 法,其特征在于,包括: 0024 步骤1,从未标注的情感数据集中自动抽取一部情感词典数据包,通过K近邻算法 和投票规则来最终判定情感词的极性; 说 明 书CN 103995853 A 3/8页 6 0025 步骤2,用抽取出的情感词典数据包计算情感属性的得分,然后。
17、再综合考虑位置属 性和关键词属性,自动为每一篇文本抽取若干句情感关键句; 0026 步骤3,把抽取出的情感关键句直接应用于有监督情感数据分类和无监督情感数 据分类中。 0027 本发明的基于关键句的多语言情感数据处理分类方法,其特征在于,步骤1包括: 0028 步骤21,以中文为例,根据模式匹配“很XX”和“非常XX”从整个数据集中抽出情 感词XX; 0029 步骤22,以互信息作为相似度度量,根据K近邻算法为每个情感词指定一个情感 极性; 0030 步骤23,通过投票原则,对已经指定的情感极性进行优化。 0031 本发明的基于关键句的多语言情感数据处理分类方法,其特征在于,步骤2包括: 00。
18、32 步骤31,根据抽取出的情感词典数据包计算每个句子的情感得分; 0033 步骤32,根据高斯分布计算每个句子的位置得分; 0034 步骤33,根据关键词列表计算每个句子的关键词得分; 0035 步骤34,对情感得分、位置得分、关键词得分进行加权求和,将得分最后的N个句 子定为情感关键句。 0036 本发明的基于关键句的多语言情感数据处理分类方法,其特征在于,步骤3包括: 0037 无监督的情感数据分类:每一篇文本用若干句情感关键句替代,然后用已经抽取 出的情感词典数据包在关键句上判定每篇文本的极性; 0038 有监督的情感数据分类:从未标注样本中分别按照正类和负类情感词的得分挑选 出最确信。
19、的样本作为标注集,然后训练情感数据分类器,最后在关键句上判别每篇文章的 极性。 0039 本发明还涉及一种基于关键句的多语言情感数据处理分类系统,其特征在于,包 括: 0040 极性判定模块,用于从未标注的情感数据集中自动抽取一部情感词典数据包,通 过K近邻算法和投票规则来最终判定情感词的极性; 0041 关键句抽取模块,用于通过抽取出的情感词典数据包计算情感属性的得分,然后 再综合考虑位置属性和关键词属性,自动为每一篇文本抽取若干句情感关键句; 0042 情感数据分类模块,用于把抽取出的情感关键句直接应用于有监督情感数据分类 和无监督情感数据分类中。 0043 本发明的基于关键句的多语言情感。
20、数据处理分类系统,其特征在于,所述极性判 定模块包括: 0044 情感词抽取模块,用于以中文为例,根据模式匹配“很XX”和“非常XX”从整个数 据集中抽出情感词XX; 0045 极性赋予模块,用于以互信息作为相似度度量,根据K近邻算法为每个情感词指 定一个情感极性; 0046 极性优化模块,用于通过投票原则,对已经指定的情感极性进行优化。 0047 本发明的基于关键句的多语言情感数据处理分类系统,其特征在于,所述关键句 抽取模块包括: 说 明 书CN 103995853 A 4/8页 7 0048 情感得分计算模块,用于根据抽取出的情感词典数据包计算每个句子的情感得 分; 0049 位置得分计。
21、算模块,用于根据高斯分布计算每个句子的位置得分; 0050 关键词得分计算模块,用于根据关键词列表计算每个句子的关键词得分; 0051 关键句确定模块,用于对情感得分、位置得分、关键词得分进行加权求和,将得分 最后的N个句子定为情感关键句。 0052 本发明的基于关键句的多语言情感数据处理分类系统,其特征在于,所述情感数 据分类模块包括: 0053 无监督的情感数据分类模块,用于通过将每一篇文本用若干句情感关键句替代, 然后用已经抽取出的情感词典数据包在关键句上判定每篇文本的极性; 0054 有监督的情感数据分类模块,用于从未标注样本中分别按照正类和负类情感词的 得分挑选出最确信的样本作为标注。
22、集,然后训练情感数据分类器,最后在关键句上判别每 篇文章的极性。 0055 本发明的有益效果在于:本发明提出的面向多语言倾向性分析的方法是语言无关 的,无需借助机器翻译系统和大规模双语词典数据包,直接在目标语言上学习情感数据分 类器,资源依赖性少。而且,本发明还解决了情感数据分类容易受到情感歧义干扰的问题, 通过关键句抽取模块去把握作者最主要的观点忽略那些不重要的观点,从而提升情感数据 分类的性能。本发明优于其他非监督的方法。把抽取出的情感词典数据包用于关键句的分 类要优于把抽取出的词典数据包用于全文的分类,表明基于关键句的情感数据分类比基于 全文的情感数据分类性能更高,从而证明本发明所提的关。
23、键句抽取算法有效。 附图说明 0056 图1为本发明过程的示意图; 0057 图2为标准高斯分布的曲线。 具体实施方式 0058 本发明的一种基于关键句的多语言情感数据处理分类方法,包括: 0059 步骤1,从未标注的情感语料数据库中自动抽取一部情感词典数据包(形如“好正 类”和“差负类”这样的二元组数据)。情感词的极性(正类还是负类)是通过K近邻算法 和投票规则来判定的。在投票规则中,本发明还引入一种悬挂机制,防止极性判定矫枉过 正; 0060 步骤2,用抽取出的情感词典数据包计算情感属性的得分,然后再综合考虑位置属 性和关键词属性,自动为每一篇文本抽取若干句情感关键句作为每一篇文本的代表;。
24、 0061 步骤3,把抽取出的情感关键句直接应用于有监督情感数据分类和无监督情感数 据分类中,从而得到每一篇文本的情感极性。 0062 以图书评论为例,通过情感关键句抽取模块,可以得到关键句“这本书,我是一口 气看完的,很喜欢”用于代替整篇评论的整体观点。然后,通过查询之前获取的情感词典数 据包,得知关键句中包含情感词“喜欢”且“喜欢”的极性是正类,从而判定这篇图书评论的 情感极性是正类。 说 明 书CN 103995853 A 5/8页 8 0063 所述步骤1包括: 0064 首先,以中文为例,根据模式匹配“很XX”和“非常XX”从整个数据集中抽出情感 词XX。 0065 其次,以互信息作。
25、为相似度度量,根据K近邻算法为每个情感词指定一个情感极 性。 0066 最后,通过投票原则,对已经指定的情感极性进行优化。 0067 所述步骤2包括: 0068 首先,根据抽取出的情感词典数据包计算每个句子的情感得分。 0069 其次,根据高斯分布计算每个句子的位置得分。 0070 再次,根据关键词列表计算每个句子的关键词得分。 0071 最后,对情感得分、位置得分、关键词得分进行加权求和,将得分最高的N个句子 定为情感关键句。 0072 所述步骤3包括: 0073 无监督的情感数据分类:每一篇文本用若干句情感关键句替代,然后用已经抽取 出的情感词典数据包在关键句上判定每篇文本的极性。 007。
26、4 有监督的情感数据分类:从未标注数据集中分别按照正类和负类情感词的得分挑 选出最确信的样本作为标注集,然后训练情感数据分类器,最后在关键句上判别每篇文章 的极性。 0075 为了证明所提方法的有效性,将本发明在多语言(英语、法语、德语)的多领域 (图书、电影、音乐)评论数据集上进行实验。 0076 为了验证投票规则的有效性,分别人工校验了应用投票规则前后的情感词典正确 率,结果如表1所示。 0077 表1.英文情感词极性判定正确率 0078 英文投票前投票后 图书0.6931 0.8053 电影0.7263 0.7835 音乐0.7512 0.7708 平均0.7235 0.7865 007。
27、9 从表1可以看出,应用投票规则后,英文情感词典数据包的正确率平均提高了6.3 个百分点。对于通用情感词,投票规则通过少数服从多数使得极性判定正确率更高,对于领 域依赖的情感词,悬挂机制使可以防止情感极性的过度修正。 0080 为了验证关键句抽取算法的有效性,将基于关键句的情感数据分类方法分别和其 他基准方法进行了对比,并在不同语言的数据集上实验,结果如表2-4所示。 0081 表2.英文情感数据分类正确率 说 明 书CN 103995853 A 6/8页 9 0082 0083 表3.法文情感数据分类正确率 0084 0085 表4.德文情感数据分类正确率 0086 0087 从表2-4可以。
28、看出,无论是在多个语言上还是在多个领域上,本发明所提方法都 优于其他非监督的方法。把抽取出的情感词典数据包用于关键句的分类要优于把抽取出的 词典数据包用于全文的分类,表明基于关键句的情感数据分类比基于全文的情感数据分类 性能更高,从而证明本发明所提的关键句抽取算法是有效的。本发明的核心思想在于,借助 最少的资源(先验知识),对一种完全不了解的语言进行倾向性分析,自动在目标语言数据 集上学习情感数据分类器,并且通过关键句的抽取模块去把握作者最主要的观点,忽略不 重要观点的干扰。 0088 图1是情感数据分类方法流程图。如图1所示,该方法包括: 0089 步骤1,从未标注的情感数据集中自动抽取一部。
29、情感词典数据包,通过K近邻算法 和投票规则来最终判定每一个情感词的极性(正类还是负类)。 0090 在基于K近邻算法的极性判定中,一个词的情感极性由跟它结合最紧密即相似度 最高的K个词的极性来决定,两个词之间的相似度similarity(o i ,o j )通过互信息来度量: 说 明 书CN 103995853 A 7/8页 10 0091 0092 其中,o i 和o j 分别代表两个不同的情感词,p为概率。 0093 为了进一步优化基于K近邻算法的极性判定结果,采用投票规则对极性进行二次 判定。在投票规则中,引入一种悬挂机制来对三个领域各自生成结果加以利用。选择一个 领域为主领域,其他两个。
30、领域为辅助领域,投票规则如下: 0094 (1)如果三个领域生成的情感词极性结果一致,那么该极性确定。 0095 (2)如果有一个辅助领域生成的情感词极性和主领域生成的情感词极性相同,那 么该极性确定。 0096 (3)如果两个辅助领域生成的情感词极性一致,而和主领域生成的结果不同,那么 该极性悬挂。 0097 之所以引入悬挂机制是为了防止情感词极性过度修正,因为情感词的极性是领域 相关的,比如“大”在宾馆领域可能是褒义在电子领域可能是贬义,所以尽管主领域判定的 结果和其他领域判定的结果不同,但主领域的判定结果依然可信。对于被悬挂的情感词,通 过比较主领域的情感词得分和两个辅助领域的情感得分和。
31、来最终指定其极性。 0098 步骤2,综合考虑情感属性、位置属性和关键词属性,自动抽取情感关键句。 0099 给定一篇文章,对每一个句子分别计算3个属性的得分,然后进行加权求和,得分 最高的句子则被选为情感关键句。 0100 已知任意文本d由一系列句子组成:ds 1 ,s 2 ,s m ,其中m代表句子数目,而 每个句子s i 由一系列词组成:s i wi 1 ,wi 2 ,wi n ,其中n代表词的数目。每一个句子 的最终得分可以表示成3个属性的加权求和形式: 0101 f(s i ) 1 *f_sentiment(s i )+ 2 *f_position(s i )+ 3 *f_keywo。
32、rd(s i ); 0102 其中,1,2,3是每一个属性的权值,通过最大化分类器的精度来得到,f_ sentiment(s i )为句子s i 的情感得分,f_position(s i )为句子s i 的位置得分,f_keyword(s i ) 为句子s i 的关键词得分。 0103 情感特征:情感关键句主要表达作者的整体观点或偏好,而观点和偏好通常都由 情感词体现。情感属性用于考察一个句子是否具有情感色彩,并且衡量其情感重要程度,情 感得分函数f_sentiment(s)如下: 0104 0105 其中opinion_lexicon(t)不仅标识着句子s中的单词t是否是一个情感词,而且 标。
33、记着情感词的极性。如果t是一个褒义词,那么opinion_lexicon(t)1;如果t是一个 贬义词,那么opinion_lexicon(t)-1。从这个公式可以看出,只有当一个句子包含着同 一极性的情感词时,分数才会比较高,如果同时包含极性不同的情感词,分数则会比较低。 0106 位置特征:为了有效从互联网用户评论中抽取主要观点,需要格外重视文章的结 尾部分。本发明认为文章开头和结尾的句子同样重要。位置属性确保文章开头和结尾的句 子成为关键句的得分大于文章中间的句子,位置得分函数定f_position(s)义如下: 说 明 书CN 103995853 A 10 8/8页 11 0107 0。
34、108 位置打分函数其实是负的高斯分布概率密度函数,其中是均值,是方差,len 代表文本长度(即一篇文本的句子数)。事实上,函数f_position(s)是一条开口向上的抛 物线,横坐标代表句子的位置,取值区间1到len,纵坐标代表该位置句子成为情感关键句 的得分。由高斯分布的负数形式不难看出(只看到一个数学意义上的曲线,看不到别的与 本发明有关系的地方。),文章正中间的句子位于曲线的最低点,中间句子成为情感关键句 的得分较小,而位于开头和结尾两端的句子成为情感关键句的得分较高。标准高斯分布的 曲线如图2所示。 0109 关键词特征:情感关键句中经常包含一些总结性的词汇或短语,比如“总之”“综。
35、上 所述”,这种总结性关键词为情感关键句的抽取提供了很好的启发式信息。本发明对语料中 所有文本的最后一句进行词频统计,可以整理得到关键词表,如果这些关键词出现在某一 句子中,则该句成为关键句的可能性就比较大,因此关键词得分函数f_keyword(s)定义如 下: 0110 0111 其中,w i 为构成句子的词组。 0112 步骤3,把抽取出的情感关键句直接应用于有监督情感数据分类和无监督情感数 据分类中。 0113 从未标注样本中挑选训练样本的过程参照以下公式: 0114 0115 其中,T P 表示一篇文本中的正类情感词数目,T N 表示一篇文本中的负类情感词数 目,POS代表正类,NEG代表负类,本发明认为一篇文本的正负类情感词数目差异越大,那么 这篇文章的情感倾向性越确定。为了克服文本长度对T P 和T N 差值的影响,通过分母对差值 进行归一化。 说 明 书CN 103995853 A 11 1/1页 12 图1 图2 说 明 书 附 图CN 103995853 A 12 。