用于文本识别的数据处理方法及装置.pdf

摘要
申请专利号：	CN201410751278.2	申请日：	2014.12.09
公开号：	CN104462378A	公开日：	2015.03.25
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F17/30申请日:20141209\|\|\|公开
IPC分类号：	G06F17/30; G06F17/27	主分类号：	G06F17/30
申请人：	北京国双科技有限公司
发明人：	何鑫
地址：	100086北京市海淀区双榆树小区知春路76号翠宫饭店8层A间
优先权：
专利代理机构：	北京康信知识产权代理有限责任公司11240	代理人：	李志刚; 吴贵明
PDF下载：	PDF下载

内容摘要

本发明公开了一种用于文本识别的数据处理方法及装置，该用于文本识别的数据处理方法包括：获取语料中的目标词；获取语料中的参考词；将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量；计算目标词向量和参考词向量的相似度；将相似度和预设阈值比较；以及如果相似度不大于预设阈值，则确定目标词是背景噪音词，如果相似度大于预设阈值，则确定目标词不是背景噪音词。通过本发明，解决了现有技术中过滤背景噪音词准确率低的问题，进一步达到了提高过滤背景噪声词准确率的效果。

权利要求书

权利要求书
1.  一种用于文本识别的数据处理方法，其特征在于，包括：
获取语料中的目标词；
获取所述语料中的参考词；
将所述目标词转换为词向量，得到目标词向量，将所述参考词转换为词向量，得到参考词向量；
计算所述目标词向量和所述参考词向量的相似度；
将所述相似度和预设阈值比较；以及
如果所述相似度不大于所述预设阈值，则确定所述目标词是背景噪音词，如果所述相似度大于所述预设阈值，则确定所述目标词不是背景噪音词。

2.  根据权利要求1所述的用于文本识别的数据处理方法，其特征在于，所述参考词向量包括多个参考词向量，计算所述目标词向量与所述参考词向量的相似度包括：
依次计算所述目标词向量与所述多个参考词向量中每一个参考词向量的相似度，得到所述目标词向量与所述多个参考词向量的相似度集合；以及
获取所述相似度集合中值最大的相似度作为所述目标词向量与所述参考词向量的相似度。

3.  根据权利要求1所述的用于文本识别的数据处理方法，其特征在于，通过分布式描述方法将所述目标词转换为词向量，得到所述目标词向量，将所述参考词转换为词向量，得到所述参考词向量。

4.  根据权利要求1所述的用于文本识别的数据处理方法，其特征在于，在获取所述目标词和所述参考词之前，所述方法还包括：
将所述语料中的文本进行分词，得到切分词集合；以及
过滤所述切分词集合中的停用词，
其中，从过滤停用词后的切分词集合中获取所述目标词和所述参考词。

5.  根据权利要求1所述的用于文本识别的数据处理方法，其特征在于，计算所述目标词向量和所述参考词向量的相似度包括：
计算所述目标词向量和所述参考词向量的夹角的余弦值；以及
通过余弦值计算所述目标词向量和所述参考词向量的相似度。

6.  一种用于文本识别的数据处理装置，其特征在于，包括：
第一获取单元，用于获取语料中的目标词；
第二获取单元，用于获取所述语料中的参考词；
转换单元，用于将所述目标词转换为词向量，得到目标词向量，将所述参考词转换为词向量，得到参考词向量；
计算单元，用于计算所述目标词向量和所述参考词向量的相似度；
比较单元，用于比较所述相似度和预设阈值；以及
确定单元，用于当所述相似度不大于所述预设阈值，则确定所述目标词是背景噪音词，当所述相似度大于所述预设阈值，则确定所述目标词不是背景噪音词。

7.  根据权利要求6所述的用于文本识别的数据处理装置，其特征在于，所述参考词向量包括多个参考词向量，所述计算单元包括：
第一计算模块，用于依次计算所述目标词向量与所述多个参考词向量中每一个参考词向量的相似度，得到所述目标词向量与所述多个参考词向量的相似度集合；以及
获取模块，用于获取所述相似度集合中值最大的相似度作为所述目标词向量与所述参考词向量的相似度。

8.  根据权利要求6所述的用于文本识别的数据处理装置，其特征在于，所述转换单元通过分布式描述装置将所述目标词转换为词向量，得到所述目标词向量，将所述参考词转换为词向量，得到所述参考词向量。

9.  根据权利要求6所述的用于文本识别的数据处理装置，其特征在于，所述装置还包括：
分词单元，用于将所述语料中的文本进行分词，得到切分词集合；以及
过滤单元，用于过滤所述切分词集合中的停用词，
其中，从过滤停用词后的切分词集合中获取所述目标词和所述参考词。

10.  根据权利要求6所述的用于文本识别的数据处理装置，其特征在于，所述计算单元包括：
第二计算模块，用于计算所述目标词向量和所述参考词向量的夹角的余弦值；以及
第三计算模块，用于通过余弦值计算所述目标词向量和所述参考词向量的相似度。

说明书

说明书用于文本识别的数据处理方法及装置
技术领域
本发明涉及自然语言处理领域，具体而言，涉及一种用于文本识别的数据处理方法及装置。
背景技术
为了节省存储空间和提高搜索效率，搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词，这些字或词即被称为停用词(Stop Words)。通常，停用词大致分为如下两类：一类停用词是指应用广泛、在网络上随处可见的词，比如“Web”一词几乎在每个网站上均会出现，对这样的词搜索引擎无法保证能够给出真正相关的搜索结果，难以帮助缩小搜索范围，同时还会降低搜索的效率；另一类停用词是指语气助词、副词、介词、连接词等，通常这些词自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，如常见的“的”、“在”之类的词。
自然语言处理的各个任务进行之前都会通过去停用词步骤对这些停用词进行过滤。通常，对于特定语言，都有通用的停用词表进行过滤。但是，在特定自然语言处理任务(如主题提取、文本分类)中，除需要过滤停用词外，还需要事先过滤掉背景噪音词。所谓背景噪音词，是指语料自身带来的与主题无关的无意义词串，包括绝对噪音和相对噪音。其中，绝对噪音是指分布稳定，累计出现次数较多的词，如“人民日报讯”、“据新华社电”等；相对噪音是指其本身不是噪音，但是在特定处理的领域集中成为噪音的一些词语，这些词语对特定领域内主题的细分不起作用，如“纠纷”、“原告”等词本身不是噪音，但是在法律判决文书卷宗的语料集中则成为了背景噪音。
背景噪音词与停用词一样，无论是对主题分类还是存储空间还是检索效率而言，背景噪音词的存在都不起任何作用，因此也应当事先予以过滤。但不同于停用词，背景噪音词无法通过人工整理获得。传统的解决方案是通过直接统计语料中每个词的词频并与设置的阈值比较的方式予以过滤，具体包括：首先，对语料中的文本进行分词，去停用词等处理，得到切分词的序列；其次，对切分词进行计数统计，统计每个切分词的词频(出现的次数)，记为tf，以及每个切分词的文档频数(出现的文档数)，记为df；最后，对tf和df进行简单的统计变换(相乘、除等，也可以不做变换)，并设定相应的阈值，若统计值满足阈值的条件，则认为该切分词为背景噪音词，如下公式所示：
word&Element;Noise,if(tf>αor df>βor...)Useful,otherwise]]>
其中，word表示切分词，Noise表示背景噪音词，Useful表示有用词，即非背景噪音词，α、β为预设阈值。
上述过滤背景噪音词的方式简单，但是没有考虑背景噪音词的识别质量，此外，该方法缺乏理论依据，容易造成未识别出背景噪音词以及将非背景噪音词错识别成背景噪音这样的两类错误，此外，在实践过程中，统计值阈值的设定往往难以设定。
针对相关技术中过滤背景噪音词准确率低的问题，目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种用于文本识别的数据处理方法及装置，以解决现有技术中过滤背景噪音词准确率低的问题。
为了实现上述目的，根据本发明的一个方面，提供了一种用于文本识别的数据处理方法。
根据本发明的用于文本识别的数据过滤方法包括：获取语料中的目标词；获取语料中的参考词；将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量；计算目标词向量和参考词向量的相似度；将相似度和预设阈值比较；以及如果相似度不大于预设阈值，则确定目标词是背景噪音词，如果相似度大于预设阈值，则确定目标词不是背景噪音词。
进一步地，参考词向量包括多个参考词向量，计算目标词向量与参考词向量的相似度包括：依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度，得到目标词向量与多个参考词向量的相似度集合；以及获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。
进一步地，分布式描述方法将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量。
进一步地，在获取目标词和参考词之前，方法还包括：将语料中的文本进行分词，得到切分词集合；以及过滤切分词集合中的停用词，其中，从过滤停用词后的切分词集合中获取目标词和参考词。
进一步地，计算目标词向量和参考词向量的相似度包括：计算目标词向量和参考词向量的夹角的余弦值；以及通过余弦值计算目标词向量和参考词向量的相似度。
为了实现上述目的，根据本发明的另一方面，提供了一种用于文本识别的数据处理装置。
该用于文本识别的数据过滤装置包括：第一获取单元，用于获取语料中的目标词；第二获取单元，用于获取语料中的参考词；转换单元，用于将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量；计算单元，用于计算目标词向量和参考词向量的相似度；比较单元，用于比较相似度和预设阈值；以及确定单元，用于当相似度不大于预设阈值时，则确定目标词是背景噪音词，当相似度大于预设阈值时，则确定目标词不是背景噪音词。
进一步地，参考词向量包括多个参考词向量，计算单元包括：第一计算模块，用于依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度，得到目标词向量与多个参考词向量的相似度集合；以及获取模块，用于获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。
进一步地，转换单元通过分布式描述装置将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量。
进一步地，装置还包括：分词单元，用于将语料中的文本进行分词，得到切分词集合；以及过滤单元，用于过滤切分词集合中的停用词，其中，从过滤停用词后的切分词集合中获取目标词和参考词。
进一步地，计算单元包括：第二计算模块，用于计算目标词向量和参考词向量的夹角的余弦值；以及第三计算模块，用于通过余弦值计算目标词向量和参考词向量的相似度。
通过本发明，通过计算目标词向量与参考词向量的相似度来确定目标词是否为背景噪音词，从而过滤该目标词，解决了现有技术中过滤背景噪音词准确率低的问题，进而达到了提高过滤背景噪声词准确率的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
图1是文本主题识别中背景噪音词的条件概率分布示意图；
图2是根据本发明实施例的用于文本识别的数据处理方法的流程图；以及
图3是根据本发明实施例的用于文本识别的数据处理装置的示意图。
具体实施方式
需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将主题附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
以下是对本发明涉及的一些术语进行解释：
语料库：在自然语言处理领域，语料库通常是指一个文本集合，语料是语料库的文本。本发明涉及的语料都为特定领域的文本，例如法律文本领域、计算机文本领域等。
背景噪音词：语料自身通常会带有一些与文本主题无关的词，这些词称为背景噪音词，背景噪音词包括绝对噪音词和相对噪音词。绝对噪音词是指在语料中出现次数较多，分布稳定的词，例如，“人民日报讯”、“据新华社电”，这些词在许多文本中都会出现，但是这些词对于文本主题的分类并不起作用。相对噪音词，是指一类词本身不是噪音词，但是在特定的领域中却成为背景噪音词，例如，“纠纷”一词在法律文本相关主题下都较常出现，如“离婚纠纷”、“买卖合同纠纷”、“民间借贷纠纷”等，因此“纠纷”一词对于法律相关领域的文本主题的细分所起作用不大。背景噪音词一方面对于主题的分类所起作用不大，另一方面占用存储空间同时影响检索效率，因此需要对其进行过滤。
主题模型：就是对文字中隐含主题的一种建模方法。其中，主题是一个概念、一个方面，表现为一系列与该主题相关的词语。例如，如果文本中涉及到“百度”这个主题，则“中文搜索”、“李彦宏”等词语出现的频率较高，而如果文本中涉及到“IBM”这个主题，那么“笔记本”等词语出现的频率则较高。用数学语言描述，主题就是词汇表上词语出现的条件概率分布。
在同一主题下的文本中，出现的条件概率较高的词语与该主题具有语义相似性，这些词语更倾向于描述该主题的主旨内容，而出现的条件概率越低的词语则更倾向于是与该主题无关的词语。对于同一个词语，在不同主题下出现的概率分布可以描述该词语描述主题的倾向性。根据上述特点，可以区分出背景噪音词与非背景噪音词的区别，即在不同主题下词语出现的条件概率都处于中间水平的词语为背景噪音词。如图1所示，图1中的每个点都表示一个词语，假设只有两个主题，主题1和主题2，图1右下方的三个点以较高的概率出现在主题1中，但是这三个点出现在主题2中的概率较低，表示这三个点对应的词语对于区分文本是否描述主题1的时候作用较大，即这三个点对应的词与主题1的相关性较大，可以作为检索主题1相关文本的关键词。同样，图1中左上角的三个点以较高的概率出现在主题2中，但是出现在主题1中的概率很低，表示三个点对应的词语对于区分文本是否描述主题2的时候作用较大，即这三个点对应的词与主题2的相关度较大，可以作为检索主题2相关文本的关键词。相反，图1中间部分的四个点在主题1和主题2下出现的概率都处于中间水平，对于区文本是描述主题1还是主题2所起作用很小，即这四个点对应的词语与主题1和主题2的相关度都低，因此这些词语为背景噪音词。
根据本发明的实施例，提供了一种用于文本识别的数据处理方法，图1是根据本发明实施例的用于文本识别的数据处理方法的流程图。
如图1所示，该方法包括如下的步骤S102至步骤S112：
步骤S102：获取语料中的目标词。
步骤S104：获取语料中的参考词。
目标词为语料中待过滤的词，参考词则是语料中除目标词外的其他词。在进行背景噪音词过滤过程中，需要依次对语料中的每个词进行判断是否为背景噪音词，当判断出为背景噪音词时，则过滤该词。因此，语料中的每个词依次作为目标词，此时，语料中除该目标词外的其他词则作为参考词，通过计算该目标词与参考词之间的相似度来判断该目标词是否为背景噪音词。
步骤S106：将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量。
词向量是指词语的向量表示，最简单的表示方法是稀疏描述法(One-hot Representation)，该方法将词表中的每个词表示成一个由0和1组成的向量，其中，只有一个维度值为1，其余维度值都为0，向量的维度为词表的大小，词表由所有需要进行向量化词语组成，词语的个数即为词表的大小，例如，一个词表包含10个词语，则该词表的所有词语转换成10维的向量，例如，“话筒”的词向量表示为[0,0,0,0,1,0,0,0,0,0]，“麦克”的词向量表示为[0,1,0,0,0,0,0,0,0,0]，向量中数值为1的位置对应该词在词表的位置，即“话筒”位于词表中第6个位置，“麦克”位于词表中第2个位置。另一种表示方法为分布式描述方法(Distributed Representation)，该方法是一种低维词向量表示方法。例如，一个词表同样包含10个词语时，“话筒”的词向量可以仅通过五维向量进行表示，例如[0.792,-0.177,-0.107,0.109,-0.542]，这种方式能够大大减少向量的维数。
本发明实施例通过将语料中包含的所有词作为训练样本，包括目标词和参考词，利用机器训练方法得到上述词对应的词向量。常用的机器训练方法有由google提出的深度学习算法word2vec、神经网络训练算法等。通过上述训练方法可以方便的将目标词和参考词转换成词向量。
步骤S108：计算目标词向量和参考词向量的相似度。
相似度是指两个词之间的相似程度，可以是语义的相似程度，也可以是词法的相似程度，通过上述两个词对应的词向量之间的距离来表示。两个词向量的距离越短，说明该两个词向量对应的词的相似度越大，进一步说明两个词在语义或是词法上更为接近。常用的描述向量距离的方式有欧氏距离、余弦夹角等。
通过计算语料中词语两两之间的相似度，可以将这些词语划分出多个聚类，同一个聚类中的词语两两之间都具有很高的相似度，相反，不同聚类中的词语之间相似度偏低。此处的聚类相当于文本的主题，每个聚类包含的词语都与同一主题具有较高的相关性，这些词都倾向于描述该主题，在该主题下这些词出现的条件概率较高，这些词可以作为检索该主题相关文本的关键词。但是，当一个词与语料中其他词的相似度都不高时，说明该词不倾向于描述任何主题，在任何主题下该词出现的条件概率都较低，则该词即为背景噪音词。
步骤S110：将相似度和预设阈值比较。
步骤S112：如果所述相似度不大于所述预设阈值，则确定所述目标词是背景噪音词，如果所述相似度大于所述预设阈值，则确定所述目标词不是背景噪音词。
相似度能够直观的描述两个词之间的语义相似程度，根据上述描述可知，背景噪音词与语料中其他词的相似度都不高。通过设置一个预设阈值可以区分区背景噪音词。如果相似度不大于预设阈值，说明目标词为背景噪音词，需要对其进行过滤，如果相似度大于预设阈值，则说明目标词为非背景噪音词，则不需要对其进行过滤。
本发明实施例通过将语料中的目标词和参考词转换成词向量，计算目标词向量和参考词向量之间的相似度，并与预设阈值比较来确定目标词是否为需要过滤的背景噪音词，当目标词与参考词的相似度低于预设阈值时则该目标词不倾向于描述语料中文本的主题，因此可以确定该目标词为背景噪音词，需要过滤该目标词。由于两个词的相似度能够很直观的反映出两个词之间的语义相似程度，通过计算目标词与语料中除目标词外的其他词的相似度可以客观的反映出该目标词与语料中文本的主题的相关性，因此，本发明实施例过滤的背景噪音词较为符合实际情况，准确性较高，解决了现有技术中过滤背景噪音词准确率低的问题。
可选地，参考词向量包括多个参考词向量，计算目标词向量与参考词向量的相似度包括：依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度，得到目标词向量与多个参考词向量的相似度集合；以及获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。
当参考词向量为多个时，则依次计算目标词向量与参考词向量中的每一个的相似度，得到一个相似度集合。由于背景噪音词与语料中其他词的相似度都不高(不满足极高)。因此，可以通过统计相似度集合中的最大值作为该目标词对应的最大相似度。例如，“纠纷”一词与“离婚”、“合同”、“借贷”的相似度为0.6、0.5、0.5，那么“纠纷”对应的最大相似度为0.6，“结婚证”一词与“离婚”、“合同”、“借贷”的相似度为0.9、0.1、0.05，那么“结婚证”对应的最大相似度为0.9。通过将目标词对应的相似度最大值与预设阈值比较来确定目标词是否为背景噪音词，如果目标词对应的相似度最大值小于预设阈值，则说明该目标值为背景噪音词，需要过滤该目标词。
如下代码用于计算语料中每个词与语料中其他词语的相似度，并计算每个词语与语料中其他词语的相似度中值最大的相似度，最后实现将语料中所有词语对应的值最大的相似度进行排序，通过排序可以提高相似度与预设阈值比较的效率，例如，A1、A2、A3分别为三个词对应的值最大相似度，其中A1<A2<A3，当A1大于预设阈值时，则A2、A3无需与预设阈值比较就可以得到大于预设阈值，这样避免将每个词对应的值最大相似度与预设阈值比较：

优选地，通过分布式描述方法将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量。
上述稀疏描述法一方面存在“词汇鸿沟”的问题，即得到的词向量之间相互孤立，从两个词向量中不能得出两个词之间的相似关系，另一方面该方法容易出现“维数灾难”，即词向量维数过大，导致训练难度、内存占用量过大。分布式描述方法最大的优势在于能够让相关或者相似的词转换得到的词向量在距离上更接近，所谓的距离即余弦夹角的距离。此外，分布式描述方法表示的词向量具有较低的维度，适合于进行机器训练，训练的效率都较高，所占用的内存相对于稀疏描述法较少。因此，采用分布式描述方法将目标词和参考词转换为词向量。
优选地，为了提高词向量训练的效率，在获取目标词和参考词之前，方法还包括：将语料中的文本进行分词，得到切分词集合；以及过滤切分词集合中的停用词，其中，在过滤停用词后的切分词集合中获取目标词和参考词。
语料都是一个个文本，并不是独立的词语，因此，需要对语料的中的文本进行分词，得到一个个独立的词语，例如，将文本“取得结婚证就建立了婚姻关系”进行分词，得到切分词集合{取得，结婚证，就，建立，了，婚姻关系}。从该切分词集合中可以看出，“取得”、“就”、“建立”、“了”这些词对于主题检索和分类并不起作用，这些词即为停用词。如若保留这些停用词，一方面增加了词向量训练过程的复杂度，降低词向量训练的效率，另一方面这些停用词会影响词向量训练的训练质量，从而影响训练得到的词向量之间相似度的准确性。因此在获取词向量训练样本之前需要过滤切分词集合中的停用词，即在获取目标词和参考词之前先过滤切分词中的停用词。
优选地，计算目标词向量和参考词向量的相似度包括：计算目标词向量和参考词向量的夹角的余弦值；以及通过余弦值计算目标词向量和参考词向量的相似度。
通过计算两个词向量的夹角余弦值来表示该词向量对应的两个词的相似度，计算公式如下：
cosθ=cov(X,Y)||X||*||Y||]]>
其中，X、Y分别表示词向量X和词向量Y。cosθ的取值范围为[0,1]，cosθ越接近1时，则表示两词语之间的相似度越高，反之，cosθ值越接近0，则表示两词语之间的相似度越低。通过计算词向量的夹角的余弦值能够较为直观的反映出两个词的相似度。
从以上的描述中，可以看出，本发明实现了如下技术效果：
本发明实施例通过将语料中的目标词和参考词转换成词向量，计算目标词向量和参考词向量之间的相似度，由于背景噪音词与语料中其他词的相似度都较低，因此通过将目标词对应的相似度最大值与预设阈值比较可以确定目标词是否为需要过滤的背景噪音词，当目标词与参考词的相似度低于预设阈值时则该目标词不倾向于描述语料中文本的主题，因此可以确定该目标词为背景噪音词，需要过滤该目标词。本发明实施例过滤的背景噪音词较为符合实际情况，准确性较高，解决了现有技术中过滤背景噪音词准确率低的问题。本发明实施例在转换语料中的词为词向量之前进行停用词的过滤，提高了词向量训练的效率。
需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例的另一方面，提供了一种用于文本识别的数据处理装置。该用于文本识别的数据处理装置可以用于执行本发明实施例的用于文本识别的数据处理方法，本发明实施的用于文本识别的数据处理方法也可以通过本发明实施例的用于文本识别的数据处理装置来执行。图3是根据本发明实施例的用于文本识别的数据处理装置的示意图。
如图3所示，该装置包括：第一获取单元10、第二获取单元20、转换单元30、计算单元40、比较单元50和确定单元60。
第一获取单元10，用于获取语料中的目标词。
第二获取单元20，用于获取语料中的参考词。
目标词为语料中待过滤的词，参考词则是语料中除目标词外的其他词。在进行背景噪音词过滤过程中，需要依次对语料中的每个词进行判断是否为背景噪音词，当判断出为背景噪音词时，则过滤该词。因此，语料中的每个词依次作为目标词，此时，语料中除该目标词之外的其他词则作为参考词，通过计算该目标词与参考词之间的相似度来判断该目标词是否为背景噪音词。
转换单元30，用于将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量。
词向量是指词语的向量表示，最简单的表示方法是稀疏描述法(One-hot Representation)，该方法将词表中的每个词表示成一个由0和1组成的向量，其中，只有一个维度值为1，其余维度值都为0，向量的维度为词表的大小，词表由所有需要进行向量化词语组成，词语的个数即为词表的大小。
优选地，转换单元30通过分布式描述装置将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量。
分布式描述方法(Distributed Representation)是一种低维词向量表示方法。例如，一个词表同样包含10个词语时，“话筒”的词向量可以仅通过五维向量进行表示，例如[0.792,-0.177,-0.107,0.109,-0.542]，这种方式能够大大减少向量的维数。
本发明实施例通过将语料中包含的所有词作为训练样本，包括目标词和参考词，利用机器训练方法得到上述词对应的词向量。常用的机器训练方法有由google提出的深度学习算法word2vec、神经网络训练算法等。通过上述训练方法可以方便的将目标词和参考词转换成词向量。
计算单元40，用于计算目标词向量和参考词向量的相似度。
相似度是指两个词之间的相似程度，可以是语义的相似程度，也可以是词法的相似程度，通过上述两个词对应的词向量之间的距离来表示。两个词向量的距离越短，说明该两个词向量对应的词的相似度越大，进一步说明两个词在语义或是词法上更为接近。常用的描述向量距离的方式有欧氏距离、余弦夹角等。
优选地，计算单元40包括：第二计算模块，用于计算目标词向量和参考词向量的夹角的余弦值；以及第三计算模块，用于通过余弦值计算目标词向量和参考词向量的相似度。
通过计算语料中词语两两之间的相似度，可以将这些词语划分出多个聚类，同一个聚类中的词语两两之间都具有很高的相似度，相反，不同聚类中的词语之间相似度偏低。此处的聚类相当于文本的主题，每个聚类包含的词语都与同一主题具有较高的相关性，这些词都倾向于描述该主题，在该主题下这些词出现的条件概率较高，这些词可以作为检索该主题相关文本的关键词。但是，当一个词与语料中其他词的相似度都不高时，说明该词不倾向于描述任何主题，在任何主题下该词出现的条件概率都较低，则该词即为背景噪音词。
比较单元50，用于比较相似度和预设阈值。
确定单元60，用于当相似度不大于预设阈值时，则确定目标词是背景噪音词，当相似度大于预设阈值时，则确定目标词不是背景噪音词。
相似度能够直观的描述两个词之间的语义相似程度，根据上述描述可知，背景噪音词与语料中其他词的相似度都不高。通过设置一个预设阈值可以区分区背景噪音词。如果相似度不大于预设阈值，说明目标词为背景噪音词，需要对其进行过滤，如果相似度大于预设阈值，则说明目标词为非背景噪音词，则不需要对其进行过滤。
本发明实施例通过装换单元30将语料中的目标词和参考词转换成词向量，通过计算单元40计算目标词向量和参考词向量之间的相似度，并通过比较单元50将得到的相似度与预设阈值比较来确定目标词是否为需要过滤的背景噪音词，当目标词与参考词的相似度低于预设阈值时则该目标词不倾向于描述语料中文本的主题，因此确定单元60可以确定该目标词为背景噪音词，需要过滤该目标词。由于两个词的相似度能够很直观的反映出两个词之间的语义相似程度，通过计算目标词与语料中除目标词外的其他词的相似度可以客观的反映出该目标词与语料中文本的主题的相关性，因此，本发明实施例过滤的背景噪音词较为符合实际情况，准确性较高，解决了现有技术中过滤背景噪音词准确率低的问题。
优选地，参考词向量包括多个参考词向量，计算单元40包括：第一计算模块，用于依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度，得到目标词向量与多个参考词向量的相似度集合；以及获取模块，用于获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。
优选地，该装置还包括：分词单元，用于将语料中的文本进行分词，得到切分词集合；以及过滤单元，用于过滤切分词集合中的停用词，其中，从过滤停用词后的切分词集合中获取目标词和参考词。
显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

资源描述

《用于文本识别的数据处理方法及装置.pdf》由会员分享，可在线阅读，更多相关《用于文本识别的数据处理方法及装置.pdf（15页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410751278.2(22)申请日 2014.12.09G06F 17/30(2006.01)G06F 17/27(2006.01)(71)申请人北京国双科技有限公司地址 100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间(72)发明人何鑫(74)专利代理机构北京康信知识产权代理有限责任公司 11240代理人李志刚吴贵明(54) 发明名称用于文本识别的数据处理方法及装置(57) 摘要本发明公开了一种用于文本识别的数据处理方法及装置，该用于文本识别的数据处理方法包括：获取语料中的目标词；获取语料中的参考词。

2、；将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量；计算目标词向量和参考词向量的相似度；将相似度和预设阈值比较；以及如果相似度不大于预设阈值，则确定目标词是背景噪音词，如果相似度大于预设阈值，则确定目标词不是背景噪音词。通过本发明，解决了现有技术中过滤背景噪音词准确率低的问题，进一步达到了提高过滤背景噪声词准确率的效果。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页说明书10页附图2页(10)申请公布号 CN 104462378 A(43)申请公布日 2015.03.25CN 104462378 A1/2 页21.。

3、一种用于文本识别的数据处理方法，其特征在于，包括：获取语料中的目标词；获取所述语料中的参考词；将所述目标词转换为词向量，得到目标词向量，将所述参考词转换为词向量，得到参考词向量；计算所述目标词向量和所述参考词向量的相似度；将所述相似度和预设阈值比较；以及如果所述相似度不大于所述预设阈值，则确定所述目标词是背景噪音词，如果所述相似度大于所述预设阈值，则确定所述目标词不是背景噪音词。2.根据权利要求 1 所述的用于文本识别的数据处理方法，其特征在于，所述参考词向量包括多个参考词向量，计算所述目标词向量与所述参考词向量的相似度包括：依次计算所述目标词向量与所述多个参考词向量中每一个参考。

4、词向量的相似度，得到所述目标词向量与所述多个参考词向量的相似度集合；以及获取所述相似度集合中值最大的相似度作为所述目标词向量与所述参考词向量的相似度。3.根据权利要求 1 所述的用于文本识别的数据处理方法，其特征在于，通过分布式描述方法将所述目标词转换为词向量，得到所述目标词向量，将所述参考词转换为词向量，得到所述参考词向量。4.根据权利要求 1 所述的用于文本识别的数据处理方法，其特征在于，在获取所述目标词和所述参考词之前，所述方法还包括：将所述语料中的文本进行分词，得到切分词集合；以及过滤所述切分词集合中的停用词，其中，从过滤停用词后的切分词集合中获取所述目标词和所述参考词。5.根据。

5、权利要求 1 所述的用于文本识别的数据处理方法，其特征在于，计算所述目标词向量和所述参考词向量的相似度包括：计算所述目标词向量和所述参考词向量的夹角的余弦值；以及通过余弦值计算所述目标词向量和所述参考词向量的相似度。6.一种用于文本识别的数据处理装置，其特征在于，包括：第一获取单元，用于获取语料中的目标词；第二获取单元，用于获取所述语料中的参考词；转换单元，用于将所述目标词转换为词向量，得到目标词向量，将所述参考词转换为词向量，得到参考词向量；计算单元，用于计算所述目标词向量和所述参考词向量的相似度；比较单元，用于比较所述相似度和预设阈值；以及确定单元，用于当所述相似度不大于所。

6、述预设阈值，则确定所述目标词是背景噪音词，当所述相似度大于所述预设阈值，则确定所述目标词不是背景噪音词。7.根据权利要求 6 所述的用于文本识别的数据处理装置，其特征在于，所述参考词向量包括多个参考词向量，所述计算单元包括：第一计算模块，用于依次计算所述目标词向量与所述多个参考词向量中每一个参考词权利要求书CN 104462378 A2/2 页3向量的相似度，得到所述目标词向量与所述多个参考词向量的相似度集合；以及获取模块，用于获取所述相似度集合中值最大的相似度作为所述目标词向量与所述参考词向量的相似度。8.根据权利要求 6 所述的用于文本识别的数据处理装置，其特征在于，所述转换单。

7、元通过分布式描述装置将所述目标词转换为词向量，得到所述目标词向量，将所述参考词转换为词向量，得到所述参考词向量。9.根据权利要求 6 所述的用于文本识别的数据处理装置，其特征在于，所述装置还包括：分词单元，用于将所述语料中的文本进行分词，得到切分词集合；以及过滤单元，用于过滤所述切分词集合中的停用词，其中，从过滤停用词后的切分词集合中获取所述目标词和所述参考词。10.根据权利要求 6 所述的用于文本识别的数据处理装置，其特征在于，所述计算单元包括：第二计算模块，用于计算所述目标词向量和所述参考词向量的夹角的余弦值；以及第三计算模块，用于通过余弦值计算所述目标词向量和所述参考词向量的相似度。

8、。权利要求书CN 104462378 A1/10 页4用于文本识别的数据处理方法及装置技术领域0001 本发明涉及自然语言处理领域，具体而言，涉及一种用于文本识别的数据处理方法及装置。背景技术0002 为了节省存储空间和提高搜索效率，搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词，这些字或词即被称为停用词(Stop Words)。通常，停用词大致分为如下两类：一类停用词是指应用广泛、在网络上随处可见的词，比如“Web”一词几乎在每个网站上均会出现，对这样的词搜索引擎无法保证能够给出真正相关的搜索结果，难以帮助缩小搜索范围，同时还会降低搜索的效率；另一类停用词是指语气助词、副。

9、词、介词、连接词等，通常这些词自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，如常见的“的”、“在”之类的词。0003 自然语言处理的各个任务进行之前都会通过去停用词步骤对这些停用词进行过滤。通常，对于特定语言，都有通用的停用词表进行过滤。但是，在特定自然语言处理任务( 如主题提取、文本分类 ) 中，除需要过滤停用词外，还需要事先过滤掉背景噪音词。所谓背景噪音词，是指语料自身带来的与主题无关的无意义词串，包括绝对噪音和相对噪音。其中，绝对噪音是指分布稳定，累计出现次数较多的词，如“人民日报讯”、“据新华社电”等；相对噪音是指其本身不是噪音，但是在特定处理的领域集中成为噪音的一些。

10、词语，这些词语对特定领域内主题的细分不起作用，如“纠纷”、“原告”等词本身不是噪音，但是在法律判决文书卷宗的语料集中则成为了背景噪音。0004 背景噪音词与停用词一样，无论是对主题分类还是存储空间还是检索效率而言背景噪音词的存在都不起任何作用，因此也应当事先予以过滤。但不同于停用词，背景噪音词无法通过人工整理获得。传统的解决方案是通过直接统计语料中每个词的词频并与设置的阈值比较的方式予以过滤，具体包括：首先，对语料中的文本进行分词，去停用词等处理，得到切分词的序列；其次，对切分词进行计数统计，统计每个切分词的词频 ( 出现的次数 )，记为 tf，以及每个切分词的文档频数 ( 出现的文档数。

11、)，记为 df ；最后，对 tf 和 df 进行简单的统计变换 ( 相乘、除等，也可以不做变换 )，并设定相应的阈值，若统计值满足阈值的条件，则认为该切分词为背景噪音词，如下公式所示：0005 0006 其中，word 表示切分词，Noise 表示背景噪音词，Useful 表示有用词，即非背景噪音词，、为预设阈值。0007 上述过滤背景噪音词的方式简单，但是没有考虑背景噪音词的识别质量，此外，该方法缺乏理论依据，容易造成未识别出背景噪音词以及将非背景噪音词错识别成背景噪音这样的两类错误，此外，在实践过程中，统计值阈值的设定往往难以设定。0008 针对相关技术中过滤背景噪音词准确率低的问题，。

12、目前尚未提出有效的解决方说明书CN 104462378 A2/10 页5案。发明内容0009 本发明的主要目的在于提供一种用于文本识别的数据处理方法及装置，以解决现有技术中过滤背景噪音词准确率低的问题。0010 为了实现上述目的，根据本发明的一个方面，提供了一种用于文本识别的数据处理方法。0011 根据本发明的用于文本识别的数据过滤方法包括：获取语料中的目标词；获取语料中的参考词；将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量；计算目标词向量和参考词向量的相似度；将相似度和预设阈值比较；以及如果相似度不大于预设阈值，则确定目标词是背景噪音词，如果相似。

13、度大于预设阈值，则确定目标词不是背景噪音词。0012 进一步地，参考词向量包括多个参考词向量，计算目标词向量与参考词向量的相似度包括：依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度，得到目标词向量与多个参考词向量的相似度集合；以及获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。0013 进一步地，分布式描述方法将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量。0014 进一步地，在获取目标词和参考词之前，方法还包括：将语料中的文本进行分词，得到切分词集合；以及过滤切分词集合中的停用词，其中，从过滤停用词后的切分词集合中获取目标词。

14、和参考词。0015 进一步地，计算目标词向量和参考词向量的相似度包括：计算目标词向量和参考词向量的夹角的余弦值；以及通过余弦值计算目标词向量和参考词向量的相似度。0016 为了实现上述目的，根据本发明的另一方面，提供了一种用于文本识别的数据处理装置。0017 该用于文本识别的数据过滤装置包括：第一获取单元，用于获取语料中的目标词；第二获取单元，用于获取语料中的参考词；转换单元，用于将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量；计算单元，用于计算目标词向量和参考词向量的相似度；比较单元，用于比较相似度和预设阈值；以及确定单元，用于当相似度不大于预设阈。

15、值时，则确定目标词是背景噪音词，当相似度大于预设阈值时，则确定目标词不是背景噪音词。0018 进一步地，参考词向量包括多个参考词向量，计算单元包括：第一计算模块，用于依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度，得到目标词向量与多个参考词向量的相似度集合；以及获取模块，用于获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。0019 进一步地，转换单元通过分布式描述装置将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量。0020 进一步地，装置还包括：分词单元，用于将语料中的文本进行分词，得到切分词集合；以及过滤单元，用于过滤切分词。

16、集合中的停用词，其中，从过滤停用词后的切分词集合说明书CN 104462378 A3/10 页6中获取目标词和参考词。0021 进一步地，计算单元包括：第二计算模块，用于计算目标词向量和参考词向量的夹角的余弦值；以及第三计算模块，用于通过余弦值计算目标词向量和参考词向量的相似度。0022 通过本发明，通过计算目标词向量与参考词向量的相似度来确定目标词是否为背景噪音词，从而过滤该目标词，解决了现有技术中过滤背景噪音词准确率低的问题，进而达到了提高过滤背景噪声词准确率的效果。附图说明0023 构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，。

17、并不构成对本发明的不当限定。在附图中：0024 图 1 是文本主题识别中背景噪音词的条件概率分布示意图；0025 图 2 是根据本发明实施例的用于文本识别的数据处理方法的流程图；以及0026 图 3 是根据本发明实施例的用于文本识别的数据处理装置的示意图。具体实施方式0027 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将主题附图并结合实施例来详细说明本发明。0028 为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的。

18、实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。0029 以下是对本发明涉及的一些术语进行解释：0030 语料库：在自然语言处理领域，语料库通常是指一个文本集合，语料是语料库的文本。本发明涉及的语料都为特定领域的文本，例如法律文本领域、计算机文本领域等。0031 背景噪音词：语料自身通常会带有一些与文本主题无关的词，这些词称为背景噪音词，背景噪音词包括绝对噪音词和相对噪音词。绝对噪音词是指在语料中出现次数较多，分布稳定的词，例如，“人民日报讯”、“据新华社电”，这些词在许多文本中都会出现，但是这些词对于文本主题。

19、的分类并不起作用。相对噪音词，是指一类词本身不是噪音词，但是在特定的领域中却成为背景噪音词，例如，“纠纷”一词在法律文本相关主题下都较常出现，如“离婚纠纷”、“买卖合同纠纷”、“民间借贷纠纷”等，因此“纠纷”一词对于法律相关领域的文本主题的细分所起作用不大。背景噪音词一方面对于主题的分类所起作用不大，另一方面占用存储空间同时影响检索效率，因此需要对其进行过滤。0032 主题模型：就是对文字中隐含主题的一种建模方法。其中，主题是一个概念、一个方面，表现为一系列与该主题相关的词语。例如，如果文本中涉及到“百度”这个主题，则“中文搜索”、“李彦宏”等词语出现的频率较高，而如果文本中涉及到“IBM”。

20、这个主题，那么“笔记本”等词语出现的频率则较高。用数学语言描述，主题就是词汇表上词语出现的条件概率分布。0033 在同一主题下的文本中，出现的条件概率较高的词语与该主题具有语义相似性，说明书CN 104462378 A4/10 页7这些词语更倾向于描述该主题的主旨内容，而出现的条件概率越低的词语则更倾向于是与该主题无关的词语。对于同一个词语，在不同主题下出现的概率分布可以描述该词语描述主题的倾向性。根据上述特点，可以区分出背景噪音词与非背景噪音词的区别，即在不同主题下词语出现的条件概率都处于中间水平的词语为背景噪音词。如图 1 所示，图 1 中的每个点都表示一个词语，假设只有两个主题，主题。

21、 1 和主题 2，图 1 右下方的三个点以较高的概率出现在主题1中，但是这三个点出现在主题2中的概率较低，表示这三个点对应的词语对于区分文本是否描述主题 1 的时候作用较大，即这三个点对应的词与主题 1 的相关性较大，可以作为检索主题 1 相关文本的关键词。同样，图 1 中左上角的三个点以较高的概率出现在主题2中，但是出现在主题1中的概率很低，表示三个点对应的词语对于区分文本是否描述主题2的时候作用较大，即这三个点对应的词与主题2的相关度较大，可以作为检索主题 2 相关文本的关键词。相反，图 1 中间部分的四个点在主题 1 和主题 2 下出现的概率都处于中间水平，对于区文本是描述主题1还是主题。

22、2所起作用很小，即这四个点对应的词语与主题 1 和主题 2 的相关度都低，因此这些词语为背景噪音词。0034 根据本发明的实施例，提供了一种用于文本识别的数据处理方法，图 1 是根据本发明实施例的用于文本识别的数据处理方法的流程图。0035 如图 1 所示，该方法包括如下的步骤 S102 至步骤 S112 ：0036 步骤 S102 ：获取语料中的目标词。0037 步骤 S104 ：获取语料中的参考词。0038 目标词为语料中待过滤的词，参考词则是语料中除目标词外的其他词。在进行背景噪音词过滤过程中，需要依次对语料中的每个词进行判断是否为背景噪音词当判断出为背景噪音词时，则过滤该词。因此，语料。

23、中的每个词依次作为目标词，此时，语料中除该目标词外的其他词则作为参考词，通过计算该目标词与参考词之间的相似度来判断该目标词是否为背景噪音词。0039 步骤 S106 ：将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量。0040 词向量是指词语的向量表示，最简单的表示方法是稀疏描述法(One-hot Representation)，该方法将词表中的每个词表示成一个由0和1组成的向量，其中，只有一个维度值为 1，其余维度值都为 0，向量的维度为词表的大小，词表由所有需要进行向量化词语组成，词语的个数即为词表的大小，例如，一个词表包含 10 个词语，则该词表的所有词语转换成。

24、 10 维的向量，例如，“话筒”的词向量表示为 0,0,0,0,1,0,0,0,0,0，“麦克”的词向量表示为 0,1,0,0,0,0,0,0,0,0，向量中数值为 1 的位置对应该词在词表的位置，即“话筒”位于词表中第 6 个位置，“麦克”位于词表中第 2 个位置。另一种表示方法为分布式描述方法(Distributed Representation)，该方法是一种低维词向量表示方法。例如，一个词表同样包含 10 个词语时，“话筒”的词向量可以仅通过五维向量进行表示，例如 .792,-0.177,-0.107,0.109,-0.542，这种方式能够大大减少向量的维数。0041 本发明实施例通过。

25、将语料中包含的所有词作为训练样本，包括目标词和参考词，利用机器训练方法得到上述词对应的词向量。常用的机器训练方法有由 google 提出的深度学习算法 word2vec、神经网络训练算法等。通过上述训练方法可以方便的将目标词和参考词转换成词向量。说明书CN 104462378 A5/10 页80042 步骤 S108 ：计算目标词向量和参考词向量的相似度。0043 相似度是指两个词之间的相似程度，可以是语义的相似程度，也可以是词法的相似程度，通过上述两个词对应的词向量之间的距离来表示。两个词向量的距离越短，说明该两个词向量对应的词的相似度越大，进一步说明两个词在语义或是词法上更为接近。常用。

26、的描述向量距离的方式有欧氏距离、余弦夹角等。0044 通过计算语料中词语两两之间的相似度，可以将这些词语划分出多个聚类，同一个聚类中的词语两两之间都具有很高的相似度，相反，不同聚类中的词语之间相似度偏低。此处的聚类相当于文本的主题，每个聚类包含的词语都与同一主题具有较高的相关性，这些词都倾向于描述该主题，在该主题下这些词出现的条件概率较高，这些词可以作为检索该主题相关文本的关键词。但是，当一个词与语料中其他词的相似度都不高时，说明该词不倾向于描述任何主题，在任何主题下该词出现的条件概率都较低，则该词即为背景噪音词。0045 步骤 S110 ：将相似度和预设阈值比较。0046 步骤 S112 ：。

27、如果所述相似度不大于所述预设阈值，则确定所述目标词是背景噪音词，如果所述相似度大于所述预设阈值，则确定所述目标词不是背景噪音词。0047 相似度能够直观的描述两个词之间的语义相似程度，根据上述描述可知，背景噪音词与语料中其他词的相似度都不高。通过设置一个预设阈值可以区分区背景噪音词。如果相似度不大于预设阈值，说明目标词为背景噪音词，需要对其进行过滤，如果相似度大于预设阈值，则说明目标词为非背景噪音词，则不需要对其进行过滤。0048 本发明实施例通过将语料中的目标词和参考词转换成词向量，计算目标词向量和参考词向量之间的相似度，并与预设阈值比较来确定目标词是否为需要过滤的背景噪音词，当目标词与参考。

28、词的相似度低于预设阈值时则该目标词不倾向于描述语料中文本的主题，因此可以确定该目标词为背景噪音词，需要过滤该目标词。由于两个词的相似度能够很直观的反映出两个词之间的语义相似程度，通过计算目标词与语料中除目标词外的其他词的相似度可以客观的反映出该目标词与语料中文本的主题的相关性，因此，本发明实施例过滤的背景噪音词较为符合实际情况，准确性较高，解决了现有技术中过滤背景噪音词准确率低的问题。0049 可选地，参考词向量包括多个参考词向量，计算目标词向量与参考词向量的相似度包括：依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度，得到目标词向量与多个参考词向量的相似度集合；以及获取相似度。

29、集合中值最大的相似度作为目标词向量与参考词向量的相似度。0050 当参考词向量为多个时，则依次计算目标词向量与参考词向量中的每一个的相似度，得到一个相似度集合。由于背景噪音词与语料中其他词的相似度都不高 ( 不满足极高 )。因此，可以通过统计相似度集合中的最大值作为该目标词对应的最大相似度。例如，“纠纷”一词与“离婚”、“合同”、“借贷”的相似度为 0.6、0.5、0.5，那么“纠纷”对应的最大相似度为 0.6，“结婚证”一词与“离婚”、“合同”、“借贷”的相似度为 0.9、0.1、0.05，那么“结婚证”对应的最大相似度为 0.9。通过将目标词对应的相似度最大值与预设阈值比较来确定目标词是否。

30、为背景噪音词，如果目标词对应的相似度最大值小于预设阈值，则说明该目标值为背景噪音词，需要过滤该目标词。0051 如下代码用于计算语料中每个词与语料中其他词语的相似度，并计算每个词语与说明书CN 104462378 A6/10 页9语料中其他词语的相似度中值最大的相似度，最后实现将语料中所有词语对应的值最大的相似度进行排序，通过排序可以提高相似度与预设阈值比较的效率，例如，A1、A2、A3 分别为三个词对应的值最大相似度，其中 A1A2A3，当 A1 大于预设阈值时，则 A2、A3 无需与预设阈值比较就可以得到大于预设阈值，这样避免将每个词对应的值最大相似度与预设阈值比较：0052 0053。

31、说明书CN 104462378 A7/10 页100054 优选地，通过分布式描述方法将目标词转换为词向量，得到目标词向量，将参考词转换为词向量，得到参考词向量。0055 上述稀疏描述法一方面存在“词汇鸿沟”的问题，即得到的词向量之间相互孤立，从两个词向量中不能得出两个词之间的相似关系，另一方面该方法容易出现“维数灾难”，即词向量维数过大，导致训练难度、内存占用量过大。分布式描述方法最大的优势在于能够让相关或者相似的词转换得到的词向量在距离上更接近，所谓的距离即余弦夹角的距离。此外，分布式描述方法表示的词向量具有较低的维度，适合于进行机器训练，训练的效率都较高，所占用的内存相对于稀疏描述。

32、法较少。因此，采用分布式描述方法将目标词和参考词转换为词向量。0056 优选地，为了提高词向量训练的效率，在获取目标词和参考词之前，方法还包括：将语料中的文本进行分词，得到切分词集合；以及过滤切分词集合中的停用词，其中，在过滤停用词后的切分词集合中获取目标词和参考词。0057 语料都是一个个文本，并不是独立的词语，因此，需要对语料的中的文本进行分词，得到一个个独立的词语，例如，将文本“取得结婚证就建立了婚姻关系”进行分词，得到切分词集合取得，结婚证，就，建立，了，婚姻关系。从该切分词集合中可以看出，“取得”、“就”、“建立”、“了”这些词对于主题检索和分类并不起作用，这些词即为停用词。如若保留这些停用词，一方面增加了词向量训练过程的复杂度，降低词向量训练的效率，另一方面这些停用词会影响词向量训练的训练质量，从而影响训练得到的词向量之间相似度的准确性。因此在获取词向量训练样本之前需要过滤切分词集合中的停用词，即在获取目标词和参考词之前先过滤切分词中的停用词。0058 优选地，计算目标词向量和参考词向量的相似度包括：计算目标词向量和参考词向量的夹角的余弦值；以及通过余弦值计算目标词向量和参考词向量的相似度。说明书CN 104462378 A。

展开阅读全文