《用于文本识别的数据处理方法及装置.pdf》由会员分享,可在线阅读,更多相关《用于文本识别的数据处理方法及装置.pdf(15页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410751278.2(22)申请日 2014.12.09G06F 17/30(2006.01)G06F 17/27(2006.01)(71)申请人 北京国双科技有限公司地址 100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间(72)发明人 何鑫(74)专利代理机构 北京康信知识产权代理有限责任公司 11240代理人 李志刚 吴贵明(54) 发明名称用于文本识别的数据处理方法及装置(57) 摘要本发明公开了一种用于文本识别的数据处理方法及装置,该用于文本识别的数据处理方法包括 :获取语料中的目标词 ;获取语料中的参考词。
2、 ;将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量;计算目标词向量和参考词向量的相似度 ;将相似度和预设阈值比较;以及如果相似度不大于预设阈值,则确定目标词是背景噪音词,如果相似度大于预设阈值,则确定目标词不是背景噪音词。通过本发明,解决了现有技术中过滤背景噪音词准确率低的问题,进一步达到了提高过滤背景噪声词准确率的效果。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书10页 附图2页(10)申请公布号 CN 104462378 A(43)申请公布日 2015.03.25CN 104462378 A1/2 页21.。
3、一种用于文本识别的数据处理方法,其特征在于,包括 :获取语料中的目标词 ;获取所述语料中的参考词 ;将所述目标词转换为词向量,得到目标词向量,将所述参考词转换为词向量,得到参考词向量 ;计算所述目标词向量和所述参考词向量的相似度 ;将所述相似度和预设阈值比较 ;以及如果所述相似度不大于所述预设阈值,则确定所述目标词是背景噪音词,如果所述相似度大于所述预设阈值,则确定所述目标词不是背景噪音词。2.根据权利要求 1 所述的用于文本识别的数据处理方法,其特征在于,所述参考词向量包括多个参考词向量,计算所述目标词向量与所述参考词向量的相似度包括 :依次计算所述目标词向量与所述多个参考词向量中每一个参考。
4、词向量的相似度,得到所述目标词向量与所述多个参考词向量的相似度集合 ;以及获取所述相似度集合中值最大的相似度作为所述目标词向量与所述参考词向量的相似度。3.根据权利要求 1 所述的用于文本识别的数据处理方法,其特征在于,通过分布式描述方法将所述目标词转换为词向量,得到所述目标词向量,将所述参考词转换为词向量,得到所述参考词向量。4.根据权利要求 1 所述的用于文本识别的数据处理方法,其特征在于,在获取所述目标词和所述参考词之前,所述方法还包括 :将所述语料中的文本进行分词,得到切分词集合 ;以及过滤所述切分词集合中的停用词,其中,从过滤停用词后的切分词集合中获取所述目标词和所述参考词。5.根据。
5、权利要求 1 所述的用于文本识别的数据处理方法,其特征在于,计算所述目标词向量和所述参考词向量的相似度包括 :计算所述目标词向量和所述参考词向量的夹角的余弦值 ;以及通过余弦值计算所述目标词向量和所述参考词向量的相似度。6.一种用于文本识别的数据处理装置,其特征在于,包括 :第一获取单元,用于获取语料中的目标词 ;第二获取单元,用于获取所述语料中的参考词 ;转换单元,用于将所述目标词转换为词向量,得到目标词向量,将所述参考词转换为词向量,得到参考词向量 ;计算单元,用于计算所述目标词向量和所述参考词向量的相似度 ;比较单元,用于比较所述相似度和预设阈值 ;以及确定单元,用于当所述相似度不大于所。
6、述预设阈值,则确定所述目标词是背景噪音词,当所述相似度大于所述预设阈值,则确定所述目标词不是背景噪音词。7.根据权利要求 6 所述的用于文本识别的数据处理装置,其特征在于,所述参考词向量包括多个参考词向量,所述计算单元包括 :第一计算模块,用于依次计算所述目标词向量与所述多个参考词向量中每一个参考词权 利 要 求 书CN 104462378 A2/2 页3向量的相似度,得到所述目标词向量与所述多个参考词向量的相似度集合 ;以及获取模块,用于获取所述相似度集合中值最大的相似度作为所述目标词向量与所述参考词向量的相似度。8.根据权利要求 6 所述的用于文本识别的数据处理装置,其特征在于,所述转换单。
7、元通过分布式描述装置将所述目标词转换为词向量,得到所述目标词向量,将所述参考词转换为词向量,得到所述参考词向量。9.根据权利要求 6 所述的用于文本识别的数据处理装置,其特征在于,所述装置还包括:分词单元,用于将所述语料中的文本进行分词,得到切分词集合 ;以及过滤单元,用于过滤所述切分词集合中的停用词,其中,从过滤停用词后的切分词集合中获取所述目标词和所述参考词。10.根据权利要求 6 所述的用于文本识别的数据处理装置,其特征在于,所述计算单元包括 :第二计算模块,用于计算所述目标词向量和所述参考词向量的夹角的余弦值 ;以及第三计算模块,用于通过余弦值计算所述目标词向量和所述参考词向量的相似度。
8、。权 利 要 求 书CN 104462378 A1/10 页4用于文本识别的数据处理方法及装置技术领域0001 本发明涉及自然语言处理领域,具体而言,涉及一种用于文本识别的数据处理方法及装置。背景技术0002 为了节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为停用词(Stop Words)。通常,停用词大致分为如下两类 :一类停用词是指应用广泛、在网络上随处可见的词,比如“Web”一词几乎在每个网站上均会出现,对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率 ;另一类停用词是指语气助词、副。
9、词、介词、连接词等,通常这些词自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类的词。0003 自然语言处理的各个任务进行之前都会通过去停用词步骤对这些停用词进行过滤。通常,对于特定语言,都有通用的停用词表进行过滤。但是,在特定自然语言处理任务( 如主题提取、文本分类 ) 中,除需要过滤停用词外,还需要事先过滤掉背景噪音词。所谓背景噪音词,是指语料自身带来的与主题无关的无意义词串,包括绝对噪音和相对噪音。其中,绝对噪音是指分布稳定,累计出现次数较多的词,如“人民日报讯”、“据新华社电”等 ;相对噪音是指其本身不是噪音,但是在特定处理的领域集中成为噪音的一些。
10、词语,这些词语对特定领域内主题的细分不起作用,如“纠纷”、“原告”等词本身不是噪音,但是在法律判决文书卷宗的语料集中则成为了背景噪音。0004 背景噪音词与停用词一样,无论是对主题分类还是存储空间还是检索效率而言背景噪音词的存在都不起任何作用,因此也应当事先予以过滤。但不同于停用词,背景噪音词无法通过人工整理获得。传统的解决方案是通过直接统计语料中每个词的词频并与设置的阈值比较的方式予以过滤,具体包括 :首先,对语料中的文本进行分词,去停用词等处理,得到切分词的序列 ;其次,对切分词进行计数统计,统计每个切分词的词频 ( 出现的次数 ),记为 tf,以及每个切分词的文档频数 ( 出现的文档数 。
11、),记为 df ;最后,对 tf 和 df 进行简单的统计变换 ( 相乘、除等,也可以不做变换 ),并设定相应的阈值,若统计值满足阈值的条件,则认为该切分词为背景噪音词,如下公式所示 :0005 0006 其中,word 表示切分词,Noise 表示背景噪音词,Useful 表示有用词,即非背景噪音词,、 为预设阈值。0007 上述过滤背景噪音词的方式简单,但是没有考虑背景噪音词的识别质量,此外,该方法缺乏理论依据,容易造成未识别出背景噪音词以及将非背景噪音词错识别成背景噪音这样的两类错误,此外,在实践过程中,统计值阈值的设定往往难以设定。0008 针对相关技术中过滤背景噪音词准确率低的问题,。
12、目前尚未提出有效的解决方说 明 书CN 104462378 A2/10 页5案。发明内容0009 本发明的主要目的在于提供一种用于文本识别的数据处理方法及装置,以解决现有技术中过滤背景噪音词准确率低的问题。0010 为了实现上述目的,根据本发明的一个方面,提供了一种用于文本识别的数据处理方法。0011 根据本发明的用于文本识别的数据过滤方法包括 :获取语料中的目标词 ;获取语料中的参考词 ;将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量 ;计算目标词向量和参考词向量的相似度 ;将相似度和预设阈值比较 ;以及如果相似度不大于预设阈值,则确定目标词是背景噪音词,如果相似。
13、度大于预设阈值,则确定目标词不是背景噪音词。0012 进一步地,参考词向量包括多个参考词向量,计算目标词向量与参考词向量的相似度包括 :依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度,得到目标词向量与多个参考词向量的相似度集合 ;以及获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。0013 进一步地,分布式描述方法将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。0014 进一步地,在获取目标词和参考词之前,方法还包括 :将语料中的文本进行分词,得到切分词集合 ;以及过滤切分词集合中的停用词,其中,从过滤停用词后的切分词集合中获取目标词。
14、和参考词。0015 进一步地,计算目标词向量和参考词向量的相似度包括 :计算目标词向量和参考词向量的夹角的余弦值 ;以及通过余弦值计算目标词向量和参考词向量的相似度。0016 为了实现上述目的,根据本发明的另一方面,提供了一种用于文本识别的数据处理装置。0017 该用于文本识别的数据过滤装置包括 :第一获取单元,用于获取语料中的目标词 ;第二获取单元,用于获取语料中的参考词 ;转换单元,用于将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量 ;计算单元,用于计算目标词向量和参考词向量的相似度 ;比较单元,用于比较相似度和预设阈值 ;以及确定单元,用于当相似度不大于预设阈。
15、值时,则确定目标词是背景噪音词,当相似度大于预设阈值时,则确定目标词不是背景噪音词。0018 进一步地,参考词向量包括多个参考词向量,计算单元包括 :第一计算模块,用于依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度,得到目标词向量与多个参考词向量的相似度集合 ;以及获取模块,用于获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。0019 进一步地,转换单元通过分布式描述装置将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。0020 进一步地,装置还包括 :分词单元,用于将语料中的文本进行分词,得到切分词集合 ;以及过滤单元,用于过滤切分词。
16、集合中的停用词,其中,从过滤停用词后的切分词集合说 明 书CN 104462378 A3/10 页6中获取目标词和参考词。0021 进一步地,计算单元包括 :第二计算模块,用于计算目标词向量和参考词向量的夹角的余弦值 ;以及第三计算模块,用于通过余弦值计算目标词向量和参考词向量的相似度。0022 通过本发明,通过计算目标词向量与参考词向量的相似度来确定目标词是否为背景噪音词,从而过滤该目标词,解决了现有技术中过滤背景噪音词准确率低的问题,进而达到了提高过滤背景噪声词准确率的效果。附图说明0023 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,。
17、并不构成对本发明的不当限定。在附图中 :0024 图 1 是文本主题识别中背景噪音词的条件概率分布示意图 ;0025 图 2 是根据本发明实施例的用于文本识别的数据处理方法的流程图 ;以及0026 图 3 是根据本发明实施例的用于文本识别的数据处理装置的示意图。具体实施方式0027 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将主题附图并结合实施例来详细说明本发明。0028 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的。
18、实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。0029 以下是对本发明涉及的一些术语进行解释 :0030 语料库 :在自然语言处理领域,语料库通常是指一个文本集合,语料是语料库的文本。本发明涉及的语料都为特定领域的文本,例如法律文本领域、计算机文本领域等。0031 背景噪音词 :语料自身通常会带有一些与文本主题无关的词,这些词称为背景噪音词,背景噪音词包括绝对噪音词和相对噪音词。绝对噪音词是指在语料中出现次数较多,分布稳定的词,例如,“人民日报讯”、“据新华社电”,这些词在许多文本中都会出现,但是这些词对于文本主题。
19、的分类并不起作用。相对噪音词,是指一类词本身不是噪音词,但是在特定的领域中却成为背景噪音词,例如,“纠纷”一词在法律文本相关主题下都较常出现,如“离婚纠纷”、“买卖合同纠纷”、“民间借贷纠纷”等,因此“纠纷”一词对于法律相关领域的文本主题的细分所起作用不大。背景噪音词一方面对于主题的分类所起作用不大,另一方面占用存储空间同时影响检索效率,因此需要对其进行过滤。0032 主题模型 :就是对文字中隐含主题的一种建模方法。其中,主题是一个概念、一个方面,表现为一系列与该主题相关的词语。例如,如果文本中涉及到“百度”这个主题,则“中文搜索”、“李彦宏”等词语出现的频率较高,而如果文本中涉及到“IBM”。
20、这个主题,那么“笔记本”等词语出现的频率则较高。用数学语言描述,主题就是词汇表上词语出现的条件概率分布。0033 在同一主题下的文本中,出现的条件概率较高的词语与该主题具有语义相似性,说 明 书CN 104462378 A4/10 页7这些词语更倾向于描述该主题的主旨内容,而出现的条件概率越低的词语则更倾向于是与该主题无关的词语。对于同一个词语,在不同主题下出现的概率分布可以描述该词语描述主题的倾向性。根据上述特点,可以区分出背景噪音词与非背景噪音词的区别,即在不同主题下词语出现的条件概率都处于中间水平的词语为背景噪音词。如图 1 所示,图 1 中的每个点都表示一个词语,假设只有两个主题,主题。
21、 1 和主题 2,图 1 右下方的三个点以较高的概率出现在主题1中,但是这三个点出现在主题2中的概率较低,表示这三个点对应的词语对于区分文本是否描述主题 1 的时候作用较大,即这三个点对应的词与主题 1 的相关性较大,可以作为检索主题 1 相关文本的关键词。同样,图 1 中左上角的三个点以较高的概率出现在主题2中,但是出现在主题1中的概率很低,表示三个点对应的词语对于区分文本是否描述主题2的时候作用较大,即这三个点对应的词与主题2的相关度较大,可以作为检索主题 2 相关文本的关键词。相反,图 1 中间部分的四个点在主题 1 和主题 2 下出现的概率都处于中间水平,对于区文本是描述主题1还是主题。
22、2所起作用很小,即这四个点对应的词语与主题 1 和主题 2 的相关度都低,因此这些词语为背景噪音词。0034 根据本发明的实施例,提供了一种用于文本识别的数据处理方法,图 1 是根据本发明实施例的用于文本识别的数据处理方法的流程图。0035 如图 1 所示,该方法包括如下的步骤 S102 至步骤 S112 :0036 步骤 S102 :获取语料中的目标词。0037 步骤 S104 :获取语料中的参考词。0038 目标词为语料中待过滤的词,参考词则是语料中除目标词外的其他词。在进行背景噪音词过滤过程中,需要依次对语料中的每个词进行判断是否为背景噪音词当判断出为背景噪音词时,则过滤该词。因此,语料。
23、中的每个词依次作为目标词,此时,语料中除该目标词外的其他词则作为参考词,通过计算该目标词与参考词之间的相似度来判断该目标词是否为背景噪音词。0039 步骤 S106 :将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。0040 词向量是指词语的向量表示,最简单的表示方法是稀疏描述法(One-hot Representation),该方法将词表中的每个词表示成一个由0和1组成的向量,其中,只有一个维度值为 1,其余维度值都为 0,向量的维度为词表的大小,词表由所有需要进行向量化词语组成,词语的个数即为词表的大小,例如,一个词表包含 10 个词语,则该词表的所有词语转换成。
24、 10 维的向量,例如,“话筒”的词向量表示为 0,0,0,0,1,0,0,0,0,0,“麦克”的词向量表示为 0,1,0,0,0,0,0,0,0,0,向量中数值为 1 的位置对应该词在词表的位置,即“话筒”位于词表中第 6 个位置,“麦克”位于词表中第 2 个位置。另一种表示方法为分布式描述方法(Distributed Representation),该方法是一种低维词向量表示方法。例如,一个词表同样包含 10 个词语时,“话筒”的词向量可以仅通过五维向量进行表示,例如 .792,-0.177,-0.107,0.109,-0.542,这种方式能够大大减少向量的维数。0041 本发明实施例通过。
25、将语料中包含的所有词作为训练样本,包括目标词和参考词,利用机器训练方法得到上述词对应的词向量。常用的机器训练方法有由 google 提出的深度学习算法 word2vec、神经网络训练算法等。通过上述训练方法可以方便的将目标词和参考词转换成词向量。说 明 书CN 104462378 A5/10 页80042 步骤 S108 :计算目标词向量和参考词向量的相似度。0043 相似度是指两个词之间的相似程度,可以是语义的相似程度,也可以是词法的相似程度,通过上述两个词对应的词向量之间的距离来表示。两个词向量的距离越短,说明该两个词向量对应的词的相似度越大,进一步说明两个词在语义或是词法上更为接近。常用。
26、的描述向量距离的方式有欧氏距离、余弦夹角等。0044 通过计算语料中词语两两之间的相似度,可以将这些词语划分出多个聚类,同一个聚类中的词语两两之间都具有很高的相似度,相反,不同聚类中的词语之间相似度偏低。此处的聚类相当于文本的主题,每个聚类包含的词语都与同一主题具有较高的相关性,这些词都倾向于描述该主题,在该主题下这些词出现的条件概率较高,这些词可以作为检索该主题相关文本的关键词。但是,当一个词与语料中其他词的相似度都不高时,说明该词不倾向于描述任何主题,在任何主题下该词出现的条件概率都较低,则该词即为背景噪音词。0045 步骤 S110 :将相似度和预设阈值比较。0046 步骤 S112 :。
27、如果所述相似度不大于所述预设阈值,则确定所述目标词是背景噪音词,如果所述相似度大于所述预设阈值,则确定所述目标词不是背景噪音词。0047 相似度能够直观的描述两个词之间的语义相似程度,根据上述描述可知,背景噪音词与语料中其他词的相似度都不高。通过设置一个预设阈值可以区分区背景噪音词。如果相似度不大于预设阈值,说明目标词为背景噪音词,需要对其进行过滤,如果相似度大于预设阈值,则说明目标词为非背景噪音词,则不需要对其进行过滤。0048 本发明实施例通过将语料中的目标词和参考词转换成词向量,计算目标词向量和参考词向量之间的相似度,并与预设阈值比较来确定目标词是否为需要过滤的背景噪音词,当目标词与参考。
28、词的相似度低于预设阈值时则该目标词不倾向于描述语料中文本的主题,因此可以确定该目标词为背景噪音词,需要过滤该目标词。由于两个词的相似度能够很直观的反映出两个词之间的语义相似程度,通过计算目标词与语料中除目标词外的其他词的相似度可以客观的反映出该目标词与语料中文本的主题的相关性,因此,本发明实施例过滤的背景噪音词较为符合实际情况,准确性较高,解决了现有技术中过滤背景噪音词准确率低的问题。0049 可选地,参考词向量包括多个参考词向量,计算目标词向量与参考词向量的相似度包括 :依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度,得到目标词向量与多个参考词向量的相似度集合 ;以及获取相似度。
29、集合中值最大的相似度作为目标词向量与参考词向量的相似度。0050 当参考词向量为多个时,则依次计算目标词向量与参考词向量中的每一个的相似度,得到一个相似度集合。由于背景噪音词与语料中其他词的相似度都不高 ( 不满足极高 )。因此,可以通过统计相似度集合中的最大值作为该目标词对应的最大相似度。例如,“纠纷”一词与“离婚”、“合同”、“借贷”的相似度为 0.6、0.5、0.5,那么“纠纷”对应的最大相似度为 0.6,“结婚证”一词与“离婚”、“合同”、“借贷”的相似度为 0.9、0.1、0.05,那么“结婚证”对应的最大相似度为 0.9。通过将目标词对应的相似度最大值与预设阈值比较来确定目标词是否。
30、为背景噪音词,如果目标词对应的相似度最大值小于预设阈值,则说明该目标值为背景噪音词,需要过滤该目标词。0051 如下代码用于计算语料中每个词与语料中其他词语的相似度,并计算每个词语与说 明 书CN 104462378 A6/10 页9语料中其他词语的相似度中值最大的相似度,最后实现将语料中所有词语对应的值最大的相似度进行排序,通过排序可以提高相似度与预设阈值比较的效率,例如,A1、A2、A3 分别为三个词对应的值最大相似度,其中 A1A2A3,当 A1 大于预设阈值时,则 A2、A3 无需与预设阈值比较就可以得到大于预设阈值,这样避免将每个词对应的值最大相似度与预设阈值比较:0052 0053。
31、 说 明 书CN 104462378 A7/10 页100054 优选地,通过分布式描述方法将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。0055 上述稀疏描述法一方面存在“词汇鸿沟”的问题,即得到的词向量之间相互孤立,从两个词向量中不能得出两个词之间的相似关系,另一方面该方法容易出现“维数灾难”,即词向量维数过大,导致训练难度、内存占用量过大。分布式描述方法最大的优势在于能够让相关或者相似的词转换得到的词向量在距离上更接近,所谓的距离即余弦夹角的距离。此外,分布式描述方法表示的词向量具有较低的维度,适合于进行机器训练,训练的效率都较高,所占用的内存相对于稀疏描述。
32、法较少。因此,采用分布式描述方法将目标词和参考词转换为词向量。0056 优选地,为了提高词向量训练的效率,在获取目标词和参考词之前,方法还包括 :将语料中的文本进行分词,得到切分词集合 ;以及过滤切分词集合中的停用词,其中,在过滤停用词后的切分词集合中获取目标词和参考词。0057 语料都是一个个文本,并不是独立的词语,因此,需要对语料的中的文本进行分词,得到一个个独立的词语,例如,将文本“取得结婚证就建立了婚姻关系”进行分词,得到切分词集合取得,结婚证,就,建立,了,婚姻关系。从该切分词集合中可以看出,“取得”、“就”、“建立”、“了”这些词对于主题检索和分类并不起作用,这些词即为停用词。如若保留这些停用词,一方面增加了词向量训练过程的复杂度,降低词向量训练的效率,另一方面这些停用词会影响词向量训练的训练质量,从而影响训练得到的词向量之间相似度的准确性。因此在获取词向量训练样本之前需要过滤切分词集合中的停用词,即在获取目标词和参考词之前先过滤切分词中的停用词。0058 优选地,计算目标词向量和参考词向量的相似度包括 :计算目标词向量和参考词向量的夹角的余弦值 ;以及通过余弦值计算目标词向量和参考词向量的相似度。说 明 书CN 104462378 A。