《一种针对中文社交网络中中英文混合文本的规范方法.pdf》由会员分享,可在线阅读,更多相关《一种针对中文社交网络中中英文混合文本的规范方法.pdf(9页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104102630A43申请公布日20141015CN104102630A21申请号201410339719822申请日20140716G06F17/2820060171申请人复旦大学地址200433上海市杨浦区邯郸路220号72发明人陈欢张奇黄萱菁74专利代理机构上海正旦专利代理有限公司31200代理人陆飞王洁平54发明名称一种针对中文社交网络中中英文混合文本的规范方法57摘要本发明属于机器翻译技术领域,具体为一种针对中文社交网络中中英文混合文本的规范方法。其包括三个步骤识别非规范词;利用隐藏话题翻译模型为英文词生成翻译替换词;结合用户历史信息相关的神经网络语言模型对翻译替。
2、换词进行重新排序,实现非规范词对应规范词的选择。本发明的有益效果在于本发明针对网络文本进行预处理,从而使得网络文本可以适应多数自然语言处理工作;同时由于我们使用了非社交网络语义空间的双语对齐训练语料,通过话题的映射来对应到社交网络语义空间上,本发明方法具有很好的扩展性。也使得翻译正确率具有保障。51INTCL权利要求书2页说明书5页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书5页附图1页10申请公布号CN104102630ACN104102630A1/2页21一种针对中文社交网络中中英文混合文本的规范方法,其特征在于,其把社交网络中用户提交文本包含的英文单词看作。
3、是非规范词,将该英文单词对应的中文翻译看作是规范词进行文本规范化;具体步骤如下1非规范词识别通过人为网站爬取的方式,构建英汉电子词典,进行筛选中文社交网络中混杂英文单词的用户文本;2非规范词对应规范词的生成利用用户文本在中文社交网络语义空间和中文非社交网络语义空间的公共词,训练出经过话题映射的话题翻译模型,从而生成非规范词的翻译词列表,同时赋予翻译词话题翻译概率。3非规范词对应规范词的选择首先根据词序列信息和用户历史信息,通过反向传播算法训练出神经网络语言模型,对社交网络语义空间中的用户文本打分,得到整句语言分数;再根据步骤2中获得的话题翻译概率和整句语言分数的乘积,对翻译词列表进行重新排序,。
4、从而选择出概率最大的非规范词对应规范词。2根据权利要求1所述的规范方法,其特征在于所述话题翻译模型利用中文社交网络语义空间和中文非社交网络语义空间训练语料的公有词建立话题映射关系,再根据英文词在中文社交网络语义空间中的话题概率分布,计算出该英文词在中文非社交网络语义空间的话题分布,最后结合在非社交网络语义空间的双语对齐语料统计的中文词与英文词共同出现的频率,计算出单词的话题翻译概率。3根据权利要求1所述的规范方法,其特征在于所述用户历史信息是指用户在社交网络中发表过的文本列表。4根据权利要求1或2所述的规范方法,其特征在于单词的话题翻译概率通过下式计算得得到其中表示英文单词在中文话题下对应的翻。
5、译成中文单词的概率;PTC_OUT|TC_IN表示社交网络和非社交网络两个语义空间的话题映射关系;表示英文词在某个话题下翻译成中文词的概率;表示需要进行翻译的英文词,表示对应的翻译中文词,TC_OUT表示非社交网络语义空间的话题,TC_IN表示社交网络语义空间的话题。5根据权利要求4所述的规范方法,其特征在于英文词在社交网络语义空间的话题分布通过下式计算得到权利要求书CN104102630A2/2页3式中COUT表示非社交网络语义空间双语对齐语料,表示一个对齐的中英句子对,表示在对齐句子中英文词和中文词共同出现的次数,PTC_OUT|C表示中文句子对应的话题分布。6根据权利要求4所述的规范方法。
6、,其特征在于社交网络和非社交网络两个语义空间的话题映射关系PTC_OUT|TC_IN通过下式计算其中PC|TC_IN通过以下公式计算COUNTCC表示在一个句子中,公有词C的出现次数。7根据权利要求4所述的规范方法,其特征在于英文词在某个话题下翻译成中文词的概率计算方法如下所示其中表示在一个社交网络文本句子中,英文单词出现的次数。权利要求书CN104102630A1/5页4一种针对中文社交网络中中英文混合文本的规范方法技术领域0001本发明属于机器翻译技术领域,具体涉及一种针对中文社交网络中中英文混合文本的规范方法。背景技术0002近些年来,随着科技的进步,越来越多的人们开始使用互联网。人们在。
7、互联网上浏览并且发表信息,各大网站每天都能接收到大量的用户提交信息。很多自然语言处理工作已经开始关注网络文本,通过网路文本的分析,可以得到许多用户聚类,用户情感倾向,用户喜好等信息,这些海量信息具有巨大的价值。0003用户生成信息最多的地方之一便是社交网络。二十年来,国内外有许多著名社交网络应运而生。社交网络上每天都能产生海量的用户文本,这些文本最大的特点就是不规范。用户文本中可能夹杂着诸如多语言混合,表情,特殊符号,缩略语等,这些文本给现存的自然语言处理工作带来了很大的障碍。国内外已有很多研究专注于文本纠错工作,试图将非规范文本中混合的非规范词替换成相同含义的规范词,这样能极大地方便后续的自。
8、然语言处理工作。0004在中国,网民数目在2014年已经超过了6亿,这就致使每天中文社交网络也会产生海量的用户文本。而这些年来信息的国界性越来越不明显,许多人倾向于在社交网络中使用更有特点的文字来表达自己的看法。作为网民中最活跃也是数目最多的年轻人来说,他们发表的文本本身就更具有特点。新的语法,词汇等往往在这个时候产生,这些都给传统的自然语言处理工作带来了障碍。其中最显著的现象就是中文中混杂入其他语言,例如英文,日文,法文等。0005国内外有许多文本纠错方面的研究。英文文本纠错工作中很早便有人将该工作看作是翻译工作,即将非规范英文词汇看作是源语言,将其对应的规范英文词汇看作是目标语言,通过传统。
9、的机器翻译模型完成工作。后来由于发现到英文非规范词的产生形式往往具有一定规则,便利用到了音位和字形上的特点为规范的英文词生成不规范词,从而逆向解决了这个问题。上下文信息往往对于两个相同含义词的识别有重要参考作用,一些工作针对规范词和非规范词共同出现的上下文信息来建立两者之间的联系,从而完成规范化工作。在中国,也有一些工作通过搜索的方式,构建非规范词字典,从而将这些未登录词转换为登陆词。0006与英文不同,中文往往在形式,发音,组合上有更多的变种,许多英文文本纠错的工作在中文上并不适用,这也致使中文文本规范化工作更具有挑战性。发明内容0007为了克服现有技术的不足,本发明的目的在于提供一种针对中。
10、文社交网络中中英混合文本的规范方法,其将英文词翻译成对应含义的中文词,这样在方便阅读的同时,也为后续自然语言处理工作提供了很好的数据预处理工作。说明书CN104102630A2/5页50008本发明提供一种针对中文社交网络中中英混合文本的规范方法,其利用噪声信道模型的思路,将改进的话题翻译模型和神经网络语言模型进行结合,把社交网络中用户提交文本包含的英文单词看作是非规范词,而将该英文单词对应的中文翻译看作是规范词,从而进行文本规范化。具体步骤如下00091非规范词识别0010通过人为网站爬取的方式,构建英汉电子词典,进行筛选中文社交网络中混杂英文单词的用户文本;00112非规范词对应规范词的生。
11、成0012利用用户文本在中文社交网络语义空间和中文非社交网络语义空间的公共词,训练出经过话题映射的话题翻译模型,从而生成非规范词的翻译词列表,同时赋予翻译词话题翻译概率。00133非规范词对应规范词的选择0014首先根据词序列信息和用户历史信息,通过反向传播算法训练出神经网络语言模型,对社交网络语义空间中的用户文本打分,得到整句语言分数;再根据步骤2中获得的话题翻译概率和整句语言分数的乘积,对翻译词列表进行重新排序,从而选择出概率最大的非规范词对应规范词。0015本发明中,所述话题翻译模型利用中文社交网络语义空间和中文非社交网络语义空间训练语料的公有词建立话题映射关系,再根据英文词在中文社交网。
12、络语义空间中的话题概率分布,计算出该英文词在中文非社交网络语义空间的话题分布,最后结合在非社交网络语义空间的双语对齐语料统计的中文词与英文词共同出现的频率,计算出单词的话题翻译概率。附图说明0016图1为用户历史相关信息的神经网络语言模型图。具体实施方式0017针对中文社交网络中的中英文混合文本,主要分三个部分来实现对英文词的规范化工作。00181、非规范词识别0019通过人为网络爬取的方式,构建英汉电子词典。词典中包含绝大部分英文单词和其对应的中文翻译。这样可以有效的筛选出目标文本,即中文社交网络中混杂英文单词的用户文本。00202、非规范英文词对应中文翻译词生成0021传统的机器翻译方法根。
13、据双语对齐语料,可以生成双语对齐概率表。概率表中包含了每个源语言词与目标语言词的对齐概率。这里由于社交网络语义空间中缺乏双语对齐训练语料,我们可以通过更容易获取的非社交网络语义空间例如新闻语义空间,电影电视语义空间等的双语对齐语料来生成对齐概率表。与此同时,考虑到数据的特性,我们在这里结合了话题模型来产生非规范词的翻译词。那么英文词翻译成中文词的概率计算可以用如下公式表示说明书CN104102630A3/5页600220023表示需要进行翻译的英文词,表示对应的翻译中文词,TC表示某一话题,表示英文单词对应中文单词及其话题的概率;表示英文单词在中文话题下翻译成对应中文单词的概率;表示英文词对应。
14、的中文话题的分布。整个公式可以理解为英文词翻译成中文词的概率等于该英文词的话题分布结合该英文词在某一话题分布下对应中文词的翻译概率。0024但是由于不同的语义空间有不同的措辞方式和表达方式,可以理解为不同语义空间的话题空间不同。所以这样的对齐概率表不能直接应用在社交网络语义空间中,我们就需要对非网络文本语义空间的双语对其概率进行社交网络语义空间的话题适配。最后我们可以根据第一步识别的英文词在社交网络语义空间的话题分布,计算出该英文词在非社交网络语义空间的话题分布,再根据该英文词在不同话题下对应的翻译概率,来获取对应的翻译词。整个过程可以用如下公式来表示00250026这里区分了不同语义空间的话。
15、题分布,TC_OUT表示非社交网络语义空间的话题,TC_IN表示社交网络语义空间的话题,PTC_OUT|TC_IN表示社交网络语义空间话题对应非社交网络语义空间话题的概率分布,表示英文单词对应社交网络语义空间话题的概率分布。这样我们就可以根据00271英文词在社交网络语义空间的话题分布00282两个不同语义空间的话题映射关系00293英文词在某个话题下翻译成中文词的概率0030计算出英文词翻译成中文词的概率。00311英文词在社交网络语义空间的话题分布0032计算方法如下所示00330034式中COUT表示非社交网络语义空间双语对齐语料,表示一个对齐的中英句子对,表示在对齐句子中英文词和中文词。
16、共同出现的次数。PTC_OUT|C表示中文句子对应的话题分布,这一项可以通过话题模型计算得到。该公式利用到了最大似然估计的方法,根据不同话题下词语共同出现的相对频率算出英文词在不同话题下翻译成中文词的条件分布。00352两个不同语义空间的话题映射关系0036计算方法如下所示说明书CN104102630A4/5页700370038根据不同语义空间训练语料的公有词C,对应的话题映射分布等于在社交网络语义空间不同话题词的分布与词在非社交网络语义空间不同的话题分布的联合分布。PTC_OUT|C可以通过1中的方法算出。PC|TC_IN通过以下公式计算00390040COUNTCC表示在一个句子中,中文词。
17、C的出现次数。00413英文词在某个话题下翻译成中文词的概率0042计算方法如下所示00430044公式中表示在一个社交网络文本句子中,英文单词出现的次数00453、非规范英文词对应中文翻译词选择0046通过以上话题翻译模型的训练,可以根据当前文本的话题,得到文本中英文词对应的中文翻译词列表。在这一步将进行当前文本的语言模型分数计算,根据此分数与翻译词列表中不同中文词翻译概率的乘积,便可以得到最终翻译词列表。分数的高低代表了该词选取的概率。0047为了更好的结合词的上下文信息和句子的历史信息,这里使用结合了用户历史相关信息的神经网络语言模型,用户历史相关信息就是某一个用户在社交网络中发表过的文。
18、本列表。整个部分如图1所示。0048整个神经网络语言模型由两个打分的部分组成,即词序列信息和用户历史信息。给定一个词序列C和用户历史信息U,我们的目标是从所有词中挑选出正确的序列最后一个词。SC,U表示神经网络的得分函数,CW表示最后一个词被W替换后的词序列。我们要找出比其余分数SC,U都高1以上的SCW,U。因此我们的目标是对于每个语料中的C,U,最小化损失函数00490050对于词序列CW1W2WN可以用一个词向量列表XX1,X2,XN来表示,XI是第I个词WI的词向量,整个词向量矩阵E由每个字典中的词的行向量组成,在训练过程中将会不断更新。SCOREL由神经网络中一个隐藏层计算0051A。
19、1FW1X1;X2;XNB10052SCORELW2A1B20053F是激活函数,这里我们使用正切函数TANH,WN是第N层神经网络的权重转移矩阵,BN是第N层的偏移矩阵。0054我们这样定义用户历史信息的计算方法说明书CN104102630A5/5页800550056WIU表示用户历史信息,XIU表示WIU对应的词向量,F用来权衡给定词WI的重要程度,这里使用逆向文档频率IDF来计算。0057我们还使用一个有一个隐藏层的神经网络来计算用户历史信息,使用与计算上下文信息相同的公式。0058最后的分数通过本地上下文信息分数SCOREL和用户历史信息分数SCOREU加和得到整句语言分数,所述整句是指非规范词经过替换后的一句用户发表的文本0059SCORESCORELSCOREU0060神经网络训练过程使用传统的反向传播算法,在这一步我们可以得到一个中文句子的语言模型分数。通过语言模型分数和翻译模型分数的乘积,就可以对整个候选词列表进行重新排序,确定最终筛选的翻译替换词。说明书CN104102630A1/1页9图1说明书附图CN104102630A。