一种多语种混语文本处理方法及系统技术领域
本发明涉及多语种文本信息处理领域,具体涉及一种多语种混语文本处理
方法及系统。
背景技术
随着计算机和互联网的普及,及国际化的需要,越来越多的文本采用多种
语言的形式表达,经常会出现一个文本中同时包含多个语种的字符,即混语文
本。由于不同语种字符的发音及韵律各不相同,从而给使用统一方法处理所述
混语文本带来困难,比如语音合成、语音识别等都需要对不同语种的字符统一
处理。
现有的多语种混语文本处理方法一般是主语种使用主语种对应的音素集
合表示主语种文本的发音情况,次语种通过使用次语种对应的音素集合表示次
语种文本的发音情况,然后分别对主语种和次语种进行字音转换,得到主语种
语音符号序列和次语种语音符号序列;并且对于主语种包含的次语种音素,直
接使用主语种音素表示,对于主语种不包含的次语种音素,映射成相近的主语
种音素,得到统一的语音符号序列。
上述方法是将主语种和次语种的语音结构作为不同语音体系进行独立处
理的,当不同语种的语音结构差别较大时,容易造成主语种缺失的次语种音素
发音上的缺失。
发明内容
本发明实施例提供一种多语种混语文本处理方法及系统,以解决现有技术
中当多语种混语文本对应语音结构差别较大时,容易造成主语种缺失的次语种
音素发音上的缺失的问题。
为此,本发明实施例提供如下技术方案:
一种多语种混语文本处理方法,包括:
根据发音原理确定用于描述混语文本发音情况的超音素集合,所述超音素
集合包括:元音音素集合和辅音音素集合;
收集包含主语种和次语种的混语文本;
从所述混语文本中提取语法单元;
根据所述语法单元及所述超音素集合构建混语文本的通用词典,所述通用
词典中包含主语种和次语种中的语法单元及所述语法单元的发音信息;
根据所述通用词典对待处理混语文本进行字音转换,得到对应所述混语文
本的语音符号序列。
优选的,所述超音素集合根据以下任意一个或多个原则确定:
将具有明显发音差异的音素加入超音素集合中;
不同语种间发音特征相似的音素使用相同的符号表示;
超音素集合中的音素能够覆盖设定数量语种的发音情况。
优选的,所述确定元音音素集合包括:
根据各语种元音音素发音时的舌位高度及舌尖位置确定元音音素集合。
优选的,所述确定辅音音素集合包括:
根据各语种辅音音素发音时的发音部位及发音方法确定辅音音素集合。
优选的,所述根据所述语法单元及所述超音素集合构建混语文本的通用词
典包括:
根据所述语法单元的字符组合划分与语法单元发音具有相关性的语法单
元片段;
根据所述语法单元片段的发音覆盖情况选择需要加入混语文本的通用词
典的语法单元;
采用所述超音素集合描述所述语法单元的发音,得到混语文本的通用词
典。
优选的,所述根据所述语法单元片段的发音覆盖情况选择需要加入混语文
本的通用词典的语法单元包括:
根据所述语法单元片段的发音覆盖情况,采用机器学习的方法选择需要加
入混语文本的通用词典的语法单元。
一种多语种混语文本处理系统,包括:
超音素集合确定模块,用于根据发音原理确定用于描述混语文本发音情况
的超音素集合,所述超音素集合包括:元音音素集合和辅音音素集合;
混语文本收集模块,用于收集包含主语种和次语种的混语文本;
语法单元提取模块,用于从所述混语文本中提取语法单元;
通用词典构建模块,用于根据所述语法单元及所述超音素集合构建混语文
本的通用词典,所述通用词典中包含主语种和次语种中的语法单元及所述语法
单元的发音信息;
字音转换模块,用于根据所述通用词典对待处理混语文本进行字音转换,
得到对应所述混语文本的语音符号序列。
优选的,所述超音素集合确定模块根据以下任意一个或多个原则确定超音
素集合:
将具有明显发音差异的音素加入超音素集合中;
不同语种间发音特征相似的音素使用相同的符号表示;
超音素集合中的音素能够覆盖设定数量语种的发音情况。
优选的,所述超音素集合确定模块包括:元音音素集合确定单元及辅音因
素集合确定单元;
所述元音音素集合确定单元用于根据各语种元音音素发音时的舌位高度
及舌尖位置确定元音音素集合;
所述辅音音素集合确定单元用于根据各语种辅音音素发音时的发音部位
及发音方法确定辅音音素集合。
优选的,所述通用词典构建模块包括:
划分单元,用于根据所述语法单元的字符组合划分与语法单元发音具有相
关性的语法单元片段;
选择单元,用于根据所述语法单元片段的发音覆盖情况选择需要加入混语
文本的通用词典的语法单元;
构建单元,用于采用所述超音素集合描述所述语法单元的发音,得到混语
文本的通用词典。
优选的,所述选择单元,具体用于根据所述语法单元片段的发音覆盖情况,
采用机器学习的方法选择需要加入混语文本的通用词典的语法单元。
本发明实施例提供的多语种混语文本处理方法及系统,首先根据发音原理
确定用于描述混语文本发音情况的超音素集合,该超音素集合包括元音音素集
合和辅音音素集合,然后根据收集的大量混语文本提取其中的语法单元,并根
据所述超音素集合及所述语法单元构建包含主语种和次语种信息的混语文本
通用词典,这样,在对待处理混语文本进行字音转换时,即可直接根据该通用
词典对其进行字音转换,得到对应所述混语文本的语音符号序列。本发明实施
例提供的方法及系统可以有效减少混语文本中主语种与次语种语音结构差别
较大时,主语种缺失的次语种音素发音缺失的问题,从而提升多语种混语语音
系统文本处理的应用效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施
例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是
本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些
附图获得其他的附图。
图1是本发明实施例多语种混语文本处理方法的一种流程图;
图2是本发明实施例的主要元音音素集合的一种二维坐标系示意图;
图3是本发明实施例的主要辅音音素集合的一种二维坐标系示意图;
图4是本发明实施例多语种混语文本处理系统的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图
和实施方式对本发明实施例作进一步的详细说明。
字音转换是指将文字序列转换成相应的发音内容后,使用语音符号序列表
示所述发音内容的过程。对于单一语种文本,可以根据该语种的发音特点,实
现相应的字音转换。而对于多语种混语文本,传统方法分别采用主语种及次语
种的发音符号描述混语文本中对应的主语种及次语种的发音情况,然后将混语
文本中次语种的语音符号映射到相应主语种语音符号序列的相应位置,得到混
语文本语音序号序列,当混语文本中不同语种的语音结构差别较大时,容易造
成主语种缺失的次语种音素发音上的缺失。
本发明实施例的多语种混语文本处理方法及系统,根据包含主语种及次语
种音素的超音素集合,以及从大量混语文本中提取的语法单元,构建混语文本
的通用词典,即将混语文本中主语种文本和次语种文本的发音情况直接使用超
音素集合中音素描述,然后根据所述通用词典对待处理混语文本进行字音转
换,得到混语文本语音符号序列。由于根据超音素集合构建的通用词典包含能
描述主语种及次语种的常用语法单元的发音情况,即使混语文本中不同语种的
语音结构差别较大时,只要能通过查通用词典找到混语文本中的语法单元,也
能对主语种及次语种进行字音转换,获得混语文本语音符号序列。
如图1所示,是本发明实施例多语种混语文本处理方法的一种流程图,包
括以下步骤:
步骤101,根据发音原理确定用于描述混语文本发音情况的超音素集合,
所述超音素集合包括:元音音素集合和辅音音素集合。
在本实施例中,所述超音素集合是根据发音原理来确定的,具体可以根据
以下任意一种或多种原则来确定:
(1)将具有明显发音差异的音素加入超音素集合中;
(2)不同语种间发音特征相似的音素使用相同的符号表示;
(3)超音素集合中的音素能够覆盖设定数量语种的发音情况。
其中,发音差异可以根据人类发音部位、发音方法等特征来判断;同时,
所述超音素集合中的音素能够覆盖设定数量语种的发音情况,具体可以根据使
用人口、经济发达区域等因素来确定,覆盖语种的数量可以根据应用需求而进
行设定,例如针对具有固定营销区域的公司的应用系统,可以根据其具体涉及
的语种来确定超音素集合包含的语种音素。
所述超音素集合包括:元音音素集合和辅音音素集合。具体地,可以根据
各语种元音音素发音时的舌位高度及舌尖位置确定元音音素集合,根据各语种
辅音音素发音时的发音部位及发音方法确定辅音音素集合。下面分别对确定元
音音素集合和辅音音素集合的过程进行详细说明。
元音是在发音过程中由气流通过口腔而不受阻碍发出的音,主要是通过舌
头在口腔中的动作改变口腔共鸣的效果来形成不同的音色,舌位高度及舌尖位
置反映了声道共鸣的状况,因此可以根据舌位高度及舌尖位置对不同语种的音
素进行描述。在实际应用中,可以将舌位高度设为高、半高、半低、低4档;
可以将舌尖位置设为前、中、后3档。以舌位高度及舌尖位置作为坐标轴的二
维坐标系标识主语种及次语种的元音音素,将具有明显发音差异的元音音素加
入元音音素集合中。其中,X轴表示舌位的高度,Y轴表示舌尖的位置,如图
2所示。此外,对于不能直接使用上述二维坐标系标识的元音音素,可以按照
就近原则将其映射到相近的元音音素上。
辅音是由发音部位在声道中造成阻碍,使气流通过声道时发生摩擦而产生
的音色,具有噪音性。控制气流使其产生摩擦的发音部位及方法不同,会在频
谱的不同区域形成能量集中区而发出不同的音色。因此,可以通过发音部位及
发音方式对不同语种的音素进行描述。其中,发音部位指声道中发生阻碍的位
置,例如从喉部到口部可分为7个发音部位,分别是唇齿、齿/舌尖、舌面前、
舌面中、舌面后、咽、喉;如塞音‘b’的阻碍位置是唇,‘d’的阻碍位置是
齿/舌尖,‘g’的阻碍位置是舌根;发音方式指发音器官控制气流的方式和状
态,包括发音时构成阻碍和克服阻碍的方式、气流强弱的情况、声带是否振动
等,例如发音方式包括塞音、塞送气、塞擦音、塞擦送气、擦音、边音、鼻音、
响音、半元音等。以发音部位及发音方式作为坐标轴的二维坐标系标识主语种
及次语种的辅音音素,将具有明显发音差异的辅音音素加入辅音音素集合中。
其中,X轴表示发音部位,Y轴表示发音方式,对于不能直接使用上述二维坐
标系标识的辅音音素,可以按照就近原则将其映射到相近的辅音音素上。
步骤102,收集包含主语种和次语种的混语文本。
所述混语文本中包括一种主语种文本,一种或多种非主语种文本,为了描
述方便,将其它非主语种文本统称为次语种文本。所述主语种和次语种可以是
预先确定的。所述主语种和次语种在文本形式上可以分为有词边界和无词边界
两种情况。
步骤103,从所述混语文本中提取语法单元。
所述语法单元可以为语法词等,例如,当语法单元为语法词时,对于有词
边界的文本可以直接提取;对于无词边界的文本,需要先利用分词算法进行自
动分词后再提取。如果收集的混语文本中同时包含有词边界文本和无词边界文
本,则有词边界文本和无词边界文本的分界处一定是语法单元边界。
步骤104,根据所述语法单元及所述超音素集合构建混语文本的通用词典,
所述通用词典中包含主语种和次语种中的语法单元及所述语法单元的发音信
息。
采用所述超音素集合描述所有提取的语法单元的发音,从而得到混语文本
的通用词典。
例如,通用词典中包括英文语法单元“speech”和中文语法单元“上海”,
使用超音素集合描述词单元的发音,形式如下:
speech:s p iy ch
上海:sh a ng h a j其中,语法单元后的音素为超音素集合中音素。
进一步的,可以对上述提取的语法单元进行筛选,获得能覆盖混语文本的
主语种及次语种信息的语法单元。具体地,可以通过人工预先标出所有语法单
元的发音方式进行,但是由于语法单元数目过多,人工预先标出所有语法单元
的发音工作量太大。因此,在实际应用中,还可以通过语法单元发音相关的语
法单元片段的发音覆盖情况选择合适的语法单元加入到通用词典中。而语法单
元片段的发音标注可以采用规则的方式或者规则及人工辅助的标注方式,在保
证选择的语法单元发音覆盖率的同时,可以大大减少人工工作量。
由于元音字符和元音发音有明确的发音关联,辅音字符和辅音发音有明确
的发音关联,根据元音字符和辅音字符划分后获得的语法单元片段的字符组合
与语法单元片段的发音有很高的关联性,因此,在未获得语法单元发音的情况
下,根据语法单元的字符进行语法单元片段的划分,得到与语法单元发音相关
的语法单元片段,可以间接地得到语法单元的发音覆盖情况。然后,再根据语
法单元片段的发音覆盖情况提取合适的语法单元。
在一个具体实施例中,可以通过以下步骤判断提取的语法单元的覆盖情
况:
首先,分析语法单元中出现的所有字符,将所述字符划分元音字符V和辅
音字符C;
然后,根据所述元音字符和辅音字符划分语法单元,得到与语法单元发音
相关的语法单元片段。
进一步的,进行语法单元划分时,共分为两种情况:
1.对于元音附标语言的语法单元,由于经常不存在元音字符,因此,只
考虑单个辅音字符进行语法单元划分。例如,根据每个辅音字符所在的上下文
环境进行语法单元的划分,如将当前字符的前一个字符,当前字符及当前字符
的后一个字符划分为一个语法单元片段;如语法单元C1C2C3V1C4C5,划分得到的
语法单元片段为C1C2,C1C2C3,C2C3C4,C3C4C5,C4C5。
2.对于非元音附标语言的语法单元,每个语法单元都是辅音字符和元音
字符交替组成的,因此需要考虑元音字符和辅音字符进行语法单元划分,具体
划分时,辅音字符前面作为划分边界。例如,语法单元的组成字符为
C1C2C3V1C4C5,划分后得到的语法单元片段为C1|C2|C3V1|C4|C5,其中“|”为语
法单元片段分界符。
最后,根据上述获取的语法单元片段的发音覆盖情况选择加入到通用词典
的语法单元。
特别的,当同一个语法单元片段在多个语法单元中发音相同时,只需要选
取其中一个语法单元加入到通用词典中,具体语法单元选择方法本案不作限
制。
以下以机器学习方法中的贪婪算法选择语法单元为例,描述语法单元的选
择过程,可以如下所述:
假设从文本中抽选出N个语法单元,对所述N个语法单元进行片段划分,
得到每个语法单元包含的语法单元片段。从中提取M个主语种及次语种的常
用语法单元加入到通用词典中,以下为一个可行的实施例:
首先,从N个语法单元中,随机选择M个语法单元加入到语法单元侯选
集中;
接着,每次从剩下N-M个语法单元中选择一个语法单元作为当前语法单
元,依次替换语法单元侯选集中的每个语法单元,根据判决准则确定当前语法
单元是否最终代替语法单元侯选集中的语法单元,更新语法单元候选集,得到
新的语法单元侯选集。
例如将信息增益作为判决准则时,计算当前语法单元代替语法单元侯选集
中语法单元前后语法单元侯选集的信息增益,如果替换后,语法单元侯选集的
信息增益增加,则成功替换,否则,从剩下语法单元中重新选择一个语法单元
作为当前语法单元,进行相同操作。计算信息增益时,以语法单元包含的语法
单元片段为单位,计算整个语法单元侯选集的信息增益。,信息增益增加,说
明当前语法单元为语法单元侯选集带来的信息量增加,即语法单元片段的发音
覆盖有所增加。
然后,直到剩下N-M个语法单元都计算结束,提取语法单元侯选集中所
有语法单元,并将其全部作为所述通用词典的语法单元。
步骤105,根据所述通用词典对所述混语文本进行字音转换,得到对应所
述混语文本的语音符号序列。
在本实施例中,混语文本的主语种文本及次语种文本的发音,使用通用词
典描述,得到对应所述混语文本的语音符号序列,具体转换方法本案不作限定。
例如,以英文中混有少量中文的混语文本为例,具体的字音转换过程如下:
对于中文文本首先对文本进行分词,然后通过查通用词典方式得到每个词单元
的语音符号序列。对于英文文本,具体的字音转换过程如下:首先按照空格对
文本进行分词;然后依次对每个词查通用词典,如果是词典词,则得到该词语
音符号序列。如果是非词典词,则按照规则或者预先训练得到的字母-发音映
射模型预测该词发音序列;最后连接混语文本中各个词的语音符号序列得到混
语文本语音符号序列。再如,对于英文和德文等同属音素语言的西方语言混合
文本,字音转换无需考虑语言界限,直接采用和单一英文文本相同的手段进行
字音转换。
本发明实施例提供的多语种混语文本处理方法,首先确定用于描述混语文
本发音情况的超音素集合,并用该超音素集合描述从大量混语文本中提取出的
语法单元,构建包含混语文本的主语种及次语种的混语文本通用词典,这样,
在对待处理混语文本进行字音转换时,即可直接根据该通用词典对其进行字音
转换,得到对应所述混语文本的语音符号序列。通过本发明实施例提供的方法,
可以有效减少当混语文本中主语种与次语种的语音结构相差较大时,主语种缺
失的次语种音素发音缺失的问题,提升多语种混语语音系统文本处理的应用效
果。
相应地,本发明实施例还提供一种多语种混语文本处理系统,如图4所示,
是该系统的一种结构示意图。
在本实施例中,所述系统包括:
超音素集合确定模块401,用于根据发音原理确定用于描述混语文本发音
情况的超音素集合,所述超音素集合包括:元音音素集合和辅音音素集合;
混语文本收集模块402,用于收集包含主语种和次语种的混语文本;
语法单元提取模块403,用于从所述混语文本中提取语法单元;
通用词典构建模块404,用于根据所述语法单元及所述超音素集合构建混
语文本的通用词典504,所述通用词典504中包含主语种和次语种中的语法单
元及所述语法单元的发音信息;
字音转换模块405,用于根据所述通用词典504对待处理混语文本进行字
音转换,得到对应所述混语文本的语音符号序列。
上述超音素集合确定模块401是根据发音原理来确定的。通常,音素可以
分为元音音素及辅音因素两类,相应地,所述超音素集合确定模块401可以包
括:元音音素集合确定单元及辅音音素集合确定单元。其中:
所述元音音素集合确定单元用于根据各语种元音音素发音时的舌位高度
及舌尖位置确定元音音素集合;
所述辅音音素集合确定单元用于根据各语种辅音音素发音时的发音部位
及发音方法确定辅音音素集合。
在实际应用中,可以采用人工标出所有语法单元发音的方式构建词典,但
是由于语法单元数目过多,人工预先标出所有语法单元的发音工作量太大。为
了提高构建词典的效率,本发明实施例中,通用词典构建模块404还可以通过
语法单元发音相关的语法单元片段的发音覆盖情况选择合适的语法单元加入
到通用词典504中。而语法单元片段的发音标注可以采用规则的方式或者规则
及人工辅助的标注方式,在保证选择的语法单元发音覆盖率的同时,可以大大
减少人工工作量。
相应地,通用词典构建模块404的一种具体结构可以包括以下各单元:
划分单元,用于根据所述语法单元的字符组合划分与语法单元发音具有相
关性的语法单元片段;
选择单元,用于根据所述语法单元片段的发音覆盖情况选择需要加入混语
文本的通用词典504的语法单元;
构建单元,用于采用所述超音素集合描述所述语法单元的发音,得到混语
文本的通用词典504。
进一步的,所述选择单元具体可以根据所述语法单元片段的发音覆盖情
况,采用机器学习方法,如贪婪算法,选择需要加入混语文本的通用词典504
的语法单元。该系统通过所述通用词典504可以进行字音转换,因此,该系统
还包括字音转换模块405,以获得待处理混语文本的语音符号序列。
当然,在实际应用中,该系统还可进一步包括:存储模块(未图示),用
于保存通用词典504信息,比如:语法单元、超音素集合等。这样,在处理包
含相同主语种及次语种的混语文本时,该系统就不用每次使用时都重新构建通
用词典504。
另外,所述系统还可进一步包括:通用词典选取模块,用于针对包含语种
不同的混语文本选取预先构建好的相应通用词典504,这样可以提高该系统的
字音转换效率。
本发明实施例提供的多语种混语文本处理系统,通过超音素集合确定模块
401确定能描述混语文本发音情况的超音素集合,并通过该超音素集合,描述
语法单元提取模块403获取的能覆盖混语文本发音情况的语法单元,构建混语
文本通用词典504,由于该通用词典504描述了混语文本中主语种及次语种常
用语法单元的发音情况,即使待处理混语文本中不同语种的语音结构差别较大
时,只要能通过查通用词典504找到混语文本中的语法单元,该系统也能对主
语种及次语种进行字音转换,获得混语文本语音符号序列。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相
似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之
处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得
比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施
例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是
物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以
位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择
其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在
不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发
明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同
时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用
范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。