在语音识别中产生候选字串的方法.pdf

摘要
申请专利号：	CN01109283.1	申请日：	2001.03.06
公开号：	CN1373468A	公开日：	2002.10.09
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效\|\|\|公开\|\|\|实质审查的生效申请日:2001.3.6
IPC分类号：	G10L15/00	主分类号：	G10L15/00
申请人：	财团法人工业技术研究院;
发明人：	简世杰; 张森嘉
地址：	台湾省新竹县
优先权：
专利代理机构：	中科专利商标代理有限责任公司	代理人：	汤保平
PDF下载：	PDF下载

内容摘要

一种在语音辨识中产生候选字串的方法,是以节点为基础,自词格或音节格位的复数个节点中搜寻候选字串,主要的作法是对每个节点求出会通过该节点的所有字串中所能够得到的最高字串分数,再使用排序动作将所有节点得到的最高字串分数进行排序,而能够得到候选字串,故不需要一一进行字串展开的动作,能达到既缩短运算时间又节省储存空间的目的,并且,后续模组亦可藉由此方法,控制其后续处理的时间及相对的辨识率。

权利要求书

1：一种在语音识别中产生至少一个候选字串的方法，其中，上述候选字串是由复数个节点所连接而成，一候选字串的字串分数是为构成该候选字串的节点的分数的总和，其特征在于，该方法包括下述步骤： (A)计算通过每一个节点所有可能的字串中的最高字串分数； (B)据该最高字串分数对所有节点进行排序，以将具有相同字串分数的节点集合成为一节点集合；以及 (C)自步骤(B)中所产生的所有节点集合中，选取前复数个具有较高字串分数的节点集合，以在该等节点集合内依照各节点的起始、截止时间进行接续，以便产生上述候选字串。
2：根据权利要求1所述的在语音识别中产生至少一个候选字串的方法，其特征在于，其中，于步骤(C)中，对于一个无法由各自的节点集合中的节点接续出完整字串的节点集合，则使用比该字串分数高的节点集合中的节点来进行字串的接续，以产生一候选字串。
3：根据权利要求1所述的在语音识别中产生至少一个候选字串的方法，其特征在于，其中，于步骤(A)中，是在节点前方及后方分别设定两个虚节点，由该两个虚节点做为起点进行巡回搜寻，而将由节点的起始时间点开始搜寻至句尾所能得到的最高字串分数记录在一前向分数阵列的元素中，及将由节点的截止时间点开始搜寻至句首所能得到的最高部分字串分数记录在一后向分数阵列的元素中，以便在求取通过某一节点的字串分数时，仅需由该两阵列中查出接续该节点的起始时间点及截止时间点的最高部分字串分数既可。
4：根据权利要求3所述的在语音识别中产生至少一个候选字串的方法，其特征在于，其中，该前向分数阵列的每一元素并记录有一用来代表所记录的部分字串分数是使用那一个节点所得到的节点索引。
5：根据权利要求3所述的在语音识别中产生至少一个候选字串的方法，其特征在于，其中，该后向分数阵列的每一元素并记录有一用来代表所记录的部分字串分数是使用那一个节点所得到的节点索引。
6：根据权利要求2所述的在语音识别中产生至少一个候选字串的方法，其特征在于，其中，对应无法由一个节点集合接续出完整的节点则可参考节点索引，依照索引所得到的节点进行字串的接续，以产生一候选字串。
7：根据权利要求1所述的在语音识别中产生至少一个候选字串的方法，其特征在于，其中，每一节点包括了所对应语音信号的词汇或音节内容、起始时间点、截止时间点以及分数。
8：根据权利要求1所述的在语音识别中产生至少一个候选字串的方法，其特征在于，其中，步骤(C)中所产生的候选字串是由一后级处理做选择性的控制。
9：根据权利要求1所述的在语音识别中产生至少一个候选字串的方法，其特征在于，其中，前述候选字串是由词格中的复数节点所接续而成。
10：根据权利要求1所述的在语音识别中产生至少一个候选字串的方法，其特征在于，其中，前述候选字串是由音节格位中的复数节点所接续而成。
11：根据权利要求9所述的在语音识别中产生至少一个候选字串的方法，其特征在于，其中，每一节点包括了所对应语音信号的词汇内容、起始时间点、截止时间点以及分数。
12：根据权利要求10所述的在语音识别中产生至少一个候选字串的方法，其特征在于，其中，每一节点包括了所对应语音信号的音节内容、起始时间点、截止时间点以及分数。

说明书

在语音识别中产生候选字串的方法
    本发明是关于一种在语音识别中产生候选字串的方法，特别是关于一种以节点为基础而无须使用字串展开以得到候选字串的方法。

    按，目前的语音识别系统(speech recognition system)在为获得高度识别效果的考量下，语音识别模组往往不再只输出单一识别效果，而是提供多个可能的结果，以较丰富的资讯供后续处理模组从中挑选出一个最可能的结果做为最终的输出。

    因此，语音识别模组便需提供多个可能的结果供后续模组进行处理。故语音识别模组如何由一语音信号中产生出候选字串供后续模组进行处理，即成为发展语音系统的一个重要课题。

    美国专利USP5,241,619揭露一种候选字串地搜寻方法，其在进行语音信号与词汇的比对过程中，随时保留N条候选字串，当语音信号比对完毕，既可得到N条候选字串，此种方法必须在比对过程中，随时将上一个时间点所保留的N条候选字串做展开与修剪的动作。而假设词汇有M个，则如图6所示，一条字串的展开就可能会产生M条新字串，这些字串再配合修剪动作，由所有的展开字串中找出其中最可能的N条做为下个时间点展开的基础。因此，此种方法必须使用大量的储存空间来记录展开的字串资讯，另需随时进行排序动作，以保留最可能的N条字串。但此种方法会产生以下的缺点：假设一个词汇有S个状态，则在同一个时间点就可能存在有S条内容相同但停留状态不同的字串，然而，当搜寻结束时，只有到达最后状态的字串是合法的，因此，最后得到的候选字串数目可能小于N。

    另一种候选字串的搜寻方法是使用两个阶段来产生候选字串，其中，第一阶段使用修正式维特比演算法(modified viterbi algorithm)自输入的语音信号中产生词格(word lattice)，再于第二阶段配合堆叠结构(stack structure)，籍由回溯第一阶段所产生的词格，进行候选字串的搜寻动作(参照美国专利USP5,805,772-”System，methods and architectures ofmanufacture for performing high resolution N-best string hypothesization”以及附件一：F.K.Soong and E.F.Huang，”A tree-trellis based fast search forfinding the N best srntence hypotheses in continuous speech recognition”，ICASSP′91，pp.705-708，1991)。此种方法必须不断使用堆叠运算(stackoperation)的推入(push)及取出(pop)动作，以将可能的字串做展开，才能获得可能的候选字串，因此，将耗掉大量的时间在字串的展开动作上。

    第三种候选字串的搜寻方法是类似上述的方法，亦使用两个阶段来产生候选字串，但在第一阶段使用中文的408个基本音节(basesyllable)做为识别单位，产生音节格位(syllable lattice)，而在第二阶段的回溯动作不单单只取第一名的音节节点，而是取前几名经过音框正规化后的音节节点资料，配合堆叠结构进行回溯，以产生多种候选字串的输出(参考附件二：E.F.Huang and H.C.Wang，”An efficient algorithm forsyllable hypothesizaton in continuous Mandarin speech recognition”IEEEtransactions on speech and audio processing，pp.446-449，1994)。

    第四种候选字串的搜寻方法亦是以两个阶段动作来产生候选字串的方式，其第一阶段使用一个词图演算法来完成(参考附件三：S.Ortmanns，H.Ney，and X.Aubert，“A word graph algorithm for large vocabularycontinuous speech recognition”，Computer Speech and Language，pp.43-72，1997)，除了由语音信号产生词格之外，同时也得到一条最可能的字串。第二阶段再根据这条最可能的字串中的各个节点进行其他字串的搜寻。为了储存空间以及重复词汇输出上的考虑，输出的结果是记录在一个树状结构中(参考美国专利USP5,987,409“Method of and apparatus forderiving a plurality of sequences of words from a speech signal”)。

    上述四种候选字串的搜寻方法的不同点在于如何进行字串展开的动作上。但基本上，前述方法都是以字串展开的方式进行搜寻，然而，此种展开的动作除了需要相当大的储存空间以记录各种可能的这组合字串之外，也会花费相当长的比对运算时间，此将导致语音系统的效能不明显，故而仍有予以改进的必要。

    本创作人本于积极发明的精神，亟思一种可以解决上述问题的“在语音识别产生候选字串的方法”，几经研究实验终至完成此项新颖进步的发明。

    本发明的目的是在提供一种在语音识别中快速产生候选字串的方法，籍由以节点为基础而无须使用字串的展开，可快速地搜寻而得到候选字串。

    为达前述的目的，本发明的方法是用以自词格或音节格位中的复数个节点中搜寻候选字串，其首先计算通过每一节点所有的字串的最高字串分数；其次，根据该最高字串分数对所有节点进行排序，以将具有相同字串分数的节点集合成为一节点集合；最后自所产生的所有节点集合中，选取前复数个具有较高字串分数的节点集合，以在该等节点集合内依照各节点的起始、截止时间进行接续，以便产生上述候选字串。

    其中，于步骤(C)中，对于一个无法由各自的节点集合中的节点接续出完整字串的节点集合，则使用比该字串分数高的节点集合中的节点来进行字串的接续，以产生一候选字串。

    其中，于步骤(A)中，是在节点前方及后方分别设定两个虚节点，由该两个虚节点做为起点进行巡回搜寻，而将由节点的起始时间点开始搜寻至句尾所能得到的最高字串分数记录在一前向分数阵列的元素中，及将由节点的截止时间点开始搜寻至句首所能得到的最高部分字串分数记录在一后向分数阵列的元素中，以便在求取通过某一节点的字串分数时，仅需由该两阵列中查出接续该节点的起始时间点及截止时间点的最高部分字串分数既可。

    其中，该前向分数阵列的每一元素并记录有一用来代表所记录的部分字串分数是使用那一个节点所得到的节点索引。

    其中，该后向分数阵列的每一元素并记录有一用来代表所记录的部分字串分数是使用那一个节点所得到的节点索引。

    其中，对应无法由一个节点集合接续出完整的节点则可参考节点索引，依照索引所得到的节点进行字串的接续，以产生一候选字串。

    其中，每一节点包括了所对应语音信号的词汇或音节内容、起始时间点、截止时间点以及分数。

    其中，步骤(C)中所产生的候选字串是由一后级处理做选择性的控制。

    其中，前述候选字串是由词格中的复数节点所接续而成。

    其中，前述候选字串是由音节格位中的复数节点所接续而成。

    其中，每一节点包括了所对应语音信号的词汇内容、起始时间点、截止时间点以及分数。

    其中，每一节点包括了所对应语音信号的音节内容、起始时间点、截止时间点以及分数。

    由于本发明设计新颖，能提供产业上利用，且确有增进功效，故依法申请专利。

    为使贵审查委员能进一步了解本发明的结构、特征及其目的，兹附以图式及较佳具体实施例的详细说明如后，其中：

    图1是显示一个部分词格的部分节点资料。

    图2是显示图1中各节点的最高字串分数。

    图3是显示图1中的候选字串的节点集合。

    图4是显示以虚节点及阵列求取通过节点的字串的最高分数。

    图5是显示依据本发明的方法所产生的候选字串的组合及输出。

    图6是为习知技术以展开方式求取候选字串的示意图。

    为展现本发明的在语音识别中产生候选字串的方法，本发明使用一个以词为识别单位的候选字串搜寻的例子来说明本发明的方法的施行过程。请先参照图1所示的一个词格(word lattice)的部分节点资料，其中的每一节点n1-n9的内容包括了所对应语音信号的词汇内容、起始时间、截止时间点、以及分数，而节点n1-n9间的连接则形成了可能的字串，例如：n1→n2→n3→n4、n5→n9→n7→n8或n5→n6→n3→n4等。这些凡是可由语音信号的起始为φ的时间点串接至语音信号的终止时间点，即构成一条龙“完整字串”，在这个例子里的终止时间点为300，其中，一条龙字串的字串分数是为构成该字串的所有节点的分数的总和。

    而就图1中的每一个节点n1-n9而言，如果在所有字串中具有最高分数的字串经过该节点，则该节点会具有以下的特征：(1)这条字串的分数必定为该节点分数与位于这个节点前面所有部分字串中的最高分数，及位于这个节点后面的所有部分字串中的最高分数的总和；以及，(2)由位于这条具有最高分数的字串中的每一节点所得到的最高字串分数一定都相同。以图1为例。字串n1→n2→n3→n4是为此范例中具有最高分数的字串，而该条字串的分数为-524，由该条字串上的任何节点n1、n2、n3或n4所得到的最高字串分数也都是-524。

    而对于其他不是具最高分数的字串所经历的节点，必然有其他字串会通过这些节点，根据前述的特征(1)，亦可以得到通过这些节点的字串分数。因此，如图2所示，本发明的方法是首先将通过每个节点对所有可能字串中的最高字串分数计算出来，并且根据该最高字串分数的节点安排在同一节点集合内，所要求取的候选字串既可由前复数个具有不同字串分数的节点集合中得到。所以，最后所要输出的候选字串也就是在这些节点集合内依照各节点的起始时间点、截止时间点进行接续。而对于一个无法接续出“完整字串”的节点集合，则是使用比目前字串分数高的节点集合中的节点资料进行字串的接续，其详细的说明容后陈述。

    在求取字串的最高分数时，可由节点的起始时间点、截止时间点做为起点，向节点前、后两个方向搜寻具有最高分数的部分字串。以图1的节点n2为例，要得到节点n2后面具有最高分数的部分字串，即必须决定出时间点64以后具有最高分数的部分字串，而要决定出时间点64以后具有最高分数的部分字串也就必须分别决定出时间点150及160之后具有最高分数的部分字串。依此巡回进行直到音框结束，既可得到节点n2之后部分字串的最高分数。在作法上如图4所示，可在节点前方及后方分别设定两个虚(dummy)节点41及42，由该两个虚节点41及42做为起点进行巡回搜寻，并使用一前向分数(forwardscore)阵列43及一向后分数(backward score)阵列4 4来分别记录节点n1-n9中的各个时间点的最高部分字串分数；亦即，该前向分数阵列43的阵列元素是记录由节点n1-n9中的各个起始时间点开始搜寻至句尾所能得到的最高部分字串分数以及用来代表该部分字串分数是使用那一个节点所得到的节点索引，而该后向分数阵列44的阵列元素是记录由节点n1-n9中的各个截止时间点开始搜寻至句首所能得到的最高部分字串分数以及用来代表该部分字串分数是使用那一个节点所得到的节点索引。籍此，在求取通过某一节点的字串分数时，仅需由阵列43及44中查出接续该节点的起始时间点及截止时间点的最高部分字串分数既可，因此，可以很容易将通过图1中每一个节点的最高字串分数计算出来，也就可以很快地得到图2的结果。

    而籍由该前向及后向阵列43及44中所记录的节点索引，亦能进一步加快候选字串输出的动作。由于该节点索引是用来记录目前的部分字串分数是使用那一个节点所得到的，因此，参考该索引资料，即可很快的将图3中无法由各自的节点集合接续出完整字串的部分进行接续。比如，在集合2得到“静音”及“我想问”等两个节点n5及n6的接续，尚缺乏由时间点65到300的资料。透过前向分数阵列43在时间点65的资料可得到节点索引3的资料，也就是65、150“今天”的节点n3。继续查询前向分数阵列43在时间点151的资料可得到节点索引4的资料，也就是150、300“天气”的节点n4。即得到“静音”、“我想问”、“今天”、“天气”的字串资料。同此方式，在集合4得到“明天”及“气候”等两个节点n7及n8的接续，尚缺乏由时间点0到64的资料。此时查询的是后向分数阵列44在时间点64的资料，也就可以得到节点索引2的资料，也就是11、64“请问”的节点n2。继续查询后向分数阵列44在时间点10的资料可得到节点索引1的资料，也就是0、10“静音”的节点n1。即得到“静音”、“请问”、“明天”、“气候”的字串资料，如图5所示。

    由以上的说明可知，本发明乃是对每个节点求出会通过该节点的所有字串中所能够得到的最高字串分数，并使用排序演算法将所有节点得到的最高字串分数进行排序，而能够得到候选字串，由于不需要进行字串展开的动作，故可达到既缩短运算时间又节省储存空间的目的。并且，后续模组亦可由本发明的方法，控制其后续处理的时间及相对的识别率。参照以下的表一：

                               表一  候选字串个数    包含率    词汇密度      10     96.44％      6.05      20     97.47％      10.97      30     97.93％      15.72      40     98.16％      20.28      50     98.33％      24.62      ∞     98.85％      130.33

    其是在一实验中使用10男、10女各念25句气象查询领域所使用的句子(包括短词、长句，且都是不相同的句子)时，列出候选字串个数与词汇密度、包含率的关系。其中，候选字串个数为∞表示不进行候选字串的选取动作，其虽然有98.85％的包含率，但是，词汇密度却有130.33之高。经过候选字串的搜寻，在候选字串个数为50时，词汇密度缩减为24.62，约为原来不作处理的1/6。包含率为98.33％，仅下降0.25％。而随着选取的候选字串个数递减，词汇密度亦随之缩减，包含率也跟着下降。至于候选字串个数的最佳值是为一个时间、空间与正确率取舍(trade-off)的问题，可由后级处理做选择性的控制。亦即，本发明所提供的方法，亦可供后级处理籍由候选字串个数的选择，控制识别模组所输出的密度与包含率。

    综上所述，本发明无论就目的、手段及功效，在在均显示其迥异于习知技术的特征，为在语音识别中产生候选字串的设计上的一大突破，恳请贵审查委员明察，早日赐准专利，以便嘉惠社会，实感德便。惟应注意的是，上述诸多实施例仅是为了便于说明而举例而已，本发明所主张的权利范围自应以申请专利范围所述为准，而非仅限于上述实施例。