编辑期间使音频光标与文本光标同步.pdf

摘要
申请专利号：	CN02800829.4	申请日：	2002.03.25
公开号：	CN1460245A	公开日：	2003.12.03
当前法律状态：	终止	有效性：	无权
法律详情：	未缴年费专利权终止IPC(主分类):G10L 15/22申请日:20020325授权公告日:20051102终止日期:20170325\|\|\|专利权的转移IPC(主分类):G10L 15/22变更事项:专利权人变更前权利人:微差通信奥地利有限责任公司变更后权利人:微差通信公司变更事项:地址变更前权利人:奥地利维也纳变更后权利人:美国马萨诸塞州登记生效日:20131023\|\|\|专利申请权、专利权的转移(专利权的转移)变更项目:专利权人变更前权利人:皇家菲利浦电子有限公司地址: 荷兰艾恩德霍芬变更后权利人:微差通信奥地利有限责任公司地址: 奥地利维也纳登记生效日:2009.7.31\|\|\|授权\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G10L15/22; G10L15/26	主分类号：	G10L15/22; G10L15/26
申请人：	皇家菲利浦电子有限公司;
发明人：	W·格施温德特纳
地址：	荷兰艾恩德霍芬
优先权：	2001.03.29 EP 01890104.1
专利代理机构：	中国专利代理(香港)有限公司	代理人：	杨凯;陈霁
PDF下载：	PDF下载

内容摘要

语音识别装置(1)处理口述的语音数据(SD)，由此创建口述的识别文本信息(ETI)和链接信息(LI)。在语音识别装置(1)的同步重放模式下，在口述的声音重放期间，校对装置(10)同步地标记识别文本信息(ETI)中与刚刚重放的语音数据(SD)相关并被链接信息(LI)标记的词，而刚刚标记的词反映音频光标(AC)的位置。当该语音识别装置(1)的用户识别出错词时，他将文本光标(TC)定位于该错词处并校正它。光标同步装置(15)现在可以使文本光标(TC)与音频光标(AC)同步，或者使音频光标(AC)与文本光标(TC)同步，使得各个光标(AC，TC)的定位明显简化。

权利要求书

1：一种校对装置(10)，用于校正语音识别装置(1)从语音信息(SD) 中识别出的文本信息(ETI)中的错词，它包括：接收装置，用于接收所述语音信息(SD)、相关的识别文本信息(ETI)和链接信息(LI)，其中链接信息在识别文本信息(ETI)的每个词处标记语音信息(SD)中由所述语音识别装置(1)识别出该词的部分；编辑装置(11)，用于将文本光标(TC)定位于所述识别文本信息(ETI)的错词处并根据用户输入的编辑信息(EI)编辑所述错词；同步重放装置(12)，允许同步重放模式，其中在所述语音信息(SD)的声音重放期间，同步地标记所述识别文本信息(ETI)中刚刚重放而且由链接信息(LI)所标记的词，而刚刚标记的词反映了音频光标(AC)的位置；以及光标同步装置(15)，用于使所述文本光标(TC)与所述音频光标(AC)同步或者使所述音频光标(AC)与所述文本光标(TC)同步。
2：如权利要求1所述的校对装置(10)，其特征在于包括光标同步装置(15)，用于在所述校对装置(10)中激活的同步显示模式下使光标(AC，TC)同步。
3：如权利要求1所述的校对装置(10)，其特征在于，所述光标同步装置(15)包括键盘(3)，并且可以通过人工操作至少一个键来使所述光标(AC，TC)同步。
4：如权利要求3所述的校对装置(10)，其特征在于，所述至少一个键包括“右箭头”键或“左箭头”键，并且当操作“右箭头” 键时，可以使相对于另一个光标(TC，AC)显示出更靠近识别文本信息(ETI)的开头的光标(AC，TC)与这另一个光标(TC，AC)同步；可以使相对于另一个光标(TC，AC)显示出更靠近识别文本信息(ETI)的结尾的光标(AC，TC)与这另一个光标(TC，AC)同步。
5：如权利要求1所述的校对装置(10)，其特征在于，当所述同步重放模式激活时，所述光标同步装置(15)使所述文本光标(TC)定位于识别文本信息(ETI)中超前所述音频光标(AC)预定数目N的词之处。
6：如权利要求5所述的校对装置(10)，其特征在于，所述词的预定数目N可以根据用户信息(EI)来设置。
7：如权利要求2所述的校对装置(10)，其特征在于，所述光标同步装置(15)在激活的同步重放模式下持续自动地使光标(AC，TC) 同步，而且为了编辑错词，可以通过人工操作至少一个按键来使所述文本光标(TC)与音频光标(AC)分开，直到通过再次操作至少一个按键使所述文本光标(TC)与所述音频光标(AC)再同步。
8：一种校对方法(16)，用于校对由语音识别装置(1)从语音信息 (SD)中识别的文本信息(ETI)中的错词，其中执行以下方法步骤：接收语音信息(SD)、相关的识别文本信息(ETI)以及链接信息 (LI)，所述链接信息为识别文本信息(ETI)的每个词标记所述语音信息 (SD)中由所述语音识别装置(1)识别出该词的部分；允许同步重放模式，其中，在所述语音信息(SD)的声音重放期间，识别文本信息(ETI)的词、即链接信息(LI)对应于刚刚重放的语音信息(SD)标记的词被同步地标记，而刚刚标记的词反映了音频光标 (AC)的位置；根据用户输入的编辑信息(EI)利用文本光标(TC)编辑所述错词，可以在所述校对装置(10)中激活的同步重放模式下编辑所述错词。
9：如权利要求8所述的校对方法(16)，其特征在于，根据所述输入的编辑信息(EI)，使所述文本光标(TC)与所述音频光标(AC)同步，或者使所述音频光标(AC)与所述文本光标(TC)同步。
10：如权利要求8所述的校对方法(16)，其特征在于，所述光标 (AC，TC)是通过人工操作至少一个按键而同步的。
11：如权利要求8所述的校对方法(16)，其特征在于，所述文本光标(TC)被定位于所述识别文本信息(ETI)中超前所述音频光标(AC) 预定数目N的词之处。
12：如权利要求11所述的校对方法(16)，其特征在于，所述词的预定数目N是根据用户信息(EI)来设置的。
13：一种用于识别所接收的语音信息(SD)中的文本信息(ETI)的语音识别装置(1)，它包括：接收装置，用于接收语音信息(SD)；语音识别装置(8)，用于识别出识别文本信息(ETI)和为所述接收的语音信息(SD)指定的链接信息(LI)，其中，对应于识别文本信息(ETI)的每个词的链接信息(LI)反映所述语音信息(SD)中被所述语音识别装置(8) 识别的词所对应的部分；以及如权利要求1所述的校对装置(10)，校正包含在所述识别文本信息(ETI)中的错词。
14：一种计算机程序产品，它可以直接装入数字计算机的内存储器，而且包括软件代码部分，若所述产品在计算机上运行，则利用所述计算机执行权利要求8所述的校对方法(16)的步骤。
15：如权利要求14所述的计算机程序产品，其特征在于，它被存储在计算机可读的媒体中。

说明书

编辑期间使音频光标与文本光标同步
    本发明涉及一种校对装置，用于校对由语音识别装置从语音信息中识别的文本信息中的错词。

    本发明还涉及一种校对方法，用于校对由语音识别装置从语音信息中识别的文本信息中的错词。

    本发明还涉及一种语音识别装置，用于从接收的语音信息中识别文本信息。

    本发明还涉及一种计算机程序产品，它包括由计算机执行的字处理软件的校对软件。

    从文件US-A-6173259中已知这样一种校对装置和这样一种校对方法，其形式为抄录服务公司的校对员的计算机执行的字处理软件。校对员是抄录服务公司的雇员，以人工方式校对利用语音识别程序自动识别的文本信息。

    口述的作者可以将他口述的语音信息通过计算机网络发送到已知的抄录服务公司的服务器。服务器将接收到地口述语音信息分发到各个执行语音识别软件并且在此情况中构成语音识别装置的各种计算机。

    已知的语音识别装置从作者发送给它的口述语音信息中识别文本信息，同时还创建链接信息。该链接信息为所识别的文本信息的每个词标明语音信息中语音识别装置为之识别该词的部分。口述的语音信息、已识别的文本信息和链接信息从语音识别装置传送到校对员的计算机，以便校对所识别的文本信息中的错词。

    已知的校对装置包括用来实现同步重放模式的同步重放装置。当校对装置中同步重放模式激活时，口述语音信息被重放，同时，与语音信息的以声音方式重放的每个词同步，语音识别系统从重放的词中识别的词被标记上音频光标。音频光标由此标明刚刚以声音方式重放的词在所识别的文本信息中的位置。

    如果同步重放模式期间，校对员在文本信息中识别出错词，则他会分别中断或去活同步重放模式，通过计算机键盘将文本光标定位于错词处并对其进行编辑。然后，他重新激活同步重放模式，由此语音信息从已校正的词处继续向前重放。

    抄录服务提供商根据校对员在文本信息中校对的词数对其付酬。抄录服务公司的质量控制员对校对员校对的文本信息进行抽样，而校对员遗漏的错词还会影响校对员的报酬。因此，校对员的主要兴趣在于字处理软件，通过该软件，他可以在同步反馈模式激活时用最节省时间和最低可能人工工作量校正他识别出来的错词。因此，校对员会设法使用计算机键盘而不用鼠标来输入校正错词所需的所有编辑信息，因为伸出手去抓鼠标是耗时的。

    在已知的校对装置和已知的校对方法的情况中，校正激活的同步显示模式下校对员识别为错误的词需要校对员一方相对较多的人工操作，而这些校正操作会耗费校对员很多时间，这是不利的。

    本发明的目的是提供一种根据第一段所提及的类型的校对装置，一种根据第二段所提及的类型的校对方法，一种根据第三段所提及的类型的语音识别装置以及根据第四段所提及的类型的计算机程序产品，通过它们避免了上述缺点。

    为了实现上述目的，在这种校对装置中，提供根据本发明的特征，使得该校对装置可以如下方式构成其特征。

    一种校对装置，用于校对由语音识别装置从语音信息中识别的文本信息中的错词，它包括：接收装置，用于接收语音信息、相关的识别文本信息以及链接信息，该链接信息在识别文本信息的每个词处标记语音信息中由语音识别装置识别出词的部分；编辑装置，用于将文本光标定位于识别文本信息的错词处并且根据用户输入的编辑信息编辑该错词；同步重放装置，它允许同步重放模式，其中在以声音方式重放语音信息期间，刚被重放且被链接信息标记的识别文本信息的词被同步地标记，而刚被标记的词反映音频光标的位置；以及光标同步装置，用于使文本光标与音频光标同步或者使音频光标与文本光标同步。

    为了实现上述目的，根据本发明的特征被设想在这种校对方法中，使得该校对方法可以如下方式构成其特征。

    一种校对方法，用于校对由语音识别装置从语音信息中识别的文本信息中的错词，其中执行了以下方法步骤：

    接收语音信息、相关的识别文本信息以及链接信息，该链接信息为识别文本信息的每个词标记语音信息中由语音识别装置识别出该词的部分；

    根据用户输入的编辑信息利用文本光标编辑错词；

    允许同步重放模式，其中，在语音信息的声音重放期间，识别文本信息的词(链接信息为刚刚重放的语音信息标记的词)被同步地标记，而刚刚标记的词反映音频光标的位置；

    使文本光标与音频光标同步或者使音频光标与文本光标同步。

    为了实现上述目的，根据本发明的特征在这种语音识别装置中被设想，使得该语音识别装置可以如下方式构成其特征。

    一种语音识别装置，用于从接收的语音信息中识别文本信息，它包括：接收装置，用于接收语音信息；语音识别装置，用于识别所识别的文本信息和要分配给所接收的语音信息的链接信息，同时关于所识别的文本信息的每个词的链接信息标记语音信息中由语音识别装置识别出的词所在的部分；以及上述校对装置，以便校对所识别的文本信息中含有的错词。

    为了实现上述目的，这种计算机程序产品包括根据本发明的特征，使得该计算机程序产品可以如下方式构成其特征。

    一种计算机程序产品，它可以直接装入数字计算机的内存并且包括软件代码部分，如果所述产品在计算机上运行，则所述计算机执行上述校对方法的步骤。

    由于具有激活的同步重放模式的校对装置的用户通常检查刚刚由同步重放装置用音频光标标记的词以进行校对，所以他每次在音频光标的当前位置附近识别出所识别的文本信息中的错词。此时，文本光标通常位于完全不同的位置，即处于文本信息中校正上一个错词所在的位置。

    根据本发明，用户可以例如通过操作键盘上的按键使文本光标与音频光标同步，使得文本光标定位于同步重放期间最后被高亮显示的词的位置。因为要校正的错词一般位于根据本发明定位的文本光标的附近，所以随后校正错词所涉及的工作量和耗时量会非常少。

    根据本发明，当同步重放模式激活时，文本光标还可以继续且自动地与音频光标同步。这样，可以有利地完全省去为定位文本光标而进行的键盘按键操作。根据应用，它可以有利地使音频光标与文本光标同步，从而使音频光标定位在文本光标的位置上。

    根据权利要求2和权利要求9所述的措施，获得如下优点：不必中断或去活同步重放模式来编辑错词。这样，富有经验的校对员可以有利地节省大量时间。

    根据权利要求3、4和10所述的措施，已经证明以下是有利的：如果用户在识别出错词时，只需按“右箭头”键即可使所识别的文本信息中位于音频光标之前的文本光标与音频光标同步。在本实例中，通过按下“左箭头”键将使音频光标与文本光标同步，从而定位于文本光标的位置。“左箭头”键和“右箭头”键的动态指定特别对用户友好。

    根据权利要求5和11的措施，已经证明以下是有利的：既然由于用户反应时间的原因，在所识别的文本信息中，发现错词通常在音频光标之前N个词处，则在所识别的文本信息中，使文本光标自动定位于音频光标的位置之前N个词处。

    根据权利要求6和12的措施，已经证明，如果用户可以根据他的通常反应时间来调整数量N，则这是有利的。

    根据权利要求7的措施，已经证明，如果当同步重放模式激活时这两个光标自动同步，直到用户分开它们来编辑错词为止，则这是有利的。这样，有利地实现了校正错词的特别简单的操作。

    下面参考图中所示的实施例的实例描述本发明，但这并不表示对本发明的限制。

    图1说明具有用于校对语音识别装置所识别的文本中的错词的校对装置的语音识别装置。

    图2说明一种处理口述内容的方法，同时还执行用于校正语音识别装置所识别的文本中的错词的方法。

    图1表示一种语音识别装置1，它包括用于执行语音识别软件和文本处理软件的计算机。语音识别装置1具有与之连接的麦克风2、键盘3、脚踏开关4、扬声器5和显示屏6。

    语音识别装置1的用户可以口述到麦克风1，由此包含口述语音信息的语音信号SS被传送到语音识别装置1。语音识别装置1包含A/D转换器7，用于将语音信号SS数字化，由此，A/D转换器7将数字语音数据SD传送到语音识别装置8。

    语音识别装置8被设计成识别为接收的语音数据SD指定的文本信息，下文称为识别文本信息ETI。语音识别装置8还被设计成建立链接信息LI，它为识别文本ETI的每个词标记语音数据SD中语音识别装置8识别出该词所在的部分。这种语音识别装置8可见于例如文件US-A-5031113，其公开被认为通过引用结合在本文件的公开之中。

    语音识别装置1还具有存储装置9，用于存储语音识别装置8传送的语音数据SD以及识别文本信息ETI和口述的链接信息LI。如上所述，识别为口述语音信息指定的识别文本信息ETI的语音识别方法早已是众所周知，所以此处不作进一步详细讨论。

    语音识别装置1还具有校对装置10，用于校正识别文本信息ETI的错词。校对装置10包括执行文本编辑软件的计算机，其中文本编辑软件包含了特殊的校对软件。校对装置10包括编辑装置11和同步重放装置12。

    编辑装置11被设计成将文本光标TC定位在识别文本信息ETI的错词处，并根据用户输入的编辑信息EI编辑错词。在此情况中，按照常见方式，由用户使用键盘3的按键输入编辑信息EI。

    同步重放装置12提供语音检测装置1的同步重放模式，其中在以声音方式重放口述的语音信息期间，与刚刚重放的语音信息相关的链接信息LI所标记的识别文本信息ETI的词被同步地标记。还见于文件US-A-5031113的这种已知的同步重放模式非常受语音识别装置的用户欢迎，因为它使错词的校正效率高。

    当语音识别装置1中同步重放模式激活时，其中音频光标AC从识别文本信息ETI的一个词变化到另一个词，以声音方式重放的每个词均准确地被标记。例如，可以如下方式显示光标：对光标位置处表示的字符加下划线或倒置处理，还已知许多其它显示光标的可能方式。

    正如可从监视器6所示的文本信息TI看到的，当同步重放模式激活时，文本光标TC和音频光标AC均是可见的，且文本光标TC通常标记一个字符而音频光标AC总是标记整个词。当同步重放模式激活时，文本光标TC在所显示的文本信息TI中上次使用编辑装置11校正错词的位置保持静止，而音频光标AC逐个词地变动。

    当同步重放模式激活时，同步重放装置12可以读出存储装置9中存储的口述的音频数据AD，并不断地将其传送到D/A转换器13。然后D/A转换器13可以将包含口述的语音信号SS的语音信息SI传送到用于口述的声音重放的扬声器5。

    为了激活同步重放模式，语音识别装置1的用户可以将他的脚放在脚踏开关4的两个开关之一上，由此，控制信息SI被传送到同步重放装置12。然后，同步重放装置12除口述的语音数据SD之外，还读出对应于口述存储在存储媒体9中的链接信息LI。

    当同步重放模式激活时，同步重放装置12被设计成产生音频光标信息ACI并将其传送到编辑装置11。音频光标信息ACI逐个标记刚刚以声音方式重放的词，从而标记音频光标AC应该显示在所显示的文本信息TI中的位置。

    在激活同步重放模式之后，就立即将编辑装置11设计成从存储装置9读出识别文本信息ETI，并临时将其作为要显示的文本信息TI存储。此临时存储的要显示的文本信息TI对应于识别文本信息ETI，用户通过校正错词来校对它，以便最终获得无错文本信息。

    临时存储在编辑装置11中的文本信息TI从编辑装置11传送到图像处理装置14。图像处理装置14处理要显示的文本信息TI并将可呈现的显示信息DI传送到监视器6，其中显示信息DI包含要显示的文本信息TI。编辑装置11还将文本光标信息TCI传送到图像处理装置14，其中文本光标信息TCI标记文本光标TC在所显示的文本信息TI中的位置。当同步重放模式激活时，编辑装置11还将用于显示音频光标AC的音频光标信息ACI传送到图像处理装置14。

    校对装置10的编辑装置11还包括光标同步装置15，用于使文本光标TC与音频光标AC同步或者使音频光标AC与文本光标TC同步。这样，使得用户为校正所识别的错词而进行的文本光标TC的定位明显更加容易，详细情况在下文中用语音识别装置1的应用实例给出。

    编辑装置11还设计成在校对装置10中当同步重放模式激活时定位文本光标TC并由用户编辑识别为错误的词。这样，对校对熟练的用户可以校正错词，而不用先去活同步重放模式，然后在校正之后重新激活它，使得用户可以有利地节省很多时间。下文将通过语音识别装置1的应用实例给出进一步的细节。

    现在利用图2的流程图16来说明语音识别装置1的下列应用实例。根据该应用实例，假定一位医生正在试用新的语音识别装置，并将“THIS IS A TEXT THAT...ERRORS WITHIN THIS TEXT HAVETO THE CORRECTED WITH A TEXT EDITOR”口述到麦克风2中，此后在方框17，口述的数字语音数据SD被传送到语音识别装置8。在方框18，语音识别装置8识别出相关的识别文本信息ETI和链接信息LI，并在方框19将其存储在存储装置9。因为该医生没有对口述的某些词清晰地发音，所以语音识别装置8将词“IS”识别成词“MISS”，以及将词“TEXT”识别成“PEST”。

    此后，在方框20，医生的秘书激活语音识别装置1的同步重放模式，以便校正识别文本信息的错词。然后编辑装置11从存储装置9中读出识别文本信息ETI，而同步重放装置12读出口述的语音数据SD和链接信息LI。文本信息TI通过监视器6显示，而且开始口述的声音重放，由此音频光标AC从“THIS”这个词开始，逐个单词地标记口述。

    秘书立即识别出词“MISS”是错词，并使用键盘3输入相应的输入信息EI来校正它。校正词“MISS”之后，文本光标TC停留在词“IS”中字符“I”的位置，而音频光标AC继续逐个词地标记文本信息TI。在音频光标AC标记到词“PEST”时，在方框21，秘书识别出这个词是错词，并在方框22按键盘上的“Alt+右箭头”组合键。结果，同步信息SIY被发送到编辑装置11，使文本光标TC与音频光标AC同步。结果，文本光标TC被定位于错词“PEST”的第一个字母“P”处，而在方框23，秘书可立即开始校正错词。

    这种方法的优点在于，秘书不必经过数次“箭头”键的按键操作、以便将文本光标TC定位于错词的位置，这会非常节省时间。同样，为了定位文本光标TC，秘书不必伸手去拿图1中未示出的计算机鼠标，这也会节省时间。

    在校正错词“PEST”期间，同步重放模式一直是激活的，因为校正此词期间秘书已经有足够经验来跟随口述的最后一些词的继续同步重放。仅在口述结束时，在方框24，秘书通过操作脚踏开关4的第二开关来去活同步重放模式。流程图16的方框19至24说明了在此情况下的校对过程。

    因为秘书还可以在同步重放模式激活时进行错词“MISS”和“PEST”的校正，所以她不用多次操作脚踏开关，并且能够明显更快地完成她的工作，这是很大的优点。

    可以看到，通过按下键组合“ALT+右箭头”，任何一个相对于另一个光标而言更靠近文本信息TI开头的光标将与这另一个光标同步。此外，通过按下键组合“ALT+左箭头”，相对于另一个光标而言更靠近文本信息TI结尾的光标将与这另一个光标同步。

    已经证明，这种键组合的功能的动态分配特别对用户友好。显然例如“Ctrl”键或“Alt Gr”键可以替代“Alt”键用于键组合中。另外，在激活的同步重放模式中，可以免除任何键组合，而只将“左箭头”键和“右箭头”键与动态分配结合使用。

    可以看到，还可以通过操作脚踏开关或计算机鼠标来使光标同步。同样，可以使文本光标TC持续和自动地与音频光标AC同步，以便在输入编辑信息EI时，音频光标AC的当前位置也会与文本光标TC的位置相同。

    可以看到，根据应用，使音频光标AC与文本光标TC同步也可能是有利的，使得音频光标AC被定位于文本光标TC的位置。口述的同步重放则会从文本光标的位置继续进行，从而可以容易地重复口述重放的部分。

    可以看到，同步之后的这两个光标不一定需要位于同一位置。所以，例如，任何一个光标可以位于另一个光标之前N＝3个词处。由此，用户可以平衡其识别错词的反应时间，使得在同步之后，将文本光标TC分别定位于音频光标AC之前3个词处。反应快的用户可以选择N＝1而反应慢的用户可以选择N＝10，使得同步之后，文本光标TC总是已经定位于错词上，这是相当有利的。

    此外，在同步重放模式下与音频光标AC按N个词的移位相配对的文本光标TC可以持续地显示，使得识别出错词之后，通常反应较慢的用户仍能用与文本光标TC直接定位于错词上的时间相同的时间输入编辑信息EI。这也使错词的校正非常有效率。

    可以看出，本发明的校对装置对于花费其大部分工作时间来校对识别文本信息ETI并因而对此很熟练的用户来说是特别有利的。这种用户被雇为抄录服务公司的所谓的校对员等，例如文件US-A-6173259中所述，其公开被认为通过引用结合于本文件的公开中。

    应该提及的是，根据本发明的校对装置主要是文本编辑器程序的一部分，但是并非一定如此。

    应该提及的是，同步重放模式可以通过输入同步数据SYI自动地中断，并在输入编辑数据EI之后继续。对于不熟悉校对装置的用户来说，这种变型特别有用，因为他们就不必与进行校正并行地搜索已转换的文本信息ETI中的下一个错词。

    可以看出，如果计算机1不包括再现口述内容所需的硬件，则计算机1可能不具有在同步重放期间再现口述内容的功能。在这种情况中，同步重放期间，存储口述的语音数据的数字口述装置可以声音形式再现口述的音频，此外还可以将位置信息提供给计算机。该位置信息标记音频重放的实际再现位置，该计算机可以根据位置信息标记相应的识别出的词。