语音文本同步播放方法与装置.pdf

摘要
申请专利号：	CN02121930.3	申请日：	2002.05.27
公开号：	CN1379345A	公开日：	2002.11.13
当前法律状态：	终止	有效性：	无权
法律详情：	专利权的终止(未缴年费专利权终止)授权公告日：2004.9.22\|\|\|授权\|\|\|实质审查的生效\|\|\|公开\|\|\|实质审查的生效
IPC分类号：	G06F17/00; G11B15/18	主分类号：	G06F17/00; G11B15/18
申请人：	北京南山高科技有限公司;
发明人：	张向东; 李全在; 柴云霞; 韩玲
地址：	100086北京市中关村南大街2号数码大厦A座22层
优先权：
专利代理机构：	北京三友知识产权代理有限公司	代理人：	陈红
PDF下载：	PDF下载

内容摘要

本发明为一种语音文本同步播放方法与装置,该方法包括下列步骤:开始同步播放之前,显示装置上显示文本查询提示界面;使用者输入文本信息,若此文本不存在,则查询结束;若此文本储存于文本资料表中,则取得文本于文本资料表中的具体资料及语音名称;接着利用语音名称对应至语音指示表取得该语音于语音数据库的起始地址;再由语音数据库取得该语音文件,执行同步播放程序;查询结束;该装置包括:中央处理器,;存储器,存储同步语音文本文件,该存储器中包括文本资料表,语音指示表,以及语音数据库;显示装置;播放装置;及输入装置;本发明将文本和语音相结合,使文本看起来不那么枯燥,语音听起来不那么难懂,使二者有机结合,达到了更好的学习效果。

权利要求书

1：一种语音文本同步播放方法，其特征是：该方法包括下列步骤：开始同步播放之前，显示装置(150)上将会显示文本查询提示界面；使用者输入文本的有关信息，若此文本不存在，则查询结束；若此文本储存于文本资料表中，则取得文本于文本资料表(131)中的具体资料及语音的名称(220)；接着利用语音的名称(220)对应至语音指示表中语音名称(240)取得该语音在语音数据库的起始地址(250)；再由语音数据库(133)取得该语音文件；执行同步播放程序；查询结束。
2：如权利要求1所述的语音文本同步播放方法，其特征是：其中同步播放程序包括下列步骤： (a).中央处理器从存储器中取得语音文本同步文件，该文件的文本包含N个词，语音的时间长度为T； (b).将语音文件送入播放装置并开始播放，时间变量t的计时也同步开始，将初始时刻置0，即t＝0，并将当前播放词号W current 置为1，即 W current ＝1； (c).再将文本资料送入显示装置，在屏幕上显示对应文本并记录起止词的号码W S ，W E ； (d).判断该段语音是否播完，即判断是否t≥T？ (e).若t≥T，则同步播放结束； (f).若t＜T，则中央处理器从语音指示表的单词放音开始时刻表中取得下一单词的开始放音时刻，即StartTime(W current+1 )； (g).判断时间t是否超过下一词的开始时刻？若t≥ StartTime(W current +1)，则当前词增一； (h).若t＜StartTime(Wcurrent+1)，则进行步骤(j)； (I).判断当前词是否超过屏幕范围？若是，即W current ＞W E ，则显示下一屏的对应文本并更新起止词号码W S ，W E ；若否，即W current ≤W E 则直接进行步骤(j)； (j).将当前时刻t增一，回到(d)继续循环，直到同步播放结束。
3：如权利要求2所述的语音文本同步播放方法，其特征是：步骤(c) 中在屏幕上显示的对应文本为整屏显示，其中，W S 为该屏文本的第一个字符，而W E 为该屏文本的最后一个字符；
4：如权利要求2所述的语音文本同步播放方法，其特征是：步骤(c) 中在屏幕上显示的对应文本为从屏幕中间行开始显示，其中，W S 为该行文本的第一个字符，而W E 为该行文本的最后一个字符。
5：如权利要求3或4所述的语音文本同步播放方法，其特征是：步骤(c)中在屏幕上显示对应文本的同时当前播放字符加亮。
6：如权利要求3或4所述的语音文本同步播放方法，其特征是：步骤(c)中在屏幕上显示对应文本的同时当前播放字符加下划线。
7：如权利要求3或4所述的语音文本同步播放方法，其特征是：步骤(c)中在屏幕上显示对应文本的同时当前播放字符加上与文本内容不同的颜色。
8：可实现如权利要求1所述方法的一种语音文本同步播放装置，其特征是：该装置包括：中央处理器(120)，读取同步语音文本文件，将文本资料送至显示装置进行显示，同时将语音文件送至播放装置进行播放；存储器(130)，与中央处理器相连接，存储同步语音文本文件，该存储器中包括文本资料表(131)，语音指示表(132)，以及语音数据库(133)；显示装置(150)，与中央处理器相连接，接受中央处理器传来的文本，并进行显示；播放装置(140)，与中央处理器相连接，接受中央处理器传来的语音信号，并进行播放；输入装置(110)，与中央处理器相连接，由该输入装置(110)输入文本信息或进入查询界面查询文本信息。
9：如权利要求8所述的语音文本同步播放装置，其特征是：该文本资料表(131)存储文本信息，该文本信息包括文本的名称栏位(210)、语音的名称栏位(220)和语音资料栏位(230)；其中语音资料栏位(230) 包括语音所包含的单词总数N、播放时间T。
10：如权利要求8所述的语音文本同步播放装置，其特征是：该语音指示表(132)中包含两层存储结构：语段地址指示表(132a)、及单词开始放音时刻表(132b)；其中：该语段地址指示表(132a)存储语音名称栏位(240)及语音起始地址栏位(250)，该语音起始地址栏位(250)与此语音在语音数据库(133) 中的地址相对应，中央处理器(120)自该语段地址指示表(132a)取得对应文本的语音起始地址，并根据此起始地址取得语音数据库(133)中对应的语音文件；该单词放音开始时刻表(132b)中存储单词栏位(260)和单词在播放过程中的起始时间栏位(270)，中央处理器(120)自该单词放音开始时刻表(132b)取得单词的放音开始时刻，并将其作为偏移量而得到每个单词的地址。
11：如权利要求8所述的语音文本同步播放装置，其特征是：该输入装置(110)为键盘、鼠标、或手写板。
12：如权利要求8所述的语音文本同步播放装置，其特征是：该播放装置(140)为扬声器或耳机。
13：如权利要求8所述的语音文本同步播放装置，其特征是：该显示装置(150)为LED，LCD，或CRT。

说明书

语音文本同步播放方法与装置
    【技术领域】

    本发明涉及语音播放技术领域，尤其是一种语音文本同步播放方法与装置。

    背景技术

    随着对外交流和信息交换的日益频繁，外语学习已经越来越受到人们的重视，与外语学习相关的网站和产品近几年更是层出不穷，目前市场上有MP3机、复读机等学习工具。利用MP3机所具备的下载及放音功能，用户可以在线下载所需的语音文件，并随时收听机内所存储的语音文件。一般复读机的复读方法包括数据输入和语音播放，前者由录音装置将语音信号转换为数据并存放在内存中，后者由控制器从内存中取出语音数据送语音芯片，播放先前录制的语音。

    然而上述已有的方式还存在缺点，复读机只能播放单一的语音文件，无法显示文本内容，如申请号为98101360.0的专利“电脑语音复读机及其复读方法”，就只能播放语音而不能提供屏幕显示。MP3只是存储格式不一样，也存在以上问题，这往往给学习者带来不便。

    【发明内容】

    因此，为了改善上述缺点，本发明的目的是提供一种语音和对应文本同步播放技术的装置，此类装置将播放语音和显示文本同时进行，并以高级的语音识别技术为基础，根据播放的语音文件的进度，将文本的对应部分显示的与其它部分不同。

    此外，本发明的另一目的是提供一种语音和对应文本同步技术的方法，与现有技术地单一文件不同，本发明是一种将文本和语音结合并相互对应的复合文件。

    为实现上述目的，根据本发明的一种语音文本同步播放方法，包括下列步骤：开始同步播放之前，显示装置上显示文本查询提示界面；使用者输入文本信息，若此文本不存在，则查询结束；若此文本储存于文本资料表中，则取得文本于文本资料表中的具体资料及语音名称；接着利用语音名称对应至语音指示表取得该语音于语音数据库的起始地址；再由语音数据库取得该语音文件，执行同步播放程序；查询结束。

    其中同步播放程序包括下列步骤：

    (a).中央处理器从存储器中取得语音文本同步文件，该文件的文本包含N个词，语音的时间长度为T；

    (b).将语音文件送入播放装置并开始播放，计时也同步开始，将初始时刻置0，即t＝0，并将当前播放词号Wcurrent置为1，即Wcurrent＝1；

    (c).再将文本资料送入显示装置，在屏幕上显示对应文本并记录起止词的号码WS，WE；

    (d).判断该段语音是否播完，即判断是否t≥T？

    (e).若t≥T，则同步播放结束；

    (f).若t＜T，则中央处理器从语音指示表的单词放音开始时刻表中取得下一单词的开始放音时刻，即StartTime(Wcurrent+1)；

    (g).判断时间t是否超过下一词的开始时刻？若t≥StartTime(Wcurrent+1)，则当前词增一；

    (h).若t＜StartTime(Wcurrent+1)，则将当前时刻增一，回到(d)继续循环；

    (I).判断当前词是否超过屏幕范围？若是，即Wcurrent＞WE，则显示下一屏的对应文本并更新起止词号码WS，WE；若否，即Wcurrent≤WE则直接进行步骤(j)；

    (j).将当前时刻t增一继续循环，回到(d)，直到同步播放结束。

    上述方法中的改进之一是：步骤(c)中在屏幕上显示的对应文本为整屏显示，其中，WS为该屏文本的第一个字符，而WE为该屏文本的最后一个字符；

    上述方法中的改进之二是：步骤(c)中在屏幕上显示的对应文本为从屏幕中间行开始显示，其中，WS为该行文本的第一个字符，而WE为该行文本的最后一个字符。

    上述方法中的改进之三是：步骤(c)中在屏幕上显示对应文本的同时当前播放字符加亮。

    上述方法中的改进之四是：步骤(c)中在屏幕上显示对应文本的同时当前播放字符加下划线。

    上述方法中的改进之五是：步骤(c)中在屏幕上显示对应文本的同时当前播放字符加上与文本内容不同的颜色。

    此外，本发明还提供一种语音文本同步播放装置，包括：中央处理器，读取同步语音文本文件，将文本资料送至显示装置进行显示，同时将语音文件送至播放装置进行播放；存储器，与中央处理器相连接，存储同步语音文本文件，该存储器中包括文本资料表，语音指示表，以及语音数据库；显示装置，与中央处理器相连接，接受中央处理器传来的文本，并进行显示；播放装置，与中央处理器相连接，接受中央处理器传来的语音信号，并进行播放；输入装置，与中央处理器相连接，由该输入装置输入文本信息或进入查询界面查询文本信息。

    上述文本资料表存储文本信息，该文本信息包括文本的名称栏位、语音的名称栏位和语音资料栏位；其中语音资料栏位包括语音所包含的单词总数N、播放时间T。

    上述语音指示表中包含两层存储结构：语段地址指示表、及单词开始放音时刻表；其中：该语段地址指示表存储语音名称栏位及语音起始地址栏位，该语音起始地址栏位与此语音在语音数据库中的地址相对应，中央处理器自该语段地址指示表取得对应文本的语音起始地址，并根据此起始地址取得语音数据库中对应的语音文件；该单词放音开始时刻表中存储单词栏位和单词在播放过程中的起始时间栏位，中央处理器自该单词放音开始时刻表取得单词的放音开始时刻，并将其作为偏移量而得到每个单词的地址。

    上述方案中的输入装置为键盘、鼠标、或手写板等。播放装置为扬声器或耳机。显示装置为LED，LCD，或CRT等。

    本发明的效果非常明显：本发明是将文本和语音相结合并相互对应的复合文件，可使文本看起来不那么枯燥，语音听起来不那么难懂，使二者有机结合，达到更好的学习效果。

    另外，本发明为提供多样化的同步方式，设计了多种不同的实施例，如：句段语音文本同步翻动，即若当前播放词若在屏幕上，则不滚动屏幕，若不在则滚动屏幕使当前播放词显示在屏幕上；当前播放词所在行始终显示在屏幕中央行，即正播放语音所对应词若在屏幕中间行，则不滚动屏幕，如不在则滚动屏幕使当前播放词所在行显示在屏幕中间行；当前播放词高亮度，即用加亮的方式标出正在读的位置；当前播放词加下划线，即用下划线标出正在读的位置。当前播放词加颜色，即用醒目的颜色标出正在读的位置。利用本发明所提供的此项功能可强化学习效果，达到事半功倍的目的。

    【附图说明】

    图1显示了关于本发明装置的系统结构示意图；

    图2a，图2b和2c分别显示了本发明中存储器的文本资料表，语段地址指示表和单词放音开始时刻表的内部资料结构示意图；

    图3所示为根据本发明方法中执行语音文本同步功能的流程图；

    图4显示了关于本发明装置的中央处理器对应满屏显示的工作流程图；

    图5显示了关于本发明装置的中央处理器对应当前播放词所在行自动滚动到屏幕中央的工作流程图；

    图6显示了关于本发明装置的中央处理器对应当前播放词加亮的工作流程图；

    图7显示了关于本发明装置的中央处理器对应当前播放词加下划线的工作流程图；

    图8显示了关于本发明装置的中央处理器对应当前播放词加颜色的工作流程图。

    【具体实施方式】

    为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合附图，作详细说明如下。

    图1所示为关于本发明装置的系统结构示意图。其内部结构包括输入装置110，中央处理器120，存储器130，播放装置140以及显示装置150。

    如图1所示，由输入装置110输入文本信息或进入查询界面查询文本信息，此信息经由中央处理器120加以处理，取得存储在存储器130数据库中的对应资料，然后将语音文件送至播放装置140播放，将文本资料送至显示装置150显示。在本实施例中，该输入装置110可以是键盘、鼠标、手写板等。而该播放装置140可以是扬声器或耳机；该显示装置150可以是LED，LCD，或CRT等。

    在上述存储器130中还包括文本资料表131，语音指示表132，和语音数据库133。存储器的资料存取都经由中央处理器120操控。读取数据时，中央处理器120发出控制信号，先由文本资料表131中获得文本和语音的基本信息，再由语音指示表132获得文本所对应语音的地址，然后根据此地址，获得存储于语音数据库133的语音文件，最后中央处理器120将得到的语音文本文件协同的送入显示装置150和播放装置140同步播放。

    在上述语音指示表132中，还包括语段地址指示表132a和单词放音开始时刻表132b两层存储结构。由语段地址指示表132a，中央处理器120可以得到语段的起始地址，再由单词放音开始时刻表132b，将单词的放音开始时刻作为偏移量可以得到每个单词的地址。

    图2a，图2b与2c分别为图1存储器130中文本资料表131，语段地址指示表132a和单词放音开始时刻表132b内部资料结构示意图。在图2a中，文本资料表131用以存储文本信息，其中包括文本的名称栏位210、语音的名称栏位220和语音资料栏位230；其中语音资料包括语音所包含的单词总数N、播放时间T等。语音指示表132包含两层存储结构，图2b所示为语段地址指示表132a(内部资料结构)，图2c所示为单词开始放音时刻表132b(内部资料结构)。如图2b所示，图2a中语音的名称栏位220对应至语段地址指示表132a的语音的名称栏位240。语段地址指示表132a存储语音的名称栏位240及语音在语音数据库中的起始地址栏位250。利用语段地址指示表132a，中央处理器120得到语段的起始地址，根据此地址取得语音数据库133中对应的语音文件，经由图1中的播放装置140播放该语音文件。如图2c所示，单词放音开始时刻表132b中存储了单词栏位260和单词在播放过程中的起始时间栏位270。同步放音过程中，利用单词放音开始时刻表，中央处理器可取得对应单词260和单词在播放过程中的起始时间栏位(270)，时间变量t与开始放音时间相比较，用以将当前播放词送入显示装置150显示，并判断语音播放的位置，语段是否播完，或是否需要滚动屏幕。此过程在后面的流程图中将作详细解释。

    图3显示了根据本发明方法中执行语音文本同步功能的流程图。开始同步播放之前，显示装置150上将会显示文本查询提示界面。使用者输入文本的有关信息，若此文本不存在，则查询结束；若此文本储存于文本资料表(131)中，则取得文本于文本资料表131中的具体资料及语音的名称220。接着利用语音的名称220对应至语音指示表中语音的名称240取得该语音在语音数据库的起始地址250。再由语音数据库133取得该语音文件，执行同步播放程序，查询结束。

    图4显示了关于本发明装置的中央处理器对应满屏显示的工作流程图。当同步播放开始，中央处理器从存储器中取得语音文本同步文件，该文件的文本包含N个词，语音的时间长度为T，一种较佳实施例其时间长度T的单位为1/100秒，这样既比较精确，搜索速度也比较快。接着将语音文件送入播放装置，开始播放，计时t也同步开始，将初始时刻置0即t＝0，并将当前播放词号Wcurrent置为1。再将文本资料送入显示装置，在屏幕上显示一屏对应文本并记录起止词的号码Ws，We。此时系统会研判该段语音是否播完，即判断t是否大于等于播放时间T。若大于等于T就说明该段语音已播完，则同步播放结束；若小于T则继续执行同步播放文件。中央处理器从语音指示表的单词放音开始时刻表中取得下一单词的开始放音时刻，即StartTime(Wcurrent+1)，在此流程中不断检测时间t，若时间t没超过下一词的开始时刻，即t＜StartTime(Wcurrent+1)，则将当前时刻增一，返回研判该段语音是否播完处继续循环；若时间t超过下一词的开始时刻，即t＞＝StartTime(Wcurrent+1)，则当前词增一，若当前词超过屏幕范围，则显示下一屏词并更新起止词号码纪录，然后将当前时刻t增一，返回研判该段语音是否播完处继续循环，直到同步放音结束。

    图5显示了关于本发明装置的中央处理器对应当前播放词所在行自动滚动到屏幕中央的工作流程图。此实施例的流程与满屏显示的流程基本相同，只是将当前播放词显示在屏幕中间行，将刚读过的显示在上一行，即将读的显示在下一行，以这样的方式显示对于巩固和预习有很大的方便。如图5所示，当同步播放开始，从存储器中取得语音文本同步文件，接着将语音文件送入播放装置，开始播放计时也同步开始，将初始时刻置0即t＝0，并将当前播放词号Wcurrent置为1。再将文本资料送入显示装置，在屏幕中间行显示一行对应文本并记录起止词的号码Ws，We。此时系统会研判该段语音是否播完，即判断t是否大于等于播放时间T。若大于等于T就说明该段语音已播完，则同步播放结束；若小于T则继续执行同步播放文件。中央处理器从单词放音开始时刻表中取得下一单词的开始放音时刻，即S tartTime(Wcurrent+1)，在此流程中不断检测时间t，若时间t没超过下一词的开始时刻，则将当前时刻增一，返回研判该段语音是否播完处继续循环；若时间t超过下一词的开始时刻，则当前词增一，若当前词超过中间行显示范围，则滚动屏幕将再读词行显示在屏幕中间并更新起止词号码纪录，然后将当前时刻t增一，返回研判该段语音是否播完处继续循环；直到同步放音结束。

    图6显示了关于本发明装置的中央处理器对应当前播放词加亮的工作流程图。如图6所示，从存储器中取得语音文本同步文件。接着将语音文件送入播放装置，开始播放计时也同步开始。再将文本资料送入显示装置，在屏幕上显示一屏对应文本，将第一个字加亮并记录起始词的号码Ws，We。此时系统会研判该段语音是否播完，即判断t是否大于播放时间T。若大于等于T就说明该段语音已播完，则同步播放结束；若小于T则继续执行同步播放文件。中央处理器从单词放音开始时刻表中取得下一单词的开始放音时刻，即StartTime(Wcurrent+1)，在此流程中不断检测时间t，若时间t没超过下一词的开始时刻，则将当前时刻增一，返回研判该段语音是否播完处继续循环；若时间t超过下一词的开始时刻，则当前词增一并加亮，若当前词超过屏幕范围，则显示下一屏词并更新起止词号码纪录，然后将当前时刻t增一，返回研判该段语音是否播完处继续循环，直到同步放音结束。

    图7显示了关于本发明装置的中央处理器对应当前播放词加下划线的工作流程图。如图7所示，从存储器中取得语音文本同步文件，接着将语音文件送入播放装置，开始播放计时也同步开始。再将文本资料送入显示装置，在屏幕上显示一屏对应文本，将第一个字加下划线并记录起始词的号码Ws，We。此时系统会研判该段语音是否播完，即判断t是否大于播放时间T。若大于等于T就说明该段语音已播完，则同步播放结束；若小于T则继续执行同步播放文件。中央处理器从单词放音开始时刻表中取得下一单词的开始放音时刻，即StartTime(Wcurrent+1)，在此流程中不断检测时间t，若时间t没超过下一词的开始时刻，则将当前时刻增一，返回研判该段语音是否播完处继续循环；若时间t超过下一词的开始时刻，则当前词增一并加下划线，若当前词超过屏幕范围，则显示下一屏词并更新起止词号码纪录，然后将当前时刻t增一，返回研判该段语音是否播完处继续循环，直到同步放音结束。

    图8显示了关于本发明装置的中央处理器对应当前播放词加颜色的工作流程图。如图8所示，从存储器中取得语音文本同步文件，接着将语音文件送入播放装置，开始播放计时也同步开始。再将文本资料送入显示装置，在屏幕上显示一屏对应文本，将第一个字加颜色并记录起始词的号码Ws，We。此时系统会研判该段语音是否播完，即判断t是否大于播放时间T。若大于等于T就说明该段语音已播完，则同步播放结束；若小于T则继续执行同步播放文件。中央处理器从单词放音开始时刻表中取得下一单词的开始放音时刻，即StartTime(Wcurrent+1)，在此流程中不断检测时间t，若时间t没超过下一词的开始时刻，则将当前时刻增一，返回研判该段语音是否播完处继续循环；若时间t超过下一词的开始时刻，则当前词增一并加颜色，若当前词超过屏幕范围，则显示下一屏词并更新起止词号码纪录，然后将当前时刻t增一，返回研判该段语音是否播完处继续循环，直到同步放音结束。

    需要说明的是，上述的图4、5、6、7、8所示，分别为本发明的语音文本同步播放方法的实施例，它们之间也可进行结合构成新的实施例，如当前播放词加下划线，可以与满屏显示的实施例相结合，即满屏显示时当前播放词加下划线，另外也可在中间行显示时加下划线；或者是又加下划线又加色、加亮等等，在此不一一赘述。

    另外，因字符加亮、加下划线、或加上与文本内容不同的颜色，其方法均属于现有技术内容，在此不再赘述。

    虽然本发明已用较佳实施例揭示如上，然其并非用以限定本发明，任何熟悉此技术者，在不脱离本发明的精神和范围内，当可作更动与润饰，因此本发明的保护范围当由所附权利要求书来限定。