在移动终端中记录和播放用户语音的方法和装置.pdf

摘要
申请专利号：	CN201310278241.8	申请日：	2013.07.04
公开号：	CN103533155A	公开日：	2014.01.22
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):H04M 1/725申请日:20130704\|\|\|公开
IPC分类号：	H04M1/725; G06F3/041	主分类号：	H04M1/725
申请人：	三星电子株式会社
发明人：	睦智恩; 郭炳熏
地址：	韩国京畿道
优先权：	2012.07.06 KR 10-2012-0073581
专利代理机构：	中科专利商标代理有限责任公司 11021	代理人：	王波波
PDF下载：	PDF下载

内容摘要

本发明提供了一种用于在移动终端中记录和播放用户语音的方法和装置。所述用于在移动终端中记录和存储用户语音的方法包括：通过运行电子书进入页面；识别是否存在与所述页面相关的用户语音记录文件；如果不存在用户语音记录文件，则通过将包括在所述页面中的文本记录为用户语音来产生与所述页面相关的用户语音记录文件；以及如果存在用户语音记录文件，则通过将存储在用户语音记录文件中的用户语音与所述文本同步来进行播放。因此，当记录电子书的特定页面时，可以记录与页面的文本相对应的用户语音，并且通过将所述用户语音与文本相同步，可以加亮与正在播放的用户语音相对应的文本。

权利要求书

1.  一种用于在移动终端中记录和播放用户语音的方法，所述方法包括：
通过运行电子书进入页面；
识别是否存在与所述页面相关的用户语音记录文件；
如果不存在用户语音记录文件，则通过将包括在所述页面中的文本记录为用户语音来产生与所述页面相关的用户语音记录文件；以及
如果存在用户语音记录文件，则通过将存储在用户语音记录文件中的用户语音与所述文本同步来进行播放。

2.  根据权利要求1所述的方法，其中产生用户语音记录文件包括：将包括在所述页面中的文本记录为用户语音和同步文件，所述同步文件包括与用户语音记录文件的每一个时间段相对应的文本位置信息。

3.  根据权利要求1所述的方法，其中产生用户语音记录文件还包括：
如果接收到文本的记录命令，则识别是否检测到与文本位置相对应的触摸输入；以及
如果在预定的时间段内没有检测到触摸输入，则开始记录用户语音。

4.  根据权利要求3所述的方法，还包括：如果检测到与文本位置相对应的触摸输入，将由触摸输入检测到的文本位置设置为开始记录用户语音的初始位置。

5.  根据权利要求1所述的方法，其中产生用户语音记录文件还包括：
通过音素将输入的用户语音分类；以及
产生并存储由音素分类的音素语音文件。

6.  根据权利要求5所述的方法，还包括：
如果完成记录与页面相关的用户语音，则将音素语音文件和电子书中包括的所有文本进行比较；
识别是否能够通过使用音素语音文件来自动完成对于没有存储用户语音记录文件的其余页面中包括的文本的记录；以及
如果能够自动完成记录，则向用户通知能够自动完成记录。

7.  根据权利要求6所述的方法，还包括：当执行自动记录命令时，通过使用音素语音文件，将没有存储用户语音记录文件的其余页面中的文本转换为用户语音。

8.  根据权利要求1所述的方法，其中所述播放包括加亮与存储在用户语音记录文件中的用户语音相对应的文本。

9.  根据权利要求1所述的方法，其中所述播放还包括：
如果接收到播放命令，则识别是否存在与用户语音记录文件有关的同步文件；
如果存在同步文件，则识别包括在所述同步文件中的与用户语音记录文件的每一个时间段相对应的文本位置信息；以及
根据识别的结果，通过将记录在用户语音记录文件中的用户语音与所述文本相同步来进行播放。

10.  根据权利要求9所述的方法，还包括：
如果不存在同步文件，则将记录在与所述页面有关的用户语音记录文件中的用户语音转换为文本；以及
通过将转换的文本与包括在所述页面中的文本相同步来进行播放。

11.  一种用于在移动终端中记录和播放用户语音的装置，所述装置包括：
输入单元，用于接收用户输入；
显示单元，用于显示包括在电子书中的文本；以及
控制单元，用于当进入电子书的页面时进行控制，以识别是否存在与所述页面有关的用户语音记录文件；如果不存在用户语音记录文件，则通过将包括在页面中的文本记录为用户语音来产生用户语音记录文件；并且如果存在用户语音记录文件，则通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。

12.  根据权利要求11所述的装置，其中控制单元进行控制，通过将包括在所述页面中的文本记录为用户语音和同步文件来产生用户语音记录文件，所述同步文件包括与用户语音记录文件的每一个时间段相对应的文本位置信息。

13.  根据权利要求11所述的装置，其中如果接收到对文本的记录命令，则控制单元进行控制以识别是否检测到与文本位置相对应的触摸输入，如果在预定的时间段内没有检测到触摸输入，则开始记录用户语音。

14.  根据权利要求13所述的装置，其中如果检测到与文本位置相对应的触摸输入，则控制单元进行控制，以便将由触摸输入检测到的文本位置设置为开始记录用户语音的初始位置。

15.  根据权利要求11所述的装置，其中控制单元进行控制，以便通过音素将输入的用户语音分类，以及产生并存储由音素分类的音素语音文件。

16.  根据权利要求15所述的装置，其中如果完成记录与页面相关的用户语音，则控制单元进行控制，以便将所述音素语音文件和电子书包括中的所有文本进行比较；识别是否能够通过使用音素语音文件来自动完成对于没有存储用户语音记录文件的其余页面中包括的文本的记录；以及如果能够自动完成记录，则向用户通知用户能够自动完成记录。

17.  根据权利要求16所述的装置，其中当执行自动记录命令时，控制单元进行控制，以便通过使用音素语音文件，将没有存储用户语音记录文件的其余页面中包括的文本转换为用户语音。

18.  根据权利要求11所述的装置，其中控制单元进行控制以加亮与存储在用户语音记录文件中的用户语音相对应的文本。

19.  根据权利要求11所述的装置，其中如果接收到播放命令，则控制单元进行控制以识别是否存在与用户语音记录文件有关的同步文件；如果存在同步文件，则识别包括在所述同步文件中的与用户语音记录文件的每一个时间段相对应的文本位置信息；以及根据识别的结果，通过将记录在用户语音记录文件中的用户语音与所述文本相同步来进行播放。

20.  根据权利要求19所述的装置，其中如果不存在同步文件，则控制单元进行控制，以将记录在与所述页面有关的用户语音记录文件中的用户语音转换为文本；以及通过将转换的文本与包括在所述页面中的文本相同步来进行播放。

21.  一种存储指令的非暂时性计算机可读存储介质，当执行所述指令时，使至少一个处理器执行权利要求1所述的方法。

说明书

在移动终端中记录和播放用户语音的方法和装置
技术领域
本发明涉及一种用于在移动终端中记录和播放语音的方法和装置。更具体地，本发明涉及一种方法和装置，用于当记录电子书的特定页面时，记录与页面的文本相对应的语音，并通过将语音和文本相同步来加亮(highlight)与正在播放的语音相对应的文本。
背景技术
随着通信技术的进步，移动终端正发展为提供多种可选服务(例如，电子记事本、游戏、日程安排管理等)的多媒体设备。随着目前提供的多种可选服务，用户界面对于方便地使用并管理上述多种可选服务而言是至关重要的。
图1示出了根据现有技术采用语音记录包括在电子书的特定页面中的文本以及播放所记录的语音。
如图1所示，电子书(e-book)提供了将配置在电子书的特定页面中内容(即，文本)记录为语音并播放所述语音的功能。为此，用户通过选择电子书的特定页面中的记录命令来输入其语音，并通过选择播放命令来播放记录在相应页面中的语音。
然而，在现有技术中，必须保存整个电子书以便记录用户的语音，因此如果电子书的数据量很大，则需要大量的时间和劳力。
此外，由于所记录的语音与电子书的文本并不同步，现有技术难以直观地识别当前正在播放哪个词语方面。
因此，需要一种改进的装置和方法，用于当记录电子书的特定页面时记录与该页面的文本相对应的语音，并通过将语音和文本相同步来加亮与正在播放的语音相对应的文本。
以上信息作为背景信息提供，仅帮助本公开的理解。对于上述任何内容是否可作为关于本发明的现有技术没有任何判定也没有任何断言。
发明内容
本发明的方面在于解决至少上述问题和/或缺点并提供至少下述优点。因此，本发明的一个方面是提供一种方法和装置，当记录电子书的特定页面时，记录与该页面的文本相对应的用户语音，并通过将用户语音和所述文本相同步来加亮与正在播放的用户语音相对应的文本。
按照本发明的一个方面，提供了一种用于记录和播放用户语音的方法。所述方法包括：通过运行电子书进入页面；识别是否存在与所述页面相关的用户语音记录文件；如果不存在用户语音记录文件，则通过将包括在页面中的文本记录为用户语音来产生与所述页面相关的用户语音记录文件；并且如果用户语音记录文件存在，则通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
按照本发明的另一方面，提供一种用于记录和播放用户语音的装置。所述装置包括：用于接收用户输入的输入单元；用于显示包括在电子书中的文本的显示单元；以及控制单元，用于当进入电子书的页面时进行控制，以识别是否存在与所述页面相关的用户语音记录文件，如果不存在用户语音记录文件，则通过将包括在页面中的文本记录为用户语音来产生用户语音记录文件，并且如果存在用户语音记录文件，通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
根据本发明的示例性实施例，当记录电子书的特定页面时，可以记录与特定页面的文本相对应的语音，并且当播放语音时，可以通过将语音与文本相同步来加亮与正在播放的语音相对应的文本。因此，用户可以通过直观的界面来体验阅读真实书的感觉。
以下详细描述结合附图公开了本发明的示例性实施例，通过以下详细描述，本领域技术人员将更清楚本发明的其他方面、优点和突出特征。
附图说明
结合附图，根据以下详细描述，本发明的特定示例性实施例的上述和其他方面、特征以及优点将更清楚，附图中：
图1示出了根据现有技术采用语音记录包括在电子书的特定页面中的文本以及播放所记录的语音；
图2是示出了描述根据本发明示例性实施例的移动终端的内部结构的框图；
图3是示出了根据本发明示例性实施例记录或播放包括在电子书的特定页面中内容的过程的流程图；
图4是示出了根据本发明示例性实施例包括在电子书的特定页面中到用户语音的文本到语音(TTS)记录过程的流程图；
图5是示出了根据本发明示例性实施例在用户语音的TTS记录中与电子书的每一页面相对应存储的文件的结构的视图；
图6是示出了根据本发明示例性实施例在用户语音的TTS记录中通过划分为音素(phoneme)语音文件而存储用户语音的TTS数据库的结构的视图；
图7是示出了根据本发明示例性实施例执行TTS记录的自动完成功能的过程的流程图；
图8是示出了根据本发明示例性实施例电子书的特定页面的TTS播放过程的流程图；以及
图9是示出了根据本发明示例性实施例在电子书的TTS播放中通过将用户语音与文本相同步而描述显示器的示例的视图。
贯穿附图，应注意相同的参考标号用于描述相同或相似的部件、特征以及结构。
具体实施方式
提供了参照附图的以下描述来帮助全面理解权利要求及其等同物定义的本发明的示例性实施例。以下描述包括多种特定细节来帮助理解，但是这些特定细节应该视为仅是示例性的。因此，本领域技术人员会认识到可以在不脱离本发明的范围和精神的前提下，对本文所述实施例能够进行多种改变和修改。此外，为了清楚和简要目的，省略对公知功能和结构的描述。
以下描述和权利要求中使用的术语和词语不限于字面含义，而是发明人仅用于达到对本发明的清楚和一致理解。因此，本领域技术人员可以理解，本发明的示例性实施例的以下描述仅用于说明目的，而不是用于限制所附权利要求及其等同物定义的本发明的目的。
此外，应该理解，除非文中明确指出，否则单数形式的“一”、“一种”和“该”包括复数形式。因此，例如，对于“一组件表面”的引述包括对于一个或多个这种表面的引述。
图2示出了描述根据本发明的示例性实施例的移动终端的内部结构的框图。
参考图2，移动终端200可以包括无线通信单元210、音频处理器单元220、键输入单元230、触摸屏240、存储单元250以及控制单元260。
无线通信单元210执行数据发送和接收，以便支持移动终端200的无线通信功能。无线通信单元210包括RF发送器和RF接收器，所述RF发送器用于对要发送的信号上变频和放大；所述RF接收器用于低噪音放大和下变频所接收的信号。此外，无线通信单元210向控制单元260输出通过无线通信频道接收的数据，并通过无线通信频道发送由控制单元260输出的数据。
音频处理单元220配置为用于处理分组数据的数据编解码器以及用于处理音频信号(例如，语音)的音频编解码器。音频处理单元220通过音频编解码器将数字音频信号转换为模拟音频信号，并且通过扬声器输出所述模拟音频信号。从麦克风输入的模拟音频信号通过音频编解码器被转换为数字音频信号。
键输入单元230接收用于移动终端200的控制的用户的键输入，并产生输入信号以便发送给控制单元260。键输入单元230可以配置为包括数字键和方向键的键区，且可以在移动终端200的表面上形成功能键。根据本发明的示例性实施例，在具有触摸屏240的移动终端中，可以使用触摸屏240执行键输入单元230的操作，并因此可以省略键输入单元230。
触摸屏240包括触摸传感器241和显示单元242。触摸传感器241检测用户的触摸输入。触摸传感器241配置为触摸传感器(例如电容式覆盖传感器、压力敏感传感器、电阻式覆盖传感器以及红外束检测传感器)。根据本发明，除了以上传感器之外，还可以将任何类型的检测对象的接触或压力的传感器使用为触摸传感器241。触摸传感器241检测用户的触摸输入，并产生检测信号，以便发送给控制单元260。检测信号包括由用户触摸的位置的坐标数据。如果用户移动触摸位置，触摸传感器241产生包括触摸移动路径的坐标数据的检测信号，以便发送给控制单元260。
更具体地，根据本发明的示例性实施例，触摸传感器241检测用于记录或播放电子书的内容的用户输入。这样的用户输入可以是，例如，触摸(包括多点触摸)或者拖动。
显示单元242可以由液晶显示器(LCD)、有机光辐射二极管(OLED)或者有源矩阵有机光辐射二极管(AMOLED)形成，并且向用户提供多种视觉信息，例如，菜单、输入数据、移动终端200的功能设置信息等。显示单元242执行输出引导屏幕、待机屏幕、菜单屏幕、电信屏幕以及移动终端200的其它应用屏幕的功能。
如上所述，移动终端200可以配置为触摸屏。然而，移动终端200不限于触摸屏。在示例性实施例中，如果应用不具有触摸屏的移动终端，可以省略如图2所示的触摸屏240，以便只执行显示单元242的功能。
存储单元250可以分为程序区和数据区，并执行存储针对移动终端200的操作所需的程序和数据的作用。程序区存储用于控制移动终端200的总体操作的程序、用于引导移动终端200的操作系统(OS)、播放多媒体内容所需的应用程序以及移动终端200的可选功能所需的应用程序(例如，摄像机功能、音乐播放功能、静止或运动图像的播放功能等)。数据区存储根据移动终端200的使用而产生的数据，例如，静止图像、运动图像、电话簿、音频数据等。
根据本发明的示例性实施例，存储单元250存储记录在电子书的每一页面中的用户语音文件以及在每一页面中与用户语音文件同步的同步文件。此外，存储单元250在数据库中存储由音素记录的用户语音文件，以便执行对电子书内容的文本到语音(TTS)记录的自动完成功能。
控制单元260控制移动终端200的组件的总体操作。更具体地，当移动终端200记录特定页面时，控制单元260记录与电子书的特定页面的文本相对应的用户语音，并当移动终端200播放用户语音时，通过将所述文本与用户语音相同步来控制加亮与用户语音相对应的文本的处理。为此，控制单元260包括记录控制单元261和播放控制单元262。
记录控制单元261控制包括在电子书的特定页面中的文本到用户语音的TTS记录的总体过程。为此，当进入电子书的页面时，记录控制单元261识别是否存在与该页面相关的用户语音记录文件。如果不存在用户语音记录文件，则记录控制单元261将包括在该页面中的文本记录为用户语音，并产生与该页面相关的用户语音记录文件。
此处，记录控制单元261产生从包括在该页面中的文本转换的用户语音记录文件以及包括与用户语音记录文件的每一个时间段相对应的文本位置信息在内的同步文件。同步文件包括用于通过与用户语音记录文件同步来加亮正在播放的用户语音的文本的信息。后面将提供更详细的解释。
根据本发明的示例性实施例，如果接收到文本的TTS记录命令，记录控制单元261识别是否在文本位置处检测到触摸输入。如果在预设时间内没有检测到触摸输入，则记录控制单元261进行控制以便开始记录用户语音。如果在文本的位置处检测到触摸输入，则记录控制单元261将检测到触摸输入的文本位置设置为开始记录用户语音的初始位置。
此外，记录控制单元261通过音素将输入用户语音分类，并控制产生及保存音素语音文件。根据本发明的示例性实施例，音素语音文件用于执行TTS记录的自动完成功能。
为此，当完成记录页面的用户语音时，记录控制单元261将音素语音文件和包括在电子书中的所有文本文件进行比较。然后，记录控制单元261识别是否能够对于没有存储用户语音记录文件的其余页面中包括的文本来通过使用音素语音文件自动完成记录。如果能够自动完成记录，则记录控制单元261进行控制以便向用户通知能够自动完成记录。当执行自动记录命令时，记录控制单元261通过使用音素语音文件，将没有存储用户语音记录文件的其余页面中包括的文本转换为用户语音。
如果在电子书的页面中存在用户语音记录文件，则播放控制单元262进行控制，以便通过将文本与用户语音相同步来播放存储在用户语音记录文件中的用户语音。根据本发明的示例性实施例，播放控制单元262进行控制以加亮与存储在用户语音记录文件中的用户语音相对应的文本。
更详细地，如果接收到播放命令，播放控制单元262识别是否存在与用户语音记录文件相对应的同步文件。如果存在同步文件，则播放控制单元262识别包括在与用户语音记录文件的每一个时间段相对应的同步文件中的文本位置信息。根据识别的结果，播放控制单元262进行控制，以便通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
如果不存在同步文件，则播放控制单元262进行控制，以便将记录在与该页面相对应的用户语音记录文件中的用户语音转换为文本，并通过将转换的文本与包括在页面中的文本相同步来进行播放。
在以上的描述中，将控制单元260、记录控制单元261以及播放控制单元262示出为分离的块，并且各自执行不同的功能。然而，这是为了方便解释，应理解在备选实现方式中，可以不分开该功能。例如，由记录控制单元261执行的特定功能可以由控制单元260执行。
图3是示出了根据本发明示例性实施例记录或播放包括在电子书的特定页面中内容的过程的流程图。
参考图3，在步骤S310，控制单元260检测电子书应用的运行。电子书可以被称作e-book，是包含信息(例如，在电子介质中记录的字符和图像)的数字图书的通用名称。智能电话或便携式多媒体播放器(PMP)可以从服务器下载电子书应用用于执行并使用电子书，或者在生产的过程中，可以在智能电话或PMP内集成电子书应用。
在步骤S320，控制单元260检测电子书应用是否位于特定内容处，例如，包括文本的电子书内容的页面。在步骤S330，控制单元260识别是否存在与特定页面相对应的用户语音记录文件。以下文中，术语用户语音记录TTS文件可以用作用户语音记录文件。
根据用户的选择，在步骤S340，如果不存在与特定页面相对应的用户语音记录文件，控制单元260执行用户语音的TTS记录的处理，其中将包括在该页面中的文本转换为用户语音。在用户语音的TTS记录中，控制单元260可以配置并保存与该文本相对应的用户语音记录文件和与用户语音文件的用户语音相对应的同步文件(例如，字幕)。
通过参考图4，将在下文描述用户语音的TTS记录的更详细过程。
如果存在与特定页面相对应的用户语音记录文件，在步骤S350，控制单元260执行与该页面相对应的用户语音记录文件的TTS播放。在TTS播放中，控制单元260可以通过将用户语音与该页面的文本相同步来加亮与正在播放的用户语音相对应的文本。
通过参考图7，将在下文描述TTS播放的更详细过程。
图4是示出了根据本发明示例性实施例，包括在电子书的特定页面中的文本到用户语音的TTS记录过程的流程图。图4对应于图3的步骤S340。
通过使用传统TTS引擎可以执行记录包括在电子书的特定页面中的文本的示例性方法。然而，在本发明中不包括关于该方法的描述。
如果不存在与电子书的特定页面相对应的用户语音记录文件，则控制单元260可以在显示单元中显示用于记录包括在所述页面中的文本的记录手段。例如，记录手段可以是如图1所示的记录按钮REC。
参考图4，在步骤S405，控制单元260识别是否输入了用于记录用户语音的记录命令。如果没有输入记录命令，在步骤S410，控制单元260等待记录命令的输入。
如果输入了记录命令，控制单元260必须决定实际记录的开始时间和与该记录相对应的文本位置。在本发明的示例性实施例中，如果在输入记录命令之后的预定时间内没有产生触摸输入的状态下检测到用户语音，则仅将用户语音存储为用户语音记录文件。
如果输入记录命令后在文本上输入触摸，则将相应文本位置设为开始的初始值来记录，且通过同步检测到的用户语音和相应文本位置，保存用户语音记录文件和同步文件。
参考图4的流程图将详细描述该内容。
在步骤S415，在输入记录命令之后，控制单元260识别是否在文本上输入触摸。如果没有输入触摸，在步骤S420，控制单元260识别是否已经经过了预定时间。如果已经经过预定时间，在步骤S425，控制单元260识别是否输入用户语音。即，在输入记录命令之后，控制单元260识别是否在预定时间内没有产生触摸输入的状态下检测到用户语音。如果输入了用户语音，在步骤S427，控制单元260通过记录产生并保存与该页面相对应的用户语音记录文件。
如果在步骤415在文本上输入触摸，控制单元260在步骤S430将产生触摸的文本位置设置为开始记录的初始值，并且在步骤S435识别是否检测到用户语音。如果没有检测到用户语音，在步骤S440，控制单元260等待检测用户语音。
如果在步骤S435检测到用户语音，在步骤S445，控制单元260产生并保存记录有用户语音的用户语音记录文件以及与用户语音记录文件相对应的同步文件。
此处，同步文件包括用于通过与用户语音记录文件相同步来加亮正在播放的用户语音的文本的信息。根据本发明的示例性实施例，同步文件可以是同步多媒体集成语言(SMIL)文件。SMIL是用于通过使用XML处理并控制在时间和空间中的多媒体数据的W3C标准呈现语言。
根据本发明的示例性实施例的同步文件可以配置有与时间段相对应的文本集合。例如，在电子书的特定页面中的用户语音的TTS记录的情况下，同步文件可以包括在时间段0～a中记录的与该页面的段落a相对应的文本和在时间段a～b中记录的与该页面的段落b相对应的另一文本的信息。在下表中，示出了同步文件的示例性结构。
表1

根据本发明的示例性实施例，当执行用户语音的TTS记录时，可以通过将文本段落中输入了触摸的位置设置为起点来开始记录。备选地，可以与连续输入用户触摸的拖动区域的文本段落相对应地开始记录。在这种情况下，可以提供位置校正功能，以便即使用户的拖动输入超出文本线的偏离范围，控制单元260也能够显示与显示单元的文本线平行的拖动区域。类似地，根据本发明的示例性实施例，在释放用户的触摸输入后，可以执行记录空白或连续语音，并且在记录空白或连续语音之后，可以从再次输入触摸的位置处继续记录语音。
图5是示出了根据本发明示例性实施例在用户语音的TTS记录中与电子书的每一页面相对应存储的文件的结构的示意图。
参考图5，当执行与电子书的第1页面相对应的用户语音的TTS记录时，通过映射在电子书的第1页面中保存记录有第1页面中文本的用户语音的用户语音记录文件(mp3_P1)和与用户语音记录文件相对应的同步文件(SMIL_P1)。
在这种情况下，通过与文本的位置信息映射，保存电子书的第1页面的同步文件，该文本与用户语音记录文件的每一个时间段相对应。例如，如图5所示，通过与用户语音记录文件的时间段a的信息映射来保存电子书的第1页面的同步文件，该用户语音记录文件的时间段a保存有与电子书的第1页面的段落a相对应的文本的语音。按照相同的方式，通过与用户语音记录文件的时间段b的信息映射来保存电子书的第1页面的同步文件，该用户语音记录文件的时间段b保存有与电子书的第1页面的段落b相对应的文本的语音。
此外，如果执行电子书的第2页面的TTS记录，通过映射，在电子书的第2页面中保存记录有与第2页面的文本相对应用户语音的用户语音记录文件(mp3_P2)以及与用户语音记录文件相对应的同步文件(SMIL_P2)。
在这种情况中，通过与文本的位置信息映射，保存电子书的第2页面的同步文件，该文本与用户语音记录文件的每一个时间段相对应。例如，如图5所示，通过与用户语音记录文件的时间段a的信息映射来保存电子书的第2页面的同步文件，该用户语音记录文件的时间段a保存有与电子书的第2页面的段落a相对应的文本的语音。按照相同的方式，通过与用户语音记录文件的时间段b的信息映射来保存电子书的第2页面的同步文件，该用户语音记录文件的时间段b保存有与电子书的第2页面的段落b相对应的文本的语音。
如上所述，与电子书的每一页面相对应保存的用户语音记录文件和同步文件用于通过将用户语音和文本相同步来加亮与正在播放的用户语音相对应的文本。将在下文更详细地描述该特征。
图6是示出了根据本发明示例性实施例在用户语音的TTS记录中通过划分为音素语音文件而存储用户语音的TTS数据库的结构的示意图。
参考图6，当进行用户语音TTS记录时，通过划分为音素语音文件来保存每一个用户语音。例如，如果用户TTS记录用户语音“ABC”，则控制单元260将用户语音划分成“A”、“B”及“C”，并保存单独音素语音文件mp3_A、mp3_B及mp3_C。
根据本发明的另一示例性实施例，可以通过划分成词语而不是划分成音素来保存用户语音。例如，如果用户TTS记录用户语音“学校公司”，控制单元260将用户语音划分为词语“学校”和“公司”，并分别保存语音文件mp3_School及mp3_Company。
尽管以上描述了在用户语音的TTS记录中将用户语音保存为由音素或词语划分的单独语音文件的示例，TTS记录不限于音素或词语。即，即使用户不通过执行TTS记录的自动完成功能记录在电子书中文本的所有内容(将在下文阐述)，可以提供以字符单元保存语音文件来完成对整个文本的TTS记录的另一示例性实施例。
根据以上原理产生的示例性TTS数据包括由音素或词语划分的用户语音，并用于TTS记录的自动完成功能。将在下文更详细地描述该特征。
图7是示出了根据本发明示例性实施例执行TTS记录的自动完成功能的过程的流程图。
根据本发明的示例性实施例，当执行用户语音的TTS记录时，控制单元260通过划分成由音素(或词语)分类的音素语音文件，在TTS数据库中保存用户语音。通过使用存储的TTS数据库，用户可以在不分别记录文本的整体内容的情况下，执行电子书的所有文本的TTS记录。
下文中，假定控制单元260已获得关于在电子书的所有页面中包括的所有文本的信息。
参考图7，在步骤S710，控制单元260检测到与特定页面相对应的用户语音的TTS记录的完成。在步骤S720，控制单元260检查TTS数据库，并在步骤S730识别自动完成功能是否可用。因此，控制单元260可以通过将TTS数据库中存储的每个音素与电子书的所有页面中包括的所有文本相比较来识别自动完成功能的可用性。
根据本发明的示例性实施例，在以下情况中，控制单元260识别自动完成功能的可用性：
1)电子书的所有页面中包括的所有内容在TTS数据库中登记的百分比是100％
2)登记的百分比高于预定水平
在第2)种情况下，控制单元260可以通过建议所需的音素来进行记录或者通过将所需音素替换为最相似的音素，以使TTS数据库中登记的百分比成为100％。
如果识别了自动完成功能的可用性，在步骤S740，控制单元260通知用户自动完成功能可用。在步骤S750，控制单元260识别是否从用户接收到用于使用自动完成功能的命令。
如果接收到用于使用自动完成功能的命令，或者如果自动完成功能不可用，在步骤S760，控制单元260通过使用存储在TTS数据库中的音素语音文件，针对没有TTS记录的页面来执行TTS记录。
图8是示出了根据本发明示例性实施例电子书的特定页面的TTS播放过程的流程图。图8对应于图3的步骤S350。
如果存在与电子书的特定页面相对应的用户语音记录文件，则控制单元260可以在显示单元中显示用于播放用户语音记录文件的播放手段。播放手段可以是如图1所示的播放按钮。
参考图8，在步骤S810，控制单元260识别是否接收到用于播放用户语音记录文件的播放命令。如果接收到播放命令，在步骤S820，控制单元260识别是否存在与用户语音记录文件相对应的同步文件。
如果存在同步文件，在步骤S860，控制单元260通过将用户语音记录文件与同步文件相同步来播放。通过将用户语音记录文件与同步文件相同步来进行播放意味着加亮与正在播放的用户语音相对应的文本。
如图5所示，通过映射，在电子书的每一页面中保存用户语音记录文件和与用户语音记录文件相对应的同步文件，并且通过映射，在同步文件中包括与用户语音记录文件的每一个时间段相对应的文本集合位置。因此，控制单元260通过使用以上关系，可以识别与正在播放的用户语音相对应的文本位置，并可以加亮相应位置。
如果在步骤S820不存在同步文件，在步骤S830，控制单元260通过使用语音到文本(STT)功能，将记录在用户语音记录文件中的语音转换为文本。控制单元260识别转换的文本的位置，优选是电子书中与转换的文本的第一位置相对应的文本位置，并且在步骤S840，将转换的文本的第一位置和电子书中的文本位置相同步。
在步骤S850，根据用户语音的播放，控制单元260加亮与用户语音相对应的文本。
图9是示出了根据本发明示例性实施例在电子书的TTS播放中通过将用户语音与文本相同步而描述显示器的示例的示意图。
参考图9，根据本发明的示例性实施例，在电子书的每一页面中保存与页面中的文本相对应的用户语音记录文件和与用户语音记录文件相对应的同步文件中的至少一个。
当进入特定页面时，如果在对应页面中存在用户语音记录文件，则电子书显示播放手段。随后，如果用户输入播放命令，则电子书加亮与正在播放的用户语音相对应的文本。
根据本发明，当记录电子书的特定页面时，可以记录与特定页面的内容相对应的用户语音，并且当播放用户语音时可以通过将用户语音与文本相同步来加亮与正在播放的用户语音相对应的文本。因此，用户可以通过直观界面来体验阅读真实的图书。
本发明的特定方面也可以实现为计算机可读介质上的计算机可读代码。计算机可读记录介质是能够存储随后可由计算机系统读取的数据的任何数据存储设备。计算机可读记录介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光学数据存储设备。计算机可读记录介质也可以分布在联网的计算机系统上，使得按照分布式形式存储和执行计算机可读代码。此外，实现本发明的函数程序、代码、代码段是本发明所属技术领域的编程员易于理解的。
尽管结合本发明的特定示例性实施例示出和描述了本发明，然而本领域技术人员将理解，在不脱离由所附权利要求及其等同物限定的本发明的精神和范围的前提下，可以进行各种形式和细节上的改变。

资源描述

《在移动终端中记录和播放用户语音的方法和装置.pdf》由会员分享，可在线阅读，更多相关《在移动终端中记录和播放用户语音的方法和装置.pdf（20页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN103533155A43申请公布日20140122CN103533155A21申请号201310278241822申请日20130704102012007358120120706KRH04M1/725200601G06F3/04120060171申请人三星电子株式会社地址韩国京畿道72发明人睦智恩郭炳熏74专利代理机构中科专利商标代理有限责任公司11021代理人王波波54发明名称在移动终端中记录和播放用户语音的方法和装置57摘要本发明提供了一种用于在移动终端中记录和播放用户语音的方法和装置。所述用于在移动终端中记录和存储用户语音的方法包括通过运行电子书进入页面；识别是否存在与。

2、所述页面相关的用户语音记录文件；如果不存在用户语音记录文件，则通过将包括在所述页面中的文本记录为用户语音来产生与所述页面相关的用户语音记录文件；以及如果存在用户语音记录文件，则通过将存储在用户语音记录文件中的用户语音与所述文本同步来进行播放。因此，当记录电子书的特定页面时，可以记录与页面的文本相对应的用户语音，并且通过将所述用户语音与文本相同步，可以加亮与正在播放的用户语音相对应的文本。30优先权数据51INTCL权利要求书2页说明书9页附图8页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书9页附图8页10申请公布号CN103533155ACN103533155A1/2页。

3、21一种用于在移动终端中记录和播放用户语音的方法，所述方法包括通过运行电子书进入页面；识别是否存在与所述页面相关的用户语音记录文件；如果不存在用户语音记录文件，则通过将包括在所述页面中的文本记录为用户语音来产生与所述页面相关的用户语音记录文件；以及如果存在用户语音记录文件，则通过将存储在用户语音记录文件中的用户语音与所述文本同步来进行播放。2根据权利要求1所述的方法，其中产生用户语音记录文件包括将包括在所述页面中的文本记录为用户语音和同步文件，所述同步文件包括与用户语音记录文件的每一个时间段相对应的文本位置信息。3根据权利要求1所述的方法，其中产生用户语音记录文件还包括如果接收到文本的记录命令。

4、，则识别是否检测到与文本位置相对应的触摸输入；以及如果在预定的时间段内没有检测到触摸输入，则开始记录用户语音。4根据权利要求3所述的方法，还包括如果检测到与文本位置相对应的触摸输入，将由触摸输入检测到的文本位置设置为开始记录用户语音的初始位置。5根据权利要求1所述的方法，其中产生用户语音记录文件还包括通过音素将输入的用户语音分类；以及产生并存储由音素分类的音素语音文件。6根据权利要求5所述的方法，还包括如果完成记录与页面相关的用户语音，则将音素语音文件和电子书中包括的所有文本进行比较；识别是否能够通过使用音素语音文件来自动完成对于没有存储用户语音记录文件的其余页面中包括的文本的记录；以及如果能。

5、够自动完成记录，则向用户通知能够自动完成记录。7根据权利要求6所述的方法，还包括当执行自动记录命令时，通过使用音素语音文件，将没有存储用户语音记录文件的其余页面中的文本转换为用户语音。8根据权利要求1所述的方法，其中所述播放包括加亮与存储在用户语音记录文件中的用户语音相对应的文本。9根据权利要求1所述的方法，其中所述播放还包括如果接收到播放命令，则识别是否存在与用户语音记录文件有关的同步文件；如果存在同步文件，则识别包括在所述同步文件中的与用户语音记录文件的每一个时间段相对应的文本位置信息；以及根据识别的结果，通过将记录在用户语音记录文件中的用户语音与所述文本相同步来进行播放。10根据权利要求。

6、9所述的方法，还包括如果不存在同步文件，则将记录在与所述页面有关的用户语音记录文件中的用户语音转换为文本；以及通过将转换的文本与包括在所述页面中的文本相同步来进行播放。11一种用于在移动终端中记录和播放用户语音的装置，所述装置包括权利要求书CN103533155A2/2页3输入单元，用于接收用户输入；显示单元，用于显示包括在电子书中的文本；以及控制单元，用于当进入电子书的页面时进行控制，以识别是否存在与所述页面有关的用户语音记录文件；如果不存在用户语音记录文件，则通过将包括在页面中的文本记录为用户语音来产生用户语音记录文件；并且如果存在用户语音记录文件，则通过将存储在用户语音记录文件中的用户语。

7、音与所述文本相同步来进行播放。12根据权利要求11所述的装置，其中控制单元进行控制，通过将包括在所述页面中的文本记录为用户语音和同步文件来产生用户语音记录文件，所述同步文件包括与用户语音记录文件的每一个时间段相对应的文本位置信息。13根据权利要求11所述的装置，其中如果接收到对文本的记录命令，则控制单元进行控制以识别是否检测到与文本位置相对应的触摸输入，如果在预定的时间段内没有检测到触摸输入，则开始记录用户语音。14根据权利要求13所述的装置，其中如果检测到与文本位置相对应的触摸输入，则控制单元进行控制，以便将由触摸输入检测到的文本位置设置为开始记录用户语音的初始位置。15根据权利要求11所述。

8、的装置，其中控制单元进行控制，以便通过音素将输入的用户语音分类，以及产生并存储由音素分类的音素语音文件。16根据权利要求15所述的装置，其中如果完成记录与页面相关的用户语音，则控制单元进行控制，以便将所述音素语音文件和电子书包括中的所有文本进行比较；识别是否能够通过使用音素语音文件来自动完成对于没有存储用户语音记录文件的其余页面中包括的文本的记录；以及如果能够自动完成记录，则向用户通知用户能够自动完成记录。17根据权利要求16所述的装置，其中当执行自动记录命令时，控制单元进行控制，以便通过使用音素语音文件，将没有存储用户语音记录文件的其余页面中包括的文本转换为用户语音。18根据权利要求11所述。

9、的装置，其中控制单元进行控制以加亮与存储在用户语音记录文件中的用户语音相对应的文本。19根据权利要求11所述的装置，其中如果接收到播放命令，则控制单元进行控制以识别是否存在与用户语音记录文件有关的同步文件；如果存在同步文件，则识别包括在所述同步文件中的与用户语音记录文件的每一个时间段相对应的文本位置信息；以及根据识别的结果，通过将记录在用户语音记录文件中的用户语音与所述文本相同步来进行播放。20根据权利要求19所述的装置，其中如果不存在同步文件，则控制单元进行控制，以将记录在与所述页面有关的用户语音记录文件中的用户语音转换为文本；以及通过将转换的文本与包括在所述页面中的文本相同步来进行播放。2。

10、1一种存储指令的非暂时性计算机可读存储介质，当执行所述指令时，使至少一个处理器执行权利要求1所述的方法。权利要求书CN103533155A1/9页4在移动终端中记录和播放用户语音的方法和装置技术领域0001本发明涉及一种用于在移动终端中记录和播放语音的方法和装置。更具体地，本发明涉及一种方法和装置，用于当记录电子书的特定页面时，记录与页面的文本相对应的语音，并通过将语音和文本相同步来加亮HIGHLIGHT与正在播放的语音相对应的文本。背景技术0002随着通信技术的进步，移动终端正发展为提供多种可选服务例如，电子记事本、游戏、日程安排管理等的多媒体设备。随着目前提供的多种可选服务，用户界面对于方。

11、便地使用并管理上述多种可选服务而言是至关重要的。0003图1示出了根据现有技术采用语音记录包括在电子书的特定页面中的文本以及播放所记录的语音。0004如图1所示，电子书EBOOK提供了将配置在电子书的特定页面中内容即，文本记录为语音并播放所述语音的功能。为此，用户通过选择电子书的特定页面中的记录命令来输入其语音，并通过选择播放命令来播放记录在相应页面中的语音。0005然而，在现有技术中，必须保存整个电子书以便记录用户的语音，因此如果电子书的数据量很大，则需要大量的时间和劳力。0006此外，由于所记录的语音与电子书的文本并不同步，现有技术难以直观地识别当前正在播放哪个词语方面。0007因此，需要。

12、一种改进的装置和方法，用于当记录电子书的特定页面时记录与该页面的文本相对应的语音，并通过将语音和文本相同步来加亮与正在播放的语音相对应的文本。0008以上信息作为背景信息提供，仅帮助本公开的理解。对于上述任何内容是否可作为关于本发明的现有技术没有任何判定也没有任何断言。发明内容0009本发明的方面在于解决至少上述问题和/或缺点并提供至少下述优点。因此，本发明的一个方面是提供一种方法和装置，当记录电子书的特定页面时，记录与该页面的文本相对应的用户语音，并通过将用户语音和所述文本相同步来加亮与正在播放的用户语音相对应的文本。0010按照本发明的一个方面，提供了一种用于记录和播放用户语音的方法。所述。

13、方法包括通过运行电子书进入页面；识别是否存在与所述页面相关的用户语音记录文件；如果不存在用户语音记录文件，则通过将包括在页面中的文本记录为用户语音来产生与所述页面相关的用户语音记录文件；并且如果用户语音记录文件存在，则通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。0011按照本发明的另一方面，提供一种用于记录和播放用户语音的装置。所述装置包括用于接收用户输入的输入单元；用于显示包括在电子书中的文本的显示单元；以及控说明书CN103533155A2/9页5制单元，用于当进入电子书的页面时进行控制，以识别是否存在与所述页面相关的用户语音记录文件，如果不存在用户语音记录文件，则。

14、通过将包括在页面中的文本记录为用户语音来产生用户语音记录文件，并且如果存在用户语音记录文件，通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。0012根据本发明的示例性实施例，当记录电子书的特定页面时，可以记录与特定页面的文本相对应的语音，并且当播放语音时，可以通过将语音与文本相同步来加亮与正在播放的语音相对应的文本。因此，用户可以通过直观的界面来体验阅读真实书的感觉。0013以下详细描述结合附图公开了本发明的示例性实施例，通过以下详细描述，本领域技术人员将更清楚本发明的其他方面、优点和突出特征。附图说明0014结合附图，根据以下详细描述，本发明的特定示例性实施例的上述和其他。

15、方面、特征以及优点将更清楚，附图中0015图1示出了根据现有技术采用语音记录包括在电子书的特定页面中的文本以及播放所记录的语音；0016图2是示出了描述根据本发明示例性实施例的移动终端的内部结构的框图；0017图3是示出了根据本发明示例性实施例记录或播放包括在电子书的特定页面中内容的过程的流程图；0018图4是示出了根据本发明示例性实施例包括在电子书的特定页面中到用户语音的文本到语音TTS记录过程的流程图；0019图5是示出了根据本发明示例性实施例在用户语音的TTS记录中与电子书的每一页面相对应存储的文件的结构的视图；0020图6是示出了根据本发明示例性实施例在用户语音的TTS记录中通过划分为。

16、音素PHONEME语音文件而存储用户语音的TTS数据库的结构的视图；0021图7是示出了根据本发明示例性实施例执行TTS记录的自动完成功能的过程的流程图；0022图8是示出了根据本发明示例性实施例电子书的特定页面的TTS播放过程的流程图；以及0023图9是示出了根据本发明示例性实施例在电子书的TTS播放中通过将用户语音与文本相同步而描述显示器的示例的视图。0024贯穿附图，应注意相同的参考标号用于描述相同或相似的部件、特征以及结构。具体实施方式0025提供了参照附图的以下描述来帮助全面理解权利要求及其等同物定义的本发明的示例性实施例。以下描述包括多种特定细节来帮助理解，但是这些特定细节应该视为。

17、仅是示例性的。因此，本领域技术人员会认识到可以在不脱离本发明的范围和精神的前提下，对本文所述实施例能够进行多种改变和修改。此外，为了清楚和简要目的，省略对公知功能和结构的描述。0026以下描述和权利要求中使用的术语和词语不限于字面含义，而是发明人仅用于达说明书CN103533155A3/9页6到对本发明的清楚和一致理解。因此，本领域技术人员可以理解，本发明的示例性实施例的以下描述仅用于说明目的，而不是用于限制所附权利要求及其等同物定义的本发明的目的。0027此外，应该理解，除非文中明确指出，否则单数形式的“一”、“一种”和“该”包括复数形式。因此，例如，对于“一组件表面”的引述包括对于一个或多。

18、个这种表面的引述。0028图2示出了描述根据本发明的示例性实施例的移动终端的内部结构的框图。0029参考图2，移动终端200可以包括无线通信单元210、音频处理器单元220、键输入单元230、触摸屏240、存储单元250以及控制单元260。0030无线通信单元210执行数据发送和接收，以便支持移动终端200的无线通信功能。无线通信单元210包括RF发送器和RF接收器，所述RF发送器用于对要发送的信号上变频和放大；所述RF接收器用于低噪音放大和下变频所接收的信号。此外，无线通信单元210向控制单元260输出通过无线通信频道接收的数据，并通过无线通信频道发送由控制单元260输出的数据。0031音频。

19、处理单元220配置为用于处理分组数据的数据编解码器以及用于处理音频信号例如，语音的音频编解码器。音频处理单元220通过音频编解码器将数字音频信号转换为模拟音频信号，并且通过扬声器输出所述模拟音频信号。从麦克风输入的模拟音频信号通过音频编解码器被转换为数字音频信号。0032键输入单元230接收用于移动终端200的控制的用户的键输入，并产生输入信号以便发送给控制单元260。键输入单元230可以配置为包括数字键和方向键的键区，且可以在移动终端200的表面上形成功能键。根据本发明的示例性实施例，在具有触摸屏240的移动终端中，可以使用触摸屏240执行键输入单元230的操作，并因此可以省略键输入单元23。

20、0。0033触摸屏240包括触摸传感器241和显示单元242。触摸传感器241检测用户的触摸输入。触摸传感器241配置为触摸传感器例如电容式覆盖传感器、压力敏感传感器、电阻式覆盖传感器以及红外束检测传感器。根据本发明，除了以上传感器之外，还可以将任何类型的检测对象的接触或压力的传感器使用为触摸传感器241。触摸传感器241检测用户的触摸输入，并产生检测信号，以便发送给控制单元260。检测信号包括由用户触摸的位置的坐标数据。如果用户移动触摸位置，触摸传感器241产生包括触摸移动路径的坐标数据的检测信号，以便发送给控制单元260。0034更具体地，根据本发明的示例性实施例，触摸传感器241检测用于。

21、记录或播放电子书的内容的用户输入。这样的用户输入可以是，例如，触摸包括多点触摸或者拖动。0035显示单元242可以由液晶显示器LCD、有机光辐射二极管OLED或者有源矩阵有机光辐射二极管AMOLED形成，并且向用户提供多种视觉信息，例如，菜单、输入数据、移动终端200的功能设置信息等。显示单元242执行输出引导屏幕、待机屏幕、菜单屏幕、电信屏幕以及移动终端200的其它应用屏幕的功能。0036如上所述，移动终端200可以配置为触摸屏。然而，移动终端200不限于触摸屏。在示例性实施例中，如果应用不具有触摸屏的移动终端，可以省略如图2所示的触摸屏240，以便只执行显示单元242的功能。0037存储单。

22、元250可以分为程序区和数据区，并执行存储针对移动终端200的操作所说明书CN103533155A4/9页7需的程序和数据的作用。程序区存储用于控制移动终端200的总体操作的程序、用于引导移动终端200的操作系统OS、播放多媒体内容所需的应用程序以及移动终端200的可选功能所需的应用程序例如，摄像机功能、音乐播放功能、静止或运动图像的播放功能等。数据区存储根据移动终端200的使用而产生的数据，例如，静止图像、运动图像、电话簿、音频数据等。0038根据本发明的示例性实施例，存储单元250存储记录在电子书的每一页面中的用户语音文件以及在每一页面中与用户语音文件同步的同步文件。此外，存储单元250在。

23、数据库中存储由音素记录的用户语音文件，以便执行对电子书内容的文本到语音TTS记录的自动完成功能。0039控制单元260控制移动终端200的组件的总体操作。更具体地，当移动终端200记录特定页面时，控制单元260记录与电子书的特定页面的文本相对应的用户语音，并当移动终端200播放用户语音时，通过将所述文本与用户语音相同步来控制加亮与用户语音相对应的文本的处理。为此，控制单元260包括记录控制单元261和播放控制单元262。0040记录控制单元261控制包括在电子书的特定页面中的文本到用户语音的TTS记录的总体过程。为此，当进入电子书的页面时，记录控制单元261识别是否存在与该页面相关的用户语音记。

24、录文件。如果不存在用户语音记录文件，则记录控制单元261将包括在该页面中的文本记录为用户语音，并产生与该页面相关的用户语音记录文件。0041此处，记录控制单元261产生从包括在该页面中的文本转换的用户语音记录文件以及包括与用户语音记录文件的每一个时间段相对应的文本位置信息在内的同步文件。同步文件包括用于通过与用户语音记录文件同步来加亮正在播放的用户语音的文本的信息。后面将提供更详细的解释。0042根据本发明的示例性实施例，如果接收到文本的TTS记录命令，记录控制单元261识别是否在文本位置处检测到触摸输入。如果在预设时间内没有检测到触摸输入，则记录控制单元261进行控制以便开始记录用户语音。如。

25、果在文本的位置处检测到触摸输入，则记录控制单元261将检测到触摸输入的文本位置设置为开始记录用户语音的初始位置。0043此外，记录控制单元261通过音素将输入用户语音分类，并控制产生及保存音素语音文件。根据本发明的示例性实施例，音素语音文件用于执行TTS记录的自动完成功能。0044为此，当完成记录页面的用户语音时，记录控制单元261将音素语音文件和包括在电子书中的所有文本文件进行比较。然后，记录控制单元261识别是否能够对于没有存储用户语音记录文件的其余页面中包括的文本来通过使用音素语音文件自动完成记录。如果能够自动完成记录，则记录控制单元261进行控制以便向用户通知能够自动完成记录。当执行自。

26、动记录命令时，记录控制单元261通过使用音素语音文件，将没有存储用户语音记录文件的其余页面中包括的文本转换为用户语音。0045如果在电子书的页面中存在用户语音记录文件，则播放控制单元262进行控制，以便通过将文本与用户语音相同步来播放存储在用户语音记录文件中的用户语音。根据本发明的示例性实施例，播放控制单元262进行控制以加亮与存储在用户语音记录文件中的用户语音相对应的文本。0046更详细地，如果接收到播放命令，播放控制单元262识别是否存在与用户语音记录文件相对应的同步文件。如果存在同步文件，则播放控制单元262识别包括在与用户语说明书CN103533155A5/9页8音记录文件的每一个时间。

27、段相对应的同步文件中的文本位置信息。根据识别的结果，播放控制单元262进行控制，以便通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。0047如果不存在同步文件，则播放控制单元262进行控制，以便将记录在与该页面相对应的用户语音记录文件中的用户语音转换为文本，并通过将转换的文本与包括在页面中的文本相同步来进行播放。0048在以上的描述中，将控制单元260、记录控制单元261以及播放控制单元262示出为分离的块，并且各自执行不同的功能。然而，这是为了方便解释，应理解在备选实现方式中，可以不分开该功能。例如，由记录控制单元261执行的特定功能可以由控制单元260执行。0049图3。

28、是示出了根据本发明示例性实施例记录或播放包括在电子书的特定页面中内容的过程的流程图。0050参考图3，在步骤S310，控制单元260检测电子书应用的运行。电子书可以被称作EBOOK，是包含信息例如，在电子介质中记录的字符和图像的数字图书的通用名称。智能电话或便携式多媒体播放器PMP可以从服务器下载电子书应用用于执行并使用电子书，或者在生产的过程中，可以在智能电话或PMP内集成电子书应用。0051在步骤S320，控制单元260检测电子书应用是否位于特定内容处，例如，包括文本的电子书内容的页面。在步骤S330，控制单元260识别是否存在与特定页面相对应的用户语音记录文件。以下文中，术语用户语音记录。

29、TTS文件可以用作用户语音记录文件。0052根据用户的选择，在步骤S340，如果不存在与特定页面相对应的用户语音记录文件，控制单元260执行用户语音的TTS记录的处理，其中将包括在该页面中的文本转换为用户语音。在用户语音的TTS记录中，控制单元260可以配置并保存与该文本相对应的用户语音记录文件和与用户语音文件的用户语音相对应的同步文件例如，字幕。0053通过参考图4，将在下文描述用户语音的TTS记录的更详细过程。0054如果存在与特定页面相对应的用户语音记录文件，在步骤S350，控制单元260执行与该页面相对应的用户语音记录文件的TTS播放。在TTS播放中，控制单元260可以通过将用户语音与。

30、该页面的文本相同步来加亮与正在播放的用户语音相对应的文本。0055通过参考图7，将在下文描述TTS播放的更详细过程。0056图4是示出了根据本发明示例性实施例，包括在电子书的特定页面中的文本到用户语音的TTS记录过程的流程图。图4对应于图3的步骤S340。0057通过使用传统TTS引擎可以执行记录包括在电子书的特定页面中的文本的示例性方法。然而，在本发明中不包括关于该方法的描述。0058如果不存在与电子书的特定页面相对应的用户语音记录文件，则控制单元260可以在显示单元中显示用于记录包括在所述页面中的文本的记录手段。例如，记录手段可以是如图1所示的记录按钮REC。0059参考图4，在步骤S40。

31、5，控制单元260识别是否输入了用于记录用户语音的记录命令。如果没有输入记录命令，在步骤S410，控制单元260等待记录命令的输入。0060如果输入了记录命令，控制单元260必须决定实际记录的开始时间和与该记录相对应的文本位置。在本发明的示例性实施例中，如果在输入记录命令之后的预定时间内没说明书CN103533155A6/9页9有产生触摸输入的状态下检测到用户语音，则仅将用户语音存储为用户语音记录文件。0061如果输入记录命令后在文本上输入触摸，则将相应文本位置设为开始的初始值来记录，且通过同步检测到的用户语音和相应文本位置，保存用户语音记录文件和同步文件。0062参考图4的流程图将详细描述该。

32、内容。0063在步骤S415，在输入记录命令之后，控制单元260识别是否在文本上输入触摸。如果没有输入触摸，在步骤S420，控制单元260识别是否已经经过了预定时间。如果已经经过预定时间，在步骤S425，控制单元260识别是否输入用户语音。即，在输入记录命令之后，控制单元260识别是否在预定时间内没有产生触摸输入的状态下检测到用户语音。如果输入了用户语音，在步骤S427，控制单元260通过记录产生并保存与该页面相对应的用户语音记录文件。0064如果在步骤415在文本上输入触摸，控制单元260在步骤S430将产生触摸的文本位置设置为开始记录的初始值，并且在步骤S435识别是否检测到用户语音。如果。

33、没有检测到用户语音，在步骤S440，控制单元260等待检测用户语音。0065如果在步骤S435检测到用户语音，在步骤S445，控制单元260产生并保存记录有用户语音的用户语音记录文件以及与用户语音记录文件相对应的同步文件。0066此处，同步文件包括用于通过与用户语音记录文件相同步来加亮正在播放的用户语音的文本的信息。根据本发明的示例性实施例，同步文件可以是同步多媒体集成语言SMIL文件。SMIL是用于通过使用XML处理并控制在时间和空间中的多媒体数据的W3C标准呈现语言。0067根据本发明的示例性实施例的同步文件可以配置有与时间段相对应的文本集合。例如，在电子书的特定页面中的用户语音的TTS记。

34、录的情况下，同步文件可以包括在时间段0A中记录的与该页面的段落A相对应的文本和在时间段AB中记录的与该页面的段落B相对应的另一文本的信息。在下表中，示出了同步文件的示例性结构。0068表10069说明书CN103533155A7/9页100070根据本发明的示例性实施例，当执行用户语音的TTS记录时，可以通过将文本段落中输入了触摸的位置设置为起点来开始记录。备选地，可以与连续输入用户触摸的拖动区域的文本段落相对应地开始记录。在这种情况下，可以提供位置校正功能，以便即使用户的拖动输入超出文本线的偏离范围，控制单元260也能够显示与显示单元的文本线平行的拖动区域。类似地，根据本发明的示例性实施例，。

35、在释放用户的触摸输入后，可以执行记录空白或连续语音，并且在记录空白或连续语音之后，可以从再次输入触摸的位置处继续记录语音。0071图5是示出了根据本发明示例性实施例在用户语音的TTS记录中与电子书的每一页面相对应存储的文件的结构的示意图。0072参考图5，当执行与电子书的第1页面相对应的用户语音的TTS记录时，通过映射在电子书的第1页面中保存记录有第1页面中文本的用户语音的用户语音记录文件MP3_P1和与用户语音记录文件相对应的同步文件SMIL_P1。0073在这种情况下，通过与文本的位置信息映射，保存电子书的第1页面的同步文件，该文本与用户语音记录文件的每一个时间段相对应。例如，如图5所示，。

36、通过与用户语音记录文件的时间段A的信息映射来保存电子书的第1页面的同步文件，该用户语音记录文件的时间段A保存有与电子书的第1页面的段落A相对应的文本的语音。按照相同的方式，通过与用户语音记录文件的时间段B的信息映射来保存电子书的第1页面的同步文件，该用户语音记录文件的时间段B保存有与电子书的第1页面的段落B相对应的文本的语音。0074此外，如果执行电子书的第2页面的TTS记录，通过映射，在电子书的第2页面中保存记录有与第2页面的文本相对应用户语音的用户语音记录文件MP3_P2以及与用户语音记录文件相对应的同步文件SMIL_P2。0075在这种情况中，通过与文本的位置信息映射，保存电子书的第2页。

37、面的同步文件，该文本与用户语音记录文件的每一个时间段相对应。例如，如图5所示，通过与用户语音记录文件的时间段A的信息映射来保存电子书的第2页面的同步文件，该用户语音记录文件的时间段A保存有与电子书的第2页面的段落A相对应的文本的语音。按照相同的方式，通过与用户语音记录文件的时间段B的信息映射来保存电子书的第2页面的同步文件，该用户语音记录文件的时间段B保存有与电子书的第2页面的段落B相对应的文本的语音。0076如上所述，与电子书的每一页面相对应保存的用户语音记录文件和同步文件用于通过将用户语音和文本相同步来加亮与正在播放的用户语音相对应的文本。将在下文更详细地描述该特征。0077图6是示出了根。

38、据本发明示例性实施例在用户语音的TTS记录中通过划分为音素语音文件而存储用户语音的TTS数据库的结构的示意图。0078参考图6，当进行用户语音TTS记录时，通过划分为音素语音文件来保存每一个用户语音。例如，如果用户TTS记录用户语音“ABC”，则控制单元260将用户语音划分成“A”、“B”及“C”，并保存单独音素语音文件MP3_A、MP3_B及MP3_C。0079根据本发明的另一示例性实施例，可以通过划分成词语而不是划分成音素来保存用户语音。例如，如果用户TTS记录用户语音“学校公司”，控制单元260将用户语音划分为词语“学校”和“公司”，并分别保存语音文件MP3_SCHOOL及MP3_COM。

39、PANY。0080尽管以上描述了在用户语音的TTS记录中将用户语音保存为由音素或词语划分说明书CN103533155A108/9页11的单独语音文件的示例，TTS记录不限于音素或词语。即，即使用户不通过执行TTS记录的自动完成功能记录在电子书中文本的所有内容将在下文阐述，可以提供以字符单元保存语音文件来完成对整个文本的TTS记录的另一示例性实施例。0081根据以上原理产生的示例性TTS数据包括由音素或词语划分的用户语音，并用于TTS记录的自动完成功能。将在下文更详细地描述该特征。0082图7是示出了根据本发明示例性实施例执行TTS记录的自动完成功能的过程的流程图。0083根据本发明的示例性实施。

40、例，当执行用户语音的TTS记录时，控制单元260通过划分成由音素或词语分类的音素语音文件，在TTS数据库中保存用户语音。通过使用存储的TTS数据库，用户可以在不分别记录文本的整体内容的情况下，执行电子书的所有文本的TTS记录。0084下文中，假定控制单元260已获得关于在电子书的所有页面中包括的所有文本的信息。0085参考图7，在步骤S710，控制单元260检测到与特定页面相对应的用户语音的TTS记录的完成。在步骤S720，控制单元260检查TTS数据库，并在步骤S730识别自动完成功能是否可用。因此，控制单元260可以通过将TTS数据库中存储的每个音素与电子书的所有页面中包括的所有文本相比较。

41、来识别自动完成功能的可用性。0086根据本发明的示例性实施例，在以下情况中，控制单元260识别自动完成功能的可用性00871电子书的所有页面中包括的所有内容在TTS数据库中登记的百分比是10000882登记的百分比高于预定水平0089在第2种情况下，控制单元260可以通过建议所需的音素来进行记录或者通过将所需音素替换为最相似的音素，以使TTS数据库中登记的百分比成为100。0090如果识别了自动完成功能的可用性，在步骤S740，控制单元260通知用户自动完成功能可用。在步骤S750，控制单元260识别是否从用户接收到用于使用自动完成功能的命令。0091如果接收到用于使用自动完成功能的命令，或者。

42、如果自动完成功能不可用，在步骤S760，控制单元260通过使用存储在TTS数据库中的音素语音文件，针对没有TTS记录的页面来执行TTS记录。0092图8是示出了根据本发明示例性实施例电子书的特定页面的TTS播放过程的流程图。图8对应于图3的步骤S350。0093如果存在与电子书的特定页面相对应的用户语音记录文件，则控制单元260可以在显示单元中显示用于播放用户语音记录文件的播放手段。播放手段可以是如图1所示的播放按钮。0094参考图8，在步骤S810，控制单元260识别是否接收到用于播放用户语音记录文件的播放命令。如果接收到播放命令，在步骤S820，控制单元260识别是否存在与用户语音记录文件。

43、相对应的同步文件。0095如果存在同步文件，在步骤S860，控制单元260通过将用户语音记录文件与同步文件相同步来播放。通过将用户语音记录文件与同步文件相同步来进行播放意味着加亮与说明书CN103533155A119/9页12正在播放的用户语音相对应的文本。0096如图5所示，通过映射，在电子书的每一页面中保存用户语音记录文件和与用户语音记录文件相对应的同步文件，并且通过映射，在同步文件中包括与用户语音记录文件的每一个时间段相对应的文本集合位置。因此，控制单元260通过使用以上关系，可以识别与正在播放的用户语音相对应的文本位置，并可以加亮相应位置。0097如果在步骤S820不存在同步文件，在步。

44、骤S830，控制单元260通过使用语音到文本STT功能，将记录在用户语音记录文件中的语音转换为文本。控制单元260识别转换的文本的位置，优选是电子书中与转换的文本的第一位置相对应的文本位置，并且在步骤S840，将转换的文本的第一位置和电子书中的文本位置相同步。0098在步骤S850，根据用户语音的播放，控制单元260加亮与用户语音相对应的文本。0099图9是示出了根据本发明示例性实施例在电子书的TTS播放中通过将用户语音与文本相同步而描述显示器的示例的示意图。0100参考图9，根据本发明的示例性实施例，在电子书的每一页面中保存与页面中的文本相对应的用户语音记录文件和与用户语音记录文件相对应的同。

45、步文件中的至少一个。0101当进入特定页面时，如果在对应页面中存在用户语音记录文件，则电子书显示播放手段。随后，如果用户输入播放命令，则电子书加亮与正在播放的用户语音相对应的文本。0102根据本发明，当记录电子书的特定页面时，可以记录与特定页面的内容相对应的用户语音，并且当播放用户语音时可以通过将用户语音与文本相同步来加亮与正在播放的用户语音相对应的文本。因此，用户可以通过直观界面来体验阅读真实的图书。0103本发明的特定方面也可以实现为计算机可读介质上的计算机可读代码。计算机可读记录介质是能够存储随后可由计算机系统读取的数据的任何数据存储设备。计算机可读记录介质的示例包括只读存储器ROM、随。

46、机存取存储器RAM、CDROM、磁带、软盘和光学数据存储设备。计算机可读记录介质也可以分布在联网的计算机系统上，使得按照分布式形式存储和执行计算机可读代码。此外，实现本发明的函数程序、代码、代码段是本发明所属技术领域的编程员易于理解的。0104尽管结合本发明的特定示例性实施例示出和描述了本发明，然而本领域技术人员将理解，在不脱离由所附权利要求及其等同物限定的本发明的精神和范围的前提下，可以进行各种形式和细节上的改变。说明书CN103533155A121/8页13图1说明书附图CN103533155A132/8页14图2说明书附图CN103533155A143/8页15图3说明书附图CN103533155A154/8页16图4说明书附图CN103533155A165/8页17图5图6说明书附图CN103533155A176/8页18图7说明书附图CN103533155A187/8页19图8说明书附图CN103533155A198/8页20图9说明书附图CN103533155A20。

展开阅读全文