利用发音记述语言执行声音合成的终端设备 【技术领域】
本发明涉及一种可进行电子邮件等数据的接收传送的终端设备,特别涉及利用发音描述语言执行声音合成的终端设备。
背景技术
一直以来,对以文本形式记述的文章进行声音合成的技术正被开发、利用。目前,正进一步开发在合成的声音中附加其抑扬(intonation)等、模仿更自然的人的发音的技术。
另外,在移动电话机或个人电脑等中,可以一边利用给定地声音合成报知电子邮件的接收,一边对以文本形式记述的电子邮件进行声音合成并朗读。例如,在日本的特开2002-73507号公报(以下简称为“专利文献”)中揭示了,在电子邮件的正文中插入附带文件参照用代码/文字列,在文本正文的朗读之后,通过参照由与被插入的给定的代码/文字列对应的音乐数据或图像数据构成的附带文件,进行该附带文件数据的再生及/或显示,从而传达用通常的文本传送难传达的感情(愉快度)的技术。在该专利文献中,将与给定的代码/文字列对应的音乐数据或图像数据作为附带文件,自动附带于应传送的电子邮件上。
然而,在上述的专利文献所记载的技术中,制作由对应于被插入电子邮件的正文中的给定代码/文字列而被预先准备好的音乐数据或图像数据构成的附带文件,并将该附带文件与电子邮件一起传送,进一步,在接收侧根据被插入到电子邮件正文中的给定代码/文字列,再生附带文件表示的音乐数据或图像数据。因此,与声音合成相关的,只是将文本正文声音合成,只不过是附加了音乐数据或图像数据的再生功能。即,并不是揭示了所谓的由传送侧用户任意指定声音合成的词句或其抑扬等,而在接收侧对其再生的技术。
再有,虽然通过在附带文件中包含音乐数据或图像数据,从而将给定的代码/文字列插入到电子邮件中,但姑且不论被插入的给定代码/文字列是作为语言具有含义的文字列的情况,在对于用户来说插入了无意义的控制代码时,有可能作为所谓的乱码而被订正,另外,在接收侧的视觉辨认上也是不希望的。特别是,在接收侧为移动电话机等小型的便携式终端设备的情况下,由于其显示画面小,在视觉辨认上更是不希望的。还有,即使被插入的文字列作为语言有含义,在视觉辨认上也没有问题,但对应于该文字列而被再生的是预先准备好的音乐数据或图像数据,也可想象会在接收侧造成识别上的混乱。
【发明内容】
本发明正是针对上述问题的发明,其目的在于提供一种接收表示对以文本形式记述且被指定的词句上付与了抑扬等的声音进行合成用的发音文字列的文本数据,并进行在被指定的词句上付与了抑扬等声音的合成的文本数据接收装置。
另外,本发明的另一目的在于提供一种传送表示对以文本形式记述且被指定的词句上付与了抑扬等的声音进行合成用的发音文字列的文本数据的文本数据传送装置。
如上所述,可以提供一种利用执行声音合成的终端设备,该声音合成用的发音记述语言,在电子邮件的接收侧不但包含指定的词句而且还包括其抑扬等,并可进行声音合成,再有,容易读出对接收侧传送的电子邮件的正文,可以不给予朗读者不愉快感。
在本发明的终端设备中,其特征在于,通过导入按照给定的发音记述语言的发音文字列,声音化电子邮件的文本文件时,进行所希望的声音合成。即,上述终端设备中具备:在文本文件中,依据规定对指定的词句(各文字或各音素,日语的情况下为假名文字等)付与的抑扬(声调)等的声音发音用的发音记述语言自动解释发音文字列,将用该发音文字列规定的声音进行声音合成的声音合成装置。因此,若传送者侧操作终端设备,制作包含发音文字列的电子邮件并传送,则在接收者侧的终端设备中,自动检测并解释该电子邮件中包含的发音文字列,进行声音合成。
在上述的情况下,发音文字列在电子邮件的正文中记述,然后自动被写入到附带文件中。另外,发音文字列由专用控制文字指定其范围,在附带文件的自动制作时,发音文字列从电子邮件的正文被自动删除,同时将专用控制文字自动置换为所希望的图画文字。由此,由于在电子邮件的正文中在视觉上删除了发音文字列,故在接收者接收电子邮件并显示时,消除了视觉识别上混乱(心理上的)的不愉快感。另外,由于记述了发音文字列的附带文件在电子邮件的正文被声音化时,在实时被自动地解释并被声音合成,故接收者可以听到伴随传送者所意图的抑扬等的声音。
再有,在发音文字列中,形成在意图付与抑扬等的文字(或音素等)之前或之后配置给定的记号(英数字、特殊文字等)的文章结构,作为检测·解释相关记号的装置,可以只是设定比较单纯的对照表等进行声音控制,可以在已有的便携式终端设备等中比较简易地实现本发明的功能。
附图说明
图1是表示本发明的优选实施例的移动电话机的构成的框图。
图2表示本实施例中作为包含发音文字列的文章的电子邮件的正文的一例。
图3A是表示本实施例中的发音记述语言中使用的各种记号的代表例的发音控制命令的一览。
图3B表示根据上述记号的发音控制命令的各文字的开头部分中的音调变化状态。
图3C表示根据上述记号的发音控制命令的各文字的发音中音调变化状态。
图4A表示包含HV-Script的发音文字列的电子邮件的制作例。
图4B表示在上述电子邮件中用专用控制文字夹持HV-Script的状态。
图4C表示将上述电子邮件中的HV-Script作为附带文件分离,且将其专用控制文字作为图画文字显示的状态。
图5是表示本实施例中的传送侧移动电话机的动作的流程图。
图6是表示本实施例中的接收侧移动电话机的动作的流程图。
【具体实施方式】
以下,参照附图,与实施例一起详细说明本发明。
图1是表示本发明的优选实施例的移动电话机的构成的框图。另外,本发明并未限于移动电话机(cellular phone,蜂窝式电话)等,也可以适用于PHS(Personal Handy-phone System,日本注册商标名)或便携式信息终端(PDA,Personal Digital Assistant,个人数字助理)以及个人电脑等。
在图1中,标号11表示CPU(中央处理装置),通过执行各种程序控制便携式终端设备1的各部的动作。标号12表示通信部,是对由装载的天线12a所接收的信号进行解调,并且将传送信号调制后向天线12a供给,作为传送接收装置或通信装置发挥作用。
上述的CPU11按照给定的协议,对在通信部12接收、解调的经由因特网等网络的信号进行译码,在将该译码信号内包含的信息(例如,电子邮件等的文本信息)显示于显示部21的画面上的同时,在电子邮件或其附带文件内含有发音文字列的情况下,用带有声音合成功能的声源部26对以该发音文字列规定的声音进行声音合成。另外,电子邮件等的传送数据在CPU11中进行给定协议的编码,用上述通信部12调制后,面向传送对象的服务器(传送电子邮件时为邮件服务器),从天线12a向基站传送。
标号13表示声音处理部。在上述通信部12中经由电话线路等接收的声音信号被解调后,在声音处理部13中被译码,从扬声器14进行声音输出。另一方面,用麦克风15被集音·输入的声音信号在声音处理部13中进行数字处理,被压缩编码。然后,在通信部12中被调制,经过天线12a向与移动电话网连接的基站传送。声音处理部13,例如利用CELP(CodeExcited Linear Predictive Coding)方式或ADPCM(AdaptiveDifferential Pulse-Code Modulation)方式将声音数据高效率压缩编码/译码。
标号16表示带有声音合成功能的声源部,作为预先来信音再生已被选择的乐曲数据并从扬声器17输出声音(放音)。另外,在接收了与构成发音的词句的各文字的各音素对应的给定声音数据(例如,包含影响音质·音调(vocal quality,pitches)等的参数)时,带有声音合成功能的声源部16在CPU11的控制下,声音合成该声音数据并从扬声器17输出声音(发音、发声)。对于该带有声音合成功能的声源部16中的声音合成方式虽然可以任意地设定,但例如可以将特公昭58-53351号公报中揭示的CSM(Carrier Sense Multiple-Access)声音合成技术适用于FM(Frequency Modulation)声源来实现。标号18表示操作部,是进行从移动电话机1的主体(例如,casing、housing)上设置的包含字母数字键的各种按键(图示省略)或其他输入装置的输入。例如,检测用户进行的字母数字键等的按键操作,可以输入日语、英语、汉语、韩语等所希望的语言。另外,也可以利用摇动拨盘或触摸屏,或者与移动电话机连接的外带键盘等其他的输入装置,输入所希望的文字。
标号19表示RAM(Random Access Memory),可以设定上述CPU11的工作区域、通过通信线路从服务器装置下载的乐曲数据或伴奏音数据(这些用于来信旋律的再生)的存储区域、以及存储传送结束的电子邮件、制作中的电子邮件、已接收的电子邮件的数据的邮件数据存储区域等。
标号20表示ROM(Read Only Memory),存储进行CPU11执行的传送·接收等控制的各种电话功能程序、辅助乐曲再生处理的程序、控制电子邮件的传送接收的邮件传送接收功能程序、辅助声音合成处理的程序及其他程序、以及每个音素的声音数据或音乐数据等各种数据。
标号21表示例如由液晶显示器(LCD:Liquid Crystal Display)构成的显示部,在CPU11的控制下,进行各种菜单图像的显示及电子邮件的内容显示以及上述操作部18的操作内容的显示。
标号22表示振动器,是在来信时替代来信音,通过使移动电话机1的主体振动,向用户报知有来信。
再有,上述各功能块通过总线30进行数据或指令的传输。
接下来,对规定对词句声音化时的抑扬等的声音发音用的发音记述语言记述的发音文字列进行说明。图2表示包含发音文字列的日语文章(即,电子邮件正文)的一例,在各行中从左向右排列有文字。在该文章示例中,第3行的“か_3さがほ^5し_4い’4ね$2—”构成的发音文字列由用符号“A”表示的专用控制文字()规定范围,其他文字是通常的文本文字。该发音文字列“か_3さがほ^5し_4い’4わ$2—”是利用在“かさがほしいね—”的发音语言上附加声调,进行声音合成用的发音记述语言记述的。在该示例中记述的记号“’”、“^”、“—”、“$”等是表示在发音的文字(在本例中为日语的假名文字)上附加的声调的类别的文本,是对该记号后的文字(紧接该记号之后为数值时则是在该数值之后的文字)附加给定的重音的记号。以这样的文字与记号连续排列的形式由作为输入装置的操作部18输入。
图3A表示上述发音记述语言中的各记号(代表例)所表示的声音合成时的发音控制命令,例如,“’”表示在句头提高声调(参照图3B的符号“A”),“^”表示发音中提高声调(参照图3C的符号“B”),“_”表示在句头降低声调(参照图3B的符号“B”),“$”表示发音中降低声调(参照图3C的符号“D”),由此进行声音合成。另外,在上述记号之后附加有数值的情况下,该数值指定附加的重音的变化量。例如,在“か_3さが”中,“さ”在句头,将声调只降低“3”的量,接着用该降低的声调发音“が”,再有,由于未对“か”特别附加记号,故指的是标准的声调(音高)发音。
这样,用发音记述语言在使发音的词句中包含的文字上附加重音(声调)的情况下,形成记述在该文字之前附加图2所示的记号(进一步附加表示声调的变化量的数值)的词句的文章结构。再有,在本实施例中,虽然只对控制声调的记号进行说明,但除了这些记号以外,也可以使用控制声音的强弱、速度、音质等的记号。另外,该发音文字列如图2所示既可以在电子邮件的正文中记述,也可以在电子邮件的标题部分记述,或者也可以在给定的附带文件(例如,由其扩展名可以识别包含发音文字列的附带文件)中记述该发音文字列,附带于传送的电子邮件中。
接下来,对上述构成的本实施例的移动电话机1的动作进行说明。再有,通常的电话功能的传送·接收时的动作或电子邮件的传送接收等相关的动作是公知的技术,省略其说明。另外,在以下的说明中,将按照发音记述语言的发音文字列记述的文章称为“HV-Script”。
(传送侧的动作)
传送者启动传送电子邮件的程序,一边对操作部18进行操作,确认作为显示装置的显示部20,一边制作电子邮件用的文章。在这里,传送者制作电子邮件时,以文本形式在电子邮件正文中的任意场所(或者电子邮件的标题栏也可以)记述欲使其发音的HV-Script(参照图4A)。此时,传送者以用专用控制文字(图4B中用符号“A”表示的“”文字)夹持HV-Script的方式进行输入。由此,制作成包含HV-Script的电子邮件。在该程序中,制作成的HV-Script作为有关电子邮件正文的文件的附带文件处理。这样,虽然成为在电子邮件制作时记述作为一般的文章难读的特殊文字列,但通过将该HV-Script作为附带文件处理,另外在附带文件中进行数据移动,从而电子邮件本身成为对接收侧的通信对象来说容易读的电子邮件。由此,不只是本实施例的移动电话机1,即使在不具有本实施例的功能的一般的移动电话机中,同样显示为通常的电子邮件,也不会成为给予读信者混乱·不舒服感的装置。再有,对于制作中或制作后的电子邮件的数据,也可以不进行传送,而是存储于RAM19的邮件数据存储区域内。
接下来,若电子邮件的制作结束,则传送者进行对所希望的对象(或地址)传送该电子邮件的操作。参照图5所示的流程图说明该传送侧的移动电话机1的动作。
在传送侧的移动电话机1中,在步骤S01中判断是否进行过电子邮件传送操作。即,直到用户进行电子邮件传送操作为止,图5所示的例程处于待机状态。
若传送者进行电子邮件传送操作,则步骤S01的判断结果为“是”,流程移向步骤S02。在步骤S02中,判断已做成的电子邮件中是否含有专用控制文字。在电子邮件内不含有专用控制文字的情况下,判断结果为“否”,流程向步骤S03转移。在步骤S03中执行电子邮件的传送处理,然后结束图5的例程。
如图4B所示,由于在本实施例中已制作成的电子邮件被记述为包含专用控制文字,故步骤S02的判断结果为“是”,流程向步骤S04转移。
在步骤S04中,新制作附带文件。虽然该附带文件的文件名可以适当设定,但作为其扩展名,附加表示包含HV-Script的文件用的专用扩展名(例如,“.hvs”)。
接着,在步骤S05中,向附带文件移动用电子邮件中的专用控制文字夹持的HV-Script。即,将用专用控制文字夹持的文字列看作HV-Script,从电子邮件的文章中抽出该HV-Script,在附带文件中记述存储,同时从电子邮件的数据中删除该HV-Script。
接下来,在步骤S06中将电子邮件中的专用控制文字的组变更·置换为给定的通用图画文字或图标。在这里,图4C中使用符号“B”表示的图画文字。
在步骤S07中,将在步骤S06中施加了变更的电子邮件与在上述步骤S04、S05中制作成的附带文件向已被指定的传送对象(例如,电子邮件地址)传送。另外,已传送完的电子邮件被存储于RAM19内的邮件数据存储区域等的给定存储装置内。再有,对于步骤S05、S06的处理,也可以接受用户的给定操作来执行。还有,存储于传送侧的移动电话机1内的电子邮件,可以是电子邮件正文与附带文件未分离的数据形式的文件,或者也可以是根据上述的处理,将电子邮件与附带文件分离且互相链接的文件。
(接收侧的动作)
接下来,参照图6所示的流程图说明接收侧的移动电话机1的动作。在这里,接收侧的移动电话机1是通过其通信部12将接收了的电子邮件存储于RAM19内的邮件数据存储区域等的存储装置内的装置。
首先,接收侧的移动电话机1,在步骤S11中判断用户是否进行过电子邮件的显示操作。即,图6所示的例程处于待机状态,直到进行用户的电子邮件的显示操作。
若用户进行电子邮件的显示操作,则步骤S11的判断结果为“是”,流程向步骤S12转移。在步骤S12中,在控制装置(CPU11)的控制下,从RAM19的邮件数据存储区域读出已接收的电子邮件的数据,打开该读出的电子邮件的文件,并在显示部21的画面上显示该文件内容。
接着,在步骤S13中,判断接收的电子邮件内是否含有HV-Script。该判断是根据电子邮件的文件内是否含有专用控制文字的组来进行。该判断结果为“是”时,即接收的电子邮件的文件内含有专用控制文字的组,在判断为记述有HV-Script的情况下,流程向步骤S14转移。
在步骤S14中,从ROM20内读出与构成用该HV-Script指定的词句的各文字的各音素对应的声音数据,再以根据在被该HV-Script记述的词句中附加重音的记号,使发音的声音具有所希望的声调的方式,对作为声音合成装置的带有声音合成功能的声源16付与声音数据(此时,由于使音程等变化,故也存在加工声音数据的情况),同时实行规定的控制,进行声音合成。这样,在电子邮件的正文内含有HV-Script的情况下,接收侧的移动电话机1自动解释(translation)该HV-Script,根据该解释结果马上进行声音合成,而且,自动地合成所希望的抑扬等被付与的声音,并使其发音。
再有,在步骤S13的判断结果为“否”的情况下,即,不是电子邮件内含有HV-Script的记述的情况下,流程向步骤S15转移。
在步骤S15中,判断对电子邮件的文件是否附带具有上述“.hvs”扩展名的附带文件。在该判断结果为“否”时,即,在电子邮件的文件内及其附带文件内都不存在HV-Script的情况下,不进行声音合成,结束图6的例程。
另一方面,在步骤S15的判断结果为“是”的情况下,即,电子邮件内附带有具备“.hvs”扩展名的附带文件的情况下,流程向步骤S16转移。
在步骤S16中,判断是否成为根据使用的邮箱(或电子邮件读取软件)自动地打开具有“.hvs”扩展名的附带文件的设定。在该判断结果为“是”时,即,成为自动打开附带文件的设定时,流程向步骤S1 7转移,打开该附带文件。再有,在判断结果为“否”的情况下,即,不是自动打开附带文件的设定的情况下,流程向步骤S18转移。
在步骤S18中,判断是否由用户(接收者)进行附带文件的展开操作。即,处于待机状态直到接收者进行打开附带文件的操作。然后,若接收者进行打开附带文件的操作,则步骤S18的判断结果为“是”,流程向步骤S17转移,打开该附带文件。
步骤S17后,流程移向步骤S19,进行与上述步骤S14同样的处理。即,根据附带文件内的HV-Script,进行声音合成,对被指定的词句附加指定的重音,进行发音。
另外,上述实施例中说明的各动作·步骤的内容是示例,本发明的内容并未限定于上述处理流程。例如,在上述实施例中,虽然设定为从RAM19读出已接收的电子邮件并进行声音合成,但并未限于已接收的电子邮件,也可以将传送结束的电子邮件或制作中的电子邮件顺次存储于RAM19内,读出并进行声音合成。再有,被声音合成的语言并未限定于日语,也可以使用英语、汉语、韩语等其他语言。
以上,虽然参照附图对本发明的实施例进行了详细的说明,但本发明的具体构成并未限于上述实施例,也包含不脱离本发明的主旨范围内的变更(modification)。例如,在上述实施例中,虽然使用的是由用了在各文字之前规定重音的记号与规定该重音的变化量的数值构成的文章结构所构成的发音记述语言,但毋庸直言,用该发音记述语言规定的文章结构并未限定于上述的形式。例如,可以是在各文字之后记述上述记号等的文章结构。另外,在电子邮件制作时,虽然在其正文中记述HV-Script,并使其发音文字列向附带文件移动,但也可以由接收者自身另外制作该附带文件。再有,没有必要在接收者侧用邮箱进行附带文件自动打开的设定,可以在被传送的附带文件自身中包含该设定。
如上所说明的,本发明具有各种效果及技术特征,对此如下述说明:
(1)根据本发明,在以往的电子邮件的文字信息显示的基础上,通过导入上述发音文字列,可以提供发音合成的高度表现效果。另外,在本发明中,由于在传送者侧另外制作记述了发音文字列的文件,使其成为电子邮件的附带文件,同时从该电子邮件的正文中删除该发音文字列,另一方面,在接收者侧通过打开适当的附带文件,进行声音合成,故用接收者侧的终端显示电子邮件时,可以自动删除发音文字列的显示,因此,在电子邮件的显示中,不会发生视觉识别的不完整·损伤,可以将使读信者感觉到视觉识别混乱·不舒服感的情况防患于未然。
(2)另外,由于将识别上述发音文字列用的专用控制文字自动置换为通用的图画文字·图标等,故可以将电子邮件作为具有消遣心的舒服表现。再有,由于在接收者侧打开电子邮件时,附带文件的发音文字列被自动解释,执行所希望的声音合成,故接收者侧的用户自身没有必要手动打开附带文件,另外,即使将发音文字列的记述(HV-Script)做成其他文件(附带文件),电子邮件的正文显示与发音文字列的声音合成也可以几乎同时执行。
(3)具体讲,在可以接收传送的终端设备中,具备自动解释规定以文本形式记述且声音化所指定的词句时的抑扬(声调)等的声音发音用的发音记述语言的发音文字列,并进行声音合成的声音合成装置,另一方面,接收者侧的终端设备解释已接收的电子邮件内包含的发音文字列并进行声音合成。另外,若包含发音记述语言的发音文字列的电子邮件被传送,则接收者侧的终端设备解释该发音文字列并执行声音合成。再有,发音记述语言,在分别对使发音的词句(文字列)以及构成该文字列的各文字(日语的情况下为假名文字等)附加抑扬时,做成附加规定该抑扬的记号,记述发音文字列的文章结构。由此,可以在1个文字单位(或1个音素单位上)附加抑扬。
(4)使上述发音文字列在传送者侧的终端设备中存储于其他文件内,可以作为电子邮件的附带文件。这种情况下,从该电子邮件的正文中自动删除发音文字列,另一方面,若在接收者侧的终端设备中打开电子邮件的附带文件,则记述于此内的发音文字列被自动解释,进行声音合成。
(5)在上述发音文字列的前后(日语的情况下为各行的左右位置)记述专用控制文字。即通过检测专用控制文字可以简单识别发音文字列。另外,可以将该专用控制文字置换为预先决定的通用图画文字。这种情况下,在接收者侧的终端设备中,由于由传送者侧记述的电子邮件内的专用控制文字被表示为通用的图画文字,故在接收者侧可以实现具有悠闲感的舒服的视觉效果。
(6)另外,若电子邮件被打开,则上述附带文件被自动打开,而且,解释发音文字列,进行声音合成。因此,接收者没有必要自身打开附带文件,另外,即使发音文字列做成与电子邮件正文不同的附带文件,也可以在实时内基本同时地执行电子邮件正文的显示与发音文字列的声音合成。
本申请包含了日本国的特愿2003-18891号申请的内容,并据此主张优先权。