一种文字读音数字编码方法 本发明属于声音信息的数字处理技术,特别涉及文字读音的数字编码方法。
人们大都还会记得七十年代末到八十年代初的那一时期,听评书达到了如痴如迷的程度,甚至出现了评书时间万人空巷的奇观。这说明了人们对于“听”书是非常喜爱的。也即人们往往并不满足于自己看书,能够听到一部作品的绘声绘色、抑扬顿挫的朗读,也是一种享受。
在旅途、上下班途中,因光线不足、车身摇动或被周围人拥挤包围,不能正常地阅读报纸、小说,人们希望能充分利用这段时间去听报纸、听教材进行学习或者听小说消闲。
现在的盲人书籍由盲文出版社出版,需要用专门的制作设备和很厚的卡纸来做。既制作困难,又非常笨重,还不能及时地、全部地把各种作品出版。而且,盲文需要通过学习才能认识,当前的状况是只有一部分盲人能阅读盲文,广大盲人不能与正常人同样地接受到最新的信息,对于他们的教育与文化娱乐是个极大的障碍。
幼儿在还未识字前是不能看书的,而且家长和老师的教育时间有限,需要一种可以长时间地以准确的发音讲故事、介绍知识的辅助性教育工具。
还有,在普通话教育、古文讲解、政治教育等教育工作中,在旅游景点、商品介绍时也需要发音准确、讲解清楚明了地有声读物。
以上事实说明人们需要有声读物。
可是,虽然人类发明了磁带、光盘等存储介质和ADPCM、LPC、MELP、CELP等语音压缩方法,可以较好地记录下带有个人感情和特色的语音信息,但为了保证一定的音质,这些方法对语音的压缩比例都比较有限,因此都需要使用大容量的存储介质(如磁带、光盘以及半导体的存储器),由于介质存储容量有限(或由于价格所限只能使用有限的容量),一般只能记录几个小时以内的语音信息,不能实现长时间播放的有声读物。
对于语言这样的表达人们感情的声音信息,人们现在可以用拼音方法记录它,并且也有一些专利提出了对拼音的数字编码方案,如公开号CN 1087439A的发明专利提出了对汉语拼音的声母、韵母和由它们构成的音节;英语的音标和由它们构成的音节;日语假名和它们构成的音节(以下把它们统称为语音)的数字编码方案。可是,拼音仅仅记录了语音的发音音节和声调,不能记录下发音时的表达感情的声音强弱、发音长短、语调高低、是否儿化等语言要素,仅根据拼音只能合成出机械、呆板没有任何感情色彩的语音。
我们注意到音乐是一种饱含人类感情的声音信息,美妙的、千差万别的音乐仅用简单的乐谱就可以记录、传播;不管在什么地方,人们根据乐谱就可以忠实地演奏出一样优美、富有感情的乐曲。
为此,人们迫切需要一种类似于乐谱的可实现语音最短编码存储的语音编码方法,使得编码之后的语音文本短小,只用极其轻小的介质就可以存储长达几十上百小时的语音。
本发明的目的就是提供一种符合人们上述要求的文字读音编码方法。利用该文字读音编码方法构成的读音文本就象音乐的乐谱一样,可以通过轻便的电子有声读物装置在任何时间、地点合成出具有感情色彩的语音。
为了达到上述目的,本发明的技术方案是:通过对文字的发音音节、声调等基本发音要素和朗读文字应当具有的声音强弱、发音长短、语调高低、是否儿化等表达感情的读音要素以及使朗读更加生动的大自然声音进行数字编码,构成电子有声读物的读音文本;以标准字长和格式的数字记录下文章中文字的基本发音要素和表达感情的读音要素就构成了原来文字的读音编码字,所述的读音编码字包含原来文字的发音音节、声调、声音强弱、发音长短、语调高低、是否儿化等读音要素的数字编码;为使朗读生动的大自然声音的数字编码构成大自然声音编码字,所述的大自然声音编码字包含代表大自然声音的数字编码和此声音在朗读时的发声强弱、发声长短、声调高低等发声要素的数字编码;文字对应的读音编码字以及大自然声音编码字共同构成读音文本。
这种编码方法可以合成出带有感情色彩的读音,满足正常人听小说、听报纸新闻、听文章、听教材、盲人学习和中小学、幼儿教育等用途。
下面结合实施例对本发明进行详细的说明。
本编码方法的核心是对文字读音的各个要素分别进行数字编码的规则,下面分别说明:
以汉语为例,虽然汉字总数有几万个,但汉字的发音即带四声调和轻声的音节总数只有1334个,大大少于汉字数量。而且,人们在听朗读时,只要听出读音,不需要看到汉字,就可以理解朗读的内容。因此,我们对1334个音节进行数字编码,作为文字读音数字编码方法的基础。要制作某篇文章的读音文本时,只要把文章中每个汉字以它所对应的发音音节编码来代换,就可以把文字文本转换为以其文字发音音节为基础的读音文本。但是,用这种读音文本合成出的读音虽然能够满足人们理解内容的需要,却因为是平淡、无感情的声音,人们会很快就听厌烦了。为满足电子有声读物的需要,我们还要为每个文字发音编码加上它在文章中应当具有的表达感情色彩的声音强弱、发音长短、语调高低、是否儿化等读音要素的数字编码,从而构成每个文字的读音编码字,用这样的读音编码字,我们才能合成出具有感情色彩的朗读。
1334个音节加上表示章、节、段等的分割标志、标点符号和全文结束标志、区分朗读者性别、年龄分段等等文本记录标志,再加上表示发音停顿的无音音节以及辅助音节(如数字读音音节和必要的外语等辅助音节等)约在2048个之内。
在此基础上,为了增加电子有声读物的表现能力,使之更加生动传神,再增加表现大自然声音的编码,采用12比特(共4096个)二进制数字对文字读音和大自然声音进行编码编码。所谓大自然声音应当包括:
1.环境声音:如风、雨、雷鸣电闪、门声、窗户声、各种车辆声、爆炸声、子弹声、机器声等。
2.动物声音:如牛、猪、马、羊、驴、狗、鸡、鸭、鹅以及其它各种动物、各种鸟的动作和鸣叫声音等。
3.其它需要在电子有声读物中需要表现的声音。
读音编码字的长度可以取4-5个字节(每个字节为8个比特)长,例如在我们选择4个字节为读音编码字长时,每个读音编码字总共32个比特。
前述的表示音节、标记和大自然声音编码共需要12比特,剩余的20比特用来编码表示感情色彩的其它读音要素。
具体的比特分配方法可以有多种,下面是一种可以实际使用的编码方法:
1.声音强弱:用4-6个比特编码;
2.发音长短:用4-6个比特编码;
3.语调高低:用4-6个比特编码;
4.是否儿化:用1个比特编码;
5.剩余的1-7个比特作为备用。
国标汉字的数字编码标准字长为两个字节16比特,而读音编码字的字长为4个字节32比特,也即文章的读音文本的比特数仅为其文字数字编码文本的两倍左右,实现了语音的高效率编码,很容易用半导体存储器存储长篇著作。利用指甲盖大小的16兆比特的半导体存储器可以存储一部约50万字的小说的读音文本,按平均每秒朗读4个字计算,可以朗读约36个小时,为实现语音的高容量存储和实用的电子有声读物创造了条件。