用于通信终端中三维立体声再现的设备和方法.pdf

摘要
申请专利号：	CN200410103824.8	申请日：	2004.11.17
公开号：	CN1625185A	公开日：	2005.06.08
当前法律状态：	终止	有效性：	无权
法律详情：	专利权的视为放弃IPC(主分类):H04M 1/00放弃生效日:20050608\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	H04M1/00; G10H7/00; H04R5/00	主分类号：	H04M1/00; G10H7/00; H04R5/00
申请人：	三星电子株式会社;
发明人：	姜相机; 金在贤; 金容皙
地址：	韩国京畿道
优先权：	2003.11.17 KR 81269/2003
专利代理机构：	北京市柳沈律师事务所	代理人：	黄小临;王志森
PDF下载：	PDF下载

内容摘要

公开了一种在移动通信终端中使具有三维立体声效果的声音数据能够被再现的设备和方法。该移动通信终端的三维立体声再现设备包括：用于存储具有三维立体声效果的声音数据的存储器；当生成呼入呼叫时或当用户请求再现声音数据时，用于从存储器中读出该声音数据并解码该声音数据而不会使三维立体声效果失真，由此以模拟信号的形式输出该声音数据的声音处理单元；和用于放大该模拟信号并输出该放大的模拟信号的扬声器。因此，在再现原始声音过程中有可能获得优质的三维立体声效果和卓越的性能。

权利要求书

1：用于移动通信终端的三维立体声再现设备，该三维立体声再现设备包括：存储器，用于存储具有三维立体声效果的声音数据；声音处理单元，当生成呼入呼叫时或当用户请求声音数据的再现时，用于从存储器中读出声音数据，并对该声音数据进行解码而不会使三维立体声效果失真，由此以模拟信号的形式输出该声音数据；和扬声器，用于放大该模拟信号并将该放大的模拟信号以可听声音的形式输出。
2：如权利要求1所述的三维立体声再现设备，其中，声音数据以 MPEG-1层3(MP3)格式和MPEG-2高级音频编码(AAC)格式中的一种格式存储。
3：如权利要求1所述的三维立体声再现设备，其中声音处理单元包括： MP3解码器和AAC解码器中的至少一个解码器，用于按照声音数据的格式来解码声音数据，MP3解码器对按照MP3解码方案的声音数据进行解码， AAC解码器对按照AAC解码方案的声音数据进行解码；和立体声数模转换器，用于将该解码的数据转换成立体声模拟信号。
4：如权利要求1所述的三维立体声再现设备，其中声音处理单元进一步包括开关，用于执行切换操作，以按照声音解码器的格式将声音数据传送到MP3解码器或AAC解码器。
5：如权利要求1所述的三维立体声再现设备，其中扬声器包括至少两个扬声器装置以再现立体声。
6：如权利要求1所述的三维立体声再现设备，其中声音数据或由厂商预先存储在存储器中，或通过无线接口或有线接口从服务供应商的服务器或用户的个人计算机下载到存储器中。
7：一种用于在通信终端中再现具有三维立体声效果的声音数据的方法，该方法包括以下步骤：将具有三维立体声效果的声音数据存储到通信终端的存储器中；当生成呼入呼叫时或当用户请求声音数据的再现时，从存储器中读出该声音数据，并对该声音数据进行解码而不会使三维立体声效果失真；和将该解码的数据转换成模拟信号并以可听声音的形式输出该模拟信号。
8：如权利要求7所述的方法，其中声音数据以MPEG-1层3(MP3)格式和AAC格式中的一种格式存储。
9：如权利要求7所述的方法，其中解码步骤包括以下步骤：检测该声音数据具有MPEG-1层3(MP3)格式还是MPEG-2高级音频编码 (AAC)格式；当声音数据具有MP3格式时由MP3解码器解码该声音数据；和当声音数据具有AAC格式时由AAC解码器解码该声音数据。
10：如权利要求7所述的方法，其中，在输出步骤中，解码的数据被转换成立体声模拟信号，被放大，然后被输出。
11：如权利要求7所述的方法，其中，在输出步骤中，模拟信号通过包括至少两个扬声器装置的扬声器输出，以再现立体声。
12：如权利要求7所述的方法，其中声音数据或由厂商预先存储在存储器中，或通过无线接口或有线接口从服务供应商的服务器或用户的个人计算机下载到存储器中。

说明书

用于通信终端中三维立体声再现的设备和方法
    【技术领域】

    本发明涉及移动通信终端。本发明尤其涉及一种能够在移动通信终端中再现具有三维立体声效果的声音数据的设备和方法。

    背景技术

    诸如蜂窝电话和PCS(个人通信服务)电话之类的手持电话是一种典型的通信终端，它通过扬声器向外部传送声音或警示音，以便于用户在使用手持电话时能够识别呼入呼叫。随着通信和声音处理技术以及用户需求的发展，人们正积极地进行各种各样的研究，以在小型通信终端中再现更丰富的声音。另外，互联网使用的快速普及使通过互联网将各种各样的原始乐曲声音以及电影下载到通信终端成为可能，因此对于在通信终端中再现原始乐曲声音的用户需求变得越来越强烈。

    现在，多数再现4和弦(poly)声音或更多和弦声音的通信终端采用雅马哈声音芯片来再现乐曲声音数据。雅马哈声音芯片被分类为4和弦，16和弦，40和弦，和64和弦。术语“和弦”用来按照能够再现的弦的数目来区别声音芯片。一般来说，和相关的“和弦”数目一样多的不同乐器的声音能被同步表现。因此，随着“和弦”的数目地增加，就越能表现更逼真的声音。

    近来，除了再现简单的蜂鸣声之外，人们已经进行各种各样的尝试、以通过在移动终端配备两个或更多个扬声器来提供三维立体声效果。术语“立体声”的意思是其中加入了空间信息的、使收听者在听到声音后能够感知声音的方向和距离的声音信号。近来，三维立体声音效果还被应用到移动通信领域，这导致了对声音记录和再现技术不断增长的需求以便提供更高的真实性，该真实性通过增加的空间信息和移动信息来提供，因此真实再现三维立体声成为了必需。

    典型的立体声再现在电影影片、电视、音响和家庭影院领域主要通过多信道，如5.1信道来提供。近来，已经在开发可以提供三维立体声效果的便携电话或个人数字助理(PDA)电话方面做了各种各样的尝试。例如，一种建议的方法是：预先在存储器中存储声音数据，该数据包含有关三维立体声效果的信息；并且再现该存储的三维立体声效果和声音数据，这为使用配备有两个或更多个扬声器的终端的用户提供了三维立体声效果。

    图1为描述典型移动通信终端中声音信号再现设备的方框图。

    控制器10执行移动通信终端的整个控制操作。射频(RF)信号处理单元12下变换频带信号，该信号通过预定频带的无线信道经由天线从网络中接收，并在控制器10的控制下，按照数据的类型传送该接收信号到控制器10或语音编译码单元14。

    从RF信号处理单元12传送到控制器10的数据包括：通过业务信道接收的数据、通过控制信道接收的寻呼信号、信令信号等等。从RF信号处理单元12传送到语音编译码单元14的数据包括在语音呼叫已建立时接收到的语音数据。另外，RF信号处理单元12把从控制器10中接收到的数据和从语音编译码单元14中接收到的编码语音数据上变换成预定频带的无线信号，并将该无线信号通过天线传送到网络。

    语音编译码单元14一般包括声码器(vocoder)并在控制器10的控制下进行操作。语音编译码单元14对来自麦克风16的电语音信号进行编码并将该编码的语音信号传送到RF信号处理单元12。另外，语音编译码单元14对从RF信号处理单元12中接收到的编码语音数据解码，以便将编码语音数据转换成电语音信号，然后将该电语音信号输出到扬声器20。扬声器20将该接收到的电语音信号转换成可听声音并将该可听声音输出。

    显示单元24包括：采用字母或/和图标来显示进程状态的显示设备，例如液晶显示器(LCD)；振动马达；和警示信号灯。显示单元24的液晶显示器显示移动通信终端的当前状态。另外，当用户执行键输入时，液晶显示器用于将输入数据转换成字母、图标或字符，并显示这些字母、图标或字符。

    键盘输入单元26一般具有键矩阵结构并包括用于拨号的数字键、用于执行各种功能的功能键、选择键、用于向上、下、左、右方向移动的方向键。该键盘输入单元26生成和用户操作的键相关的键数据，并将该生成的键数据输出到控制器10。

    存储单元22可以包含ROM(只读存储器)和RAM(随机存取存储器)，并被分成：用于存储控制控制器10所需的程序代码的区域、用于存储用户输入数据的区域、和用于临时存储在控制操作过程中产生的数据的区域。另外，存储单元22包括能被用来通知用户收到呼入呼叫或产生告警音的声音数据。该声音数据可以由厂商预先存储或从供应商服务器(运营商服务器)28下载，该服务器可以通过无线电、USB(通用串行总线)端口、IEEE 1394端口、红外线端口等等和移动通信终端相接。一般来说，声音数据以合成音乐移动应用格式(‘SMAF’)存储，该格式在作为文件存储时具有‘.mmf’的扩展名，以由雅马哈声音芯片18处理。

    雅马哈声音芯片18将控制器10从存储单元22读出的声音数据转换成电信号，并输出该转换的电信号到扬声器20。扬声器20包括两个或更多扬声器设备以便于支持三维立体声效果。

    如上所述，传统的移动通信终端采用雅马哈声音芯片18再现声音数据如乐曲声音等等。因此存储单元22必须以SMAF的形式存储三维立体声数据。另外，供应商服务器28不实时处理声音数据，而是将通过三维再现运算法则得到的三维立体声音效果转换成SMAF，然后将该转换的数据下载到存储单元22。

    然而，当具有三维立体声效果的声音数据被转换成SMAF时，三维立体声效果的相当大的部分被删除并且数据量会变得很大，因此很难真正地将三维立体声效果应用到移动通信终端。

    现在，当通过采用一个扬声器输出声音信息的方案获得的单声道乐曲声音，和通过采用两个扬声器输出二维声音的方案获得的立体声乐曲声音，都使用30K字节或更少的字节时，具有三维立体声效果的声音数据在大小上比传统的乐曲声音数据大10倍。当采用由雅马哈声音芯片提供的合成声音表将具有上述巨大尺寸的三维立体声音数据近似为SMAF时，虽然声音数据的大小稍微缩小，但是原始声音数据的三维立体声效果会明显恶化。

    也就是说，因为雅马哈声音芯片不能完整支持三维立体声效果，并且通过芯片所具有的合成声音表和音调来近似地估算原始声音数据，所以产生了误差，从而传统的设备在准确再现原始声音数据方面具有局限性。另外，因为雅马哈声音芯片在同步再现语音和音乐声音时会导致特定声音的失真，因此当构成乐曲声音时，仅包括语音的第一声音数据和仅包括乐曲的第二声音数据必须单独存储，由此需要一个非常大的存储容量。

    【发明内容】

    相应地，本发明用来解决上述发生在现有技术中的问题以及提供其它的优点，本发明的一个目的是在移动通信终端中提供一种用于再现具有三维立体声效果的声音的设备和方法。

    本发明的另一个目的是在移动通信终端中提供在具有最小尺寸的设备中存储具有三维立体声效果的声音数据的设备和方法。

    本发明的再一个目的是提供用于存储具有MP3格式或AAC格式的三维立体声效果的声音数据以及再现所存储的声音数据的设备和方法。

    为了实现这个目的，依照本发明的一方面，为移动通信终端提供一种三维立体声再现设备，该三维立体声再现设备包括：用于存储具有三维立体声效果的声音数据的存储器；用于当生成呼入呼叫或用户请求声音数据的再现时，从存储器中读出声音数据以及用于解码该声音数据而不会造成三维立体声效果的失真，由此以模拟信号的形式将该声音数据输出的声音处理单元；以及用于放大该模拟信号和以可听声音的形式输出该放大的模拟信号的扬声器。

    依照本发明的另一方面，提供了一种在移动通信终端中用于再现具有三维立体声效果的声音数据的方法，该方法包括如下步骤：在通信终端的存储器中存储具有三维立体声效果的声音数据；当生成呼入呼叫或用户请求声音数据的再现时，从存储器中读出该声音数据并对该声音数据进行解码而不会造成三维立体声效果的失真；和将该解码的数据转换成模拟信号并以可听声音的形式将该模拟信号输出。

    【附图说明】

    下面结合附图对本发明进行详细描述，这使得本发明的上述和其它目的、特点和优点将变得更加明显，其中：

    图1为描述典型移动通信终端中声音信号再现设备的方框图；

    图2为描述按照本发明优选实施例的移动通信终端的声音信号再现设备的方框图；

    图3为描述按照本发明的实施例在移动通信终端中声音信号再现操作的流程图。

    【具体实施方式】

    在下文中，将参考附图对按照本发明用于通信终端中再现三维立体声的设备和方法的优选实施例进行描述。在下面对本发明的描述中，与此相关的已知功能和结构将不再进行详细的描述，以免混淆本发明的主题。

    提出本发明以在移动通信终端中存储和再现声音数据，该声音数据具有采用运动图象专家组-1音频层3：MPEG-1层3(MP3)或MPEG-2高级音频编码(MPEG-2 AAC，在下文中称为‘ACC’)的三维立体声效果。

    即，依照本发明的设备和方法，在其中包括MP3解码器或AAC解码器的通信终端，例如手持机或PDA手机，生成MP3格式或AAC格式的声音数据，并在通信终端中存储所生成的声音数据，并利用MP3解码器或AAC解码器来再现该存储的声音数据，以此来提高当再现三维立体声时的通信终端性能和存储效率。

    图2为描述依照本发明优选实施例的移动通信终端的声音信号再现设备的方框图。

    控制器30包括用于执行移动通信终端整个控制进程的调制解调器芯片。RF(射频)信号处理单元32下变换从网络通过预定频带的无线信道经由天线接收的频带，并按照数据类型，在控制器30的控制下，将该接收到的信号传送到控制器30或语音编译码单元34。

    从RF信号处理单元32传送到控制器30的数据包括：通过业务信道接收到的数据，通过控制信道接收的寻呼信号，信令信号等等。从RF信号处理单元32传送到语音编译码单元34的数据包括当语音呼叫已建立时接收到的语音数据。另外，RF信号处理单元32还将从控制器30中接收到的数据和从语音编译码单元34中接收到的编码语音数据上变换成预定频带的无线信号，并通过天线发送该无线信号到网络。

    语音编译码单元34一般包括声码器并按照控制器30的控制来运作。语音编译码单元34对来自麦克风36的电语音信号进行编码并把该编码的语音信号传送到RF信号处理单元32。另外，语音编译码单元34还对通过控制器30接收的来自RF信号处理单元32的、编码的语音数据进行解码，以便将该编码的语音信号转换成电语音信号，然后将该电语音信号输出到扬声器48。扬声器48将接收到的电语音信号转换成可听声音并将其输出。

    显示单元58包括显示器，如液晶显示器(LCD)，用于采用字母和/或图标来显示进程状态，以及振动马达，和警示信号灯。显示单元58的液晶显示器显示移动通信终端的当前状态。液晶显示器还用于将输入数据转换成字母、图标或字符，并显示该字母、图标或字符。

    键盘输入单元60一般具有键矩阵结构并包括用于拨号的数字键、用于输入文本的键、用于执行各种功能的功能键、选择键、和用于向上、下、左、右方向移动的方向键。键盘输入单元60生成和用户操作的键相应的键数据，并将该生成的键数据输出到控制器30。

    存储单元50可以包含ROM(只读存储器)和RAM(随机存取存储器)，并被分成：用于存储控制控制器30所需的程序代码的区域、用于存储用户输入的数据的区域、和用于临时存储在控制操作过程中产生的数据的区域。另外，存储单元50还包括声音数据52，54，和56，其可以被用来通知用户接收呼入呼叫或产生告警(警报)音。

    声音数据52，54和56可以由厂商预先存储或从供应商服务器(运营商服务器)62下载，该服务器可以通过无线电、通用串行总线(USB)端口、IEEE 1394端口、红外线端口等等和移动通信终端相接。用户还可以通过无线电、USB端口、IEEE 1394端口或红外线端口将移动通信终端连接到个人计算机，并使用所连接的个人计算机将声音数据52，54和56下载和存储到存储单元50中。

    声音数据包括三维立体声效果以便于由声音处理单元38处理并压缩成MP3格式或AAC格式。

    声音处理单元38将被控制器30从存储单元50中读出的声音数据52，54和56转换成电信号，并将该电信号输出到扬声器48。扬声器48包括两个或更多个扬声器装置以便于支持三维立体声效果。扬声器48为立体声扬声器，其放大通过立体声数模转换器46输出的模拟立体声信号，并将该模拟立体声信号作为可听声音输出。

    现在将对声音处理单元38的操作做更加详细的描述。

    声音处理单元38包括立体声数模转换器46以及MP3解码器42和AAC解码器44中的至少一个。图2示出了MP3解码器42和AAC解码器44同时存在的一种结构，并且由开关40来选择两个解码器中的一个。

    也就是说，存储单元50存储二维乐曲声音数据52，MP3格式的三维声音数据54，和AAC格式的三维声音数据56。当用户需要再现、生成呼入呼叫、或生成诸如告警信号之类的请求时，控制器30从存储单元50中将有关声音数据读出并将该读出的数据提供给声音处理单元38。

    当MP3格式的三维声音数据54被控制器30读出时，开关40在控制器30的控制下切换，以将MP3格式的三维声音数据54发送给MP3解码器42。三维声音数据54按照MP3方案被MP3解码器42解码，并被立体声数模转换器46转换成电信号，然后通过扬声器48输出。当AAC格式的三维声音数据56被控制器30读出时，开关40在控制器30的控制下切换，以将AAC格式的三维声音数据56发送到AAC解码器44。三维声音数据56按照AAC方案被AAC解码器44解码，并被立体声数模转换器46转换成电信号，然后通过扬声器48输出。乐曲声音数据52可以被MP3解码器42和AAC解码器44中的任何一个再现。

    在下文中，将对按照本发明实施例应用的压缩方案进行描述。

    一般地，为了采用电设备再现自然界产生的各种各样的声音，语音或声音信号被转换成脉冲并以波形存储。然而，为了存储接近原始声音质量的声音，存储一分钟的声音信号需要高达大约10M字节的极大容量。人们已经研究了压缩和存储声音数据的方案，以解决上述大容量的问题，由此产生了MP3声音压缩编译码器(MP3)。MP3以MPEG-1为基础构成，MPEG-1为视频数据的一种压缩格式并已发展成声音数据标准。

    MP3能将数字音频数据压缩成比在一般音频密致盘(CD)中存储的数字音频数据大约小十二倍的大小，同时保持数字音频声音的质量。比一般数字音频数据小十倍的MP3声音数据能够确保声音质量和CD中的一样好(16位和44.1KHz)。

    和MP3不同，AAC压缩方案不是起源于MPEG-1而起源于MPEG-2，被称为‘MP4’，其表示比MP3还要先进的技术。用于数字多用途盘(DVD)视频的MPEG-2具有比MPEG-1更优良的声音质量以及更高的压缩比，由此具有包括比MPEG-1好四倍的屏幕质量在内的卓越性能并支持多种语言。来源于该MPEG-2的AAC能够将普通数字音频数据压缩到1/20，并且是一种能够防止数据被非法复制的数字文件压缩方法。

    MP3的数据结构是固定的而AAC的数据结构是可变的。即，MP3按照帧在头部之后存储数据，该头部包含有关于整个曲调的信息。因为帧具有固定的大小，因此即使在具有高压缩比的部分，帧也可能包含不必要的空闲容量。相反的，因为AAC的帧具有可变的结构，可以按照压缩比改变帧的大小，所以整个数据的容量明显的缩小了。实际上，与MP3相比，AAC最大可以将其数据容量缩小30％。

    AAC的第二个优点是声音的高质量。和MP3不同，AAC通过两种技术来保持原始声音的质量，即，时间噪声整形(TNS)和预测。TNS为一种量化补偿技术，其减少噪声，并通过感知地减少当连续模拟音乐信号被转换成数字信号‘1’和‘0’时产生的误差而生成接近原始声音的声音。预测包括存储由TNS补偿的值。即，预测用于存储有关在先前部分中补偿的值的信息，并当在随后部分生成相同的数据时利用该存储的信息。如果两个相同的声音在量化步骤中被补偿成不同的值，这两个相同的声音就会以两个不同的声音被输出。因此，执行预测以便于相同的声音被补偿成相同的值并作为相同的声音再现。

    如上所述，MP3和AAC不将原始声音数据改变为近似值，而是通过感知编码方法将原始声音数据压缩到一定级别，在该级别上音频信号的特性不能被感知地识别，由此防止了包含在原始声音数据中的三维立体声效果的失真。另外，从为三维立体声数据54和56提供服务的供应商服务器62和移动通信终端的观点来看，存在以下优点：和传统的SMAF相比，下载时间缩短，并且存储器的利用率是其两倍。

    图3为描述按照本发明的实施例在移动通信终端中声音信号再现操作的流程图。

    在步骤70中，通过无线电、USB端口、IEEE 1394端口或红外线端口，将来自厂商、移动通信终端用户或供应商服务器的MP3格式或AAC格式的三维声音数据存储在移动通信终端的存储单元50中。在步骤72中，用户选择并确定与作为呼入乐曲声音的三维声音数据相应的三维乐曲声音。

    在步骤74，当呼入呼叫或用户要求再现乐曲声音时，控制器30从存储器中读出被确定作为呼入乐曲声音的三维乐曲声音或用户所要求的相应的三维声音数据，并控制开关40切换到与读出的三维声音数据相应的解码器42或44(步骤76)。

    在步骤78，与开关40相接的解码器42或44通过开关40接收读出的三维声音数据，并分别按照MP3方案或AAC方案对该接收到的数据进行解码。在步骤80中，该解码信号被立体声数模转换器46转换成模拟音频信号，并通过扬声器48输出。

    现在，将对在上面详细描述的根据本发明的实施例所得到的效果进行简要的描述。

    当离线处理的三维立体声数据被再现时，通过采用由AAC格式或MP3格式构成的数据，三维立体声数据能被再现并且原始声音的质量保持令人满意的水平，因此在再现原始声音的过程中使获得优质的三维立体声效果和卓越的性能成为可能。

    另外，因为采用了AAC格式或MP3格式，声音数据的大小减小了一半，存储数据的存储器的容量和制造成本也会大大减少，而声音的卓越感知质量确保不会失真。再有，因为下载声音数据所需的时间周期减半，用户的下载费用也会降低。

    虽然已参考其中的某些优选实施例对本发明作了说明和描述，但本领域的技术人员应该理解，在不偏离所附权利要求限定的本发明的精神和范围的情况下，可以在形式上和细节上对本发明作任何的改变。相应的，本发明的范围并不局限于上述的实施例，而是限于权利要求和其等效物。