影音录放系统及方法.pdf

摘要
申请专利号：	CN200810208021.7	申请日：	2008.12.25
公开号：	CN101499309A	公开日：	2009.08.05
当前法律状态：	公开	有效性：	审中
法律详情：	公开
IPC分类号：	G11B27/036; G11B27/10	主分类号：	G11B27/036
申请人：	爱唱数码科技（上海）有限公司
发明人：	陈进旺; 官圳清
地址：	200233上海市田州路99号10号楼3楼(在古美路与莲花路之间)
优先权：
专利代理机构：	北京市浩天知识产权代理事务所	代理人：	许志勇
PDF下载：	PDF下载

内容摘要

一种影音录放系统及方法，其在进行讯号合成之前，先将所录制的人声讯号与影像讯号在时间轴上调为与音乐讯号一致，以消除后续所播放的影音讯号中声音讯号与影像讯号的时间差，进而达成同步播放声音讯号与影像讯号的功效。

权利要求书

1.  一种影音录放系统，包括：
一录制模块，用以录制一人声讯号以及一影像讯号，其中该人声讯号具有一第一时间点，该影像讯号具有一第二时间点；
一调整模块，用以加载具有一第三时间点的一音乐讯号，以该音乐讯号为基准调整该人声讯号与该影像讯号在时间轴向上的位移，以使该第一时间点及该第二时间点在时间轴上的位置与该第三时间点相同；
一讯号合成模块，用以将调整后的该人声讯号与该音乐讯号合成为一声音讯号，并依据该声音讯号与该影像讯号生成一影音讯号；以及
一播放模块，用以播放该影音讯号。

2.  如权利要求1所述影音录放系统，其中在调整该人声讯号、该影像讯号在时间轴向上的位移之后以及合成调整后的该人声讯号与该影像讯号之前，该播放模块更包括用以同时播放该人声讯号、该影像讯号与该音乐讯号。

3.  如权利要求1所述影音录放系统，其中该讯号合成模块更包括一影像讯号处理单元，用以在该影像讯号的总长度与该声音讯号的总长度不同时，对该影像讯号进行处理而产生一后制影像讯号，其中该后制影像讯号的总长度与该声音讯号的总长度相同，而该影音讯号是由该声音讯号、与该后制影像讯号合成而得。

4.  如权利要求3所述影音录放系统，其中当该影像讯号的总长度小于该声音讯号的总长度时，该影像处讯号处理单元用以依据该影像讯号与该声音讯号之间的时间长度差产生一补偿影像讯号，而该后制影像讯号是由该影像讯号与该补偿影像讯号合成而得。

5.  如权利要求3所述影音录放系统，其中当该影像讯号的总长度大于该声音讯号的总长度时，该影像处讯号处理单元用以删除该影像讯号超出该声音讯号的部分，以生成该后制影像讯号。

6.  如权利要求1所述影音录放系统，更包括：
一影像撷取模块，用以撷取该影像讯号，并将该影像讯号传送至该录制模块；以及
一音讯接收模块，用以接收该人声讯号，并将该人声讯号传送至该录制模块。

7.  如权利要求6所述影音录放系统，其中该影像撷取模块为网络摄影机。

8.  如权利要求6所述影音录放系统，其中该音讯接收模块为麦克风。

9.  一种影音录放方法，包括下列步骤：
录制一人声讯号及一影像讯号，其中该人声讯号具有一第一时间点，该影像讯号具有一第二时间点；
加载具有一第三时间点的一音乐讯号，以该音乐讯号为基准调整该人声讯号与该影像讯号在时间轴向上的位移，以使该第一时间点及该第二时间点在时间轴上的位置与该第三时间点相同；
将调整后的该人声讯号与该音乐讯号合成为一声音讯号，并依据该声音讯号与该影像讯号产生一影音讯号；以及
播放该影音讯号。

10.  如权利要求9所述影音录放方法，其中在调整该人声讯号与该影像讯号在时间轴向上的位移之后及合成调整后的该人声讯号与该影像讯号之前，更包括同时播放调整后的该人声讯号、该影像讯号与该音乐讯号。

11.  如权利要求9所述影音录放方法，其中依据该声音讯号与该影像讯号生成该影音讯号的步骤更包括：
判断该影像讯号的总长度与该声音讯号的总长度是否相同，其中当该影像讯号的总长度与该声音讯号的总长度不同时：
对该影像讯号进行处理而产生一后制影像讯号，其中该后制影像讯号的总长度与该声音讯号的总长度相同；以及
将该声音讯号及该后制影像讯号合成为该影音讯号。

12.  如权利要求11所述影音录放方法，其中当该影像讯号的总长度小于该声音讯号的总长度时，处理该影像讯号的方法包括：
计算该影像讯号与该声音讯号之间的一时间长度差；以及
依据该时间长度差产生一补偿影像讯号，其中该后制影像讯号是由该补偿影像讯号与该影像讯号合成而得。

13.  如权利要求11所述影音录放方法，其中当该影像讯号的总长度大于该声音讯号的总长度时，处理该影像讯号的方法包括删除该影像讯号超出该声音讯号的部分，以生成该后制影像讯号。

14.  如权利要求9所述影音录放方法，其中在录制该人声讯号及该影像讯号之前，更包括：
撷取该影像讯号；以及
接收该人声讯号。

说明书

影音录放系统及方法
技术领域
本发明是关于一种影音播放系统及方法，且特别是有关于一种能够个别调整录制的人声、影像与音乐的播放时间点进行同步播放的影音录放系统及方法。
背景技术
卡拉OK(karaoke)这项休闲活动由日本引进台湾后，逐渐演变出歌唱结合影像画面的KTV，而唱歌的地点也由开放式的场所演变为包厢式，甚至发展出家用伴唱机，使得唱歌逐渐成为现代人热门的休闲活动。
由于因特网的技术日精月益，使用因特网的人愈来愈多，因此目前也发展出线上KTV的技术，以便于歌唱爱好者随时都能享受唱KTV的乐趣。当使用者透过网络将歌曲音乐伴奏档案下载至计算机，并利用计算机接口设备(如麦克风及扬声器)享受唱歌乐趣的同时，也可以利用录音软件与网络摄影机分别将自己的歌声及唱歌时的影像录制下来，以制作成个人专属的音乐录像带(music video，MV)。
然而，由于网络摄影机在撷取影像时，往往会因为计算机的运算能力不足而发生影像延迟的状况。而且，网络摄影机的录像功能与麦克风的录音功能通常需透过计算机软件来启动，因此即使使用者在启动录音录像功能的同时亦开始播放伴奏音乐，实际上录音录像功能的启动时间点与伴奏音乐的播放时间点也可能有些微的差距。由此可知，如果直接以网络摄影机所录制的影像与歌声及音乐结合成影音文件，则在播放此影音文件时会发现有影像与歌声不同步，甚至是使用者的歌声与其在影像中的嘴型对不起来的问题。
发明内容
有鉴于利用现有技术所录制的影音档在播放时会有声音与影像不同步的问题，本发明遂提供一种影音录放系统与方法，以便于能够同步播放所录制的声音讯号及影像讯号。
本发明提供一种影音录放系统，其包括：录制模块、调整模块、讯号合成模块以及播放模块。录制模块是用以录制人声讯号以及影像讯号。其中，该人声讯号具有一第一时间点，该影像讯号具有一第二时间点。调整模块是用以加载具有第三时间点的音乐讯号，以该音乐讯号为基准调整该人声讯号与该影像讯号在时间轴向上的位移，以使该第一时间点及该第二时间点在时间轴上的位置与该第三时间点相同。讯号合成模块则是用以将调整后的该人声讯号与该音乐讯号合成为一声音讯号，并依据该声音讯号与该影像讯号生成一影音讯号，然后再由播放模块负责播放该影音讯号。
本发明提供一种影音录放方法，其实行步骤是：先录制人声讯号与影像讯号，其中该人声讯号具有第一时间点，该影像讯号具有第二时间点。接着，加载具有第三时间点的音乐讯号，以该音乐讯号为基准来调整该人声讯号与该影像讯号在时间轴向上的位移，以使该第一时间点及该第二时间点在时间轴上的位置与该第三时间点相同。之后，将调整后的该人声讯号与该音乐讯号合成为声音讯号，并依据该声音讯号与该影像讯号产生影音讯号，然后再播放此影音讯号。
本发明所提供的系统与方法如上，与现有技术之间的差异在于本发明是在进行讯号合成之前，提供使用者可将人声讯号中开始出现歌声的时间点及影像讯号中开始出现歌曲中第一个字的嘴型的时间点，调为与音乐讯号中开始出现歌曲主旋律的时间点一致，以消除后续所播放的影音讯号中声音讯号与影像讯号的时间差，进而达成同步播放声音讯号与影像讯号的功效。
附图说明
图1为本发明的影音录放系统在第一实施例中的方块示意图。
图2A为调整前的人声讯号、影像讯号及音乐讯号在时间轴上的示意图。
图2B为调整后的人声讯号、影像讯号及音乐讯号在时间轴上的示意图。
图3A为本发明的影像讯号与声音讯号在第一实施例中于时间轴上的示意图。
图3B为本发明的补偿影像讯号、影像讯号与声音讯号在第一实施例中于时间轴上的示意图。
图4为本发明的影音录放系统在第二实施例中的方块示意图。
图5A为本发明的影像讯号与声音讯号在第二实施例中于时间轴上的示意图。
图5B为本发明已处理的影像讯号与声音讯号在第二实施例中于时间轴上的示意图。
图6为本发明的影音录放方法在第一实施例中的步骤流程图。
图7为本发明的影音录放方法在第二实施例中的步骤流程图。
【主要元件符号说明】
100    影音录放系统
110    录制模块
120    调整模块
130    讯号合成模块
140    播放模块
150    影像撷取模块
160    音讯接收模块
400    影音录放系统
410    录制模块
420    调整模块
430    讯号合成模块
432    影像讯号处理单元
440    播放模块
450    影像撷取模块
460    音讯接收模块
A      声音讯号
A_P     人声讯号
A_M     音乐讯号
V      影像讯号
V_C     补偿影像讯号
V_B     后制影像讯号
a      第四时间点
m      第三时间点
p      第一时间点
v      第二时间点
步骤610  分别接收人声讯号，并撷取影像讯号
步骤620  录制人声讯号及影像讯号
步骤630  以音乐讯号为基准，调整人声讯号与影像讯号在时间轴向上的位移
步骤640  播放调整后的人声讯号、影像讯号及音乐讯号
步骤650  上述三个讯号是否同步
步骤660  将调整后的人声讯号与音乐讯号合成为一声音讯号
步骤670  依据此声音讯号与影像讯号产生一影音讯号
步骤680  播放此影音讯号
步骤771  影像讯号的总长度与声音讯号的总长度是否相同
步骤772  影像讯号的总长度是否小于声音讯号的总长度
步骤773  计算影像讯号与声音讯号之间的时间长度差
步骤774  依据此时间长度差产生补偿影像讯号，而与影像讯号合成为后制影像讯号
步骤775  删除影像讯号超出声音讯号的部分，以生成后制影像讯号
步骤776  将声音讯号及后制影像讯号合成为影音讯号
具体实施方式
有关本发明的详细特征与实作，现配合图式在实施方式中详细说明如下，其内容足以使任何本领域技术人员了解本发明的技术内容并据以实施，且根据本说明书所提供的内容及图式，任何本领域技术人员可轻易地理解本发明相关的目的及优点。
图1绘示为本发明的影音录放系统在第一实施例中的方块示意图。请参照图1，影音录放系统100包括录制模块110、调整模块120、讯号合成模块130以及播放模块140。其中，录制模块110是负责录制人声讯号A_P及影像讯号V。在本实施例中，影音录放系统100还可以包括有影像撷取模块150与音讯接收模块160。影像讯号V例如是借由影像撷取模块150撷取之后，再传送至录制模块110中。人声讯号A_P则可以是利用影音录放系统100的音讯接收模块160所接收到的讯号，且音讯接收模块160在接收到人声讯号A_P后，会将其传送至录制模块110，以便于进行录制。
在本实施例中，音乐讯号A_M可以是预储存于影音录放系统100中的讯号，也可以是从其它储存装置或网络传送至影音录放系统100中的讯号。本发明并未在此对音乐讯号A_M的来源加以限定。
承上所述，影像撷取模块150例如是网络摄影机(web camera)，音讯接收模块160例如是麦克风。当然，在其它实施例中，影像撷取模块150与音讯接收模块160也可以整合为单一装置，例如具有麦克风的网络摄影机，本发明并不在此对其做任何限制。
在透过录制模块110进行人声讯号A_P与影像讯号V的录制后，使用者可以透过操作界面而在人声讯号A_P与影像讯号V中分别标记出第一时间点p与第二时间点v，如图2A所示。其中，此处所谓第一时间点p为人声讯号A_P中开始出现歌声的时间点；第二时间点v为影像讯号V中，开始出现歌曲中第一个字的嘴型的时间点。而储存于影音录放系统100的音乐讯号A_M则具有第三时间点m，其为音乐讯号A_M中开始出现歌曲主旋律的时间点。
调整模块120即是用来调整人声讯号A_P与影像讯号V在时间轴向上的位移，以使第一时间点p及第二时间点v在时间轴上的位置与第三时间点m相同，如图2B所示。也就是说，调整模块120可对录制模块110所录制的人声讯号A_P及影像讯号V进行调整，以使人声讯号A_P中开始出现歌声的时间点及影像讯号V中开始出现歌曲中第一个字的嘴型的时间点与音乐讯号A_M中开始出现歌曲主旋律的时间点相同。
特别的是，本实施例还可以在调整模块120对人声讯号A_P及影像讯号V进行调整之后，以及透过讯号合成模块130进行讯号合成之前，先利用播放模块140分别播放出音乐讯号AM与调整后的人声讯号A_P及影像讯号V，以供使用者试看试听调整后的人声讯号A_P的第一时间点及影像讯号V的第二时间点是否确实与音乐讯号A_M的第三时间点相同，以达到同步播放的效果。
请继续参照图1，在利用调整模块120将人声讯号A_P中开始出现歌声的时间点及影像讯号V中开始出现歌曲中第一个字的嘴型的时间点，调整为与音乐讯号AM中开始出现歌曲主旋律的时间点相同之后，接着即由讯号合成模块130负责将调整后的人声讯号A_P与音乐讯号A_M合成为声音讯号A，并且依据声音讯号A与影像讯号V生成一影音讯号V_M。本领域技术人员应该了解影音讯号合成的技术，在此不再赘述。
播放模块140是用以播放讯号合成模块130所产生的影音讯号V_M。本实施例的影音讯号V_M的档案格式例如是MPEG-4(movie picture expertsgroups-4)档或WMV(windows media video)档。当然，在其它实施例中，影音讯号V_M的档案格式也可以是其它目前通用的影音档案格式，本发明并不对其加以限定。
需要注意的是，由于声音讯号A是由人声讯号A_P与音乐讯号A_M混音合成而得，因此声音讯号A的总长度是取决于音乐讯号A_M的总长度。然而，若录制模块110所录制的影像讯号V的总长度与声音讯号A的总长度不符，则需在合成影音讯号V_M的过程中对影像讯号V进行处理，以使其与声音讯号A具有相同的档案长度。
图3A绘示为本发明的影像讯号V与声音讯号A的在时间轴上的示意图。请参照图3A，虽然影像讯号的第二时间点v与声音讯号的第四时间点a(等同于音乐讯号V_M的第三时间点m)在时间轴上的位置相同，但在此实施例中，录制模块110所录制到的影像讯号V的总长度小于声音讯号A的总长度，所以此时需要另外增加一个补偿讯号来补偿影像讯号V与声音讯号A之间的时间差，以避免在刚开始播放影音讯号VM时发生有声音无影像的情形。下文将举实施例配合附图，以对此做进一步说明。
图4绘示为本发明的影音录放系统在第二实施例中的方块示意图。请参照图4，影音录放系统400包括录制模块410、调整模块420、讯号合成模块430以及播放模块440。其中，录制模块410、调整模块420以及播放模块440分别与前述实施例的录制模块110、调整模块120以及播放模块140相似。当然，影音录放系统400也可以包括有影像撷取模块450与音讯接收模块460，其功能分别与影像撷取模块450及音讯接收模块460相似，此处均不再赘述。
如前所述，为了解决在影音合成过程中所造成影像跟不上声音播放的时间延迟现象，在第二实施例中本发明对讯号合成模块430做了些改进，其中讯号合成模块430更进一步包括影像讯号处理单元432，在讯号合成模块430依据声音讯号A与影像讯号V生成影音讯号V_M的过程中，影像讯号处理单元432会根据影像讯号V与声音讯号A之间的时间差来产生补偿影像讯号V_C，而与原影像讯号V合成为后制影像讯号V_B。其中，补偿影像讯号V_C的时间长度即是等于影像讯号V与声音讯号A之间的时间长度差，如图3B所示。由此可知，本实施例的影音讯号V_M实际上是由后制影像讯号V_B及声音讯号A合成而得。
除此之外，录制模块410所录制的影像讯号V的总长度也可能会大于声音讯号A的总长度，如图5A所示。此时，影像讯号处理单元432例如是将影像讯号V超出声音讯号A的部分删除掉，以生成与声音讯号A具有相同时间长度的后制影像讯号V_B，如图5B所示。
由上述可知，本发明的影音录放系统是在将其所录制到的人声讯号A_P、影像讯号V以及音乐讯号A_M进行合成之前，先调整人声讯号A_P与影像讯号V在时间轴向上的位移，然后再对这些讯号进行合成。如此一来，即可消除各讯号之间在录制过程中因各种因素所导致的时间差，进而避免发生声音与影像不同步的问题。
此外，本发明的影音录放系统亦可以在生成影音讯号的过程中，先对影像讯号进行补偿或将其删去部分，以产生与声音讯号时间长度相同的后制影像讯号。之后利用此后制影像讯号与声音讯号，即可合成出声音与影像同步的影音讯号。
为使本领域技术人员更加了解本发明，以下将举实例说明上述影音录放系统的运作流程。
图6绘示为本发明在第一实施例下所实现的影音录放方法的步骤流程图。请参照图6，当使用者启动网络摄影机的录像功能、播放音乐并开始唱歌时，系统是先分别接收使用者的人声讯号及伴奏的音乐讯号，并撷取使用者的影像讯号(步骤610)。接着开始录制人声讯号以及影像讯号(步骤620)，并同时纪录人声讯号中开始出现歌声的时间点，以及影像讯号中开始出现歌曲中第一个字的嘴型的时间点(如图2A所示)。
录制完毕后，系统会将原储存在系统中的音乐讯号及步骤620所录制到的影像讯号与人声讯号在时间轴上的位置图(见图2A)显示在屏幕上供使用者参考，并提供使用者一操作接口，则使用者可以音乐讯号做为基准，而输入指令来调整人声讯号及影像讯号在时间轴向上的位移(步骤630)，使人声讯号中开始出现歌声的时间点及影像讯号中开始出现歌曲中第一个字的嘴型的时间点，均与音乐讯号中开始出现主旋律的时间点相同(如图2B所示)。
特别的是，当使用者透过操作接口调整人声讯号及影像讯号在时间轴上的位置后，本实施例例如是先播放调整后的人声讯号、影像讯号及音乐讯号(步骤640)，以供使用者试看试听，并借由使用者来判断上述三个讯号是否同步(步骤650)。
当步骤650中判断出人声讯号、影像讯号及音乐讯号仍不同步时，则重复步骤630，也就是依据试看试听的结果，再次调整人声讯号与影像讯号在时间轴向上的位移；反之，当步骤650中判断出人声讯号、影像讯号及音乐讯号已同步时，则将调整后的人声讯号与音乐讯号合成为一声音讯号(步骤660)，并依据此声音讯号与影像讯号产生一影音讯号(步骤670)。之后即可播放此影音讯号(步骤680)。在此，影音讯号VM的档案格式例如是MPEG-4(movie picture experts groups-4)档、WMV(windows media video)档或是其它目前通用的影音档案格式。
如前文所述，依据声音讯号与影像讯号生成影音讯号的过程中，实际上影像讯号的总长度可能会与声音讯号的总长度(见图3A及图5A)。因此，本发明在第二实施例中所实现的影音录放方法如图7所示，其在步骤670中例如是先判断影像讯号与声音讯号的总长度是否相同(步骤771)。当影像讯号与声音讯号的总长度相同时，则继续进行图6所示的步骤680。
反之，当影像讯号与声音讯号的的总长度不同时，先判断影像讯号的总长度是否小于声音讯号的总长度(步骤772)。当影像讯号的总长度小于声音讯号的总长度时，计算影像讯号与声音讯号的时间长度差(步骤773)，接着依据此时间长度差产生一补偿影像讯号(步骤774)。其中，此补偿影像讯号是与原影像讯号合成为一后制影像讯号，且补偿影像讯号可以是歌曲片头的影像。之后再将声音讯号及后制影像讯号合成影音讯号(步骤776)。如此一来，后续在播放影音讯号(如图6的步骤680)时，即可避免在刚播放时发生有声音没影像的情况。
此外，当影像讯号的总长度大于声音讯号的总长度时，删除影像讯号超出声音讯号的部分(步骤775)，以产生与声音讯号具有相同时间长度的后制影像讯号。之后再将声音讯号与后制影像讯号合成为影音讯号(步骤776)。
综上所述，可知本发明与现有技术之间的差异在于本发明是先以音乐讯号为基准来调整其所录制到的人声讯号及影像讯号在时间轴向上的位移，之后才对这些讯号进行合成。借由此一技术手段可以解决现有技术中因为所录制的声音讯号与影像讯号之间存在时间差的问题，进而达成同步播放人声讯号、影像讯号以及音乐讯号的技术功效。
而且，本发明亦提供在合成影音讯号的过程中对影像讯号进行处理的技术手段，以确保最后合成的影音讯号具有同步的声音讯号与影像讯号。
虽然本发明所公开的实施方式如上，惟所述的内容并非用以直接限定本发明的专利保护范围。任何本发明所属技术领域中技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作些许的更动。本发明的专利保护范围，仍须以所附的权利要求所界定者为准。