《一种移动终端与媒体同步与交互的方法.pdf》由会员分享,可在线阅读,更多相关《一种移动终端与媒体同步与交互的方法.pdf(17页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103123787 A(43)申请公布日 2013.05.29CN103123787A*CN103123787A*(21)申请号 201110372058.5(22)申请日 2011.11.21G10L 15/02(2006.01)H04L 29/06(2006.01)G06F 17/30(2006.01)(71)申请人金峰地址 100028 北京市朝阳区太阳星城金星园18号楼403申请人刘琨(72)发明人金峰 刘琨(74)专利代理机构北京市兰台律师事务所 11354代理人张峰(54) 发明名称一种移动终端与媒体同步与交互的方法(57) 摘要本发明提供了一种移动终端与。
2、媒体同步与交互的方法,包括:客户端通过移动终端的音频采集模块采集音频信息,进行特征化处理并发送到识别匹配模块,其中特征化处理的方法是对音频信息的能量谱、频率谱或相位谱的相邻两帧数据的变化趋势进行编码;服务端采集媒体方的媒体流信息,将其转化为声音编码,同样进行特征化处理,生成媒体信息数据库;识别匹配模块将移动终端的特征与媒体信息数据库进行匹配;将匹配的信息反馈给移动终端。移动终端设置互动交流模块,用于在匹配节目项下实现用户与媒体方以及用户之间的信息交流。本发明通过音频信息的特征化处理,优化了识别匹配的程序,为用户提供了一种新的交流平台,进一步丰富移动终端的应用形式。(51)Int.Cl.权利要求。
3、书2页 说明书7页 附图7页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书7页 附图7页(10)申请公布号 CN 103123787 ACN 103123787 A1/2页21.一种移动终端与媒体同步与交互的方法,该方法包括:a、客户端通过移动终端的音频采集模块采集音频信息,对音频信息进行特征化处理,并发送到识别匹配模块;b、服务端采集媒体方的媒体流,对媒体流进行特征化处理,生成媒体信息数据库;c、服务端识别匹配模块将移动终端的特征数据与所述媒体信息数据库进行识别匹配;d、将识别匹配的信息反馈给移动终端。2.根据权利要求1所述的方法,其特征在于,步骤a中的音频信。
4、息的特征化处理的方法为:对音频信息的能量谱、频率谱或相位谱的相邻两帧数据的变化趋势进行编码。3.根据权利要求2所述的方法,其特征在于,所述的特征化处理的步骤具体为,通过对一帧信号的能量谱、频率谱或相位谱在若干划分段内的每一段上的某种数值和其上一帧中对应段中的该种数值的变化趋势对比进行编码,增加即为1,减低即为0,得到一二维矩阵,此为特征矩阵,然后对行或列为单位进行特征序列化,得到特征序列。4.根据权利要求3所述的方法,其特征在于,所述的特征化处理具体为:首先对音频信息进行短时离散傅立叶变换;然后将傅立叶变换的结果均分为L个频段,并对每个频段内的能量求和,得到函数对f(n,t)和f(n,t+1)。
5、做如下处理,得到F(n,t)矩阵,按照列为单位,将二进制转换为10进制或16进制,形成特征值序列f1,f2,.,ft。5.根据权利要求2所述的方法,其特征在于,在步骤b中,服务端与媒体方的数据终端相连接,通过信息采集模块,将媒体方的媒体流信息采集到服务器。6.根据权利要求5所述的方法,其特征在于,步骤b中媒体流信息的特征化处理步骤为:将媒体广播信号的媒体流转化为声音编码,然后按照权利要求2所述的步骤形成音频特征值序列,并生成实时搜索索引表。7.根据权利要求6所述的方法,其特征在于,媒体信息数据库按照媒体流的节目表表头进行倒排索引。8.根据权利要求7所述的方法,其特征在于,识别匹配过程采用检索算。
6、法进行索引查找,获得匹配数量最多的序列单元,如果匹配数量最大值与其他匹配数量的差值都大于某一阈值,则判定匹配数量最大值所对应的序列单元即为匹配结果;如果最大值与其他值的差值不是都大于某一阈值,则对差值在阈值范围以内的帧进行二次验证,二次验证采用误码率计算,即相对于原始数据的错误率,取此值最小的情况作为匹配结果输出9.根据权利要求1-8任一项所述的方法,在步骤a中,通过录音方式采集音频信息,采集时间为1-10秒。10.根据权利要求1-8任一项所述的方法,其特征在于,步骤a中对音频信息进行的特权 利 要 求 书CN 103123787 A2/2页3征化处理既可以在移动终端设置特征化处理模块实现,也。
7、可以通过移动终端将音频信号发送给设有特征化处理模块的后台服务器来实现。11.一种利用权利要求1-8任一项所述的方法来统计收视率的方法,其特征在于,在完成识别匹配后,将多用户的匹配的结果发送给收视率统计模块,生成收视率统计报告。12.一种利用权利要求1-8任一项所述的方法来实现用户与媒体方互动交流的方法,其特征在于,移动终端内设置有互动交流模块,所述互动交流模块,用于实现用户与媒体方以及用户之间的信息交流。13.根据权利要求12所述的方法,其特征在于,移动终端收到反馈的匹配信息后,互动交流模块会提示用户是否同意与匹配节目的媒体方建立互动,如果用户不同意,则不建立互动;如果用户同意,则建立用户与媒。
8、体方的即时通讯通道,用户可以通过该通道与媒体方进行信息交流。14.根据权利要求12所述的方法,其特征在于,移动终端收到反馈的匹配信息后,互动交流模块会提示用户是否同意与其他收看相同节目的用户建立互动,如果用户不同意,则不建立互动;如果用户同意,则建立用户之间的即时通讯通道,用户之间可以通过该通道方进行信息交流。权 利 要 求 书CN 103123787 A1/7页4一种移动终端与媒体同步与交互的方法技术领域0001 本发明涉及通信技术领域,具体涉及一种移动终端与媒体同步与交互的方法。背景技术0002 随着手机、Pda等移动终端的普及和移动通讯技术的发展,移动终端已经成为持有量最大的即时通讯工具。
9、,其种种应用形式有着优良的市场前景。尤其是以移动终端与媒体的同步为基础实现移动终端用户与媒体方的互动或者移动终端用户之间的互动,是全球通讯设备厂商面临的一个亟待解决的问题。0003 目前移动终端与媒体的交互技术的普遍方式是移动终端用户在收看节目时,向媒体方指定的号码发送短信息,由移动通讯供应商将这些信息中转给媒体方。但是这种方法受到移动通讯供应商的信息处理和中转速度的影响而具有非常强的延迟,无法实现实时互动。而且媒体无法对观众的信息进行实时反馈,观众也只能作为单方面的受众群体,无法实现相互之间的互动。0004 要实现移动终端与影音媒体及广播设备的交互,首先应当解决移动终端与媒体的同步问题,同步。
10、的核心在于将移动终端接收到的影音信号与媒体方的影音信号进行有效的识别匹配。目前,尚没有现有技术尝试进行视频信号的识别匹配,因为视频信号的信息量巨大,其识别匹配的速度和有效性受到现有的计算机处理速度的限制。关于音频识别匹配的技术,目前常见的算法是基于音乐的曲调,对曲调进行标注,将音乐标注为等高的音频谱线,然后与音乐数据库的信息进行对比,根据谱线进行匹配。这种方法局限于现有的音乐歌曲,对数据库要求高,对于影音媒体以及广播等内容场景较为随机的形式,无法建立有效的数据库,现有的音频匹配技术无法达到实时,存在其无法克服的缺陷。发明内容0005 本发明的目的在于提供移动终端与媒体同步与交互的方法,为移动终。
11、端的用户提供了一种新的交流平台,进一步丰富移动终端的应用形式。0006 本发明的目的还在于提供一种收视率统计的方法。0007 本发明还采用了特征化算法,优化了音频信息的识别匹配程序,同时实现了声音识别匹配的自动化处理。0008 为了实现上述目的,本发明在移动终端设置音频信息采集模块,用于采集音频信息,然后将音频信息通过特征化处理模块进行特征提取,并生成相应的特征值序列。特征化处理模块可以设置在移动终端上也可以设置在服务端后台服务器上。同时服务端后台服务器设置信息采集模块,用于采集媒体方的媒体流信息,然后服务器将媒体流信息转化为声音编码,进行特征化处理,提取音频特征,并将特征按照媒体流的节目表表。
12、头进行倒排索引,生成搜索索引表,实时地构建媒体音频信息的数据库。然后使用红黑二叉树的检索算法将移动终端采集的音频信息特征与媒体数据库的音频信息进行对比匹配,确定移动终端所采集的音频信息与哪个节目同步,并将该节目信号反馈给移动终端。说 明 书CN 103123787 A2/7页50009 识别媒体播放的信息的关键是通过音频信息进行特征提取和匹配。本发明采用的音频信息的特征化方法是对音频信息的能量谱、频率谱或相位谱的相邻两帧数据的变化趋势进行编码。通过对一帧信号的能量谱、频率谱或相位谱在若干划分段内的每一段上的某种数值和其上一帧中对应段中的该种数值的变化趋势对比进行编码,增加即为1,减低即为0,得。
13、到一二维矩阵,此为特征矩阵。然后对行或列为单位进行特征序列化,得到特征序列。其计算过程如下所示:0010 移动终端所采集的音频信息如图2所示,从中提取特征首先要将其进行短时离散傅立叶变换,0011 0012 其中,xn,n0,1,2为信号,g为窗函数,长度为M,t为时间,y(x,t)为t时刻,xn的短时傅立叶变换,将短时傅立叶变换的结果按照时间排列,其结果如下图3所示。0013 随后,以y轴为对象,将图谱平均分成L段(L1,2,3,),对每段内频谱的能量求和,得到函数0014 0015 对f(n,t)和f(n,t+1)做如下处理0016 0017 由此得到音频信号的特征图谱,如图4所示。001。
14、8 F(n,t)矩阵为:0019 0020 按照列为单位,将二进制转换为10进制或16进制,便形成了特征值序列f1,说 明 书CN 103123787 A3/7页6f2,.,ft。0021 至此,特征化的过程完成。0022 同时,服务端将媒体的音频信号提取出来,并按照上述的特征化算法,对媒体的音频特征进行倒排索引,即构建如图5所示的数据存储索引表。0023 其中PID为每一个PID所对应的索引表的表头,feature为特征,frame为此特征存在的帧序号,a为在某帧中出现的频率。0024 然后,特征信息识别匹配模块将从客户端接收的特征序列针对每一索引表进行查找,查找算法使用红黑二叉树。0025。
15、 获得查找结果后,如果匹配数量最大值与其他匹配数量的差值都大于某一阈值,则判定匹配数量最大值即为匹配结果;如果最大值与其他值的差值不是都大于某一阈值,则对差值在阈值范围以内的帧进行二次验证,二次验证采用误码率计算,0026 0027 如果bitError,小于设定阈值beta,则认为bitError最小的即为所要匹配的结果,如没有小于beta的候选,则认为此次匹配是无效匹配。0028 特征信息识别匹配模块完成音频信息的匹配后,将匹配结果反馈给移动终端,在移动终端设置有互动交流模块。所述互动交流模块,用于实现用户与媒体方以及用户之间的信息交流,用户可以针对匹配节目与媒体方建立即时通讯通道进行交流。
16、,也可以在匹配节目项下建立用户间即时通讯通道,进行互动和交流。0029 特征信息识别匹配模块完成音频信息的匹配后,将匹配信息发送到收视率统计模块,对用户的收视信息进行统计分析,并生成收视率统计报告。应用本发明来进行收视率调查,可以大大降低成本,并解决数字广播和模拟广播不能同步收视调查的问题。0030 本发明通过音频信息的特征化处理,优化了识别匹配的程序,具有算法简单,数据量小的特点,实现了移动终端与媒体的同步,并在同步的基础上实现了用户与媒体方以及用户之间的互动交流,为交互电视、社交电视的发展提供了基础,同时实现了收视率调研和媒体广告拓展的新的应用形态。附图说明0031 图1是本发明提供的实现。
17、移动终端与媒体同步与交互的方法的系统组成示意图。0032 图2是移动终端采集的音频信息图。0033 图3是对音频信息进行短时傅立叶变换的结果图。0034 图4是音频信号的特征图谱。0035 图5是媒体的音频信息的数据存储索引表。0036 图6是服务端的信息采集、信息特征化和建立数据库索引流程图。0037 图7是以PID为表头建立数据库索引流程图。0038 图8是影片名侦探柯南的部分音频片段图。0039 图9是第一段250ms的音频信息的音频图。0040 图10是对音频信息进行hanning窗加窗处理后再进行傅立叶变换的结果图。说 明 书CN 103123787 A4/7页70041 图11是对。
18、音频信息的傅立叶变换的结果等分频段进行能量求和的结果图。0042 图12是对音频信息的前后125ms音频数据的傅立叶变换的结果等分频段进行能量求和的结果图。0043 图13是音频信息识别匹配流程图。具体实施方式0044 下面集合本发明的附图和具体实施例,对本发明的技术方案做清晰、完整的描述,应当注意,所述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下获得的所有其他实施方式,都属于本发明的保护范围。0045 首先说明服务端的部署。0046 服务端连接到媒体方的数据终端,通过信息采集模块,将媒体方的TS流信息采集到服务器上。。
19、0047 所述媒体以电视为例,电视的信号来源为机顶盒,服务器与机顶盒相连接,通过信息采集卡,将机顶盒中的数据采集到服务器,其流程如图6所示。0048 节目信息可以通过表头以及PID等方式获得,而数据配置即是将节目信息和TS流获取的内容一一对应起来,建立索引表,其流程如图7所示。0049 以影片名侦探柯南为例,其部分音频片段如图8所示。0050 电视播放的同时,服务器实时提取特征值步骤如下:0051 第一步,获取录音,录音时长每满250ms的数据,便将录音数据传送至第二步。此阈值可以调节,如果需要特征值精细化,可以将此值缩小,但此值越小,噪声干扰越大,越大会导致特征值较少,又难以反映出特征趋势。。
20、因此,按照经验,应该在100ms-1s之间。图9所示为第一个250ms的录音数据。0052 第二步,对250ms数据进行hanning窗加窗处理,然后进行傅立叶变换,结果如图10所示。0053 第三步,对傅立叶变换的结果按照16个频段等分,将每个频段内的能量求和,结果如图11所示。0054 第四步,获取下250ms的录音数据中的前125ms,联合上一帧250ms数据中的后125ms录音数据,组成第二个250ms的录音数据帧,重复第二、三步,得到结果如图12所示。0055 第五步,用此两帧的结果按照公式0056 0057 计算得到结果为:0058 0 0 0 1 0 1 0 1 1 0 10 1。
21、 1 10059 此为第一个特征值的后16bit数据,换算成十进制为2775。0060 从上面公式可以看出,|f(n,t)|-|f(n,t+1)|是前后两帧数据的相同频谱带上的能量差相减。而在绝大部分场景下,环境噪音的能量在一段时间内是近似的,因此此方法可以消除绝大部分的环境噪声。0061 第六步,根据服务器与客户端的约定策略,每5秒的特征组成的特征序列,为一次说 明 书CN 103123787 A5/7页8判别的基本特征序列。此值也可以进行调整,但每次叛别所需要的特征值数量根据工程经验应该在20-100之间,太少的话会导致误判提高,太多的话计算量会过大。由于录音时长的取值范围在100ms-1。
22、s之间,所以生成特征序列的时长应该在1s-10s。由此因为按照录音时长250ms的情况计算,每1s可以产生8个特征值,所以如果按照40个特征值计算,需要5s.因此由第1-40帧40个特征值组成的特征序列为:0062 0063 进一步,为了避免一个特征序列里在不同的位置出现相同的特征值,我们利用另外6bit位添加区分特征值,第一个特征值前6bit为000001对应十进制为1,第二个特征值前6bit为000010对应10进制为2,依次类推,5s的特征矩阵为:0064 说 明 书CN 103123787 A6/7页90065 转化为十进制特征序列为:0066 35543,78105,109797,1。
23、52842,190708,218408,248406,266955,322852,351666,371413,398635,439001,476750,518548,529643,584532,597221,648492,662099,714444,750488,764277,812140,825587,867617,893373,935630,971066,985399,1024925,1072022,1104994,1119851,1174100,1192537,1238252,1268498,1301922,13357400067 第七步,将此特征序列作为一个索引单位存储入倒排索引表。0。
24、068 第八步,用第2-41帧的特征值构建第二个特征序列,作为第二个索引单位,存储至倒排索引表。按照此方式依次类推建立倒排索引表。0069 第九步,考虑到服务器部署的地域性,以及网络延迟,客户端的特征序列道达服务的时间具有延时,因此服务器保留的数据时间只需要覆盖延时阶段数据,因此我们在服务器保留5分钟的节目特征序列的倒排索引表。超过5分钟的数据即可释放,保持服务器的效率。此阈值可以调整,取决于部署的网络情况以及地域分布。说 明 书CN 103123787 A7/7页100070 再来介绍客户端,移动终端对环境中的电视声音进行录音,因为手机处理对于实时性的要求不如服务器,所以在手机上可以采用另一。
25、种处理方式。0071 第一步,客户端开始录音,录音满5s后,将5s的数据传送给特征提取线程。然后开始继续录音。0072 应当注意,此录音时间值也可以进行调整,但根据工程经验每次判别所需要的特征值数量应该在20-100之间,太少的话会导致误判提高,太多的话计算量会过大。由于录音时长的取值范围在100ms-1s之间,所以生成特征序列的最优化录音总时长应该在1s-10s。由此因为按照录音时长250ms的情况计算,每1s可以产生8个特征值,所以如果设定40个特征值计算,本实施例需要总时长5s.0073 第二步,客户端开始重复服务端步骤中的第2-6步,获取特征值序列为:0074 17589,78105,。
26、109797,152842,190708,218408,248406,266955,322852,351666,371413,398635,439001,476750,518548,529643,45683,597221,648492,662099,714444,750488,764277,812140,78105,867617,50926,935630,971066,985399,1024925,1072022,1104994,1119851,1174100,1192537,75643,1268498,439001,13357400075 第三步,客户端将此特征序列,和客户的用户ID、时间等。
27、信息打成一个完整的数据包,发送到特征信息识别匹配模块,该模块设置于服务器中。0076 以下介绍匹配及后处理过程,当数据上传到服务器的识别匹配模块后,服务器开始进行识别匹配,将匹配的结果反馈给客户端完成同步,并将识别结果发送给为收视率统计模块进行收视率统计。其中匹配过程如图13所示。0077 第一步,服务器接收客户端传来的音频信息特征数据0078 第二步,采用搜索算法,获得特征匹配数量最多的序列单元。我们获得结果是,第一帧匹配数量为35个,第2帧数量为15,第三帧为10,第四帧为10,第五帧为9,第六帧为10,第7帧为12,第8桢为11,第九帧为90079 第三步,因为第一帧高出第二帧很多且唯一。
28、,因此直接将第一帧为识别结果。此处判别也使用阈值,如果匹配数量最高值大于第二大值,且差距大于3,则判断匹配数量最高的帧即为识别结果,这个差距可以根据实际情况调整,但不宜过大。0080 第四步,将识别结果发送到收视率统计服务器。0081 第五步,根据多用户的识别结果,统计服务器可以统计出在每个时间段,每个节目的收视率数量,生成收视率报告。用此种方式的收视率调查成本低,且数据鲁棒性高。0082 第六步,根据用户的好友关系(可以借助客户端形成社交网络),获取同一时刻在收看相同节目的用户好友列表,发送给客户端。0083 第七部,客户端提示好友,“当前有您的好友XX、XXX,同时在收看节目,要不要打个招呼”。当用户确认后,借助社交客户端,形成社交互动。说 明 书CN 103123787 A10。