《一种重复性音视频片段的检测方法.pdf》由会员分享,可在线阅读,更多相关《一种重复性音视频片段的检测方法.pdf(8页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103077203 A(43)申请公布日 2013.05.01CN103077203A*CN103077203A*(21)申请号 201210580259.9(22)申请日 2012.12.28G06F 17/30(2006.01)H04N 21/845(2011.01)(71)申请人青岛爱维互动信息技术有限公司地址 266000 山东省青岛市市南区银川西路67-69号动漫产业园C4座402、405(72)发明人李伟忠 杨磊(74)专利代理机构北京爱普纳杰专利代理事务所(特殊普通合伙) 11419代理人何自刚(54) 发明名称一种重复性音视频片段的检测方法(57) 摘。
2、要本发明公开了一种重复性音视频片段的检测方法。该方法包括下列步骤:将待检测的音视频片段中的视频流进行分割得到视频流片段,并从每一视频流片段中提取视频特征;在音视频片段中检测与视频流片段匹配的具有重复性的音视频片段的视频序列,得到重复性音视频片段;对所述重复性音视频片段,利用细粒度的视频匹配来精确地定位重复性音视频片段的起始和结束时间点;步骤D,对步骤C中精确地定位的重复性音视频片段,使用基于序列的方法对匹配对进行合并,得到完整的重复性音视频片段。其能够更准确、高效地检测出音视频中的特定音视频片段。(51)Int.Cl.权利要求书1页 说明书5页 附图1页(19)中华人民共和国国家知识产权局(1。
3、2)发明专利申请权利要求书1页 说明书5页 附图1页(10)申请公布号 CN 103077203 ACN 103077203 A1/1页21.一种重复性音视频片段的检测方法,其特征在于,包括下列步骤:步骤A,将待检测的音视频片段中的视频流进行分割得到视频流片段,并从每一视频流片段中提取视频特征;步骤B,在音视频片段中检测与视频流片段匹配的具有重复性的音视频片段的视频序列,得到重复性音视频片段。步骤C,对所述重复性音视频片段,利用细粒度的视频匹配来精确地定位重复性音视频片段的起始和结束时间点;步骤D,对步骤C中精确地定位的重复性音视频片段,使用基于序列的方法对匹配对进行合并,得到完整的重复性音视。
4、频片段。2.根据权利要求1所述的重复性音视频片段的检测方法,其特征在于,所述步骤A包括下列步骤:步骤A1,将待检测的音视频片段中的视频流分割为多个视频流片段,每个视频流片段为以一时间单元为一个单位进行标记;步骤A2,从视频流片段中提取视频特征参数。3.根据权利要求2所述的重复性音视频片段的检测方法,其特征在于,所述视频特征参数包括美尔倒谱系数,过零率和短时能量中一个参数或者一个以上的参数组合。4.根据权利要求3所述的重复性音视频片段的检测方法,其特征在于,所述提取美尔倒谱系数,过零率和短时能量,包括下列步骤:以40ms采集的视频数据量为一帧,相邻视频帧没有重复,提取12个美尔倒谱系数、过零率和。
5、短时能量共14个参数,来构成14维的帧特征参数。5.根据权利要求1或2所述的重复性音视频片段的检测方法,其特征在于,所述在音视频流中检测与视频流片段匹配的具有重复性的音视频片段的视频序列,是通过利用欧氏距离作为粗粒度相似性匹配的距离测度实现的。6.根据权利要求5所述的重复性音视频片段的检测方法,其特征在于,所述利用欧氏距离作为粗粒度相似性匹配的距离测度,包括下列步骤:利用欧氏距离作为粗粒度相似性匹配的距离测度找到所有和它匹配的具有重复性的音视频小片段,并规定两个小片段中重复的部分大于一半才为匹配片段序列。7.根据权利要求1所述的重复性音视频片段的检测方法,其特征在于,所述步骤D中,对匹配对进行。
6、合并,包括下列步骤:对于检测匹配到的每一对精确匹配的重复性音视频片段,分别查找和它们的时间间隔小于预先设定好的阈值TT的所有匹配对,把新找到的匹配对和原来的匹配对进行连接,然后再次的重复检测匹配过程,直到没有满足条件的匹配对存在,得到的新的匹配对的开始和结束时间就是一个完整的重复性音视频片段的起始和结束时间。权 利 要 求 书CN 103077203 A1/5页3一种重复性音视频片段的检测方法技术领域0001 本发明涉及视频视频片段的检测技术领域,特别是涉及一种重复性音视频片段的检测方法。背景技术0002 音视频的自动检测就是利用计算机从一段视、音流中自动检测出特定音视频片段并精确地定位该特定。
7、音视频片段的位置。目前常见的音视频的自动检测的方法是基于规则的方法、基于标识的方法、基于识别的方法等。基于规则的方法,是针对音视频的一些特点人为的去制定一些规则。但现有技术方法的缺陷是选择表示音视频的特征有时不是足够的稳定,所以通过这些特征很难建立统一的检测系统。0003 基于标识的方法,如通过电视台的台标来检测音视频片段,但是,目前很多电视台在插播特定音视频片段(如广告)的时候不隐去台标,而且这种现象越来越多,所以这种通过台标检测音视频片段的方法就失效了。基于识别的方法,此方法要求事先有一个很大很全的存储广告的数据库,然后利用此数据库识别嵌入在电视节目里面的音视频片段,此方法不能检测出数据库。
8、中不存在的音视频片段。同时上述现有的检测方法几乎都是通过视频特征来实现音视频的检测。由于视频本身的特点,这些方法所需数据量大,特征复杂性高,计算速度慢。发明内容0004 本发明的目的在于提供一种重复性音视频片段的检测方法和系统,其能够更准确、高效地检测出音视频中的特定音视频片段。0005 为实现本发明目的而提供的一种重复性音视频片段的检测方法,包括下列步骤:0006 步骤A,将待检测的音视频片段中的视频流进行分割得到视频流片段,并从每一视频流片段中提取视频特征;0007 步骤B,在音视频片段中检测与视频流片段匹配的具有重复性的音视频片段的视频序列,得到重复性音视频片段。0008 步骤C,对所述。
9、重复性音视频片段,利用细粒度的视频匹配来精确地定位重复性音视频片段的起始和结束时间点;0009 步骤D,对步骤C中精确地定位的重复性音视频片段,使用基于序列的方法对匹配对进行合并,得到完整的重复性音视频片段。0010 所述步骤A包括下列步骤:0011 步骤A1,将待检测的音视频片段中的视频流分割为多个视频流片段,每个视频流片段为以一时间单元为一个单位进行标记;0012 步骤A2,从视频流片段中提取视频特征参数。0013 所述视频特征参数包括美尔倒谱系数,过零率和短时能量中一个参数或者一个以上的参数组合。说 明 书CN 103077203 A2/5页40014 所述提取美尔倒谱系数,过零率和短时。
10、能量,包括下列步骤:0015 以40ms采集的视频数据量为一帧,相邻视频帧没有重复,提取12个美尔倒谱系数、过零率和短时能量共14个参数,来构成14维的帧特征参数。0016 所述在音视频流中检测与视频流片段匹配的具有重复性的音视频片段的视频序列,是通过利用欧氏距离作为粗粒度相似性匹配的距离测度实现的。0017 所述利用欧氏距离作为粗粒度相似性匹配的距离测度,包括下列步骤:0018 利用欧氏距离作为粗粒度相似性匹配的距离测度找到所有和它匹配的具有重复性的音视频小片段,并规定两个小片段中重复的部分大于一半才为匹配片段序列。0019 所述步骤D中,对匹配对进行合并,包括下列步骤:0020 对于检测匹。
11、配到的每一对精确匹配的重复性音视频片段,分别查找和它们的时间间隔小于预先设定好的阈值TT的所有匹配对,把新找到的匹配对和原来的匹配对进行连接,然后再次的重复检测匹配过程,直到没有满足条件的匹配对存在,得到的新的匹配对的开始和结束时间就是一个完整的重复性音视频片段的起始和结束时间。0021 本发明的有益效果是:本发明的重复性音视频片段的检测方法,利用重复性音视频片段)的重复性是重复性音视频片段的最为稳定的特征,比其它的特点和规则要稳定,所以准确率会更高。此外本发明是采用视频特征检测重复性音视频片段,只用视频信息就足以表示、区分重复性音视频片段和正常节目,而视频信息比视频信息具有更少的数据量、复杂。
12、性更低的辨别特征以及更少的计算量和更加高效的计算速度。附图说明0022 图1为本发明重复性音视频片段的检测方法流程图;具体实施方式0023 下面结合上述目标详细介绍本发明重复性音视频片段的检测方法,包括下列步骤:0024 步骤S100,将待检测的音视频片段中的视频流进行分割得到视频流片段,并从每一视频流片段中提取视频特征;0025 步骤S110,将待检测的音视频片段中的视频流分割为多个视频流片段,每个视频流片段为以一时间单元为一个单位进行标记。0026 将待检测的音视频片段中的视频流提取出来,把该段视频流分割成一个个小视频片段,是视频检测的一个重要的准备步骤。0027 这里所谓的分割并不是把一。
13、大段视频流真正的分割成一个个n(如n=5)秒的小片段,而是人为的每隔n秒片段作一个标记,然后以n秒视频流为一个单位的视频流进行处理。其主要目的是更加方便的提取特征、更加高效进行各种处理。0028 本发明以没有重叠的长度为10秒的视频流片段,作为分割视频流的基本单元,对待检测的音视频片段中的视频流进行分割。0029 选择10秒为一个检测单元,是因为重复性音视频片段的长度一般都大于10秒,所以就不用去检测这10秒内是否有重复匹配的重复性音视频片段,而且还能保证找到所有重复的重复性音视频片段序列。说 明 书CN 103077203 A3/5页50030 步骤S120,从视频流片段中提取视频特征参数。。
14、0031 视频特征参数特征提取是指寻找原始视频信号表达形式,提取能代表原始信号的数据。0032 本发明以40ms采集的视频数据量为一帧,相邻视频帧没有重复、即帧移也是40ms,提取12个美尔倒谱系数(Mel Frequency Cepstrum Coeficient,MFCC)、过零率和短时能量共14个参数,来构成14维的帧特征参数。0033 1)提取美尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)。0034 MFCC特征是语音识别和说话人识别中经常采用的特征,它是利用三角滤波器组对傅立叶变换能量系数滤波而得,并且对其频域进行美尔(Mel)尺度变。
15、换,更符合人类的听觉特性。0035 2)提取过零率(Zero-Crossing Rate,ZCR)0036 过零率是指单位时间内信号值通过零值的次数。其一定程度上说明了平均信号频率。当离散的时间信号相邻的两个取样具有不同的符号时,便出现“过零”现象。0037 0038 其中,sgn.是符号函数,x(m)为视频信号的采样值。0039 3)提取短时能量(Short Time Energy)0040 视频信号的能量分析是基于视频信号能量随时间有相当大的变化.短时平均能量说明了视频信号的强度。0041 0042 其中,x(m)为视频信号的采样值。0043 步骤S200,利用欧氏距离作为粗粒度相似性匹配。
16、的距离测度,在音视频流中检测与视频流片段匹配的具有重复性的音视频片段的视频序列,初步得到重复性音视频片段;0044 重复性音视频片段检测最为关键的阶段就是在大量的音视频流中迅速而又准确的定位重复性音视频片段的起始和结束位置。0045 为了实现上述要求,本发明采用视频信息来检测潜在的匹配序列。选择视频信息,是因为视频比视频具有更少的数据量、复杂性更低的辨别特征以及更少的计算量和更加高效的计算速度。而且能够达到视频信息所检测的效果。0046 利用分割好的长度为10秒的视频流片段作为一个探针,在音视频流中搜索所有的广播电视流,包括这10秒所在的电视流和其他电视流。0047 较佳地,利用欧氏距离作为粗。
17、粒度相似性匹配的距离测度找到所有和它匹配的具有重复性的音视频小片段,并规定两个小片段中重复的部分大于一半才为匹配片段序列。0048 利用欧氏距离作为粗粒度相似性匹配的距离测度,采用的方法是每隔10帧计算帧级欧式距离D1,这样的优点为计算量是逐帧计算欧式距离的十分之一,而精确度却几乎没有损失。0049 0050 其中N为14维的帧特征参数。0051 得到距离矩阵后通过和预先设定好的匹配阈值TD进行比较,如果存在7个或以上说 明 书CN 103077203 A4/5页6帧数(即长度大于2.10秒)小于预先设定好的匹配阈值TD,就认为该音视频片段是与视频流片段匹配的具有重复性的音视频片段的视频序列,。
18、在音视频流中有相似的、匹配的重复性音视频片段,初步得到该重复性音视频片段,即匹配对。0052 步骤S300,对步骤S200中初步得到的重复性音视频片段,利用细粒度的视频匹配来精确地定位重复性音视频片段的起始和结束时间点;0053 粗粒度相似性匹配方法还有两方面的局限性:1)由于上述匹配是粗略的匹配,匹配边界和真实的重复性音视频片段边界存在一定程度上的偏差;2)只能检测出大于片段长度一半的匹配序列,对于长度小于一半的匹配序列是无效的。0054 对于利用欧氏距离作为粗粒度相似性匹配的距离测度检测到的匹配对,利用改进式的欧式距离D2作为细粒度相似性匹配的距离测度重新测定重复性音视频片段的起始和结束时。
19、间点。0055 0056 其中N为14维的帧特征参数。0057 对于每一对找到的10秒匹配对,把它们标记为A2和B2。然后分别计算A2B2、A2B1、A1B2、A1B1、A2B3、A3B2、A3B3逐帧的改进式欧式距离,得到距离矩阵后通过和预先设定好的匹配阈值TD进行比较,分别记下小于阈值TD的点的位置。这样就可以精确地定位重复性音视频片段的开始和结束的时间。0058 步骤S400,对步骤S300中精确地定位的重复性音视频片段,使用基于序列的方法对匹配对进行合并,得到完整的重复性音视频片段。0059 由于是把音视频分割为10秒为一个单元,所以当重复性音视频片段的长度大于10秒时,一个完整的重复。
20、性音视频片段就会被过度的分割。因此要对一个过度分割的重复性音视频片段进行合并。0060 本发明利用基于序列的方法对一个完整的重复性音视频片段进行合并。0061 对于检测匹配到的每一对精确匹配的10秒重复性音视频片段,分别查找和它们的时间间隔小于预先设定好的阈值TT的所有匹配对,把新找到的匹配对和原来的匹配对进行连接,然后再次的重复检测匹配过程,直到没有满足条件的匹配对存在,得到的新的匹配对的开始和结束时间就是一个完整的重复性音视频片段的起始和结束时间。0062 下面通过对一段长度为10分钟的广播电视节目中的广告进行检测作为实例,详细介绍本发明的重复性广播电视节目片段的检测方法的实施过程。006。
21、3 整个过程基本分为四个阶段:视频流的分割和视频特征的提取;具有重复性的视频序列匹配对的检测;利用细粒度的视频匹配来精确的定位广告的起始和结束时间点;使用基于序列的方法对匹配对进行合并。0064 视频流的分割和视频特征的提取阶段,把此阶段将10分钟的广播电视节目片段分成没有重叠的120个长度均为10秒小片段,然后分别对120个小片段进行特征提取,提取的特征包括:12个MFCC、过零率、短时能量,采用的帧长为40ms,帧移为40ms,形成14维的特征向量。0065 每一个小片段共有125个14维的特征向量。0066 例如该段长度为10分钟的电视节目中有2个不同的广告:新,说 明 书CN 1030。
22、77203 A5/5页7鲁。其中新出现2次的位置分别为10-25秒(第3、4、5段),123-138秒(第25、26、27、28段);鲁出现2次的位置分别为30-50秒(第7、8、9、10段),155-175秒(第32、33、34、35段)。0067 具有重复性的视频序列匹配对的检测阶段,利用上述特征向量计算125个小片段两两之间的欧氏距离D1,如果某两个小片段相同的长度大于片段长度的一半,即2.5秒。标记此两个小片段是匹配的。0068 利用上述125个小片段的特征向量通过公式0069 0070 其中N为14维的帧特征参数。0071 计算两两之间的欧氏距离,如果某两个小片段相同的长度大于片段长。
23、度的一半,即2.10秒。标记此两个小片段是匹配的。则(3,26),(4,27),(5,28)是相似的;(7,32),(8,33),(9,34),(10,35)是相似的。0072 利用细粒度的视频匹配来精确的定位重复性广播电视节目片段的起始和结束时间点阶段,对上述找到的匹配小片段对,计算其改进式的欧式距离,精确的标记此两个小片段匹配的开始和结束时间点。0073 其中N为14维的帧特征参数,计算两两之间、以及(3,25)(2,26)(1,25)(5,29)(6,28)(6,29),(7,31)(6,32)(6,31)(10,36)(11,35)(11,36)改进式的欧氏距离。最后可以得到第3段的0。
24、-2秒和第25段的3-10秒相似,第3段的2-10秒和第26段的0-3秒相似,第4段的0-2秒和第26段的3-10秒相似,第4段的2-10秒和第27段的0-3秒相似,第5段的0-2秒和第27段的3-10秒相似,第5段的2-10秒和第28段的0-3秒相似,而(7,32),(8,33),(9,34),(10,35)则是完全相似。0074 使用基于序列的方法对匹配对进行合并阶段,通过上述找到的精确匹配小片段对的序号,对其进行合并。0075 对于上面找到的每一对精确匹配的10秒片段,按照基于序列的方法进行合并,即得到第3段0秒开始到第5段的10秒结束和第25段的第4秒开始到第28段的第3秒结束,长度分。
25、别是110秒就是10-210秒和123-138秒匹配。而(7,32),(8,33),(9,34),(10,35)是完全匹配则即为30-50秒和155-1710秒匹配。0076 综上所述,本发明的重复性音视频片段的检测方法通过复性音视频片段中的视频流的分割和视频特征的提取;具有重复性的视频序列匹配对的检测;利用细粒度的视频匹配来精确的定位重复性音视频片段的起始和结束时间点;使用基于序列的方法对匹配对进行合并。所以该方法是一种视频内容分析和检索的应用,其利用音视频中的视频特征,自动的检测出音视频中重复出现的重复性音视频片段,并且可以精确地定位和标记所有重复出现的重复性音视频片段的位置。说 明 书CN 103077203 A1/1页8图1说 明 书 附 图CN 103077203 A。