《一种多模态信息融合的足球视频事件检测与语义标注方法.pdf》由会员分享,可在线阅读,更多相关《一种多模态信息融合的足球视频事件检测与语义标注方法.pdf(17页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104199933A43申请公布日20141210CN104199933A21申请号201410449960622申请日20140904G06F17/3020060171申请人华中科技大学地址430074湖北省武汉市洪山区珞喻路1037号72发明人于俊清王赠凯何云峰74专利代理机构华中科技大学专利中心42201代理人曹葆青54发明名称一种多模态信息融合的足球视频事件检测与语义标注方法57摘要本发明公开一种多模态信息融合的足球视频事件检测与语义标注方法,包括利用潜在语义分析方法检测互联网赛况报道文本描述语句的事件类型;检测足球视频中级语义对象,划分场地区域并进行攻防转换分析,确。
2、定视频事件片段的边界;根据中圈和哨声检测结果确定比赛开始时间,利用贝叶斯网络实现攻防片段的初始语义分类;在文本描述中的粗粒度时间信息的约束下,根据文本和视频片段的语义同步文本描述和视频事件,实现足球视频事件的语义标注。本发明方法融合互联网文本信息和视频内在视听特征分析足球视频,提高了视频事件及其边界检测的准确率,实现了足球视频内容的富语义标注,为建立基于语义的视频索引机制打下坚实的基础。51INTCL权利要求书4页说明书8页附图4页19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书8页附图4页10申请公布号CN104199933ACN104199933A1/4页21一种多模态。
3、信息融合的足球视频事件检测与语义标注方法,其特征在于,包括以下步骤1从互联网上爬取足球比赛对应的赛况报道文本,利用预先建立的LSA模型计算赛况报道文本中各语句的潜在语义空间查询向量;并计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度,将其归类为具有最大相似度的事件类别;2检测足球比赛对应视频中的多种中级语义对象,所述中级语义对象包括球门、球场标志线、中圈以及哨声;并划分场地区域;3根据场地区域划分结果进行攻防转换分析,确定视频事件片段的边界;4根据中圈和哨声检测结果确定比赛开始时间,利用贝叶斯网络实现攻防视频事件片段的初始语义分类;5在文本描述中的粗粒度时间信息的约束下,根据步骤。
4、1中得到的文本事件类型和步骤4中得到攻防视频事件片段的初始语义分类同步文本描述和视频事件片段,实现足球视频事件的富语义标注。2根据权利要求1所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤1中利用预先建立的LSA模型计算赛况报道文本中各语句的潜在语义空间查询向量,具体包括步骤111将互联网上爬取的赛况报道文本作为训练语料,对所有的训练语料进行分词;步骤112去除训练语料中的无关词汇,包括停词、球员和球队名词;步骤113构建词条文档矩阵XMN;其中矩阵XMN的行对应词条,列对应事件文档,即M表示词条的数目,N为语料库中事件类型的数目,XMN中每个元素为词条在其对应事件类。
5、型中的TFIDF权重,TF表示词条在相应事件训练语料中出现的频次,IDF为词条的倒排文档频率;步骤114利用下式对词条文档矩阵XMN进行奇异值分解;式中,T为列正交矩阵,T中的每一列称为左奇异向量;S为对角矩阵,其对角线上的元素为由大到小降序排列的非负奇异值;D为正交矩阵;步骤115选取矩阵SNN的前K个最大奇异值,KN,并选取前K个最大奇异值分别对应于矩阵TMN和矩阵DNN中的列向量,通过下式计算词条文档矩阵XMN的低阶近似矩阵步骤116构建训练语料事件集的潜在语义矩阵ENK如下ENKDNKSKKENK的每一行即表示相应类型的事件在潜在语义空间中的坐标。3根据权利要求2所述的多模态信息融合的。
6、足球视频事件检测与语义标注方法,其特征在于,所述步骤1中计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度,将其归类为具有最大相似度的事件类别,具体包括步骤121对输入的赛况报道文本进行事件描述语句分割EVENTDESCRIPTION权利要求书CN104199933A2/4页3SENTENCESEGMENTATION,EDSS,在赛况报道中每一个句子用来描述一个事件,这里根据中文句子的结束标记即句号、感叹号来实现EDSS;步骤122把每个事件描述语句看做一个查询文档,根据训练阶段建立的词条文档矩阵XMN中词条的排序构建该查询文档的查询向量XQ,XQ的每个元素为相应词条在该查询文档中。
7、出现的频次;步骤123将查询向量XQ映射到潜在语义空间,得到其潜在语义表达向量DQ;步骤124计算DQ和第I类事件EI的相似度SIMDQ,EI式中,EI为矩阵ENK第I行的行向量,即第I类事件在潜在语义空间的表示;J为向量DQ和EI相应位置元素的下标;步骤125选择和查询向量DQ具有最大相似度的潜在语义事件向量并将DQ归类为对应的事件类型,表示为4根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤2中检测中圈的步骤包括步骤211在检测到的球场线中选取角度在80,100,长度大于H/3的直线作为球场中垂线HL,这里H为输入图像帧F的高度;步骤212。
8、旋转图像帧F使得HL垂直,旋转后的图像表示为FR;根据直线检测结果,可以检测到椭圆的上下候选水平切线,设一共检测到M对候选水平切线;对于第I对候选水平切线TLUP,I、TLDOWN,I与中垂线HL的交点分别为PUP,IXUP,I,YUP,I,PDOWN,IXDOWN,I,YDOWN,I,则圆心XC,I,YC,I和短半轴BI可以计算如下XC,IXUP,IXDOWN,I/2YC,IYUP,IYDOWN,I/2BIYDOWN,IYUP,I/2步骤213图像帧中椭圆的长轴AI和短轴BI之间满足比例关系和分别长短轴比率的下限和上限;设椭圆E,IXC,I,YC,I,A,I,B,I和E,IXC,I,YC,I。
9、,A,I,B,I,其中A,IBI,A,IBI,B,IBI,B,IBI;对于如果DP,E,I0DP,E,I0,则PSI,SISI,1,SI,2,SI,3,SI,N表示候选样本点集合,N为样本点的个数;步骤214对于每个样本点SSI,计算其对应的长半轴的值,则得到椭圆长半轴AI的解空间为AIAI,1,AI,2,AI,3,AI,N;设AI,MAXMAXAI,AI,MINMINAI,在区间AI,MIN,AI,MAX上以等间隔统计累积直方图HTI,为经验值;设J表示直方图HTI中间隔的下标,INDEXIARGMAXJHTI,则长半轴AI计算如下权利要求书CN104199933A3/4页4步骤215经过上。
10、述步骤估计出的椭圆表示为EIXC,I,YC,I,AI,BI,统计EI在图像FR上的可见部分的弧长LI;根据测度函数ME对估计椭圆EI进行校验,ME定义如下其中,椭圆EIN,IXC,I,YC,I,AI,BI和EOUT,IXC,I,YC,I,AI,BI分别为EI的内椭圆和外椭圆;设IARGMAXIMIEI,如果则即为检测到的椭圆,否则没有检测到椭圆。5根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤2中的检测哨声的步骤包括步骤221设置音频帧长FRAMELEN和帧移FRAMEINC参数;步骤222读入音频片段进行预加重处理,以减少尖锐噪声影响,提升。
11、高频信号;步骤223将音频片段分帧,以利用音频信号短时平稳的特性,并对音频帧加汉明窗,以减少频谱泄露;步骤224根据下式对音频信号进行短时傅里叶变换,得到其语谱图;式中,XM为音频信号序列,WN为实数窗序列;步骤225基于OSTU自适应阈值对音频片段语谱图二值化;步骤226利用HOUGH变换检测二值图像中的直线段;步骤227遍历检测到的所有直线段,如果在3000HZ至4500HZ频率之间存在持续时间超过01秒的直线段,则认为该音频片段为哨声片段;否则为非哨声片段。6根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤2中划分场地区域具体包括采用决策。
12、树划分场地区域,将场地划分为左边球门区LGZ,左边角球区LCZ,右边球门区RGZ,右边角球区RCZ,中圈区域MCZ和其他区域OZ。7根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤3中视频事件边界通过攻防转换分析和事件时域转换模式来确定,视频事件边界起始于PB片段最后一个攻防转换点,结束于特写镜头或回放镜头。8根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤4根据中圈和哨声确定比赛起始时间在足球视频的开始时间段内,如果有中圈持续出现一段时间,并且随后有长哨声被检测到,则认为哨声被检测到的时间就是。
13、比赛起始时间。9根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤4中利用贝叶斯网络实现攻防片段的初始语义分类,具体包权利要求书CN104199933A4/4页5括根据下述特征回放场景持续时间RPD,精彩度EXC,远镜头比率FVR,球门比率GMR,哨声WHS和标题条CAP,利用贝叶斯网络将足球视频攻防片段分类为进球、射门和犯规三种类型。10根据权利要求1至3任一项所述的一种多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤5中根据文本和视频片段的语义同步文本和视频事件,具体包括如下步骤步骤51对于第K个文本事件TEKTK,CK,。
14、PK,DK,其中,TK表示第K个文本事件的时间,CK表示第K个文本事件的类型,PK表示第K个文本事件相关的球员及球员所属队伍信息,DK表示第K个文本事件的语义描述,根据下式计算该文本事件在视频中的参考帧索引RFK;RFKGSTTK60FR其中,GST为步骤4中检测到的比赛起始时间,FR为视频的帧率;步骤52从参考帧RFK分别向前和向后查找3个攻防片段作为候选视频事件片段;步骤53对于第I个候选视频事件片段,提取观察值OI,作为贝叶斯网络的输入证据,计算第I个候选视频事件片段属于CK的概率PICK|OI;步骤54根据下式从候选视频事件片段中选取和TEK事件类型一致的,具有最大概率的视频片段作为最。
15、佳匹配事件片段;式中,I表示和TEK最匹配的攻防片段;步骤55在文本事件TEK和视频事件片段I之间建立对应关系,得到语义标注结果,表示为AKTK,SFK,EFK,CK,PK,DK,其中权利要求书CN104199933A1/8页6一种多模态信息融合的足球视频事件检测与语义标注方法技术领域0001本发明属于基于内容的视频检索领域,具体涉及一种多模态信息融合的足球视频事件检测和语义标注方法。背景技术0002随着计算机技术,存储技术和网络技术的高速发展以及各种数码终端和移动设备的不断更新,视频数据量以爆炸式的速度不断增长。同时,由于获取信息的时间、地点和方式逐渐不受限制,使得人们对于视频检索的需求大大。
16、增加。如何使人们快速从海量的视频数据中找到自己感兴趣的视频片段已成为一种迫切的需求,能够满足这一需求的技术便是目前人们普遍关注的基于内容的视频检索CBVR,CONTENTBASEDVIDEORETRIEVAL技术。视频标注是CBVR领域的关键技术,也称为视频概念检测或者高层语义分析,是指根据视频所体现的内容按概念对其赋予标识和语义。视频标注是建立视频索引,实现基于内容的视频检索的基础。从手工标注、半自动标注到自动标注,视频标注已经成为CBVR领域的研究难点和热点,视频标注的准确性和语义丰富性是视频检索质量的关键因素,也是基于内容的视频检索系统成败的关键。由于视频数据本身的复杂性、不确定性和现有。
17、的条件所限,针对通用视频的自动标注很难实现,目前人们还无法利用通用的特征或方法对不同类型内容的视频进行分析。体育视频分析是近几年非常受关注的视频类型,而足球运动作为世界上最流行的体育运动,有着非常广泛的受众群体和巨大的商业价值。以足球视频为研究对象来研究如何从大量的足球视频找到用户感兴趣的视频内容,并能对其进行详细的语义描述,满足广大用户的需求,具有很高学术价值和应用前景。0003针对足球视频事件检测和标注的研究吸引国内外学术界和工业界的众多研究人员和研究机构重视,也涌现出许多好的研究成果。从基于单一模态的听觉、视觉等特征的足球视频分析,到基于多模态特征的足球视频分析;从利用启发式规则的事件检。
18、测方法,到利用各种机器学习模型的事件检测方法,研究人员提出了许多方法,在一定程度上推动了足球视频检索技术的发展。然而,受限于人工智能和机器视觉领域的发展,视频分析领域存在众所周知的“语义鸿沟”SEMANTICGAP问题,即视频底层特征和高层语义之间存在着语义隔阂,如何有效地填补“语义鸿沟”从而提高语义级视频检索效率和服务质量已经成为CBVR的研究难点和最为关键的问题。例如,在足球比赛视频中,目前通过音视频分析,可以初步确定一些典型事件射门、进球、犯规、角球等的位置,但无法确定是哪位球员通过何种方式射门或者进球。现有的研究表明,“语义鸿沟”的存在导致单纯依靠视频数据本身内在的音视频特征分析,很难。
19、准确地检测出视频中的事件,并自动标注视频事件的语义,视频标注结果的粒度和准确性无法满足实际的需求,已经成为阻碍视频搜索引擎实用化的瓶颈。0004为了实现视频事件的检测和语义标注,研究人员寻求利用视频外部资源来辅助视频内容的分析。目前所利用的视频外部资源主要有转录字幕和网络直播文本。转录字幕是通过语音识别技术转录生成的文字,如新闻解说和场景对话等。但转录字幕的输出质量依赖于视频的质量和语音识别技术,并且转录字幕包含大量与视频事件无关的描述,很难说明书CN104199933A2/8页7得到有效利用。网络直播文本是在体育比赛进行时,专业的体育网站在其页面上进行的同步文字直播,具有较强的实时性。现有的。
20、研究工作主要基于具有精确时间信息的网络直播文本,通过对视频内时钟的识别来建立文本描述和视频内容的对应关系。然而,第一,大多数网络直播文本的时间信息并不精确,一般是分钟级的时间信息;第二,体育网站只对国际上的重要或著名赛事进行网络文字直播,还有许多赛事只进行赛后的新闻报道,也就是说网络直播文本的通用性不强;第三,由于视频时间条存在透明、位置变化、风格变化、时隐时现、分辨率不高等不利因素,视频时钟的精确识别还面临较大的挑战。发明内容0005为了解决上述技术问题,本发明提供一种多模态信息融合的足球视频事件检测与语义标注方法,其目的在于充分利用视频内在视听特征,并结合视频外部文本信息,解决足球视频事件。
21、的检测和富语义标注问题,为实现基于内容的足球视频检索打下坚实的基础。0006实现本发明目的所采用的具体技术方案如下0007一种多模态信息融合的足球视频事件检测与语义标注方法,通过对互联网文本和视频内在视听特征等多模态信息的综合利用,实现足球视频事件的检测和富语义标注,包括以下步骤00081从互联网上爬取足球比赛对应的赛况报道文本,利用预先建立的LSA模型计算赛况报道文本中各语句的潜在语义空间查询向量;并计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度,将其归类为具有最大相似度的事件类别;00092检测足球比赛对应视频中的多种中级语义对象,所述中级语义对象包括球门、球场标志线、中圈。
22、以及哨声;并划分场地区域;00103根据场地区域划分结果进行攻防转换分析,确定视频事件片段的边界;00114根据中圈和哨声检测结果确定比赛开始时间,利用贝叶斯网络实现攻防视频事件片段的初始语义分类;00125在文本描述中的粗粒度时间信息的约束下,根据步骤1中得到的文本事件类型和步骤4中得到攻防视频事件片段的初始语义分类同步文本描述和视频事件片段,实现足球视频事件的富语义标注。0013本发明对互联网上赛况报道文本进行分析,改进足球视频多种中级语义对象的提取方法,利用攻防转换分析和事件时域转换模式有效确定事件边界,在文本描述中粗粒度时间信息的约束下同步文本事件描述和视频事件片段,实现足球视频内容的。
23、富语义标注。具体步骤如下00141互联网文本的获取和分析0015利用网络爬虫和WEB信息抽取技术获取比赛对应的赛况报道文本;对赛况报道文本进行分词、无关词过滤和语句分割处理;利用预先建立的LSA模型计算语句的潜在语义空间查询向量;并计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度,将其归类为具有最大相似度的事件类别;利用正则表达式提取语句的时间、相关球员、球员所属队伍、和事件语义描述,加上前述的事件类别共获取五种文本元数据。00162足球视频中级语义对象检测0017利用马尔科夫随机场模型检测足球视频比赛场地;利用支持向量机检测球门;采说明书CN104199933A3/8页8用基于。
24、直方图的快速中圈检测方法检测中圈;从图像处理的角度利用HOUGH变换检测足球比赛音频中的哨声。00183足球视频事件及边界检测0019在对足球视频进行镜头分割和分类后,根据比赛暂停结构分析理论把足球视频划分成连续的比赛暂停PLAYBREAK,PB结构片段;根据场地区域划分方法对PB结构片段远镜头进行攻防转换分析;检测PB结构片段中的攻防转换点,结合视频事件时域转换模式将PB片段中最后一个攻防转换点到最后一个特写镜头或回放镜头的片段作为视频事件的起止边界。00204足球视频事件语义标注0021根据中圈和哨声检测结果确定视频中比赛起始时间;提取攻防片段中的回放场景持续时间RPD,精彩度EXC,远镜。
25、头比率FVR,球门比率GMR,哨声WHS和标题条CAP共六个特征,利用贝叶斯网络将攻防片段分类为进球、射门和犯规三种类型;在文本事件描述中的粗粒度时间信息分钟级时间的约束下,根据文本事件和视频事件的类型同步文本描述和视频事件片段,实现足球视频事件的语义标注。0022本发明对足球比赛视频内容进行分析,改进了多个中级语义对象检测方法的性能,提高了视频事件检测的准确率和事件边界准确率,结合互联网上赛况报道文本的分析,在不精确时间信息约束条件下,根据文本描述和视频事件的语义类型同步文本和视频事件,实现了足球视频事件的富语义标注,为基于内容的视频检索打下良好的基础。具体而言,本发明具有以下优点00231。
26、结合足球视频的特点,提出了一种快速准确的足球视频中圈检测方法。00242提出了一种基于HOUGH变换的哨声检测方法,提高了哨声检测的准确率。有别于传统的基于音频特征分析的哨声检测方法,本发明根据哨声频率的特点,从图像处理的角度分析音频语谱图,采用HOUGH变换检测足球视频中的哨声,提高了哨声检测的准确率。00253提高了视频事件边界检测的准确率。本发明对足球视频PB结构片段进行攻防转换分析,结合视频事件时域转换模式确定视频事件边界,提高了足球视频事件边界检测的准确率。00264解决了利用具有非精确时间信息的网络文本,实现文本和视频事件同步的问题。本发明在非精确时间信息的约束下,首先检测比赛起始。
27、时间,然后根据文本事件和视频事件的语义类型实现文本和视频事件的同步。00275实现了足球视频事件的富语义标注。本发明利用互联网上语义描述内容丰富的赛况报道文本来实现足球视频事件的语义标注,相比网络直播文本,赛况报道文本对精彩事件的描述更加具体,内容更加丰富。附图说明0028图1为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的总体流程示意图;0029图2为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的足球视频事件时域转换模式示意图;0030图3为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法说明书CN104199933A4/8页9的赛况报道文本。
28、分析过程示意图;0031图4为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的哨声检测流程图;0032图5为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的球场区域划分流程图;0033图6为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的攻防转换分析示意图;0034图7为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的贝叶斯网络结构示意图;0035图8为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的文本视频事件同步过程示意图。具体实施方式0036为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例。
29、,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。0037图1为本发明一种多模态信息融合的足球视频事件检测与语义标注方法的总体流程示意图,主要包括三个阶段文本分析阶段,训练LSA分类模型,检测文本描述语句的事件类型,提取文本事件元数据;视频分析阶段,提取足球视频中级语义对象,对PB结构片段进行攻防转换分析,结合事件时域转换模式图2确定视频事件的边界;文本视频事件同步阶段,在文本描述中的不精确时间信息的约束条件下,根据文本事件和视频事件的类型同步文本事件描述和视频事件,实现足球视频事件的富语义标注。具体包括如下步骤00381互联网文本的获取和分。
30、析0039利用网络爬虫从体育网站如SPORTSPEOPLECOMCN,SPORTSSINACOMCN,SPORTSSOHUCOM,SPORTSQQCOM等爬取比赛对应的赛况报道文本;对赛况报道文本进行分词、无关词过滤和语句分割处理;利用预先建立的潜在语义分析LATENTSEMANTICANALYSIS,LSA模型计算语句的潜在语义空间查询向量;并计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度,将其归类为具有最大相似度的事件类别;利用正则表达式提取语句的时间、相关球员及球员所属队伍。检测到的文本事件可以表示为一个四元组TET,C,P,D,T表示事件发生时间,C表示文本事件的类型,。
31、P表示事件涉及的球员及球员所属队伍信息,D表示事件的文本描述。如图3所示,其中利用LSA进行文本事件类型检测包括模型训练和语句分类两个阶段,LSA训练阶段步骤如下0040步骤1将互联网上爬取的赛况报道文本作为训练语料,对所有的训练语料进行分词;0041步骤2去除训练语料中的无关词汇,包括停词、球员和球队名词等;0042步骤3构建词条文档矩阵XMN。其中矩阵XMN的行对应词条,列对应事件文档,即M表示词条的数目,N为语料库中事件类型的数目,一般地,MN。XMN中每个元素为词条在其对应事件类型中的TFIDF权重。这里TF表示词条在相应事件训练语料中出现的频说明书CN104199933A5/8页10。
32、次,IDF为词条的倒排文档频率;0043步骤4利用下式对词条文档矩阵XMN进行奇异值分解;00440045式中,T为列正交矩阵,T中的每一列称为左奇异向量;S为对角矩阵,其对角线上的元素为由大到小降序排列的非负奇异值;D为正交矩阵;0046步骤5选取矩阵SNN的前KKN个最大奇异值前K个奇异值之和占所有奇异值之和的比率大于80,并选取前K个最大奇异值分别对应于矩阵TMN和矩阵DNN中的列向量,通过下式计算词条文档矩阵XMN的低阶近似矩阵00470048步骤6构建训练语料事件集的潜在语义矩阵ENK如下0049ENKDNKSKK0050ENK的每一行即表示相应类型的事件在潜在语义空间中的坐标。00。
33、51文本事件分类阶段步骤如下0052步骤1对输入的赛况报道文本进行事件描述语句分割EVENTDESCRIPTIONSENTENCESEGMENTATION,EDSS。通常,在赛况报道中每一个句子用来描述一个事件,这里根据中文句子的结束标记即句号、感叹号来实现EDSS;0053步骤2把每个事件描述语句看做一个查询文档,根据训练阶段建立的词条文档矩阵XMN中词条的排序构建该查询文档的查询向量XQ,XQ的每个元素为相应词条在该查询文档中出现的频次;0054步骤3将查询向量XQ映射到潜在语义空间,得到其潜在语义表达向量DQ;00550056步骤4计算DQ和第I类事件EI的相似度SIMDQ,EI0057。
34、0058式中,EI为潜在语义矩阵ENK第I行的行向量,即第I类事件在潜在语义空间的表示。J为向量DQ和EI相应位置元素的下标;0059步骤5选择和查询向量DQ具有最大相似度的潜在语义事件向量并将DQ归类为对应的事件类型,表示为006000612足球视频中级语义对象检测0062该步骤主要是对足球视频内在的视听特征进行分析,以辅助其后的视频事件检测、视频事件边界确定和视频事件分类。利用OPENCV机器视觉库提取足球视频中的球门、球场标志线、中圈和哨声等中级语义对象。其中,球门、球场标志线和中圈用来划分场地区域,球门和哨声作为视频事件分类时的特征。球门和球场标志线的检测可以采用现有的方法,如文献于俊。
35、清和张强等,“利用回放场景和情感激励检测足球视频精彩镜头,计算机学说明书CN104199933A106/8页11报,2014,37612681280”中描述的方法。中圈的检测步骤如下0063步骤1在检测到的球场线中选取角度在80,100,长度大于H/3的直线作为球场中垂线HL,这里H为输入图像帧F的高度。0064步骤2旋转图像帧F使得HL垂直,旋转后的图像表示为FR。根据直线检测结果,可以检测到椭圆的上下候选水平切线,设一共检测到M对候选水平切线。对于第I对候选水平切线TLUP,I、TLDOWN,I与中垂线HL的交点分别为PUP,IXUP,I,YUP,I,PDOWN,IXDOWN,I,YDOW。
36、N,I,则圆心XC,I,YC,I和短半轴BI可以计算如下0065XC,IXUP,IXDOWN,I/20066YC,IYUP,IYDOWN,I/20067BIYDOWN,IYUP,I/20068步骤3图像帧中椭圆的长轴AI和短轴BI之间满足比例关系和分别长短轴比率的下限和上限,这里和分别设置为2和5。设椭圆E,IXC,I,YC,I,A,I,B,I和E,IXC,I,YC,I,A,I,B,I,其中A,IBI,A,IBI,B,IBI,B,IBI。对于如果DP,E,I0DP,E,I0,则PSI,SISI,1,SI,2,SI,3,SI,N表示采集的候选样本点集合,N为样本点的个数。0069步骤4对于每个样。
37、本点SSI,计算其对应的长半轴的值,则得到椭圆长半轴AI的解空间为AIAI,1,AI,2,AI,3,AI,N。设AI,MAXMAXAI,AI,MINMINAI,在区间AI,MIN,AI,MAX上以经验值等间隔统计累积直方图HTI。设J表示直方图HTI中间隔的下标,INDEXIARGMAXJHTI,则长半轴AI计算如下00700071步骤5经过上述步骤估计出的椭圆表示为EIXC,I,YC,I,AI,BI,统计EI在图像FR上的可见部分的弧长LI。根据测度函数ME对估计椭圆EI进行校验,ME定义如下007200730074其中,椭圆EIN,IXC,I,YC,I,AI,BI和EOUT,IXC,I,Y。
38、C,I,AI,BI分别为EI的内椭圆和外椭圆。设IARGMAXIMIEI,如果则即为检测到的椭圆,否则没有检测到椭圆。考虑到足球视频图像帧中白色椭圆线具有一定的像素宽度,这里设置为8。0075利用如FFMPEG等音视频解码器将音频信号从足球视频中分离出来,再对音频信号进行处理,以检测哨声。图4给出了哨声检测的流程图,具体步骤如下0076步骤1设置音频帧长FRAMELEN和帧移FRAMEINC参数;0077步骤2读入音频片段进行预加重处理,以减少尖锐噪声影响,提升高频信号;0078步骤3将音频片段分帧,以利用音频信号短时平稳的特性,并对音频帧加汉明窗,以减少频谱泄露;说明书CN104199933。
39、A117/8页120079步骤4根据下式对音频信号进行短时傅里叶变换,得到其语谱图。式中,XM为音频信号序列,WN为实数窗序列;00800081步骤5基于OSTU自适应阈值对音频片段语谱图二值化;0082步骤6利用HOUGH变换检测二值图像中的直线段;0083步骤7遍历检测到的所有直线段,如果在3000HZ至4500HZ频率之间存在持续时间超过01秒的直线段,则认为该音频片段为哨声片段;否则为非哨声片段。00843足球视频事件及边界检测0085利用OPENCV对解码出来的足球视频帧进行镜头分割,并判断其镜头类型。镜头分割可利用文献张玉珍和王建宇等,“基于自适应双阈值和主色率的足球视频镜头的分割。
40、”,南京理工大学学报自然科学版,2009,334432437中的方法。镜头分类可以利用文献于俊清和王宁,“基于子窗口区域的足球视频镜头分类”中国图象图形学报,2008,13713471352中的方法。对于远镜头,根据球场标志线、球门和中圈进行区域划分,图5给出了球场区域划分流程图。根据球门前两条平行线的斜率、中圈和球门三个特征,采用决策树划分场地区域,将场地划分为左边球门区LGZ,左边角球区LCZ,右边球门区RGZ,右边角球区RCZ,中圈区域MCZ和其他区域OZ。根据球场区域划分结果进行攻防转换分析,从而进一步确定足球视频事件边界。图6给出了攻防转换分析示意图,其中F表示远镜头,M表示中镜头,。
41、C表示特写镜头,O表示观众镜头,R表示回放镜头。根据前述对球场区域的划分结果,当摄像机拍摄区域从一个半场越过中场移动到另一个半场时,即认为发生了攻防转换,“”标记的位置为攻防转换点。当前PB结构片段中最后一个攻防转换点被认为是事件的起始边界,最后一个特写镜头或回放镜头结束位置被认为是事件的终止边界。00864确定比赛开始时间,利用贝叶斯网络实现攻防片段的初始语义分类0087该步骤的主要任务是在文本事件描述和视频事件之间建立对应关系。由于视频的开始时间不一定是比赛的开始时间,所以需要首先检测比赛起始时间。在足球视频的开始时间段内,如果有中圈持续出现一段时间,并且随后有长哨声被检测到,则认为哨声被。
42、检测到的时间就是比赛起始时间GST。接下来,采用贝叶斯网络对视频事件片段进行语义分类。图7给出了用于视频事件片段语义分类的贝叶斯网络结构,所使用的特征包括回放场景持续时间RPD,精彩度EXC,远镜头比率FVR,球门比率GMR,哨声WHS和标题条CAP。贝叶斯网络理论为可以参考文献FRIEDMAN,N,DGEIGER,ANDMGOLDSZMIDT,“BAYESIANNETWORKCLASSIERS”MACHINELEARNING,1997,2923131163。00885足球视频事件语义标注0089最后,在文本中粗粒度时间信息的约束条件下,根据文本事件类型和视频事件类型实现文本视频事件的同步。图。
43、8给出了文本视频事件同步过程示意图,具体步骤如下0090步骤1对于第K个文本事件TEKTK,CK,PK,DK,根据下式计算该文本事件在视频中的参考帧索引RFK。0091RFKGSTTK60FR说明书CN104199933A128/8页130092其中,GST为步骤4中检测到的比赛起始时间,FR为视频的帧率;0093步骤2从参考帧RFK分别向前和向后查找3个攻防片段作为候选视频事件片段。0094步骤3对于第I个候选视频事件片段,提取观察值OI,作为贝叶斯网络的输入证据,计算第I个候选视频事件片段属于CK的概率PICK|OI。0095步骤4根据下式从候选视频事件片段中选取和TEK事件类型一致的,具有最大概率的视频片段作为最佳匹配事件片段。00960097式中,I表示和TEK最匹配的攻防片段。0098步骤5在文本事件TEK和视频事件片段I之间建立对应关系,得到语义标注结果,表示为AKTK,SFK,EFK,CK,PK,DK,其中说明书CN104199933A131/4页14图1图2图3说明书附图CN104199933A142/4页15图4说明书附图CN104199933A153/4页16图5图6说明书附图CN104199933A164/4页17图7图8说明书附图CN104199933A17。