基于隐条件随机场的足球视频进球事件检测方法.pdf

上传人:62****3 文档编号:5814263 上传时间:2019-03-22 格式:PDF 页数:16 大小:570.24KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110180085.2

申请日:

2011.06.29

公开号:

CN102306154A

公开日:

2012.01.04

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20110629|||公开

IPC分类号:

G06F17/30; G06K9/62

主分类号:

G06F17/30

申请人:

西安电子科技大学

发明人:

同鸣; 谢文娟; 张伟

地址:

710071 陕西省西安市太白南路2号

优先权:

专利代理机构:

陕西电子工业专利中心 61205

代理人:

王品华;朱红星

PDF下载: PDF下载
内容摘要

本发明公开了一种基于隐条件随机场的足球视频进球事件检测方法,主要解决现有技术不能同时具有隐状态表达能力和表达交叠性特征的问题。其实现步骤是:首先,对训练视频和测试视频进行物理镜头分割和语义镜头标注,判断每个训练视频是否含进球事件,得到类别标签,将训练视频的语义镜头序列和类别标签组成训练数据集,将测试视频的语义镜头序列组成测试数据集;接着,根据训练数据集,调用Matlab工具包HCRF2.0b中trainHCRF函数计算模型参数,建立进球事件的隐条件随机场模型;最后,根据已建立模型,调用testHCRF函数计算测试视频对应不同类别标签的概率,进行进球事件检测。本发明能够准确、全面实现进球事件检测,可用于足球视频精彩事件检测等语义分析领域。

权利要求书

1: 一种基于隐条件随机场的足球视频进球事件检测方法, 包括如下步骤 : (1) 定义语义镜头集为 ε = {s1, s2, s3, s4, s5}, 其中, s1, s2, s3, s4, s5 表示五种语义镜 头, 即 s1 为远镜头, s2 为中镜头, s3 为特写镜头, s4 为观众镜头, s5 为回放镜头 ; (2) 定义进球事件的隐条件随机场的类别标签集为 α = {0, 1}, 其中, 0 表示进球事件 的隐条件随机场模型的输入不包含进球事件, 1 表示进球事件的隐条件随机场模型的输入 包含进球事件 ; (3) 对 N1 个训练视频片段和 N2 个测试视频片段分别进行物理镜头分割, 得到第 d 个训 练视频片段的物理镜头序列 Pd 和第 e 个测试视频片段的物理镜头序列 Qe, 其中, d ∈ {1, 2, L, N1}, e ∈ {1, 2, L, N2} ; (4) 对第 d 个训练视频片段的物理镜头序列 Pd 中的物理镜头和第 e 个测试视频片段的 物理镜头序列 Qe 中的物理镜头分别进行语义标注, 得到由远镜头、 中镜头、 特写镜头、 观众 镜头和回放镜头组成的第 d 个训练视频片段的语义镜头序列 Od 和第 e 个测试视频片段的 语义镜头序列 Ze ; (5) 对第 d 个训练视频片段, 人工判断是否包含进球事件, 得到第 d 个训练视频片段的 类别标签 λd, λd ∈ α ; (6) 将 N1 个训练视频片段的语义镜头序列 O1, O 2, L, 和 N1 个训练视频片段的类别标 签 λ1, λ2, L, 作为训练数据集 Z2, L, 作为测试数据集 的语义镜头序列 Z1, (7) 根据训练数据集 O 中的 N1 个语义镜头序列 O1, O2, L, 和对应的 N1 个类别标签 λ1, L, λ2, 调用 Matlab 工具包 HCRF
2: 0b 中 trainHCRF 函数, 计算进球事件的隐条件随机 场模型的模型参数 θ, 并利用模型参数 θ 建立进球事件的隐条件随机场模型, 其中, 函数 trainHCRF 的调用格式为 θ = trainHCRF(trainseqs, trainlabels, params), trainseqs 为训练数据集中的 N1 个语义镜头序列 O1, O2, L, λ1, λ2, L, trainlabels 为对应的 N1 个类别标签 params 为函数参数, params.nbHiddenStates 为隐状态个数 N, 取值为 3, 将 N2 个测试视频片段 params.windowsize 为窗长度 ω, 取值为 1, params.optimizer 为优化算法, 选择 bgfs 算 法, params.maxIterations 为最大迭代次数, 取值为 300 ; (8) 根据进球事件的隐条件随机场模型和测试数据集 Z, 调用 Matlab 工具包 HCRF2.0b 中 testHCRF 函数, 计算测试数据集 Z 中第 e 个测试视频片段的语义镜头序列 Ze 对应于类 别标签 0 的概率 βe, 以及该语义镜头序列对应于类别标签 1 的概率 βe, 0, 1 ; (9) 若 βe, 则第 e 个测试视频片段的语义镜头序列 Ze 的预测类别标签为 0, 0 > βe, 1, 该测试视频片段不包含进球事件, 若 βe, 则第 e 个测试视频片段的语义镜头序列 0 < βe, 1, Ze 的预测类别标签为 1, 该测试视频片段包含进球事件, 若 βe, 则无法判断第 e 个 0 = βe, 1, 测试视频片段是否包含进球事件。 2. 根据权利要求 1 所述的足球视频进球事件检测方法, 其中步骤 (4) 所述的 “对第 d 个训练视频片段的物理镜头序列 Pd 中的物理镜头和第 e 个测试视频片段的物理镜头序列 Qe 中的物理镜头分别进行语义标注” , 按如下步骤进行 : (4.1) 将第 d 个训练视频片段的物理镜头序列 Pd 中的物理镜头和第 e 个测试视频片段 2 的物理镜头序列 Qe 中的物理镜头都分别标注为实时镜头与回放镜头 ; (4.2) 将实时镜头进一步标注为远镜头、 中镜头和非场地镜头 ; (4.3) 将非场地镜头进一步标注为特写镜头与观众镜头。
3: 根据权利要求 2 所述的足球视频进球事件检测方法, 其中步骤 (4.1) 所述的 “将第 d 个训练视频片段的物理镜头序列 Pd 中的物理镜头和第 e 个测试视频片段的物理镜头序列 Qe 中的物理镜头都分别标注为实时镜头与回放镜头” , 按如下步骤进行 : (4.1a) 将含有 N3 幅帧图像的训练视频片段或测试视频片段中的每一幅帧图像从 RGB 颜色空间转换为 HSV 颜色空间, 得到色度分量 H 的值 h、 饱和度分量 S 的值 s、 亮度分量 V 的 值v: v = MAX 其中, r 为每一幅帧图像的每个像素点的红色分量 R 的归一化值, g 为每一幅帧图像的 每个像素点的绿色分量 G 的归一化值, b 为每一幅帧图像的每个像素点的蓝色分量 B 的归 一化值, MAX 为每一幅帧图像的每个像素点的 r、 g、 b 中的最大值, MIN 为每一幅帧图像的每 个像素点的 r、 g、 b 中的最小值, 按下式计算 : MAX = max(r, g, b) MIN = min(r, g, b) 其中, r′为每一幅帧图像的每个像素点的红色分量 R 的值, g′为每一幅帧图像的每 个像素点的绿色分量 G 的值, b′为每一幅帧图像的每个像素点的蓝色分量 B 的值 ; (4.1b) 根 据 第 n ′ 幅 帧 图 像 中 色 度 分 量 的 值 h 所 对 应 的 第 l 级 索 引 huel 的 像 素 个 数 num(huel), 计 算 第 n 幅 帧 图 像 的 色 度 分 量 的 256 柄 直 方 图 中 索 引 huel 对 应 的 值 histn′ (huel) : 3 histn′ (huel) = num(huel) 其中, n′∈ {1, 2, L, N3}, huel 为第 n′幅帧图像色度分量的第 l 级索引, l ∈ {1, 2, L, 256}, huel ∈ {1, 2, L, 256} ; (4.1c) 根据第 n+1 幅帧图像的色度分量的直方图中索引 huel 对应的值 histn+1(huel) 和第 n 幅帧图像的色度分量的直方图中索引 huel 对应的值 histn(huel), 计算第 n+1 幅帧图 像和第 n 幅帧图像的色度直方图差值 HHDn : 其中, n ∈ {1, 2, L, N3-1}, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ; (4.1d) 根据色度直方图差值 HHDn, 计算该视频片段的 N3-1 个色度直方图差值的均值 HHD : (4.1e) 选取 HHDn 大于阈值 T2 的帧, 其中, 阈值 T2 为该视频片段的 HHD 的 2 倍, 取 T2 = 0.1938 ; (4.1f) 选 取 持 续 时 间 为 10 ~ 20 帧 的 镜 头 lsi, 得到一系列的候选徽标镜头 其中, i ∈ {1, 2, L, N4}, N4 为候选徽标镜头总数 ; (4.1g) 利用镜头分割程序检测候选徽标镜头 lsi′和候选徽标镜头 lsi′ -1 之间的视频 片段包含的镜头数目 : 如果该视频片段包含的镜头数目大于 1, 将该视频片段中的镜头标 注为回放镜头, 如果该视频片段包含的镜头数目等于 1, 将该视频片段中的镜头标注为实时 镜头, 其中, i′∈ {2, 3, L, N4}。 4. 根据权利要求 2 所述的足球视频进球事件检测方法, 其中步骤 (4.2) 所述的 “将实 时镜头进一步标注为远镜头、 中镜头和非场地镜头” , 按如下步骤进行 : (4.2a) 在实时镜头中选取 60 幅远景帧图像, 根据第 p 幅帧图像的色度分量的 256 柄直 方图中索引 huel 对应的值 histp(huel), 计算 60 幅远景帧图像的色度分量的累加直方图中 索引 huel 对应的值 sh(huel) : 其中, huel 为第 p 幅帧图像色度分量的第 l 级索引, l ∈ {1, 2, L, 256}, huel ∈ {1, 2, L, 256}, p ∈ {1, 2, L, 60} ; (4.2b) 根据累加直方图中索引 huel 对应的值 sh(huel), 计算累加直方图的峰值 F : F = max{sh(hue1), sh(hue2), L, sh(hue256)} ; (4.2c) 根据累加直方图中每个索引对应的值和累加直方图的峰值 F, 确定满足如下条 件的下限索引 huelow : sh(huelow) ≥ 0.2×F sh(huelow-1) < 0.2×F 其中, sh(huelow) 为累加直方图中下限索引 huelow 对应的值, sh(huelow-1) 为累加直方 图中索引 huelow-1 对应的值 ; (4.2d) 根据累加直方图中每个索引对应的值和累加直方图的峰值 F, 确定满足如下条 4 件的上限索引 hueup : sh(hueup) ≥ 0.2×F sh(hueup+1) < 0.2×F 其中, sh(hueup) 为累加直方图中上限索引 hueup 对应的值, sh(hueup+1) 为累加直方图 中索引 hueup+1 对应的值 ; (4.2e) 将实时镜头的每一幅帧图像裁剪去顶部三分之一, 统计裁剪后每一幅帧图像中 色度分量的值 h 属于区间 [huelow/256, hueup/256] 的场地像素个数 C1, 计算每一幅帧图像的 场地比率 PR : 其中, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ; (4.2f) 根据每一幅帧图像的场地比率 PR, 判断每一幅帧图像的类型 : 其中, 取阈值 T3 = 0.70, T4 = 0.30 ; (4.2g) 若待标注实时镜头 55%以上的帧图像属于远景帧图像, 则标注该实时镜头为 远镜头 ; 若待标注实时镜头 55%以上的帧图像属于中景帧图像, 则标注该实时镜头为中镜 头; 否则标注为非场地镜头。 5. 根据权利要求 2 所述的足球视频进球事件检测方法, 其中步骤 (4.3) 所述的 “将非 场地镜头进一步标注为特写镜头与观众镜头” , 按如下步骤进行 : (4.3a) 将非场地镜头的每一幅帧图像从 RGB 颜色空间转换到 YCbCr 颜色空间, 得到亮 度分量 Y 的值 y, 蓝色色度分量 Cb 的值 cb, 红色色度分量 Cr 的值 cr : y = 0.299r′ +0.578g′ +0.114b′ cb = 0.564(b′ -y) cr = 0.713(r′ -y) 其中, r′为每一幅帧图像的每个像素点的红色分量 R 的值, g′为每一幅帧图像的每 个像素点的绿色分量 G 的值, b′为每一幅帧图像的每个像素点的蓝色分量 B 的值 ; (4.3b) 根据每一幅帧图像的亮度分量 Y 的值 y, 用 Canny 算子检测每一幅帧图像中的 边缘像素, 得到边缘像素的个数 C2 ; (4.3c) 根据每一幅帧图像中的边缘像素的个数 C2, 计算待标注的非场地镜头中每一幅 帧图像的边缘像素比率 EPR : 其中, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ; (4.3d) 若一幅帧图像的 EPR 大于阈值 T5, 标记为观众帧图像, 否则标记为特写帧图像, 其中, 取 T5 = 0.10 ; (4.3e) 若待标注的非场地镜头 55%以上的帧图像属于观众帧图像, 则标注该非场地 5 镜头为观众镜头, 否则标记为特写镜头。
4: 1) 将第 d 个训练视频片段的物理镜头序列 Pd 中的物理镜头和第 e 个测试视频片段 2 的物理镜头序列 Qe 中的物理镜头都分别标注为实时镜头与回放镜头 ; (4.2) 将实时镜头进一步标注为远镜头、 中镜头和非场地镜头 ; (4.3) 将非场地镜头进一步标注为特写镜头与观众镜头。 3. 根据权利要求 2 所述的足球视频进球事件检测方法, 其中步骤 (4.1) 所述的 “将第 d 个训练视频片段的物理镜头序列 Pd 中的物理镜头和第 e 个测试视频片段的物理镜头序列 Qe 中的物理镜头都分别标注为实时镜头与回放镜头” , 按如下步骤进行 : (4.1a) 将含有 N3 幅帧图像的训练视频片段或测试视频片段中的每一幅帧图像从 RGB 颜色空间转换为 HSV 颜色空间, 得到色度分量 H 的值 h、 饱和度分量 S 的值 s、 亮度分量 V 的 值v: v = MAX 其中, r 为每一幅帧图像的每个像素点的红色分量 R 的归一化值, g 为每一幅帧图像的 每个像素点的绿色分量 G 的归一化值, b 为每一幅帧图像的每个像素点的蓝色分量 B 的归 一化值, MAX 为每一幅帧图像的每个像素点的 r、 g、 b 中的最大值, MIN 为每一幅帧图像的每 个像素点的 r、 g、 b 中的最小值, 按下式计算 : MAX = max(r, g, b) MIN = min(r, g, b) 其中, r′为每一幅帧图像的每个像素点的红色分量 R 的值, g′为每一幅帧图像的每 个像素点的绿色分量 G 的值, b′为每一幅帧图像的每个像素点的蓝色分量 B 的值 ; (4.1b) 根 据 第 n ′ 幅 帧 图 像 中 色 度 分 量 的 值 h 所 对 应 的 第 l 级 索 引 huel 的 像 素 个 数 num(huel), 计 算 第 n 幅 帧 图 像 的 色 度 分 量 的 256 柄 直 方 图 中 索 引 huel 对 应 的 值 histn′ (huel) : 3 histn′ (huel) = num(huel) 其中, n′∈ {1, 2, L, N3}, huel 为第 n′幅帧图像色度分量的第 l 级索引, l ∈ {1, 2, L, 256}, huel ∈ {1, 2, L, 256} ; (4.1c) 根据第 n+1 幅帧图像的色度分量的直方图中索引 huel 对应的值 histn+1(huel) 和第 n 幅帧图像的色度分量的直方图中索引 huel 对应的值 histn(huel), 计算第 n+1 幅帧图 像和第 n 幅帧图像的色度直方图差值 HHDn : 其中, n ∈ {1, 2, L, N3-1}, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ; (4.1d) 根据色度直方图差值 HHDn, 计算该视频片段的 N3-1 个色度直方图差值的均值 HHD : (4.1e) 选取 HHDn 大于阈值 T2 的帧, 其中, 阈值 T2 为该视频片段的 HHD 的 2 倍, 取 T2 = 0.1938 ; (4.1f) 选 取 持 续 时 间 为 10 ~ 20 帧 的 镜 头 lsi, 得到一系列的候选徽标镜头 其中, i ∈ {1, 2, L, N4}, N4 为候选徽标镜头总数 ; (4.1g) 利用镜头分割程序检测候选徽标镜头 lsi′和候选徽标镜头 lsi′ -1 之间的视频 片段包含的镜头数目 : 如果该视频片段包含的镜头数目大于 1, 将该视频片段中的镜头标 注为回放镜头, 如果该视频片段包含的镜头数目等于 1, 将该视频片段中的镜头标注为实时 镜头, 其中, i′∈ {2, 3, L, N4}。 4. 根据权利要求 2 所述的足球视频进球事件检测方法, 其中步骤 (4.2) 所述的 “将实 时镜头进一步标注为远镜头、 中镜头和非场地镜头” , 按如下步骤进行 : (4.2a) 在实时镜头中选取 60 幅远景帧图像, 根据第 p 幅帧图像的色度分量的 256 柄直 方图中索引 huel 对应的值 histp(huel), 计算 60 幅远景帧图像的色度分量的累加直方图中 索引 huel 对应的值 sh(huel) : 其中, huel 为第 p 幅帧图像色度分量的第 l 级索引, l ∈ {1, 2, L, 256}, huel ∈ {1, 2, L, 256}, p ∈ {1, 2, L, 60} ; (4.2b) 根据累加直方图中索引 huel 对应的值 sh(huel), 计算累加直方图的峰值 F : F = max{sh(hue1), sh(hue2), L, sh(hue256)} ; (4.2c) 根据累加直方图中每个索引对应的值和累加直方图的峰值 F, 确定满足如下条 件的下限索引 huelow : sh(huelow) ≥ 0.2×F sh(huelow-1) < 0.2×F 其中, sh(huelow) 为累加直方图中下限索引 huelow 对应的值, sh(huelow-1) 为累加直方 图中索引 huelow-1 对应的值 ; (4.2d) 根据累加直方图中每个索引对应的值和累加直方图的峰值 F, 确定满足如下条 4 件的上限索引 hueup : sh(hueup) ≥ 0.2×F sh(hueup+1) < 0.2×F 其中, sh(hueup) 为累加直方图中上限索引 hueup 对应的值, sh(hueup+1) 为累加直方图 中索引 hueup+1 对应的值 ; (4.2e) 将实时镜头的每一幅帧图像裁剪去顶部三分之一, 统计裁剪后每一幅帧图像中 色度分量的值 h 属于区间 [huelow/256, hueup/256] 的场地像素个数 C1, 计算每一幅帧图像的 场地比率 PR : 其中, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ; (4.2f) 根据每一幅帧图像的场地比率 PR, 判断每一幅帧图像的类型 : 其中, 取阈值 T3 = 0.70, T4 = 0.30 ; (4.2g) 若待标注实时镜头 55%以上的帧图像属于远景帧图像, 则标注该实时镜头为 远镜头 ; 若待标注实时镜头 55%以上的帧图像属于中景帧图像, 则标注该实时镜头为中镜 头; 否则标注为非场地镜头。
5: 根据权利要求 2 所述的足球视频进球事件检测方法, 其中步骤 (4.3) 所述的 “将非 场地镜头进一步标注为特写镜头与观众镜头” , 按如下步骤进行 : (4.3a) 将非场地镜头的每一幅帧图像从 RGB 颜色空间转换到 YCbCr 颜色空间, 得到亮 度分量 Y 的值 y, 蓝色色度分量 Cb 的值 cb, 红色色度分量 Cr 的值 cr : y = 0.299r′ +0.578g′ +0.114b′ cb = 0.564(b′ -y) cr = 0.713(r′ -y) 其中, r′为每一幅帧图像的每个像素点的红色分量 R 的值, g′为每一幅帧图像的每 个像素点的绿色分量 G 的值, b′为每一幅帧图像的每个像素点的蓝色分量 B 的值 ; (4.3b) 根据每一幅帧图像的亮度分量 Y 的值 y, 用 Canny 算子检测每一幅帧图像中的 边缘像素, 得到边缘像素的个数 C2 ; (4.3c) 根据每一幅帧图像中的边缘像素的个数 C2, 计算待标注的非场地镜头中每一幅 帧图像的边缘像素比率 EPR : 其中, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ; (4.3d) 若一幅帧图像的 EPR 大于阈值 T5, 标记为观众帧图像, 否则标记为特写帧图像, 其中, 取 T5 = 0.10 ; (4.3e) 若待标注的非场地镜头 55%以上的帧图像属于观众帧图像, 则标注该非场地 5 镜头为观众镜头, 否则标记为特写镜头。

说明书


基于隐条件随机场的足球视频进球事件检测方法

    技术领域 本发明属于视频信息检索领域, 涉及体育视频语义分析, 可用于足球视频进球事 件检测中, 以准确、 全面地检测进球事件。
     背景技术 体育视频因为拥有庞大的受众群体和巨大的商业价值而备受研究者和社会各界 的广泛关注。体育视频的精彩事件自动检测一直是视频语义分析领域研究的热点, 其难点 在于必须解决低层特征到高层语义之间的语义鸿沟, 对此国内外学者进行了广泛的研究, 取得了不菲的研究成果。
     目前的方法主要有 :
     (1)Sadlier D A, O′ Connor N E.Event detection in field sports video using audio-visual features and a support vector machine[J]IEEE Trans.on Circuits and Systems for Video Technology, 2005, 15(10) : 1225-1233。该方法通过建 立音视频特征检测单元, 采用支持向量机对提取特征进行融合, 实现了足球、 橄榄球等视频 中 eventful 和 noneventful 事件的检测。该方法由于把语义事件检测问题直接作为特征 分类问题解决, 而没有充分利用语义信息, 其事件检测正确率仅达到 74%。
     (2)Ding Y, Fan G L.Sports Video Mining via Multichannel Segmental Hidden Markov Models[J]IEEE Trans.on Multimedia, 2009, 11(7) : 1301-1309。该方法基于隐马 尔科夫建模时序规律的良好性能, 构建了多通道部分隐马尔科夫模型, 能够同时进行视频 结构的分层次、 并行分析, 较准确地捕获了多个隐马尔科夫链之间的交互规律, 语义事件检 测正确率达到了 87.06%, 但模型的构建比较复杂。
     (3)Xu C S, Zhang Y F, Zhu G Y, et al.Using webcast text for semantic event detection in broadcast sports video[J]IEEE Trans.on Multimedia, 2008, 10(7) : 1342-1355。 这种方法采用潜在的语义分析方法检测网络文本中的关键事件, 将文本检测结 果和低层特征作为条件随机场模型的输入, 实现足球、 篮球体育视频中多种语义事件的检 测。 但这种方法构建模型的过程比较耗时, 未采用隐藏状态变量, 不能更有效地挖掘语义事 件的潜在规律, 限制了检测性能的提高。
     发明内容 本发明目的是针对上述已有技术的不足, 提出一种基于隐条件随机场的足球视频 进球事件检测方法, 以简化复杂的模型构建过程, 减少建模耗时, 提高事件检测正确率。
     为实现上述目的, 本发明的技术方案包括如下步骤 :
     (1) 定义语义镜头集为 ε = {s1, s2, s3, s 4, s5}, 其中, s1, s 2, s3, s4, s5 表示五种语 义镜头, 即 s1 为远镜头, s2 为中镜头, s3 为特写镜头, s4 为观众镜头, s5 为回放镜头 ;
     (2) 定义进球事件的隐条件随机场的类别标签集为 α = {0, 1}, 其中, 0 表示进球 事件的隐条件随机场模型的输入不包含进球事件, 1 表示进球事件的隐条件随机场模型的
     输入包含进球事件 ;
     (3) 对 N1 个训练视频片段和 N2 个测试视频片段分别进行物理镜头分割, 得到第 d 个训练视频片段的物理镜头序列 Pd 和第 e 个测试视频片段的物理镜头序列 Qe, 其中, d ∈ {1, 2, L, N1}, e ∈ {1, 2, L, N2} ;
     (4) 对第 d 个训练视频片段的物理镜头序列 Pd 中的物理镜头和第 e 个测试视频片 段的物理镜头序列 Qe 中的物理镜头分别进行语义标注, 得到由远镜头、 中镜头、 特写镜头、 观众镜头和回放镜头组成的第 d 个训练视频片段的语义镜头序列 Od 和第 e 个测试视频片 段的语义镜头序列 Ze ;
     (5) 对第 d 个训练视频片段, 人工判断是否包含进球事件, 得到第 d 个训练视频片 段的类别标签 λd, λd ∈ α ;
     (6) 将 N1 个训练视频片段的语义镜头序列 O1, O2, L, 和 N1 个训练视频片段的类 将 N2 个测试视频片别标签 λ1, λ2, L, 作为训练数据集 Z2, L, 作为测试数据集 段的语义镜头序列 Z1,
     (7) 根据训练数据集 O 中的 N1 个语义镜头序列 O1, O2, L, 和对应的 N1 个类别标签 调用 Matlab 工具包 HCRF2.0b 中 trainHCRF 函数, 计算进球事件的隐条件随λ1, λ2, L,机场模型的模型参数 θ, 并利用模型参数 θ 建立进球事件的隐条件随机场模型, 其中, 函 数 trainHCRF 的调用格式为 θ = trainHCRF(trainseqs, trainlabels, params), trainseqs 为训练数据集中的 N1 个语义镜头序列 O1, O2, L, λ1, λ2, L, trainlabels 为对应的 N1 个类别标签 params 为函数参数, params.nbHiddenStates 为隐状态个数 N, 取值为 3,params.windowsize 为窗长度 ω, 取值为 1, params.optimizer 为优化算法, 选择 bgfs 算 法, params.maxIterations 为最大迭代次数, 取值为 300 ;
     (8) 根据进球事件的隐条件随机场模型和测试数据集 Z, 调用 Matlab 工具包 HCRF2.0b 中 testHCRF 函数, 计算测试数据集 Z 中第 e 个测试视频片段的语义镜头序列 Ze 对应于类别标签 0 的概率 βe, 以及该语义镜头序列对应于类别标签 1 的概率 βe, 0, 1 ;
     (9) 若 βe, 则第 e 个测试视频片段的语义镜头序列 Ze 的预测类别标签为 0 > βe, 1, 0, 该测试视频片段不包含进球事件, 若 βe, 则第 e 个测试视频片段的语义镜头序 0 < βe, 1, 列 Ze 的预测类别标签为 1, 该测试视频片段包含进球事件, 若 βe, 则无法判断第 e 0 = βe, 1, 个测试视频片段是否包含进球事件。 本发明与现有技术相比具有以下优点 :
     1) 本发明由于建立的进球事件的隐条件随机场模型同时具有隐状态表达能力和 表达长距离依赖性和交叠性特征的能力, 能够更自然地对足球视频中的时空邻域关系进行 建模 ;
     2) 本发明由于将视频的物理镜头标注为语义镜头, 然后将语义镜头序列作为进球 事件的隐条件随机场模型的输入进行进球事件的检测, 有效缓解了低层特征到高层语义之 间的语义鸿沟, 改善了进球事件的检测性能。
     附图说明
     图 1 是足球视频进球序列与非进球序列的代表帧示例图 ;图 2 是隐条件随机场模型示意图 ; 图 3 是本发明的流程图。具体实施方式
     一、 基础理论介绍
     足球比赛深受大众喜爱, 但一场比赛视频数据量巨大, 观众感兴趣的精彩事件通 常只是整场比赛的很小一部分, 因此, 对比赛视频进行分析和处理, 实现进球、 罚球等精彩 事件的语义检测在足球视频语义分析领域至关重要。 然而, 足球比赛视频有着特定的结构, 深入、 准确地挖掘这种内在的结构特征和联系, 建立有效的足球比赛视频结构模型, 使得精 彩事件的语义检测成为可能, 在体育视频语义分析领域具有重要的理论价值和市场应用前 景。
     足球比赛视频片段可分为进球视频片段和非进球视频片段, 每个片段包括远镜 头、 中镜头、 特写镜头、 观众镜头和回放镜头, 通过对大量真实比赛视频的分析发现, 进球片 段含有较多的特写镜头和回放镜头、 较少的远镜头和中镜头。图 1 是足球视频中进球序列 和非进球序列的代表帧示例图, 其中图 1(a) 是进球序列, 它用 5 个镜头展示了一次进球事 件, 这 5 个镜头为射门全景远镜头、 射门球员特写镜头、 观众镜头、 包含若干球员的中镜头 和回放镜头 ; 图 1(b) 是非进球序列, 它用远镜头与中镜头的交叉显示展示了一次非进球事 件。
     隐条件随机场是一种具有隐状态变量的无向图概率模型。给定一个观察值序列, 在隐条件随机场模型中存在一个对应的隐状态序列, 当前时刻的隐状态既可以只根据当前 时刻的观察值元素预测产生, 也可以根据当前时刻的观察值元素和相邻观察值元素共同预 测产生。
     隐条件随机场的具体定义如下。假设需要对一个输入序列 x ′预测标签 β0, 其 中, β0 为标签集 Γ 中的一个元素, 输入序列 x′也称为观察序列, 是一个观察值集合 x′= {x′ 1, x′ 2, L, x′ a′ }。在不同的输入序列中, 观察值集合的元素数目 a′是可变的。每 个观察值元素 x′ c 由一个特征向量 φ(x′ c) 表示, 其中, c ∈ {1, 2, L, a′ }, m 为维数。训练数据集由观察序列 - 类别标签数据对 (xj, βj) 组成, 其中, βj ∈ Γ, j = 1, 2, L, N, aj 为第 j 个观察序列中元素个数, N 为训练数据集中观 察序列 - 类别标签数据对的数目。测试数据集由观察序列组成。 图 2 是隐条件随机场模型示意图, 其中, u = {u1, u2, L, ut} 为隐条件随机场模型的 输入观察序列, ρ = {ρ1, ρ2, L, ρt} 为输入观察序列 u 对应的隐状态序列, 它根据观察序 列 u 产生, 并且在训练数据集中是无法被观察的, ργ ∈ Ω, γ ∈ {1, 2, L, t}, Ω 为隐条件 随机场的隐状态集合, 隐状态 ργ 对应于观察序列 u 中的观察值元素 uγ, ργ 可以仅仅根 据单个观察值元素 uγ 预测产生, 也可以根据观察值元素 uγ 和其它观察值元素共同预测产 生, 类别标签 z 根据隐藏状态之间的结构得到。
     在给定输入序列 x′和隐条件随机场模型参数 θ 的条件下, 计算输入序列 x′具 有标签 β′的概率 :
     其中, x′为输入序列, β′为输入序列 x′可能对应的标签, β′∈ Γ, θ 为隐 条件随机场的模型参数, τ 为输入序列 x′可能对应的标签, τ ∈ Γ, η = {η1, η2, L, 是以 θ 为参数的势函数, 势函ηa′ } 为输入序列 x′对应的隐状态序列, 数按下式计算 :
     其中, φ(x ′ c) 为输入序列 x ′中第 c 个观察值元素 x ′ c 的特征向量表示, ηc ∈ Ω, θ(ηc) 为对应于第 c 个隐状态 ηc 的参数矢量, 矢量维数为 m 维, 内积 φ(x ′ c)·θ(ηc) 为观察值元素 x ′ c 与隐状态 ηc 的兼容性度量, 为隐状态 ηc 与类别标签 β′的兼容性度量, 为隐状态 ηc 和隐状态 ηc′ 的联合与类别标签 β′的兼容性度量, E 为隐条件随机场模型的无向图, c′∈ {1, 2, L, a′ }, 隐状态表示无向图的节点, 若某个观察值元素同时与隐状态 ηc、 隐状 态 ηc′有关, 则在无向图 E 中存在边 (c, c′ )。 根据输入序列 x′具有标签 β′的概率 P(β′ |x′ ; θ), 计算输入序列 x′的预 测标签 β0 :
     β0 = argmaxβ′∈ ΓP(β′ |x′ ; θ)。
     二、 足球视频进球事件检测方法
     参照图 3, 本发明基于隐条件随机场的足球视频进球事件检测方法, 步骤如下 :
     步骤 1, 定义语义镜头集为 ε = {s1, s2, s 3, s 4, s5}, 其中, s1, s 2, s3, s4, s5 表示五 种语义镜头, 即 s1 为远镜头, s2 为中镜头, s3 为特写镜头, s4 为观众镜头, s5 为回放镜头。
     步骤 2, 定义进球事件的隐条件随机场的类别标签集为 α = {0, 1}, 其中, 0 表示进 球事件的隐条件随机场模型的输入不包含进球事件, 1 表示进球事件的隐条件随机场模型 的输入包含进球事件。
     步骤 3, 对 N1 个训练视频片段和 N2 个测试视频片段分别进行物理镜头分割, 得到 第 d 个训练视频片段的物理镜头序列 Pd 和第 e 个测试视频片段的物理镜头序列 Qe, 其中, d ∈ {1, 2, L, N1}, e ∈ {1, 2, L, N2}。
     步骤 4, 对第 d 个训练视频片段的物理镜头序列 Pd 中的物理镜头和第 e 个测试视 频片段的物理镜头序列 Qe 中的物理镜头分别进行语义标注, 即对包含语义信息的物理镜头 赋予一个语义标签, 得到由远镜头、 中镜头、 特写镜头、 观众镜头和回放镜头组成的第 d 个 训练视频片段的语义镜头序列 Od 和第 e 个测试视频片段的语义镜头序列 Ze。
     (4.1) 将第 d 个训练视频片段的物理镜头序列 Pd 中的物理镜头和第 e 个测试视频 片段的物理镜头序列 Qe 中的物理镜头都分别标注为实时镜头与回放镜头 :
     (4.1a) 将含有 N3 幅帧图像的训练视频片段或测试视频片段中的每一幅帧图像从 RGB 颜色空间转换为 HSV 颜色空间, 其 RGB 颜色空间由红色分量 R, 绿色分量 G 和蓝色分量 B 组成, 转换后得到色度分量 H 的值 h、 饱和度分量 S 的值 s、 亮度分量 V 的值 v :
     v = MAX
     其中, r 为每一幅帧图像的每个像素点的红色分量 R 的归一化值, g 为每一幅帧图 像的每个像素点的绿色分量 G 的归一化值, b 为每一幅帧图像的每个像素点的蓝色分量 B 的 归一化值, MAX 为每一幅帧图像的每个像素点的 r、 g、 b 中的最大值, MIN 为每一幅帧图像的 每个像素点的 r、 g、 b 中的最小值, 按下式计算 :
     MAX = max(r, g, b)
     MIN = min(r, g, b)
     其中, r′为每一幅帧图像的每个像素点的红色分量 R 的值, g′为每一幅帧图像 的每个像素点的绿色分量 G 的值, b′为每一幅帧图像的每个像素点的蓝色分量 B 的值 ;
     (4.1b) 根据第 n ′幅帧图像中色度分量的值 h 所对应的第 l 级索引 huel 的像 素个数 num(huel), 计算第 n′幅帧图像的色度分量的 256 柄直方图中索引 huel 对应的值 histn′ (huel) :
     histn(huel) = num(huel)
     其中, n′∈ {1, 2, L, N3}, huel 为第 n′幅帧图像色度分量的第 l 级索引, l ∈ {1, 2, L, 256}, huel ∈ {1, 2, L, 256} ;
     (4.1c) 根 据 第 n+1 幅 帧 图 像 的 色 度 分 量 的 直 方 图 中 索 引 huel 对 应 的 值 histn+1(huel) 和第 n 幅帧图像的色度分量的直方图中索引 huel 对应的值 histn(huel), 计算 第 n+1 幅帧图像和第 n 幅帧图像的色度直方图差值 HHDn :
     其中, x ∈ {1, 2, L, N3-1}, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ;(4.1d) 根据色度直方图差值 HHDn, 计算该视频片段的 N3-1 个色度直方图差值的均值 HHD :
     (4.1e) 选取 HHDn 大于阈值 T2 的帧, 其中, 阈值 T2 为该视频片段的 HHD 的 2 倍, 取 T2 = 0.1938 ;
     (4.1f) 选 取 持 续 时 间 为 10 ~ 20 帧 的 镜 头 lsw, 得到一系列的候选徽标镜头
     其中, w ∈ {1, 2, ..., N4}, N4 为候选徽标镜头总数 ; (4.1g) 真实的徽标镜头必成对出现, 徽标镜头中间的片段即为回放片段, 回放片 段至少包含 1 个镜头。 利用镜头分割程序检测候选徽标镜头 lsw′和候选徽标镜头 lsw′ -1 之 间的视频片段包含的镜头数目 : 如果该视频片段包含的镜头数目大于 1, 将该视频片段中 的镜头标注为回放镜头, 如果该视频片段包含的镜头数目等于 1, 将该视频片段中的镜头标 注为实时镜头, 其中, w′∈ {2, 3, L, N4} ;
     (4.2) 将实时镜头进一步标注为远镜头、 中镜头和非场地镜头, 其中远镜头提供比 赛进行的全局情况, 通常含有很大的场地面积, 中镜头描述一个或若干个球员的全身以及 动作, 也含有一定的场地面积, 但少于远镜头, 因此, 采用场地比率 PR 来区分远镜头和中镜 头, 即一幅帧图像的场地像素点个数和总像素点个数的比值, 当某些远镜头含有部分观众 区域时, 场地面积减少, 场地比率 PR 也减小, 很容易将远镜头和中镜头错误标注, 故本发明
     将帧图像顶部裁剪去三分之一后, 根据场地比率 PR 和选取的阈值, 将实时镜头进一步标注 为远镜头、 中镜头和非场地镜头 :
     (4.2a) 在实时镜头中选取 60 幅远景帧图像, 根据第 p 幅帧图像的色度分量的 256 柄直方图中索引 huel 对应的值 histp(huel), 计算 60 幅远景帧图像的色度分量的累加直方 图中索引 huel 对应的值 sh(huel) :
     其中, huel 为第 p 幅帧图像色度分量的第 l 级索引, l ∈ {1, 2, L, 256}, huel ∈ {1, 2, L, 256}, p ∈ {1, 2, L, 60} ;
     (4.2b) 根据累加直方图中索引 huel 对应的值 sh(huel), 计算累加直方图的峰值 F:
     F = max{sh(hue1), sh(hue2), L, sh(hue256)} ;
     (4.2c) 根据累加直方图中每个索引对应的值和累加直方图的峰值 F, 确定满足如 下条件的下限索引 huelow :
     sh(huelower) ≥ 0.2×F
     sh(huelower-1) < 0.2×F
     其中, sh(huelow) 为累加直方图中下限索引 huelow 对应的值, sh(huelow-1) 为累加 直方图中索引 huelow-1 对应的值 ;
     (4.2d) 根据累加直方图中每个索引对应的值和累加直方图的峰值 F, 确定满足如 下条件的上限索引 hueup :
     sh(hueupper) ≥ 0.2×F
     sh(hueupper+1) < 0.2×F
     其中, sh(hueup) 为累加直方图中上限索引 hueup 对应的值, sh(hueup+1) 为累加直 方图中索引 hueup+1 对应的值 ;
     (4.2e) 将实时镜头的每一幅帧图像裁剪去顶部三分之一, 统计裁剪后每一幅帧图 像中色度分量的值 h 属于区间 [huelow/256, hueup/256] 的场地像素个数 C1, 计算每一幅帧图 像的场地比率 PR :
     其中, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ;
     (4.2f) 根据设定的阈值 T3、 T4 和每一幅帧图像的场地比率 PR, 判断每一幅帧图像 的类型 :
     如果一幅帧图像的场地比率 PR 大于阈值 T3, 则该幅帧图像是远景帧图像,
     如果一幅帧图像的场地比率 PR 小于等于阈值 T3 并且大于等于阈值 T4, 则该幅帧 图像是中景帧图像,
     如果一幅帧图像的场地比率 PR 小于阈值 T4, 则该幅帧图像是非场地帧图像,
     其中, 取阈值 T3 = 0.70, T4 = 0.30 ;
     (4.2g) 若待标注实时镜头 55%以上的帧图像属于远景帧图像, 则标注该实时镜 头为远镜头 ; 若待标注实时镜头 55%以上的帧图像属于中景帧图像, 则标注该实时镜头为 中镜头 ; 否则标注为非场地镜头 ;
     (4.3) 将非场地镜头进一步标注为特写镜头与观众镜头, 由于观众镜头中观众数 目较多, 背景复杂, 边缘信息丰富, 特写镜头人物比例较大, 平滑区域较多, 需用边缘像素比 率 EPR 表示每一幅帧图像中边缘像素点个数与总像素点个数的比率, 故本发明根据边缘像 素比率 EPR 和选取的阈值, 按如下步骤将非场地镜头进一步标注为特写镜头与观众镜头 :
     (4.3a) 将非场地镜头的每一幅帧图像从 RGB 颜色空间转换到 YCbCr 颜色空间, 得 到亮度分量 Y 的值 y, 蓝色色度分量 Cb 的值 cr, 红色色度分量 Cr 的值 cb :
     y = 0.299r′ +0.578g′ +0.114b′
     cb = 0.564(b′ -y)
     cr = 0.713(r′ -y)
     其中, r′为每一幅帧图像的每个像素点的红色分量 R 的值, g′为每一幅帧图像 的每个像素点的绿色分量 G 的值, b′为每一幅帧图像的每个像素点的蓝色分量 B 的值 ;
     (4.3b) 根据每一幅帧图像的亮度分量 Y 的值 y, 用 Canny 算子检测每一幅帧图像 中的边缘像素的个数 C2 ;
     (4.3c) 根据每一幅帧图像中的边缘像素的个数 C2, 计算待标注的非场地镜头中每 一幅帧图像的边缘像素比率 EPR :
     其中, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ;
     (4.3d) 若一幅帧图像的 EPR 大于阈值 T5, 标记为观众帧图像, 否则标记为特写帧 图像, 其中, 取 T5 = 0.10 ;
     (4.3e) 若待标注的非场地镜头 55%以上的帧图像属于观众帧图像, 则标注该非 场地镜头为观众镜头, 否则标记为特写镜头。
     步骤 5, 对第 d 个训练视频片段, 人工判断是否包含进球事件, 得到第 d 个训练视频 片段的类别标签 λd, λd ∈ α。
     步骤 6, 将 N1 个训练视频片段的语义镜头序列 O1, O2, L, 和 N1 个训练视频片段的 将 N2 个测试视频类别标签 λ1, λ2, L, 作为训练数据集 Z2, L, 作为测试数据集 片段的语义镜头序列 Z1,
     步骤 7, 根据训练数据集 O 中的 N1 个语义镜头序列 O1, O2, L, 和对应的 N1 个类 调用 Matlab 工具包 HCRF2.0b 中 trainHCRF 函数, 计算进球事件的别标签 λ1, λ2, L,隐条件随机场模型的模型参数 θ, 并利用模型参数 θ 建立进球事件的隐条件随机场模型, 其中, 函数 trainHCRF 的调用格式为 θ = trainHCRF(trainseqs, trainlabels, params), trainseqs 为训练数据集中的 N1 个语义镜头序列 O1, O2, L, 类别标签 λ1, λ2, L, trainlabels 为对应的 N1 个 params 为函数参数, params.nbHiddenStates 为隐状态个数 N, 取值为 3, params.windowsize 为窗长度 ω, 取值为 1, 窗长度表示隐条件随机场在预测当前时 刻的隐状态时考虑的观察值个数, ω = 0 表示隐条件随机场在预测当前时刻的隐状态时只 考虑当前时刻的观察值, ω = 1 表示预测当前时刻的隐状态时既考虑当前时刻的观察值同 时也考虑前一时刻和后一时刻的观察值, params.optimizer 为优化算法, 选择 bgfs 算法, params.maxIterations 为最大迭代次数, 取值为 300。 步骤 8, 根据进球事件的隐条件随机场模型和测试数据集 Z, 调用 Matlab 工具包 HCRF2.0b 中 testHCRF 函数, 计算测试数据集 Z 中第 e 个测试视频片段的语义镜头序列 Ze 对应于类别标签 0 的概率 βe, 以及该语义镜头序列对应于类别标签 1 的概率 βe, 0, 1。
     步骤 9, 若 βe, 则第 e 个测试视频片段的语义镜头序列 Ze 的预测类别标 0 > βe, 1, 签为 0, 该测试视频片段不包含进球事件, 若 βe, 则第 e 个测试视频片段的语义镜 0 < βe, 1, 头序列 Ze 的预测类别标签为 1, 该测试视频片段包含进球事件, 若 βe, 则无法判断 0 = βe, 1, 第 e 个测试视频片段是否包含进球事件。
     本发明的效果可通过以下实验仿真进一步说明。
     1) 仿真条件
     实验视频选自 2010 年南非世界杯多个场次的比赛, mpeg-1 格式, 帧分辨率为 352×288。实验视频分为两部分, 一部分作为训练视频片段, 含有 21 个进球视频片段和 10 个非进球视频片段, 剩余部分作为测试视频片段, 含有 50 个进球视频片段和 20 个非进球视 频片段。实验软件环境为 Matlab R2008a。
     2) 仿真内容及结果
     仿真一 : 根据建立的进球事件的隐条件随机场模型, 对 70 个测试视频片段分别计 算每个测试视频片段具有类别标签 0 的概率和类别标签 1 的概率, 选择较大概率对应的类 别标签作为该测试视频片段的预测标签, 从而判断该测试视频片段是否含有进球事件。调 用 Matlab 工具包 HCRF2.0b 中 trainHCRF 函数计算模型参数 θ 时, 参数优化算法选择 BFGS 算法, 最大迭代次数为 300, 根据实验选取隐状态个数 N 为 3, 窗长度 ω 分别为 0、 1、 2, ω= 0 表示预测当前时刻的隐状态时只考虑当前时刻的观察值, ω = 1 表示预测当前时刻的隐
     状态时既考虑当前时刻的观察值同时也考虑前一时刻和后一时刻的观察值, ω = 2 表示预 测当前时刻的隐状态时既考虑当前时刻的观察值同时也考虑前两个时刻和后两个时刻的 观察值。实验结果如表 1 所示。
     表1
     从 表 1 可 以 看 出, 本发明对于足球视频进球事件的最佳检测性能为查准率 98.04%、 查全率 100%。窗长 ω = 1 时的查准率比 ω = 0 的查准率有所提高, 可见考虑有 效距离内观察值的依赖关系能明显提高进球事件的隐条件随机场模型的检测性能, 但是 ω = 2 时的查准率比 ω = 1 的查准率降低, 是因为考虑了过长范围的依赖关系, 反而增加模 型的复杂度, 不能正确反映进球事件的内在规律, 降低隐条件随机场模型的性能。因此, 本 发明最终确定进球事件的隐条件随机场模型的隐状态个数 N 为 3, 窗长度 ω 为 1。以上仿真结果表明, 本发明提出的基于隐条件随机场的足球视频进球事件检测方 法, 能够准确、 全面地实现进球事件的检测。
    

基于隐条件随机场的足球视频进球事件检测方法.pdf_第1页
第1页 / 共16页
基于隐条件随机场的足球视频进球事件检测方法.pdf_第2页
第2页 / 共16页
基于隐条件随机场的足球视频进球事件检测方法.pdf_第3页
第3页 / 共16页
点击查看更多>>
资源描述

《基于隐条件随机场的足球视频进球事件检测方法.pdf》由会员分享,可在线阅读,更多相关《基于隐条件随机场的足球视频进球事件检测方法.pdf(16页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102306154 A (43)申请公布日 2012.01.04 CN 102306154 A *CN102306154A* (21)申请号 201110180085.2 (22)申请日 2011.06.29 G06F 17/30(2006.01) G06K 9/62(2006.01) (71)申请人 西安电子科技大学 地址 710071 陕西省西安市太白南路 2 号 (72)发明人 同鸣 谢文娟 张伟 (74)专利代理机构 陕西电子工业专利中心 61205 代理人 王品华 朱红星 (54) 发明名称 基于隐条件随机场的足球视频进球事件检测 方法 (57) 摘要 本发。

2、明公开了一种基于隐条件随机场的足球 视频进球事件检测方法, 主要解决现有技术不能 同时具有隐状态表达能力和表达交叠性特征的 问题。其实现步骤是 : 首先, 对训练视频和测试 视频进行物理镜头分割和语义镜头标注, 判断每 个训练视频是否含进球事件, 得到类别标签, 将训 练视频的语义镜头序列和类别标签组成训练数 据集, 将测试视频的语义镜头序列组成测试数据 集 ; 接着, 根据训练数据集, 调用 Matlab 工具包 HCRF2.0b 中 trainHCRF 函数计算模型参数, 建立 进球事件的隐条件随机场模型 ; 最后, 根据已建 立模型, 调用 testHCRF 函数计算测试视频对应不 同类。

3、别标签的概率, 进行进球事件检测。 本发明能 够准确、 全面实现进球事件检测, 可用于足球视频 精彩事件检测等语义分析领域。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 5 页 说明书 9 页 附图 1 页 CN 102306161 A1/5 页 2 1. 一种基于隐条件随机场的足球视频进球事件检测方法, 包括如下步骤 : (1) 定义语义镜头集为 s1, s2, s3, s4, s5, 其中, s1, s2, s3, s4, s5表示五种语义镜 头, 即 s1为远镜头, s2为中镜头, s3为特写镜头, s4为观众镜头, s5为回放镜头 ;。

4、 (2) 定义进球事件的隐条件随机场的类别标签集为 0, 1, 其中, 0 表示进球事件 的隐条件随机场模型的输入不包含进球事件, 1 表示进球事件的隐条件随机场模型的输入 包含进球事件 ; (3) 对 N1个训练视频片段和 N2个测试视频片段分别进行物理镜头分割, 得到第 d 个训 练视频片段的物理镜头序列 Pd和第 e 个测试视频片段的物理镜头序列 Qe, 其中, d 1, 2, L, N1, e 1, 2, L, N2 ; (4) 对第 d 个训练视频片段的物理镜头序列 Pd中的物理镜头和第 e 个测试视频片段的 物理镜头序列 Qe中的物理镜头分别进行语义标注, 得到由远镜头、 中镜头、。

5、 特写镜头、 观众 镜头和回放镜头组成的第 d 个训练视频片段的语义镜头序列 Od和第 e 个测试视频片段的 语义镜头序列 Ze; (5) 对第 d 个训练视频片段, 人工判断是否包含进球事件, 得到第 d 个训练视频片段的 类别标签 d, d ; (6) 将 N1个训练视频片段的语义镜头序列 O1, O2, L, 和 N1个训练视频片段的类别标 签 1, 2, L, 作为训练数据集将 N2个测试视频片段 的语义镜头序列 Z1, Z2, L,作为测试数据集 (7)根据训练数据集O中的N1个语义镜头序列O1, O2, L, 和对应的N1个类别标签1, 2, L,调用 Matlab 工具包 HCR。

6、F2.0b 中 trainHCRF 函数, 计算进球事件的隐条件随机 场模型的模型参数 , 并利用模型参数 建立进球事件的隐条件随机场模型, 其中, 函数 trainHCRF 的调用格式为 trainHCRF(trainseqs, trainlabels, params), trainseqs 为训练数据集中的 N1个语义镜头序列 O1, O2, L,trainlabels 为对应的 N1个类别标签 1, 2, L,params 为函数参数, params.nbHiddenStates 为隐状态个数 N, 取值为 3, params.windowsize 为窗长度 , 取值为 1, param。

7、s.optimizer 为优化算法, 选择 bgfs 算 法, params.maxIterations 为最大迭代次数, 取值为 300 ; (8) 根据进球事件的隐条件随机场模型和测试数据集 Z, 调用 Matlab 工具包 HCRF2.0b 中 testHCRF 函数, 计算测试数据集 Z 中第 e 个测试视频片段的语义镜头序列 Ze对应于类 别标签 0 的概率 e, 0, 以及该语义镜头序列对应于类别标签 1 的概率 e, 1; (9) 若 e, 0 e, 1, 则第 e 个测试视频片段的语义镜头序列 Ze的预测类别标签为 0, 该测试视频片段不包含进球事件, 若 e, 0 e, 1,。

8、 则第 e 个测试视频片段的语义镜头序列 Ze的预测类别标签为 1, 该测试视频片段包含进球事件, 若 e, 0 e, 1, 则无法判断第 e 个 测试视频片段是否包含进球事件。 2. 根据权利要求 1 所述的足球视频进球事件检测方法, 其中步骤 (4) 所述的 “对第 d 个训练视频片段的物理镜头序列 Pd中的物理镜头和第 e 个测试视频片段的物理镜头序列 Qe中的物理镜头分别进行语义标注” , 按如下步骤进行 : (4.1) 将第 d 个训练视频片段的物理镜头序列 Pd中的物理镜头和第 e 个测试视频片段 权 利 要 求 书 CN 102306154 A CN 102306161 A2/5。

9、 页 3 的物理镜头序列 Qe中的物理镜头都分别标注为实时镜头与回放镜头 ; (4.2) 将实时镜头进一步标注为远镜头、 中镜头和非场地镜头 ; (4.3) 将非场地镜头进一步标注为特写镜头与观众镜头。 3. 根据权利要求 2 所述的足球视频进球事件检测方法, 其中步骤 (4.1) 所述的 “将第 d个训练视频片段的物理镜头序列Pd中的物理镜头和第e个测试视频片段的物理镜头序列 Qe中的物理镜头都分别标注为实时镜头与回放镜头” , 按如下步骤进行 : (4.1a) 将含有 N3幅帧图像的训练视频片段或测试视频片段中的每一幅帧图像从 RGB 颜色空间转换为 HSV 颜色空间, 得到色度分量 H 。

10、的值 h、 饱和度分量 S 的值 s、 亮度分量 V 的 值 v : v MAX 其中, r 为每一幅帧图像的每个像素点的红色分量 R 的归一化值, g 为每一幅帧图像的 每个像素点的绿色分量 G 的归一化值, b 为每一幅帧图像的每个像素点的蓝色分量 B 的归 一化值, MAX 为每一幅帧图像的每个像素点的 r、 g、 b 中的最大值, MIN 为每一幅帧图像的每 个像素点的 r、 g、 b 中的最小值, 按下式计算 : MAX max(r, g, b) MIN min(r, g, b) 其中, r为每一幅帧图像的每个像素点的红色分量 R 的值, g为每一幅帧图像的每 个像素点的绿色分量 G。

11、 的值, b为每一幅帧图像的每个像素点的蓝色分量 B 的值 ; (4.1b) 根据第 n幅帧图像中色度分量的值 h 所对应的第 l 级索引 huel的像素 个数 num(huel), 计算第 n 幅帧图像的色度分量的 256 柄直方图中索引 huel对应的值 histn(huel) : 权 利 要 求 书 CN 102306154 A CN 102306161 A3/5 页 4 histn(huel) num(huel) 其中, n 1, 2, L, N3, huel为第 n幅帧图像色度分量的第 l 级索引, l 1, 2, L, 256, huel 1, 2, L, 256 ; (4.1c)。

12、 根据第 n+1 幅帧图像的色度分量的直方图中索引 huel对应的值 histn+1(huel) 和第n幅帧图像的色度分量的直方图中索引huel对应的值histn(huel), 计算第n+1幅帧图 像和第 n 幅帧图像的色度直方图差值 HHDn: 其中, n 1, 2, L, N3-1, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ; (4.1d) 根据色度直方图差值 HHDn, 计算该视频片段的 N3-1 个色度直方图差值的均值 HHD : (4.1e) 选取 HHDn大于阈值 T2的帧, 其中, 阈值 T2为该视频片段的 HHD 的 2 倍, 取 T2 0.1938 ; (4.1。

13、f) 选取持续时间为 10 20 帧的镜头 lsi, 得到一系列的候选徽标镜头 其中, i 1, 2, L, N4, N4为候选徽标镜头总数 ; (4.1g) 利用镜头分割程序检测候选徽标镜头 lsi和候选徽标镜头 lsi -1之间的视频 片段包含的镜头数目 : 如果该视频片段包含的镜头数目大于 1, 将该视频片段中的镜头标 注为回放镜头, 如果该视频片段包含的镜头数目等于 1, 将该视频片段中的镜头标注为实时 镜头, 其中, i 2, 3, L, N4。 4. 根据权利要求 2 所述的足球视频进球事件检测方法, 其中步骤 (4.2) 所述的 “将实 时镜头进一步标注为远镜头、 中镜头和非场地。

14、镜头” , 按如下步骤进行 : (4.2a)在实时镜头中选取60幅远景帧图像, 根据第p幅帧图像的色度分量的256柄直 方图中索引 huel对应的值 histp(huel), 计算 60 幅远景帧图像的色度分量的累加直方图中 索引 huel对应的值 sh(huel) : 其中, huel为第 p 幅帧图像色度分量的第 l 级索引, l 1, 2, L, 256, huel 1, 2, L, 256, p 1, 2, L, 60 ; (4.2b) 根据累加直方图中索引 huel对应的值 sh(huel), 计算累加直方图的峰值 F : F maxsh(hue1), sh(hue2), L, sh。

15、(hue256) ; (4.2c) 根据累加直方图中每个索引对应的值和累加直方图的峰值 F, 确定满足如下条 件的下限索引 huelow: sh(huelow) 0.2F sh(huelow-1) 0.2F 其中, sh(huelow) 为累加直方图中下限索引 huelow对应的值, sh(huelow-1) 为累加直方 图中索引 huelow-1 对应的值 ; (4.2d) 根据累加直方图中每个索引对应的值和累加直方图的峰值 F, 确定满足如下条 权 利 要 求 书 CN 102306154 A CN 102306161 A4/5 页 5 件的上限索引 hueup: sh(hueup) 0.。

16、2F sh(hueup+1) 0.2F 其中, sh(hueup) 为累加直方图中上限索引 hueup对应的值, sh(hueup+1) 为累加直方图 中索引 hueup+1 对应的值 ; (4.2e) 将实时镜头的每一幅帧图像裁剪去顶部三分之一, 统计裁剪后每一幅帧图像中 色度分量的值h属于区间huelow/256, hueup/256的场地像素个数C1, 计算每一幅帧图像的 场地比率 PR : 其中, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ; (4.2f) 根据每一幅帧图像的场地比率 PR, 判断每一幅帧图像的类型 : 其中, 取阈值 T3 0.70, T4 0.30 ; 。

17、(4.2g) 若待标注实时镜头 55以上的帧图像属于远景帧图像, 则标注该实时镜头为 远镜头 ; 若待标注实时镜头 55以上的帧图像属于中景帧图像, 则标注该实时镜头为中镜 头 ; 否则标注为非场地镜头。 5. 根据权利要求 2 所述的足球视频进球事件检测方法, 其中步骤 (4.3) 所述的 “将非 场地镜头进一步标注为特写镜头与观众镜头” , 按如下步骤进行 : (4.3a) 将非场地镜头的每一幅帧图像从 RGB 颜色空间转换到 YCbCr颜色空间, 得到亮 度分量 Y 的值 y, 蓝色色度分量 Cb的值 cb, 红色色度分量 Cr的值 cr : y 0.299r +0.578g +0.11。

18、4b cb 0.564(b -y) cr 0.713(r -y) 其中, r为每一幅帧图像的每个像素点的红色分量 R 的值, g为每一幅帧图像的每 个像素点的绿色分量 G 的值, b为每一幅帧图像的每个像素点的蓝色分量 B 的值 ; (4.3b) 根据每一幅帧图像的亮度分量 Y 的值 y, 用 Canny 算子检测每一幅帧图像中的 边缘像素, 得到边缘像素的个数 C2; (4.3c) 根据每一幅帧图像中的边缘像素的个数 C2, 计算待标注的非场地镜头中每一幅 帧图像的边缘像素比率 EPR : 其中, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ; (4.3d) 若一幅帧图像的 EPR。

19、 大于阈值 T5, 标记为观众帧图像, 否则标记为特写帧图像, 其中, 取 T5 0.10 ; (4.3e) 若待标注的非场地镜头 55以上的帧图像属于观众帧图像, 则标注该非场地 权 利 要 求 书 CN 102306154 A CN 102306161 A5/5 页 6 镜头为观众镜头, 否则标记为特写镜头。 权 利 要 求 书 CN 102306154 A CN 102306161 A1/9 页 7 基于隐条件随机场的足球视频进球事件检测方法 技术领域 0001 本发明属于视频信息检索领域, 涉及体育视频语义分析, 可用于足球视频进球事 件检测中, 以准确、 全面地检测进球事件。 背景技。

20、术 0002 体育视频因为拥有庞大的受众群体和巨大的商业价值而备受研究者和社会各界 的广泛关注。体育视频的精彩事件自动检测一直是视频语义分析领域研究的热点, 其难点 在于必须解决低层特征到高层语义之间的语义鸿沟, 对此国内外学者进行了广泛的研究, 取得了不菲的研究成果。 0003 目前的方法主要有 : 0004 (1)Sadlier D A, O Connor N E.Event detection in field sports video using audio-visual features and a support vector machineJIEEE Trans.on Circu。

21、its and Systems for Video Technology, 2005, 15(10) : 1225-1233。该方法通过建 立音视频特征检测单元, 采用支持向量机对提取特征进行融合, 实现了足球、 橄榄球等视频 中 eventful 和 noneventful 事件的检测。该方法由于把语义事件检测问题直接作为特征 分类问题解决, 而没有充分利用语义信息, 其事件检测正确率仅达到 74。 0005 (2)Ding Y, Fan G L.Sports Video Mining via Multichannel Segmental Hidden Markov ModelsJIEEE 。

22、Trans.on Multimedia, 2009, 11(7) : 1301-1309。该方法基于隐马 尔科夫建模时序规律的良好性能, 构建了多通道部分隐马尔科夫模型, 能够同时进行视频 结构的分层次、 并行分析, 较准确地捕获了多个隐马尔科夫链之间的交互规律, 语义事件检 测正确率达到了 87.06, 但模型的构建比较复杂。 0006 (3)Xu C S, Zhang Y F, Zhu G Y, et al.Using webcast text for semantic event detection in broadcast sports videoJIEEE Trans.on Mult。

23、imedia, 2008, 10(7) : 1342-1355。 这种方法采用潜在的语义分析方法检测网络文本中的关键事件, 将文本检测结 果和低层特征作为条件随机场模型的输入, 实现足球、 篮球体育视频中多种语义事件的检 测。 但这种方法构建模型的过程比较耗时, 未采用隐藏状态变量, 不能更有效地挖掘语义事 件的潜在规律, 限制了检测性能的提高。 发明内容 0007 本发明目的是针对上述已有技术的不足, 提出一种基于隐条件随机场的足球视频 进球事件检测方法, 以简化复杂的模型构建过程, 减少建模耗时, 提高事件检测正确率。 0008 为实现上述目的, 本发明的技术方案包括如下步骤 : 0009。

24、 (1) 定义语义镜头集为 s1, s2, s3, s4, s5, 其中, s1, s2, s3, s4, s5表示五种语 义镜头, 即 s1为远镜头, s2为中镜头, s3为特写镜头, s4为观众镜头, s5为回放镜头 ; 0010 (2) 定义进球事件的隐条件随机场的类别标签集为 0, 1, 其中, 0 表示进球 事件的隐条件随机场模型的输入不包含进球事件, 1 表示进球事件的隐条件随机场模型的 说 明 书 CN 102306154 A CN 102306161 A2/9 页 8 输入包含进球事件 ; 0011 (3) 对 N1个训练视频片段和 N2个测试视频片段分别进行物理镜头分割, 得。

25、到第 d 个训练视频片段的物理镜头序列 Pd和第 e 个测试视频片段的物理镜头序列 Qe, 其中, d 1, 2, L, N1, e 1, 2, L, N2 ; 0012 (4) 对第 d 个训练视频片段的物理镜头序列 Pd中的物理镜头和第 e 个测试视频片 段的物理镜头序列 Qe中的物理镜头分别进行语义标注, 得到由远镜头、 中镜头、 特写镜头、 观众镜头和回放镜头组成的第 d 个训练视频片段的语义镜头序列 Od和第 e 个测试视频片 段的语义镜头序列 Ze; 0013 (5) 对第 d 个训练视频片段, 人工判断是否包含进球事件, 得到第 d 个训练视频片 段的类别标签 d, d ; 00。

26、14 (6) 将 N1个训练视频片段的语义镜头序列 O1, O2, L, 和 N1个训练视频片段的类 别标签 1, 2, L, 作为训练数据集将 N2个测试视频片 段的语义镜头序列 Z1, Z2, L,作为测试数据集 0015 (7)根据训练数据集O中的N1个语义镜头序列O1, O2, L, 和对应的N1个类别标签 1, 2, L,调用 Matlab 工具包 HCRF2.0b 中 trainHCRF 函数, 计算进球事件的隐条件随 机场模型的模型参数 , 并利用模型参数 建立进球事件的隐条件随机场模型, 其中, 函 数trainHCRF的调用格式为trainHCRF(trainseqs, tr。

27、ainlabels, params), trainseqs 为训练数据集中的 N1 个语义镜头序列 O1, O2, L,trainlabels 为对应的 N1个类别标签 1, 2, L,params 为函数参数, params.nbHiddenStates 为隐状态个数 N, 取值为 3, params.windowsize 为窗长度 , 取值为 1, params.optimizer 为优化算法, 选择 bgfs 算 法, params.maxIterations 为最大迭代次数, 取值为 300 ; 0016 (8) 根据进球事件的隐条件随机场模型和测试数据集 Z, 调用 Matlab 工。

28、具包 HCRF2.0b 中 testHCRF 函数, 计算测试数据集 Z 中第 e 个测试视频片段的语义镜头序列 Ze 对应于类别标签 0 的概率 e, 0, 以及该语义镜头序列对应于类别标签 1 的概率 e, 1; 0017 (9) 若 e, 0 e, 1, 则第 e 个测试视频片段的语义镜头序列 Ze的预测类别标签为 0, 该测试视频片段不包含进球事件, 若 e, 0 e, 1, 则第 e 个测试视频片段的语义镜头序 列 Ze的预测类别标签为 1, 该测试视频片段包含进球事件, 若 e, 0 e, 1, 则无法判断第 e 个测试视频片段是否包含进球事件。 0018 本发明与现有技术相比具有。

29、以下优点 : 0019 1) 本发明由于建立的进球事件的隐条件随机场模型同时具有隐状态表达能力和 表达长距离依赖性和交叠性特征的能力, 能够更自然地对足球视频中的时空邻域关系进行 建模 ; 0020 2) 本发明由于将视频的物理镜头标注为语义镜头, 然后将语义镜头序列作为进球 事件的隐条件随机场模型的输入进行进球事件的检测, 有效缓解了低层特征到高层语义之 间的语义鸿沟, 改善了进球事件的检测性能。 附图说明 0021 图 1 是足球视频进球序列与非进球序列的代表帧示例图 ; 说 明 书 CN 102306154 A CN 102306161 A3/9 页 9 0022 图 2 是隐条件随机场。

30、模型示意图 ; 0023 图 3 是本发明的流程图。 具体实施方式 0024 一、 基础理论介绍 0025 足球比赛深受大众喜爱, 但一场比赛视频数据量巨大, 观众感兴趣的精彩事件通 常只是整场比赛的很小一部分, 因此, 对比赛视频进行分析和处理, 实现进球、 罚球等精彩 事件的语义检测在足球视频语义分析领域至关重要。 然而, 足球比赛视频有着特定的结构, 深入、 准确地挖掘这种内在的结构特征和联系, 建立有效的足球比赛视频结构模型, 使得精 彩事件的语义检测成为可能, 在体育视频语义分析领域具有重要的理论价值和市场应用前 景。 0026 足球比赛视频片段可分为进球视频片段和非进球视频片段, 。

31、每个片段包括远镜 头、 中镜头、 特写镜头、 观众镜头和回放镜头, 通过对大量真实比赛视频的分析发现, 进球片 段含有较多的特写镜头和回放镜头、 较少的远镜头和中镜头。图 1 是足球视频中进球序列 和非进球序列的代表帧示例图, 其中图 1(a) 是进球序列, 它用 5 个镜头展示了一次进球事 件, 这 5 个镜头为射门全景远镜头、 射门球员特写镜头、 观众镜头、 包含若干球员的中镜头 和回放镜头 ; 图 1(b) 是非进球序列, 它用远镜头与中镜头的交叉显示展示了一次非进球事 件。 0027 隐条件随机场是一种具有隐状态变量的无向图概率模型。给定一个观察值序列, 在隐条件随机场模型中存在一个对。

32、应的隐状态序列, 当前时刻的隐状态既可以只根据当前 时刻的观察值元素预测产生, 也可以根据当前时刻的观察值元素和相邻观察值元素共同预 测产生。 0028 隐条件随机场的具体定义如下。假设需要对一个输入序列 x预测标签 0, 其 中, 0为标签集中的一个元素, 输入序列x也称为观察序列, 是一个观察值集合x x 1, x2, L, xa。在不同的输入序列中, 观察值集合的元素数目 a是可变的。每 个观察值元素 x c由一个特征向量 (xc) 表示, 其中, c 1, 2, L, a , m 为维数。训练数据集由观察序列 - 类别标签数据对 (xj, j) 组成, 其中, j , j 1, 2, 。

33、L, N, aj为第 j 个观察序列中元素个数, N 为训练数据集中观 察序列 - 类别标签数据对的数目。测试数据集由观察序列组成。 0029 图 2 是隐条件随机场模型示意图, 其中, u u1, u2, L, ut 为隐条件随机场模型的 输入观察序列, 1, 2, L, t 为输入观察序列 u 对应的隐状态序列, 它根据观察序 列 u 产生, 并且在训练数据集中是无法被观察的, , 1, 2, L, t, 为隐条件 随机场的隐状态集合, 隐状态 对应于观察序列 u 中的观察值元素 u, 可以仅仅根 据单个观察值元素 u预测产生, 也可以根据观察值元素 u和其它观察值元素共同预测产 生, 类。

34、别标签 z 根据隐藏状态之间的结构得到。 0030 在给定输入序列 x和隐条件随机场模型参数 的条件下, 计算输入序列 x具 有标签 的概率 : 说 明 书 CN 102306154 A CN 102306161 A4/9 页 10 0031 0032 其中, x为输入序列, 为输入序列 x可能对应的标签, , 为隐 条件随机场的模型参数, 为输入序列 x可能对应的标签, , 1, 2, L, a 为输入序列 x对应的隐状态序列,是以 为参数的势函数, 势函 数按下式计算 : 0033 0034 其中, (x c) 为输入序列 x中第 c 个观察值元素 xc的特征向量表示, c , (c) 为。

35、对应于第 c 个隐状态 c的参数矢量, 矢量 维数为 m 维, 内积 (x c)(c) 为观察值元素 xc与隐状态 c的兼容性度量, 为隐状态 c与类别标签 的兼容性度量,为隐状态 c 和隐状态 c的联合与类别标签 的兼容性度量, E 为隐条件随机场模型的无向图, c 1, 2, L, a , 隐状态表示无向图的节点, 若某个观察值元素同时与隐状态 c、 隐状 态 c有关, 则在无向图 E 中存在边 (c, c )。 0035 根据输入序列 x具有标签 的概率 P( |x; ), 计算输入序列 x的预 测标签 0: 0036 0 argmax P( |x ; )。 0037 二、 足球视频进球。

36、事件检测方法 0038 参照图 3, 本发明基于隐条件随机场的足球视频进球事件检测方法, 步骤如下 : 0039 步骤 1, 定义语义镜头集为 s1, s2, s3, s4, s5, 其中, s1, s2, s3, s4, s5表示五 种语义镜头, 即 s1为远镜头, s2为中镜头, s3为特写镜头, s4为观众镜头, s5为回放镜头。 0040 步骤2, 定义进球事件的隐条件随机场的类别标签集为0, 1, 其中, 0表示进 球事件的隐条件随机场模型的输入不包含进球事件, 1 表示进球事件的隐条件随机场模型 的输入包含进球事件。 0041 步骤 3, 对 N1个训练视频片段和 N2个测试视频片。

37、段分别进行物理镜头分割, 得到 第 d 个训练视频片段的物理镜头序列 Pd和第 e 个测试视频片段的物理镜头序列 Qe, 其中, d 1, 2, L, N1, e 1, 2, L, N2。 0042 步骤 4, 对第 d 个训练视频片段的物理镜头序列 Pd中的物理镜头和第 e 个测试视 频片段的物理镜头序列 Qe中的物理镜头分别进行语义标注, 即对包含语义信息的物理镜头 赋予一个语义标签, 得到由远镜头、 中镜头、 特写镜头、 观众镜头和回放镜头组成的第 d 个 训练视频片段的语义镜头序列 Od和第 e 个测试视频片段的语义镜头序列 Ze。 0043 (4.1) 将第 d 个训练视频片段的物理。

38、镜头序列 Pd中的物理镜头和第 e 个测试视频 片段的物理镜头序列 Qe中的物理镜头都分别标注为实时镜头与回放镜头 : 0044 (4.1a) 将含有 N3幅帧图像的训练视频片段或测试视频片段中的每一幅帧图像从 RGB 颜色空间转换为 HSV 颜色空间, 其 RGB 颜色空间由红色分量 R, 绿色分量 G 和蓝色分量 B 组成, 转换后得到色度分量 H 的值 h、 饱和度分量 S 的值 s、 亮度分量 V 的值 v : 说 明 书 CN 102306154 A CN 102306161 A5/9 页 11 0045 0046 0047 v MAX 0048 其中, r 为每一幅帧图像的每个像素。

39、点的红色分量 R 的归一化值, g 为每一幅帧图 像的每个像素点的绿色分量G的归一化值, b为每一幅帧图像的每个像素点的蓝色分量B的 归一化值, MAX 为每一幅帧图像的每个像素点的 r、 g、 b 中的最大值, MIN 为每一幅帧图像的 每个像素点的 r、 g、 b 中的最小值, 按下式计算 : 0049 MAX max(r, g, b) 0050 MIN min(r, g, b) 0051 0052 0053 0054 其中, r为每一幅帧图像的每个像素点的红色分量 R 的值, g为每一幅帧图像 的每个像素点的绿色分量 G 的值, b为每一幅帧图像的每个像素点的蓝色分量 B 的值 ; 00。

40、55 (4.1b) 根据第 n幅帧图像中色度分量的值 h 所对应的第 l 级索引 huel的像 素个数 num(huel), 计算第 n幅帧图像的色度分量的 256 柄直方图中索引 huel对应的值 histn(huel) : 0056 histn(huel) num(huel) 0057 其中, n 1, 2, L, N3, huel为第 n幅帧图像色度分量的第 l 级索引, l 1, 2, L, 256, huel 1, 2, L, 256 ; 0058 (4.1c) 根据第 n+1 幅帧图像的色度分量的直方图中索引 huel对应的值 histn+1(huel)和第n幅帧图像的色度分量的直。

41、方图中索引huel对应的值histn(huel), 计算 第 n+1 幅帧图像和第 n 幅帧图像的色度直方图差值 HHDn: 0059 0060 其中, x 1, 2, L, N3-1, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ; 说 明 书 CN 102306154 A CN 102306161 A6/9 页 12 0061 (4.1d)根据色度直方图差值HHDn, 计算该视频片段的N3-1个色度直方图差值的均 值 HHD : 0062 0063 (4.1e) 选取 HHDn大于阈值 T2的帧, 其中, 阈值 T2为该视频片段的 HHD 的 2 倍, 取 T2 0.1938 ;。

42、 0064 (4.1f) 选取持续时间为 10 20 帧的镜头 lsw, 得到一系列的候选徽标镜头 其中, w 1, 2, ., N4, N4为候选徽标镜头总数 ; 0065 (4.1g) 真实的徽标镜头必成对出现, 徽标镜头中间的片段即为回放片段, 回放片 段至少包含1个镜头。 利用镜头分割程序检测候选徽标镜头lsw和候选徽标镜头lsw-1之 间的视频片段包含的镜头数目 : 如果该视频片段包含的镜头数目大于 1, 将该视频片段中 的镜头标注为回放镜头, 如果该视频片段包含的镜头数目等于 1, 将该视频片段中的镜头标 注为实时镜头, 其中, w 2, 3, L, N4 ; 0066 (4.2)。

43、 将实时镜头进一步标注为远镜头、 中镜头和非场地镜头, 其中远镜头提供比 赛进行的全局情况, 通常含有很大的场地面积, 中镜头描述一个或若干个球员的全身以及 动作, 也含有一定的场地面积, 但少于远镜头, 因此, 采用场地比率 PR 来区分远镜头和中镜 头, 即一幅帧图像的场地像素点个数和总像素点个数的比值, 当某些远镜头含有部分观众 区域时, 场地面积减少, 场地比率 PR 也减小, 很容易将远镜头和中镜头错误标注, 故本发明 将帧图像顶部裁剪去三分之一后, 根据场地比率 PR 和选取的阈值, 将实时镜头进一步标注 为远镜头、 中镜头和非场地镜头 : 0067 (4.2a) 在实时镜头中选取。

44、 60 幅远景帧图像, 根据第 p 幅帧图像的色度分量的 256 柄直方图中索引 huel对应的值 histp(huel), 计算 60 幅远景帧图像的色度分量的累加直方 图中索引 huel对应的值 sh(huel) : 0068 0069 其中, huel为第 p 幅帧图像色度分量的第 l 级索引, l 1, 2, L, 256, huel 1, 2, L, 256, p 1, 2, L, 60 ; 0070 (4.2b) 根据累加直方图中索引 huel对应的值 sh(huel), 计算累加直方图的峰值 F : 0071 F maxsh(hue1), sh(hue2), L, sh(hue2。

45、56) ; 0072 (4.2c) 根据累加直方图中每个索引对应的值和累加直方图的峰值 F, 确定满足如 下条件的下限索引 huelow: 0073 sh(huelower) 0.2F 0074 sh(huelower-1) 0.2F 0075 其中, sh(huelow) 为累加直方图中下限索引 huelow对应的值, sh(huelow-1) 为累加 直方图中索引 huelow-1 对应的值 ; 0076 (4.2d) 根据累加直方图中每个索引对应的值和累加直方图的峰值 F, 确定满足如 下条件的上限索引 hueup: 0077 sh(hueupper) 0.2F 说 明 书 CN 102。

46、306154 A CN 102306161 A7/9 页 13 0078 sh(hueupper+1) 0.2F 0079 其中, sh(hueup) 为累加直方图中上限索引 hueup对应的值, sh(hueup+1) 为累加直 方图中索引 hueup+1 对应的值 ; 0080 (4.2e) 将实时镜头的每一幅帧图像裁剪去顶部三分之一, 统计裁剪后每一幅帧图 像中色度分量的值h属于区间huelow/256, hueup/256的场地像素个数C1, 计算每一幅帧图 像的场地比率 PR : 0081 0082 其中, L 为每一幅帧图像的高度, K 为每一幅帧图像的宽度 ; 0083 (4.2。

47、f) 根据设定的阈值 T3、 T4和每一幅帧图像的场地比率 PR, 判断每一幅帧图像 的类型 : 0084 如果一幅帧图像的场地比率 PR 大于阈值 T3, 则该幅帧图像是远景帧图像, 0085 如果一幅帧图像的场地比率 PR 小于等于阈值 T3并且大于等于阈值 T4, 则该幅帧 图像是中景帧图像, 0086 如果一幅帧图像的场地比率 PR 小于阈值 T4, 则该幅帧图像是非场地帧图像, 0087 其中, 取阈值 T3 0.70, T4 0.30 ; 0088 (4.2g) 若待标注实时镜头 55以上的帧图像属于远景帧图像, 则标注该实时镜 头为远镜头 ; 若待标注实时镜头 55以上的帧图像属于中景帧图像, 则标注该实时镜头为 中镜头 ; 否则标注为非场地镜头 ; 0089 (4.3) 将非场地镜头进一步标注为特写镜头与观众镜头, 由于观众镜头中观众数 目较多, 背景复杂, 边缘信息丰富, 特写镜头人物比例较大, 平滑区域较多, 需用边缘像素比 率 EPR 表示每一幅帧图像中边缘像素点个数与总像素点个数的比率, 故本发明根据边缘像 素比率 EPR 和选取的阈值, 按如下步骤将非场地镜头进一步标注为特写镜头与观众镜头 : 0090 (4.3a) 将非场地镜头的每一幅帧图像从 RGB 颜色空间转换到 YCbCr颜色空间, 得 到亮度分量。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1