一种视频数据的切分方法和装置.pdf

上传人:62****3 文档编号:1683642 上传时间:2018-07-04 格式:PDF 页数:17 大小:1.15MB
返回 下载 相关 举报
摘要
申请专利号:

CN201510149298.7

申请日:

2015.03.31

公开号:

CN104780388A

公开日:

2015.07.15

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):H04N 21/234申请日:20150331|||公开

IPC分类号:

H04N21/234(2011.01)I; H04N21/44(2011.01)I

主分类号:

H04N21/234

申请人:

北京奇艺世纪科技有限公司

发明人:

张彦刚; 王涛; 徐鹏; 项东涛

地址:

100080北京市海淀区北一街2号鸿城拓展大厦10、11层

优先权:

专利代理机构:

北京润泽恒知识产权代理有限公司11319

代理人:

赵娟

PDF下载: PDF下载
内容摘要

本发明实施例提供了一种视频数据的切分方法和装置,该方法包括:从视频数据中分离音频数据和视频图像数据;对所述音频数据和所述视频图像数据进行视频特征检测,以获得一个或多个候选切分点;从所述一个或多个候选切分点中选取一个或多个目标切分点;按照所述一个或多个目标切分点对所述视频数据进行切分,以获得多个视频子数据。本发明实施例实现了视频数据的自动切分,大大减少了人工干预的操作,大大减少了切分的时间和人力成本。

权利要求书

权利要求书1.  一种视频数据的切分方法,其特征在于,包括: 从视频数据中分离音频数据和视频图像数据; 对所述音频数据和所述视频图像数据进行视频特征检测,以获得一个或 多个候选切分点; 从所述一个或多个候选切分点中选取一个或多个目标切分点; 按照所述一个或多个目标切分点对所述视频数据进行切分,以获得多个 视频子数据。 2.  根据权利要求1所述的方法,其特征在于,所述候选切分点包括第 一候选切分点; 所述对所述音频数据和所述视频图像数据进行视频特征检测,以获得一 个或多个候选切分点的步骤包括: 对所述音频数据进行语音活动检测,以获得静音点; 将所述静音点关联的第一时间设置为第一候选切分点。 3.  根据权利要求1所述的方法,其特征在于,所述候选切分点包括第 二候选切分点; 所述对所述音频数据和所述视频图像数据进行视频特征检测,以获得一 个或多个候选切分点的步骤包括: 所述视频图像数据进行镜头边界检测,以获得镜头边界; 将所述镜头边界关联的第二时间设置为第二候选切分点。 4.  根据权利要求1所述的方法,其特征在于,所述候选切分点包括第 三候选切分点; 所述对所述音频数据和所述视频图像数据进行视频特征检测,以获得一 个或多个候选切分点的步骤包括: 对所述视频图像数据进行标题检测,以获得标题信息; 将所述标题信息关联的第三时间设置为第三候选切分点。 5.  根据权利要求1所述的方法,其特征在于,所述候选切分点包括第 四候选切分点; 所述对所述音频数据和所述视频图像数据进行视频特征检测,以获得一 个或多个候选切分点的步骤包括: 对所述视频图像数据进行人物检测,以获得指定的人物对象; 将所述指定的人物对象关联的第四时间设置为第四候选切分点。 6.  根据权利要求1所述的方法,其特征在于,所述候选切分点包括第 五候选切分点; 所述对所述音频数据和所述视频图像数据进行视频特征检测,以获得一 个或多个候选切分点的步骤包括: 对文本信息进行文本检测,以获得内容相同或相似的目标文本信息,其 中,所述文本信息为对所述音频数据进行语音识别所获得的文本; 将所述目标文本信息关联的第五时间设置为第五候选切分点。 7.  根据权利要求1或2或3或4或5或6所述的方法,其特征在于, 所述对所述音频数据和所述视频图像数据进行视频特征检测,以获得一个或 多个候选切分点的步骤包括: 从所述视频图像数据中检测与预设的样本视频图像数据相同或相似的 目标视频图像数据; 对候选音频数据和候选视频图像数据进行视频特征检测,以获得一个或 多个候选切分点; 其中,候选音频数据和候选视频图像数据为时间位于所述目标视频图像 数据之后的视频音频数据和视频图像数据。 8.  根据权利要求1或2或3或4或5或6所述的方法,其特征在于, 所述从所述一个或多个候选切分点中选取一个或多个目标切分点的步骤包 括: 从所述一个或多个候选切分点中选取重叠的一个或多个目标切分点。 9.  根据权利要求8所述的方法,其特征在于,所述从所述一个或多个 候选切分点中选取重叠的一个或多个目标切分点的步骤包括: 从所述第一候选切分点与所述第二候选切分点中提取重叠的第一重叠 切分点; 从所述第一重叠切分点,与,所述第三候选切分点和所述第四候选切分 点中提取重叠的第二重叠切分点; 从所述第二重叠切分点与所述第五候选切分点中提取重叠的第三重叠 切分点,作为目标切分点。 10.  根据权利要求1或2或3或4或5或6或9所述的方法,其特征在 于,还包括: 采用所述多个视频子数据对应的文本信息多个生成多个摘要信息。 11.  根据权利要求10所述的方法,其特征在于,还包括: 结合所述多个视频子数据、所述多个视频子数据对应的摘要信息和所述 多个视频子数据对应的标题信息,以生成多个节目数据。 12.  一种视频数据的切分装置,其特征在于,包括: 分离模块,用于从视频数据中分离音频数据和视频图像数据; 特征检测模块,用于对所述音频数据和所述视频图像数据进行视频特征 检测,以获得一个或多个候选切分点; 目标切分点选取模块,用于从所述一个或多个候选切分点中选取一个或 多个目标切分点; 切分模块,用于按照所述一个或多个目标切分点对所述视频数据进行切 分,以获得多个视频子数据。 13.  根据权利要求12所述的装置,其特征在于,所述候选切分点包括 第一候选切分点;所述特征检测模块包括: 语音活动检测子模块,用于对所述音频数据进行语音活动检测,以获得 静音点; 第一设置模块,用于将所述静音点关联的第一时间设置为第一候选切分 点。 14.  根据权利要求12所述的装置,其特征在于,所述候选切分点包括 第二候选切分点;所述特征检测模块包括: 镜头边界检测子模块,用于所述视频图像数据进行镜头边界检测,以获 得镜头边界; 第二设置模块,用于将所述镜头边界关联的第二时间设置为第二候选切 分点。 15.  根据权利要求12所述的装置,其特征在于,所述候选切分点包括 第三候选切分点;所述特征检测模块包括: 标题检测子模块,用于对所述视频图像数据进行标题检测,以获得标题 信息; 第三设置模块,用于将所述标题信息关联的第三时间设置为第三候选切 分点。 16.  根据权利要求12所述的装置,其特征在于,所述候选切分点包括 第四候选切分点;所述特征检测模块包括: 人物检测子模块,用于对所述视频图像数据进行人物检测,以获得指定 的人物对象; 第四设置模块,用于将所述指定的人物对象关联的第四时间设置为第四 候选切分点。 17.  根据权利要求12所述的装置,其特征在于,所述候选切分点包括 第五候选切分点;所述特征检测模块包括: 文本检测子模块,用于对文本信息进行文本检测,以获得内容相同或相 似的目标文本信息,其中,所述文本信息为对所述音频数据进行语音识别所 获得的文本; 第五设置模块,用于将所述目标文本信息关联的第五时间设置为第五候 选切分点。 18.  根据权利要求12或13或14或15或16或17所述的装置,其特征 在于,所述特征检测模块包括: 重复场景检测子模块,用于从所述视频图像数据中检测与预设的样本视 频图像数据相同或相似的目标视频图像数据; 候选检测子模块,用于对候选音频数据和候选视频图像数据进行视频特 征检测,以获得一个或多个候选切分点; 其中,候选音频数据和候选视频图像数据为时间位于所述目标视频图像 数据之后的视频音频数据和视频图像数据。 19.  根据权利要求12或13或14或15或16或17所述的装置,其特征 在于,所述目标切分点选取模块包括: 重叠选取子模块,用于从所述一个或多个候选切分点中选取重叠的一个 或多个目标切分点。 20.  根据权利要求19所述的装置,其特征在于,所述重叠选取子模块 包括: 第一提取子模块,用于从所述第一候选切分点与所述第二候选切分点中 提取重叠的第一重叠切分点; 第二提取子模块,用于从所述第一重叠切分点,与,所述第三候选切分 点和所述第四候选切分点中提取重叠的第二重叠切分点; 第三提取子模块,用于从所述第二重叠切分点与所述第五候选切分点中 提取重叠的第三重叠切分点,作为目标切分点。 21.  根据权利要求12或13或14或15或16或17或20所述的装置, 其特征在于,还包括: 摘要信息生成模块,用于采用所述多个视频子数据对应的文本信息多个 生成多个摘要信息。 22.  根据权利要求21所述的装置,其特征在于,还包括: 节目数据生成模块,用于结合所述多个视频子数据、所述多个视频子数 据对应的摘要信息和所述多个视频子数据对应的标题信息,以生成多个节目 数据。

说明书

说明书一种视频数据的切分方法和装置
技术领域
本发明涉及视频数据处理技术领域,特别是涉及一种视频数据的切分方 法和一种视频数据的切分装置。
背景技术
近年来,随着互联网的高速发展,网上的信息量急剧增加,其中包含了 大量的视频数据,例如,新闻视频、综艺类节目等等。
由于许多视频数据都是一个大的整体,里面包含多个段落,例如,在一 个完整的新闻视频中,往往包括了多则新闻片段。
因此,往往需要对视频数据进行切分,以获得所包含的段落。
现在诸如新闻视频的切分等都是基于依赖人工进行的,即人工判断切分 的位置,这往往需要人工浏览视频的每一帧,工作量巨大,耗费大量的时间、 人力成本。
由于在网络环境中视频数量的在高速增长中,人工切分视频数据的方式 在时间和人力成本上越来越高,以至于无法承受。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至 少部分地解决上述问题的一种视频数据的切分方法和相应的一种视频数据 的切分装置。
为了解决上述问题,本发明实施例公开了一种视频数据的切分方法,包 括:
从视频数据中分离音频数据和视频图像数据;
对所述音频数据和所述视频图像数据进行视频特征检测,以获得一个或 多个候选切分点;
从所述一个或多个候选切分点中选取一个或多个目标切分点;
按照所述一个或多个目标切分点对所述视频数据进行切分,以获得多个 视频子数据。
优选地,所述候选切分点包括第一候选切分点;
所述对所述音频数据和所述视频图像数据进行视频特征检测,以获得一 个或多个候选切分点的步骤包括:
对所述音频数据进行语音活动检测,以获得静音点;
将所述静音点关联的第一时间设置为第一候选切分点。
优选地,所述候选切分点包括第二候选切分点;
所述对所述音频数据和所述视频图像数据进行视频特征检测,以获得一 个或多个候选切分点的步骤包括:
所述视频图像数据进行镜头边界检测,以获得镜头边界;
将所述镜头边界关联的第二时间设置为第二候选切分点。
优选地,所述候选切分点包括第三候选切分点;
所述对所述音频数据和所述视频图像数据进行视频特征检测,以获得一 个或多个候选切分点的步骤包括:
对所述视频图像数据进行标题检测,以获得标题信息;
将所述标题信息关联的第三时间设置为第三候选切分点。
优选地,所述候选切分点包括第四候选切分点;
所述对所述音频数据和所述视频图像数据进行视频特征检测,以获得一 个或多个候选切分点的步骤包括:
对所述视频图像数据进行人物检测,以获得指定的人物对象;
将所述指定的人物对象关联的第四时间设置为第四候选切分点。
优选地,所述候选切分点包括第五候选切分点;
所述对所述音频数据和所述视频图像数据进行视频特征检测,以获得一 个或多个候选切分点的步骤包括:
对文本信息进行文本检测,以获得内容相同或相似的目标文本信息,其 中,所述文本信息为对所述音频数据进行语音识别所获得的文本;
将所述目标文本信息关联的第五时间设置为第五候选切分点。
优选地,所述对所述音频数据和所述视频图像数据进行视频特征检测, 以获得一个或多个候选切分点的步骤包括:
从所述视频图像数据中检测与预设的样本视频图像数据相同或相似的 目标视频图像数据;
对候选音频数据和候选视频图像数据进行视频特征检测,以获得一个或 多个候选切分点;
其中,候选音频数据和候选视频图像数据为时间位于所述目标视频图像 数据之后的视频音频数据和视频图像数据。
优选地,所述从所述一个或多个候选切分点中选取一个或多个目标切分 点的步骤包括:
从所述一个或多个候选切分点中选取重叠的一个或多个目标切分点。
优选地,所述从所述一个或多个候选切分点中选取重叠的一个或多个目 标切分点的步骤包括:
从所述第一候选切分点与所述第二候选切分点中提取重叠的第一重叠 切分点;
从所述第一重叠切分点,与,所述第三候选切分点和所述第四候选切分 点中提取重叠的第二重叠切分点;
从所述第二重叠切分点与所述第五候选切分点中提取重叠的第三重叠 切分点,作为目标切分点。
优选地,该方法还包括:
采用所述多个视频子数据对应的文本信息多个生成多个摘要信息。
优选地,该方法还包括:
结合所述多个视频子数据、所述多个视频子数据对应的摘要信息和所述 多个视频子数据对应的标题信息,以生成多个节目数据。
本发明实施例还公开了一种视频数据的切分装置,包括:
分离模块,用于从视频数据中分离音频数据和视频图像数据;
特征检测模块,用于对所述音频数据和所述视频图像数据进行视频特征 检测,以获得一个或多个候选切分点;
目标切分点选取模块,用于从所述一个或多个候选切分点中选取一个或 多个目标切分点;
切分模块,用于按照所述一个或多个目标切分点对所述视频数据进行切 分,以获得多个视频子数据。
优选地,所述候选切分点包括第一候选切分点;所述特征检测模块包括:
语音活动检测子模块,用于对所述音频数据进行语音活动检测,以获得 静音点;
第一设置模块,用于将所述静音点关联的第一时间设置为第一候选切分 点。
优选地,所述候选切分点包括第二候选切分点;所述特征检测模块包括:
镜头边界检测子模块,用于所述视频图像数据进行镜头边界检测,以获 得镜头边界;
第二设置模块,用于将所述镜头边界关联的第二时间设置为第二候选切 分点。
优选地,所述候选切分点包括第三候选切分点;所述特征检测模块包括:
标题检测子模块,用于对所述视频图像数据进行标题检测,以获得标题 信息;
第三设置模块,用于将所述标题信息关联的第三时间设置为第三候选切 分点。
优选地,所述候选切分点包括第四候选切分点;所述特征检测模块包括:
人物检测子模块,用于对所述视频图像数据进行人物检测,以获得指定 的人物对象;
第四设置模块,用于将所述指定的人物对象关联的第四时间设置为第四 候选切分点。
优选地,所述候选切分点包括第五候选切分点;所述特征检测模块包括:
文本检测子模块,用于对文本信息进行文本检测,以获得内容相同或相 似的目标文本信息,其中,所述文本信息为对所述音频数据进行语音识别所 获得的文本;
第五设置模块,用于将所述目标文本信息关联的第五时间设置为第五候 选切分点。
优选地,所述特征检测模块包括:
重复场景检测子模块,用于从所述视频图像数据中检测与预设的样本视 频图像数据相同或相似的目标视频图像数据;
候选检测子模块,用于对候选音频数据和候选视频图像数据进行视频特 征检测,以获得一个或多个候选切分点;
其中,候选音频数据和候选视频图像数据为时间位于所述目标视频图像 数据之后的视频音频数据和视频图像数据。
优选地,所述目标切分点选取模块包括:
重叠选取子模块,用于从所述一个或多个候选切分点中选取重叠的一个 或多个目标切分点。
优选地,所述重叠选取子模块包括:
第一提取子模块,用于从所述第一候选切分点与所述第二候选切分点中 提取重叠的第一重叠切分点;
第二提取子模块,用于从所述第一重叠切分点,与,所述第三候选切分 点和所述第四候选切分点中提取重叠的第二重叠切分点;
第三提取子模块,用于从所述第二重叠切分点与所述第五候选切分点中 提取重叠的第三重叠切分点,作为目标切分点。
优选地,该装置还包括:
摘要信息生成模块,用于采用所述多个视频子数据对应的文本信息多个 生成多个摘要信息。
优选地,该装置还包括:
节目数据生成模块,用于结合所述多个视频子数据、所述多个视频子数 据对应的摘要信息和所述多个视频子数据对应的标题信息,以生成多个节目 数据。
本发明实施例包括以下优点:
本发明实施例对视频中的音频数据和视频图像数据进行视频特征检测, 以获得一个或多个候选切分点,从中选取一个或多个目标切分点,以对视频 数据进行切分,获得多个视频子数据,实现了视频数据的自动切分,大大减 少了人工干预的操作,大大减少了切分的时间和人力成本。
本发明实施例通过规则型判定候选切分点,针对特定的视频数据,如固 定的新闻数据,无需大量数据进行训练,可以立即使用,综合静音点和镜头 边界的判定,可以大大减少候选切分点的数量,大幅降低整个系统的开销, 融合了标题信息、人物对象,并在此基础上又结合文本信息进行切分点的判 断,大幅度提高了切分的效率。
在本发明实施例中,可以应用切分视频数据过程中的副产品(如文本信 息、标题信息等),直接完成节目的自动生成,进一步提高了切分效率,进 而提高了节目的生成效率。
附图说明
图1是本发明的一种视频数据的切分方法实施例的步骤流程图;
图2是本发明的一种视频数据的切分装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图 和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,在诸如新闻视频等视频数据中,其 故事结构中有一些明显的结构性特征,如播音员、字幕、镜头切换、静音点 等,可以供计算机来自动完成部分或全部的切分工作。
参照图1,示出了本发明的一种视频数据的切分方法实施例的步骤流程 图,具体可以包括如下步骤:
步骤101,从视频数据中分离音频数据和视频图像数据;
视频可以泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、 储存、传送与重现的各种技术。
在本发明实施例中,视频数据可以包括音频数据、视频图像数据、文本 数据(如字幕)等等。
其中,连续的图像(即视频图像数据)变化每秒超过24帧(frame)画 面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面,看上去是平 滑连续的视觉效果。
需要说明的是,该视频数据实际可以包括资讯类视频数据,如新闻视频 等,还可以包括其他类型的视频数据,本发明实施例对此不加以限制。
为使本领域技术人员更好地理解本发明实施例,在发明实施例中,将新 闻视频作为视频数据的一种示例进行说明。
输入的视频数据通常为视频流,里面包含了多个段落,例如,在一个完 整的新闻视频中,往往包括了多则新闻片段。
步骤102,对所述音频数据和所述视频图像数据进行视频特征检测,以 获得一个或多个候选切分点;
视频特征检测可以用于检测视频数据(包括音频数据、视频图像数据) 的特征。
在本发明实施例中,可以对音频数据和视频图像数据进行视频特征检 测,以检测出音频特征和视频图像特征,进一步由音频特征和视频图像特征 识别优选切分点。
在本发明的一种优选实施例中,步骤102可以包括如下子步骤:
子步骤S11,从所述视频图像数据中检测与预设的样本视频图像数据相 同或相似的目标视频图像数据;
子步骤S12,对候选音频数据和候选视频图像数据进行视频特征检测, 以获得一个或多个候选切分点;
其中,候选音频数据和候选视频图像数据可以为时间位于所述目标视频 图像数据之后的视频音频数据和视频图像数据。
应用本发明实施例,可以预先设置样本视频图像数据。
在进行切分之前,进行重复场景图片检测,即检测出与该样本视频图像 数据相同或相似(如相似度超过某个相似度阈值)的目标视频图像数据,以 作为切分的起点。
例如,对于每个电视台的每种新闻视频,一般都会有相对固定的开场片 段,则在本示例中,可以以该开场片段作为样本视频图像数据,若检测到与 该样本视频图像数据相同或相似的目标视频图像数据,则可以认为检测出新 闻视频的开场片段,可以对该开场片段之后的候选音频数据和候选视频图像 数据进行切分。
在本发明的一种优选实施例中,所述候选切分点可以包括第一候选切分 点;则在本发明实施例中,步骤102可以包括如下子步骤:
子步骤S21,对所述音频数据进行语音活动检测,以获得静音点;
子步骤S22,将所述静音点关联的第一时间设置为第一候选切分点。
在本发明实施例中,视频特征检测可以为语音活动检测(Voice Activity  Detection,VAD)。
语音活动检测又称语音端点检测、语音边界检测等等,可以指在噪声环 境中检测语音的存在与否,不存在语音的位置可以称之为静音点。
其中,音频数据可以指候选音频数据,也可以指分离后的音频数据,本 发明实施例对此不加以限制。
在视频数据中,不同的段落之间转换通常会出现静音点,即可以表征视 频数据中不同段落的边界,因此,本发明实施例可以以静音点关联的时间作 为候选切分点。
例如,在新闻视频中,若当前则新闻播报完毕,需要转换播报其他则新 闻,通常会转换主持人进行播报,此时通常会出现静音点。
在本发明的一种优选实施例中,所述候选切分点可以包括第二候选切分 点;则在本发明实施例中,步骤102可以包括如下子步骤:
子步骤S31,对所述视频图像数据进行镜头边界检测,以获得镜头边界;
子步骤S32,将所述镜头边界关联的第二时间设置为第二候选切分点。
在本发明实施例中,视频特征检测可以为镜头边界检测。
其中,视频数据可以指候选视频数据,也可以指分离后的视频数据,本 发明实施例对此不加以限制。
镜头(shot)可以是由一个摄像机在事件或空间连续的情况下连续拍摄 的一组内容相关的连续视频帧。
镜头边界大致可以分为突变(cut)和渐变(gradual transition)边界。
突变也称为切边,两个镜头的切换发生在连续的两帧视频图像数据上; 而渐变是两个镜头之间的转变,是逐渐完成的,通常可能延续几帧到几十帧 视频图像数据。
镜头边界的形成是两个镜头切换的结果,对于观察者来说,是视频镜头 的内容发生了某种意义上的变化,即镜头边界可能是由于视频内容的不连续 造成的,即可以表征视频数据中不同段落的边界,因此,本发明实施例可以 以镜头边界关联的时间作为候选切分点。
例如,在新闻视频中,若当前则新闻播报完毕,需要转换播报其他则新 闻时,通常会切换至主持人画面,进行其他则新闻的播报,此时通常会出现 镜头边界。
在本发明的一种优选实施例中,所述候选切分点可以包括第三候选切分 点;则在本发明实施例中,步骤102可以包括如下子步骤:
子步骤S41,对所述视频图像数据进行标题检测,以获得标题信息;
子步骤S42,将所述标题信息关联的第二时间设置为第三候选切分点。
在本发明实施例中,视频特征检测可以为标题检测。
其中,视频数据可以指候选视频数据,也可以指分离后的视频数据,本 发明实施例对此不加以限制。
在具体实现中,可以在视频图像数据中某个置信度较高的区域截取图像 区域,判断该图像区域的特征与预先采集的标题的样本图像的特征是否相同 或相似(如相似度超过某个相似度阈值),若是,则可以判断该图像区域包 含标题信息。
对于新闻视频等视频数据,标题信息可以指在视频数据之前对视频数据 的内容加以概括或评价的简短文字,即可以表征视频数据中不同段落的边 界,因此,本发明实施例可以以标题信息关联的时间(如标题信息出现之前 或之后)作为候选切分点。
在本发明的一种优选实施例中,所述候选切分点可以包括第四候选切分 点;则在本发明实施例中,步骤102可以包括如下子步骤:
子步骤S51,对所述视频图像数据进行人物检测,以获得指定的人物对 象;
子步骤S52,将所述指定的人物对象关联的第四时间设置为第四候选切 分点。
在本发明实施例中,视频特征检测可以为人物检测。
其中,视频数据可以指候选视频数据,也可以指分离后的视频数据,本 发明实施例对此不加以限制。
在具体实现中,可以对视频图像数据的指定区域进行人脸检测,以获取 包含人物对象的视频图像数据,并计算包含人物对象的视频图像数据之间的 相似度,若连续N(N为正整数)帧为相同或相似(如相似度超过某个相似 度阈值)的视频图像数据,则可以判断该连续N帧的视频图像数据中包含指 定的人物对象。
对于新闻视频等视频数据,指定的人物对象可以指在主持人,当需要对 另一则新闻进行播报时,通常会将镜头切回至主持人画面,且主持人所在的 位置也是大体稳定的,即可以表征视频数据中不同段落的边界,因此,本发 明实施例可以以指定的人物对象关联的时间作为候选切分点。
在本发明的一种优选实施例中,所述候选切分点可以包括第五候选切分 点;则在本发明实施例中,步骤102可以包括如下子步骤:
子步骤S61,对文本信息进行文本检测,以获得内容相同或相似的目标 文本信息,其中,所述文本信息为对所述音频数据进行语音识别所获得的文 本;
子步骤S62,将所述目标文本信息关联的第五时间设置为第五候选切分 点。
在本发明实施例中,视频特征检测可以为文本检测。
其中,音频数据可以指候选音频数据,也可以指分离后的音频数据,本 发明实施例对此不加以限制。
在实际应用中,可以预先对音频数据进行语音识别(Automatic Speech  Recognition,ASR),将语音中的词汇内容(即语音数据)转换为计算机可 读的输入(即文本信息)。
目前,语音识别技术通常由语音识别系统实现。主流的大词汇量语音识 别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别 系统由以下几个基本模块所构成:
1、信号处理及特征提取模块;该模块的主要任务是从音频数据中提取 特征,供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可 能降低环境噪声、信道、说话人等因素对特征造成的影响。
2、声学模型;语音识别系统多采用基于一阶隐马尔科夫模型进行建模。
3、发音词典;发音词典包含语音识别系统所能处理的词汇集及其发音。 发音词典实际提供了声学模型与语言模型的映射。
4、语言模型;语言模型对语音识别系统所针对的语言进行建模。理论 上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模 型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。
5、解码器;解码器是语音识别系统的核心之一,其任务是对输入的信 号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。 从数学角度可以更加清楚的了解上述模块之间的关系。
对于新闻视频等视频数据,一般每个段落所描述的是一个故事(如一则 新闻),其内容是相关的,即可以表征视频数据中不同段落的边界,因此, 本发明实施例可以对第一文本信息进行文本分析,查找出内容相同或相似 (如相似度超过某个相似度阈值)的目标文本信息,以目标文本信息关联的 时间(如跨越的时间的前后两个端点)作为候选切分点。
本发明实施例通过规则型判定候选切分点,针对特定的视频数据,如固 定的新闻数据,无需大量数据进行训练,可以立即使用,综合静音点和镜头 边界的判定,可以大大减少候选切分点的数量,大幅降低整个系统的开销, 融合了标题信息、人物对象,并在此基础上又结合文本信息进行切分点的判 断,大幅度提高了切分的效率。
当然,上述视频特征检测方式及其候选切分点只是作为示例,在实施本 发明实施例时,可以根据实际情况设置其他视频特征检测方式及其候选切分 点,本发明实施例对此不加以限制。另外,除了上述视频特征检测方式及其 候选切分点外,本领域技术人员还可以根据实际需要采用其它视频特征检测 方式及其候选切分点,本发明实施例对此也不加以限制。
步骤103,从所述一个或多个候选切分点中选取一个或多个目标切分点;
在具体实现中,可以对候选切分点进行分类融合,使用决策树(Decision  Tree)、HMM(Hidden Markov Model,隐马尔可夫模型)等分类器判断该候 选切分点是否为视频数据的拆分点(即目标切分点)。
在机器学习领域中,决策树是一个预测模型,其代表的是对象属性与对 象值之间的一种映射关系。Entropy=系统的凌乱程度,使用算法ID3,C4.5 和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每 个分支代表一个测试输出,每个叶节点代表一种类别。
在机器学习领域中,HMM是一个统计模型,它用来描述一个含有隐含 未知参数的马尔可夫过程。其可以从可观察的参数中确定该过程的隐含参 数,然后利用这些参数来作进一步的分析。
HMM是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测 向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状 态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。
当然,上述分类器只是作为示例,在实施本发明实施例时,可以根据实 际情况设置其他分类器,本发明实施例对此不加以限制。另外,除了上述分 类器外,本领域技术人员还可以根据实际需要采用其它分类器,本发明实施 例对此也不加以限制。
候选切分点可以作为特征的维度,输入分类器中,由分类器进行目标切 分点的判断。
在本发明的一种优选实施例中,步骤103可以包括如下子步骤:
子步骤S71,从所述一个或多个候选切分点中选取重叠的一个或多个目 标切分点。
需要说明的是,本发明实施例中所指“重叠”可以指候选切分点的时间 差在一定的范围之内,则目标切分点可以是候选切分点本身,也可以是候选 切分点之间的时间点,本发明实施例对此不加以限制。
在本发明实施例的一种优选示例中,子步骤S71可以包括如下子步骤:
子步骤S711,从所述第一候选切分点与所述第二候选切分点中提取重叠 的第一重叠切分点;
子步骤S712,从所述第一重叠切分点,与,所述第三候选切分点和所 述第四候选切分点中提取重叠的第二重叠切分点;
子步骤S713,从所述第二重叠切分点与所述第五候选切分点中提取重 叠的第三重叠切分点,作为目标切分点。
在具体实现中,对于新闻视频等视频数据,静音点、镜头边界可以认为 是强特征,可以以其关联的第一候选切分点与第二候选切分点作为基础。
而新闻标题可以是新闻视频等视频数据的主干,可以使用一个置信度较 高的区间作为阈值进行时间范围筛选,可以获取到更少的切分点(即第二重 叠切分点)。
在新闻视频等视频数据中,主持人等指定的人物对象出现的前后往往是 拆分点(即第二重叠切分点)。在本示例中,可以将指定的人物对象与标题 信息并列,作为切分点筛选原则之一。
文本分析本身对拆分有一定作用,为了进一步提高精度,可以以目标文 本信息进行筛选,以获得目标切分点。
步骤104,按照所述一个或多个目标切分点对所述视频数据进行切分, 以获得多个视频子数据。
依据目标切分点对视频数据进行切分,则可以获得描述不同段落的视频 子数据。
例如,对新闻视频进行切分,则可以获得描述不同故事的新闻片段。
在本发明的一种优选实施例中,该方法还可以包括如下步骤:
步骤105,采用所述多个视频子数据对应的文本信息多个生成多个摘要 信息,其中,所述文本信息为对所述音频数据进行语音识别所获得的文本。
步骤106,结合所述多个视频子数据、所述多个视频子数据对应的摘要 信息和所述多个视频子数据对应的标题信息,以生成多个节目数据。
每个视频子数据跨越一个时间段,在这个时间段通常会包括一段文本信 息、一条标题信息。
摘要(Abstract)又称文摘或提要,标识某个文本的主要内容,可以通 过文本信息自动生成。
每个视频子数据、每则摘要信息、每个标题信息可以生成一个节目数据。
在本发明实施例中,可以应用切分视频数据过程中的副产品(如文本信 息、标题信息等),直接完成节目的自动生成,进一步提高了切分效率,进 而提高了节目的生成效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系 列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述 的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或 者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例 均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了本发明的一种视频数据的切分装置实施例的结构框图, 具体可以包括如下模块:
分离模块201,用于从视频数据中分离音频数据和视频图像数据;
特征检测模块202,用于对所述音频数据和所述视频图像数据进行视频 特征检测,以获得一个或多个候选切分点;
目标切分点选取模块203,用于从所述一个或多个候选切分点中选取一 个或多个目标切分点;
切分模块204,用于按照所述一个或多个目标切分点对所述视频数据进 行切分,以获得多个视频子数据。
在本发明的一种优选实施例中,所述候选切分点可以包括第一候选切分 点;所述特征检测模块202可以包括如下子模块:
语音活动检测子模块,用于对所述音频数据进行语音活动检测,以获得 静音点;
第一设置模块,用于将所述静音点关联的第一时间设置为第一候选切分 点。
在本发明的一种优选实施例中,所述候选切分点可以包括第二候选切分 点;所述特征检测模块202可以包括如下子模块:
镜头边界检测子模块,用于所述视频图像数据进行镜头边界检测,以获 得镜头边界;
第二设置模块,用于将所述镜头边界关联的第二时间设置为第二候选切 分点。
在本发明的一种优选实施例中,所述候选切分点可以包括第三候选切分 点;所述特征检测模块202可以包括如下子模块:
标题检测子模块,用于对所述视频图像数据进行标题检测,以获得标题 信息;
第三设置模块,用于将所述标题信息关联的第三时间设置为第三候选切 分点。
在本发明的一种优选实施例中,所述候选切分点可以包括第四候选切分 点;所述特征检测模块202可以包括如下子模块:
人物检测子模块,用于对所述视频图像数据进行人物检测,以获得指定 的人物对象;
第四设置模块,用于将所述指定的人物对象关联的第四时间设置为第四 候选切分点。
在本发明的一种优选实施例中,所述候选切分点可以包括第五候选切分 点;所述特征检测模块202可以包括如下子模块:
文本检测子模块,用于对文本信息进行文本检测,以获得内容相同或相 似的目标文本信息,其中,所述文本信息为对所述音频数据进行语音识别所 获得的文本;
第五设置模块,用于将所述目标文本信息关联的第五时间设置为第五候 选切分点。
在本发明的一种优选实施例中,所述特征检测模块202可以包括如下子 模块:
重复场景检测子模块,用于从所述视频图像数据中检测与预设的样本视 频图像数据相同或相似的目标视频图像数据;
候选检测子模块,用于对候选音频数据和候选视频图像数据进行视频特 征检测,以获得一个或多个候选切分点;
其中,候选音频数据和候选视频图像数据为时间位于所述目标视频图像 数据之后的视频音频数据和视频图像数据。
在本发明的一种优选实施例中,所述目标切分点选取模块203可以包括 如下子模块:
重叠选取子模块,用于从所述一个或多个候选切分点中选取重叠的一个 或多个目标切分点。
在本发明的一种优选实施例中,所述重叠选取子模块可以包括如下子模 块:
第一提取子模块,用于从所述第一候选切分点与所述第二候选切分点中 提取重叠的第一重叠切分点;
第二提取子模块,用于从所述第一重叠切分点,与,所述第三候选切分 点和所述第四候选切分点中提取重叠的第二重叠切分点;
第三提取子模块,用于从所述第二重叠切分点与所述第五候选切分点中 提取重叠的第三重叠切分点,作为目标切分点。
在本发明的一种优选实施例中,该装置还可以包括如下模块:
摘要信息生成模块,用于采用所述多个视频子数据对应的文本信息多个 生成多个摘要信息。
在本发明的一种优选实施例中,该装置还可以包括如下模块:
节目数据生成模块,用于结合所述多个视频子数据、所述多个视频子数 据对应的摘要信息和所述多个视频子数据对应的标题信息,以生成多个节目 数据。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较 简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明 的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见 即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装 置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全 软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例 可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介 质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程 序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计 算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令 实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框 图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、 专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生 一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的 指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理 终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读 存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设 备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计 算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用 于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中 指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦 得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以, 所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所 有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得 包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或 者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一 个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终 端设备中还存在另外的相同要素。
以上对本发明所提供的一种视频数据的切分方法和一种视频数据的切 分装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方 式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心 思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施 方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对 本发明的限制。

一种视频数据的切分方法和装置.pdf_第1页
第1页 / 共17页
一种视频数据的切分方法和装置.pdf_第2页
第2页 / 共17页
一种视频数据的切分方法和装置.pdf_第3页
第3页 / 共17页
点击查看更多>>
资源描述

《一种视频数据的切分方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种视频数据的切分方法和装置.pdf(17页珍藏版)》请在专利查询网上搜索。

本发明实施例提供了一种视频数据的切分方法和装置,该方法包括:从视频数据中分离音频数据和视频图像数据;对所述音频数据和所述视频图像数据进行视频特征检测,以获得一个或多个候选切分点;从所述一个或多个候选切分点中选取一个或多个目标切分点;按照所述一个或多个目标切分点对所述视频数据进行切分,以获得多个视频子数据。本发明实施例实现了视频数据的自动切分,大大减少了人工干预的操作,大大减少了切分的时间和人力成本。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 电学 > 电通信技术


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1