一种视频分段方法及装置.pdf

上传人:g**** 文档编号:4063551 上传时间:2018-08-13 格式:PDF 页数:18 大小:1.15MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410843714.9

申请日:

2014.12.30

公开号:

CN104540044A

公开日:

2015.04.22

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):H04N 21/845申请日:20141230|||公开

IPC分类号:

H04N21/845(2011.01)I; H04N21/235(2011.01)I; H04N21/435(2011.01)I

主分类号:

H04N21/845

申请人:

北京奇艺世纪科技有限公司

发明人:

周正杰; 张彦刚

地址:

100080北京市海淀区北一街2号鸿城拓展大厦10、11层

优先权:

专利代理机构:

北京柏杉松知识产权代理事务所(普通合伙)11413

代理人:

马敬; 项京

PDF下载: PDF下载
内容摘要

本发明实施例公开了一种视频分段方法及装置,涉及视频处理技术领域,其中,上述方法包括:对目标视频中的文字信息流进行拼接,生成待处理文字段;利用大小为w1、单位滑动距离为d1的滑动窗口,分别计算待处理文字段第i个窗口内文字的文字相关度Ri,进而得到文字相关度序列:{R1,R2,R3……};根据文字相关度序列的变化趋势,确定目标视频的分段点;根据所确定的分段点对目标视频进行分段。应用本发明实施例提供的方案进行视频分段,能够为用户提供准确的、便于操作的分段信息,能够提高用户体验。

权利要求书

权利要求书1.  一种视频分段方法,其特征在于,所述方法包括: 对目标视频中的文字信息流进行拼接,生成待处理文字段; 利用大小为w1、单位滑动距离为d1的滑动窗口,分别计算所述待处理文字段 第i个窗口内文字的文字相关度Ri,进而得到文字相关度序列:{R1,R2,R3……}, 其中,第i个窗口的起点为1+(i-1)d1、终点为w1+(i-1)d1,i=1、2、3……,w1≥d1; 根据所述文字相关度序列的变化趋势,确定所述目标视频的分段点,其中, 所确定的分段点相对于所述文字相关度序列中位于该分段点之前的值呈递减变 化,所述文字相关度序列中位于该分段点之后的值相对于该分段点呈递增变化; 根据所确定的分段点对所述目标视频进行分段。 2.  根据权利要求1所述的方法,其特征在于,所述计算所述待处理文字段 第i个窗口内文字的文字相关度Ri,包括: 利用大小为w2、单位滑动距离为d2的滑动子窗口,计算所述待处理文字段第 i个窗口内任意两个子窗口第x和第y个子窗口中文字的窗口间文字相关度,其中, 第x个子窗口的起点为1+(i-1)d1+(x-1)d2、终点为w2+(i-1)d1+(x-1)d2,第y个子窗口 的起点为1+(i-1)d1+(y-1)d2、终点为w2+(i-1)d1+(y-1)d2,x、y=1、2、3……,w2≥d2,w1-w2等于d2的非负整数倍,d1等于d2的非负整数倍; 根据计算得到的窗口间文字相关度,计算所述待处理文字段第i个窗口内文 字的文字相关度Ri。 3.  根据权利要求2所述的方法,其特征在于,所述计算所述待处理文字段 第i个窗口内任意两个子窗口第x和第y个子窗口中文字的窗口间文字相关度,包 括: 分别统计所述待处理文字段第i个窗口内任意两个子窗口第x和第y个子窗口 中各个文字出现的概率; 根据统计得到的文字出现的概率,计算所述待处理文字段第i个窗口内任意 两个子窗口第x和第y个子窗口中文字的窗口间文字相关度。 4.  根据权利要求3所述的方法,其特征在于,所述根据统计得到的文字出 现的概率,计算所述待处理文字段第i个窗口内任意两个子窗口第x和第y个子窗 口中文字的窗口间文字相关度,包括: 确定所述待处理文字段第i个窗口内任意两个子窗口第x和第y个子窗口中相 同的文字; 根据以下表达式计算第x个子窗口和第y个子窗口中文字的窗口间文字相关 度Sxy: S xy = P sx 1 * P sy 1 + P sx 2 * P sy 2 + . . . + P sxm * P sym P x 1 2 + P x 2 2 + . . . + P xn 2 + P y 1 2 + P y 2 2 + . . . + P yp 2 , ]]> 其中,m表示第x个子窗口和第y个子窗口中相同文字的数量,n表示第x个子 窗口中包含的不同文字的数量,p表示第y个子窗口中包含的不同文字的数量, Psxm、Psym表示第x个子窗口和第y个子窗口中第m个相同文字出现的概率,Pxn表 示第x个子窗口中第n个不同文字出现的概率,Pyp表示第y个子窗口中第p个不同 文字出现的概率。 5.  根据权利要求2所述的方法,其特征在于,所述根据计算得到的窗口间 文字相关度,计算所述待处理文字段第i个窗口内文字的文字相关度Ri,包括: 根据预设的加权系数,对计算得到的窗口间文字相关度进行加权计算,得 到所述待处理文字段第i个窗口内文字的文字相关度Ri。 6.  根据权利要求1所述的方法,其特征在于,所述根据所述文字相关度序 列的变化趋势,确定所述目标视频的视频分段点,包括: 将所述文字相关度序列中,满足如下条件的文字相关度对应的视频播放时 间,确定为所述目标视频的视频分段点: 由任一文字相关度Rj与在所述文字相关度序列中位于Rj之前的文字相关度, 确定的曲线的斜率g1<0; 由任一文字相关度Rj与在所述文字相关度序列中位于Rj之后的文字相关度, 确定的曲线的斜率g2>0。 7.  根据权利要求1至6中任一项所述的方法,其特征在于,所述目标视频中 的文字信息流通过以下方式获得: 根据语音识别算法获得所述目标视频的文字信息流;或 从预设的文件中获得所述目标视频的文字信息流;或 根据文字识别算法,从目标视频的各个视频帧的预设位置获得所述目标视 频的文字信息流。 8.  一种视频分段装置,其特征在于,所述装置包括: 文字段生成模块,用于对目标视频中的文字信息流进行拼接,生成待处理 文字段; 文字相关度计算模块,用于利用大小为w1、单位滑动距离为d1的滑动窗口, 分别计算所述待处理文字段第i个窗口内文字的文字相关度Ri,进而得到文字相 关度序列:{R1,R2,R3……},其中,第i个窗口的起点为1+(i-1)d1、终点为 w1+(i-1)d1,i=1、2、3……,w1≥d1; 分段点确定模块,用于根据所述文字相关度序列的变化趋势,确定所述目 标视频的分段点,其中,所确定的分段点相对于所述文字相关度序列中位于该 分段点之前的值呈递减变化,所述文字相关度序列中位于该分段点之后的值相 对于该分段点呈递增变化; 视频分段模块,用于根据所确定的分段点对所述目标视频进行分段。 9.  根据权利要求8所述的装置,其特征在于,所述文字相关度计算模块, 包括: 窗口间文字相关度计算子模块,用于利用大小为w2、单位滑动距离为d2的滑 动子窗口,计算所述待处理文字段第i个窗口内任意两个子窗口第x和第y个子窗 口中文字的窗口间文字相关度,其中,第x个子窗口的起点为1+(i-1)d1+(x-1)d2、 终点为w2+(i-1)d1+(x-1)d2,第y个子窗口的起点为1+(i-1)d1+(y-1)d2、终点为 w2+(i-1)d1+(y-1)d2,x、y=1、2、3……,w2≥d2,w1-w2等于d2的非负整数倍,d1等于d2的非负整数倍; 文字相关度计算子模块,用于根据计算得到的窗口间文字相关度,计算所 述待处理文字段第i个窗口内文字的文字相关度Ri。 10.  根据权利要求9所述的装置,其特征在于,所述窗口间文字相关度计算 子模块,包括: 概率统计单元,用于分别统计所述待处理文字段第i个窗口内任意两个子窗 口第x和第y个子窗口中各个文字出现的概率; 窗口间文字相关度计算单元,用于根据统计得到的文字出现的概率,计算 所述待处理文字段第i个窗口内任意两个子窗口第x和第y个子窗口中文字的窗口 间文字相关度。 11.  根据权利要求10所述的装置,其特征在于,所述窗口间文字相关度计 算单元,包括: 相同文字确定子单元,用于确定所述待处理文字段第i个窗口内任意两个子 窗口第x和第y个子窗口中相同的文字; 相似度特征值计算子单元,用于根据以下表达式计算第x个子窗口和第y个 子窗口中文字的窗口间文字相关度Sxy: S xy = P sx 1 * P sy 1 + P sx 2 * P sy 2 + . . . + P sxm * P sym P x 1 2 + P x 2 2 + . . . + P xn 2 + P y 1 2 + P y 2 2 + . . . + P yp 2 , ]]> 其中,m表示第x个子窗口和第y个子窗口中相同文字的数量,n表示第x个子 窗口中包含的不同文字的数量,p表示第y个子窗口中包含的不同文字的数量, Psxm、Psym表示第x个子窗口和第y个子窗口中第m个相同文字出现的概率,Pxn表 示第x个子窗口中第n个不同文字出现的概率,Pyp表示第y个子窗口中第p个不同 文字出现的概率。 12.  根据权利要求9所述的装置,其特征在于,文字相关度计算子模块,具 体用于根据预设的加权系数,对计算得到的窗口间文字相关度进行加权计算, 得到所述待处理文字段第i个窗口内文字的文字相关度Ri。 13.  根据权利要求8所述的装置,其特征在于,所述分段点确定模块,具体 用于将所述文字相关度序列中,满足如下条件的文字相关度对应的视频播放时 间,确定为所述目标视频的视频分段点: 由任一文字相关度Rj与在所述文字相关度序列中位于Rj之前的文字相关度, 确定的曲线的斜率g1<0; 由任一文字相关度Rj与在所述文字相关度序列中位于Rj之后的文字相关度, 确定的曲线的斜率g2>0。 14.  根据权利要求8至13中任一项所述的装置,其特征在于,所述装置还包 括:文字信息流获得模块,用于获得所述目标视频中的文字信息流; 具体用于根据语音识别算法获得所述目标视频的文字信息流;或 具体用于从预设的文件中获得所述目标视频的文字信息流;或 具体用于根据文字识别算法,从目标视频的各个视频帧的预设位置获得所 述目标视频的文字信息流。

说明书

说明书一种视频分段方法及装置
技术领域
本发明涉及视频处理技术领域,特别涉及一种视频分段方法及装置。
背景技术
视频因具有信息量大、内容丰富等优点,而深受广大用户喜欢。然而,用 户在观看具有大信息量的视频的过程中可能不喜欢该视频的某些部分,这种情 况下,用户一般选择跳过不喜欢的部分,继续观看该视频的后续部分。
由于一个视频中所包含的视频帧较多,通过调整播放进度条的方式跳过不 喜欢的视频部分时,很难准确定位到该部分的结束帧,为此,实际应用中,为 了快速准确的定位到用户欲跳过视频部分的结束帧,以继续观看视频的后续部 分,一般将视频进行分段处理,即事先将视频划分为多个视频段。当用户有“跳 过”需要时,根据视频的分段信息,直接跳过一个视频段,而无需用户通过调 整播放进度条一帧一帧的跳过。
现有技术中,通常是通过场景检测的方式实现视频分段的,即:同一场景 下的连续视频帧放在同一视频段中。应用场景检测方式进行视频分段后,若用 户欲跳过视频的某一部分,则可以以场景为单位实现。然而,对于新闻类视频 来讲,一条新闻中可能包括播音员播报场景、一个或多个现场报道场景等等, 若用户不想观看某条新闻,欲跳过该条新闻继续观看后面新闻时,只能按照场 景多次操作才能跳过该新闻。另外,当视频中连续多条新闻对应的场景均为播 音员播报场景时,由于连续两条新闻之间场景未发生变化,该连续的多条新闻 一般被划分到一个视频段中,跳过其中的一条新闻时,会直接跳过后续的其他 新闻。因此,一些情况下,应用现有的场景检测方式进行视频分段后,无法为 用户提供准确的、便于操作的分段信息,影响用户体验。
发明内容
本发明实施例公开了一种视频分段方法及装置,以为用户提供准确的、便 于操作的分段信息,提高用户体验。
为达到上述目的,本发明实施例公开了一种视频分段方法,所述方法包括:
对目标视频中的文字信息流进行拼接,生成待处理文字段;
利用大小为w1、单位滑动距离为d1的滑动窗口,分别计算所述待处理文字段 第i个窗口内文字的文字相关度Ri,进而得到文字相关度序列:{R1,R2,R3……}, 其中,第i个窗口的起点为1+(i-1)d1、终点为w1+(i-1)d1,i=1、2、3……,w1≥d1;
根据所述文字相关度序列的变化趋势,确定所述目标视频的分段点,其中, 所确定的分段点相对于所述文字相关度序列中位于该分段点之前的值呈递减变 化,所述文字相关度序列中位于该分段点之后的值相对于该分段点呈递增变化;
根据所确定的分段点对所述目标视频进行分段。
具体的,所述计算所述待处理文字段第i个窗口内文字的文字相关度Ri,包 括:
利用大小为w2、单位滑动距离为d2的滑动子窗口,计算所述待处理文字段第 i个窗口内任意两个子窗口第x和第y个子窗口中文字的窗口间文字相关度,其中, 第x个子窗口的起点为1+(i-1)d1+(x-1)d2、终点为w2+(i-1)d1+(x-1)d2,第y个子窗口 的起点为1+(i-1)d1+(y-1)d2、终点为w2+(i-1)d1+(y-1)d2,x、y=1、2、3……,w2≥d2,w1-w2等于d2的非负整数倍,d1等于d2的非负整数倍;
根据计算得到的窗口间文字相关度,计算所述待处理文字段第i个窗口内文 字的文字相关度Ri。
具体的,所述计算所述待处理文字段第i个窗口内任意两个子窗口第x和第y 个子窗口中文字的窗口间文字相关度,包括:
分别统计所述待处理文字段第i个窗口内任意两个子窗口第x和第y个子窗口 中各个文字出现的概率;
根据统计得到的文字出现的概率,计算所述待处理文字段第i个窗口内任意 两个子窗口第x和第y个子窗口中文字的窗口间文字相关度。
具体的,所述根据统计得到的文字出现的概率,计算所述待处理文字段第i 个窗口内任意两个子窗口第x和第y个子窗口中文字的窗口间文字相关度,包括:
确定所述待处理文字段第i个窗口内任意两个子窗口第x和第y个子窗口中相 同的文字;
根据以下表达式计算第x个子窗口和第y个子窗口中文字的窗口间文字相关 度Sxy:
S xy = P sx 1 * P sy 1 + P sx 2 * P sy 2 + . . . + P sxm * P sym P x 1 2 + P x 2 2 + . . . + P xn 2 + P y 1 2 + P y 2 2 + . . . + P yp 2 , ]]>
其中,m表示第x个子窗口和第y个子窗口中相同文字的数量,n表示第x个子 窗口中包含的不同文字的数量,p表示第y个子窗口中包含的不同文字的数量, Psxm、Psym表示第x个子窗口和第y个子窗口中第m个相同文字出现的概率,Pxn表 示第x个子窗口中第n个不同文字出现的概率,Pyp表示第y个子窗口中第p个不同 文字出现的概率。
具体的,所述根据计算得到的窗口间文字相关度,计算所述待处理文字段 第i个窗口内文字的文字相关度Ri,包括:
根据预设的加权系数,对计算得到的窗口间文字相关度进行加权计算,得 到所述待处理文字段第i个窗口内文字的文字相关度Ri。
具体的,所述根据所述文字相关度序列的变化趋势,确定所述目标视频的 视频分段点,包括:
将所述文字相关度序列中,满足如下条件的文字相关度对应的视频播放时 间,确定为所述目标视频的视频分段点:
由任一文字相关度Rj与在所述文字相关度序列中位于Rj之前的文字相关度, 确定的曲线的斜率g1<0;
由任一文字相关度Rj与在所述文字相关度序列中位于Rj之后的文字相关度, 确定的曲线的斜率g2>0。
具体的,所述目标视频中的文字信息流通过以下方式获得:
根据语音识别算法获得所述目标视频的文字信息流;或
从预设的文件中获得所述目标视频的文字信息流;或
根据文字识别算法,从目标视频的各个视频帧的预设位置获得所述目标视 频的文字信息流。
为达到上述目的,本发明实施例公开了一种视频分段装置,所述装置包括:
文字段生成模块,用于对目标视频中的文字信息流进行拼接,生成待处理 文字段;
文字相关度计算模块,用于利用大小为w1、单位滑动距离为d1的滑动窗口, 分别计算所述待处理文字段第i个窗口内文字的文字相关度Ri,进而得到文字相 关度序列:{R1,R2,R3……},其中,第i个窗口的起点为1+(i-1)d1、终点为 w1+(i-1)d1,i=1、2、3……,w1≥d1;
分段点确定模块,用于根据所述文字相关度序列的变化趋势,确定所述目 标视频的分段点,其中,所确定的分段点相对于所述文字相关度序列中位于该 分段点之前的值呈递减变化,所述文字相关度序列中位于该分段点之后的值相 对于该分段点呈递增变化;
视频分段模块,用于根据所确定的分段点对所述目标视频进行分段。
具体的,所述文字相关度计算模块,包括:
窗口间文字相关度计算子模块,用于利用大小为w2、单位滑动距离为d2的滑 动子窗口,计算所述待处理文字段第i个窗口内任意两个子窗口第x和第y个子窗 口中文字的窗口间文字相关度,其中,第x个子窗口的起点为1+(i-1)d1+(x-1)d2、 终点为w2+(i-1)d1+(x-1)d2,第y个子窗口的起点为1+(i-1)d1+(y-1)d2、终点为 w2+(i-1)d1+(y-1)d2,x、y=1、2、3……,w2≥d2,w1-w2等于d2的非负整数倍,d1等于d2的非负整数倍;
文字相关度计算子模块,用于根据计算得到的窗口间文字相关度,计算所 述待处理文字段第i个窗口内文字的文字相关度Ri。
具体的,所述窗口间文字相关度计算子模块,包括:
概率统计单元,用于分别统计所述待处理文字段第i个窗口内任意两个子窗 口第x和第y个子窗口中各个文字出现的概率;
窗口间文字相关度计算单元,用于根据统计得到的文字出现的概率,计算 所述待处理文字段第i个窗口内任意两个子窗口第x和第y个子窗口中文字的窗口 间文字相关度。
具体的,所述窗口间文字相关度计算单元,包括:
相同文字确定子单元,用于确定所述待处理文字段第i个窗口内任意两个子 窗口第x和第y个子窗口中相同的文字;
相似度特征值计算子单元,用于根据以下表达式计算第x个子窗口和第y个 子窗口中文字的窗口间文字相关度Sxy:
S xy = P sx 1 * P sy 1 + P sx 2 * P sy 2 + . . . + P sxm * P sym P x 1 2 + P x 2 2 + . . . + P xn 2 + P y 1 2 + P y 2 2 + . . . + P yp 2 , ]]>
其中,m表示第x个子窗口和第y个子窗口中相同文字的数量,n表示第x个子 窗口中包含的不同文字的数量,p表示第y个子窗口中包含的不同文字的数量, Psxm、Psym表示第x个子窗口和第y个子窗口中第m个相同文字出现的概率,Pxn表 示第x个子窗口中第n个不同文字出现的概率,Pyp表示第y个子窗口中第p个不同 文字出现的概率。
具体的,文字相关度计算子模块,具体用于根据预设的加权系数,对计算 得到的窗口间文字相关度进行加权计算,得到所述待处理文字段第i个窗口内文 字的文字相关度Ri。
具体的,所述分段点确定模块,具体用于将所述文字相关度序列中,满足 如下条件的文字相关度对应的视频播放时间,确定为所述目标视频的视频分段 点:
由任一文字相关度Rj与在所述文字相关度序列中位于Rj之前的文字相关度, 确定的曲线的斜率g1<0;
由任一文字相关度Rj与在所述文字相关度序列中位于Rj之后的文字相关度, 确定的曲线的斜率g2>0。
具体的,所述视频分段装置还包括:文字信息流获得模块,用于获得所述 目标视频中的文字信息流;
具体用于根据语音识别算法获得所述目标视频的文字信息流;或
具体用于从预设的文件中获得所述目标视频的文字信息流;或
具体用于根据文字识别算法,从目标视频的各个视频帧的预设位置获得所 述目标视频的文字信息流。
由以上可见,本发明实施例提供的方案中,对目标视频中的文字信息流进 行拼接,生成待处理文字段后,利用滑动窗口,分别计算待处理文字段第i个窗 口内文字的文字相关度,进而得到文字相关度序列,再根据文字相关度序列的 变化趋势,确定目标视频的分段点,并根据所确定的视频分段点对目标视频进 行分段。由于描述同一事件的各个视频帧对应的文字信息间存在较强的相关性, 因此,应用本发明实施例提供的方案进行视频分段时,能够将描述同一事件的 各个视频帧划分到一个视频分段中,用户选择跳过目标视频的某一部分时,可 直接跳过该部分对应的视频段,无需多次操作;另外,由于描述不同事件的各 个视频帧对应的文字信息间相关性较弱,因此,即使描述不同事件的各个视频 帧对应的视频场景相似,也依然可以根据文字信息将上述各个视频帧划分到针 对两个不同事件的不同视频段中。综合以上,本发明实施例提供的方案能够为 用户提供准确的、便于操作的分段信息,能够提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种视频分段方法的流程示意图;
图2为本发明实施例提供的一种计算文字相关度的方法的流程示意图;
图3为本发明实施例提供的另一种计算文字相关度的方法的流程示意图;
图4为本发明实施例提供的一种视频分段装置的结构上示意图;
图5为本发明实施例提供的一种计算文字相关度的装置的结构示意图;
图6为本发明实施例提供的另一种计算文字相关度的装置的结构示意图。
具体实施方式
实际应用中,视频中描述同一事件的文字间相关度较高,而描述不同事件 的文字间相关度较低,本申请中,发明人利用这一特性进行视频分段,提出了 一种视频分段方法及装置。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种视频分段方法的流程示意图,该方法包括:
S101:对目标视频中的文字信息流进行拼接,生成待处理文字段。
需要说明的是,本申请中提及的视频可以是用户所理解的通常意义上的视 频,即:包含音频信息和图像信息的视频;另外,本申请中提及的视频还可以 是仅仅包含图像信息,不包含音频信息的视频。
目标视频中的文字信息流可以通过以下几种方式获得:
第一种方式:根据语音识别算法获得目标视频的文字信息流。
一些视频中可能不包含字幕信息,这种情况下,视频中的文字信息流可以 通过语音识别算法得到,其中,现有技术中已经存在多种成熟的语音识别算法, 这里不再详述。
第二种方式:从预设的文件中获得目标视频的文字信息流。
一种情况下,视频的字幕信息是内嵌在视频图像中的,另一种情况下,视 频的字幕信息与视频文件是相分离的,字幕信息存储在预设的文件中,在播放 视频时,从预设的文件中读取字幕信息,并在相应视频帧的特定位置显示所读 取的字幕信息。
因此,在字幕信息存储在预设的文件中时,可以通过读取预设的文件中的 文字信息的方式获得目标视频的文字信息流。
第三种方式:根据文字识别算法,从目标视频的各个视频帧的预设位置获 得目标视频的文字信息流。
近些年文字识别技术越来越成熟,还可以通过文字识别算法,从视频帧的 预设位置识别出文字信息,作为目标视频的文字信息流。由于一般情况下视频 帧中,不仅仅包括字幕信息,还可能包括属于场景内容的文字信息等等,然而, 字幕信息出现的位置比较固定,例如,一般出现在视频帧靠近底部的位置,因 此,在进行文字识别之前,可先确定文字识别区域,再进行文字识别,能够较 准确的得到目标视频的文字信息流。
另外,本领域内的技术人员可以理解的是,连续的若干个视频帧之间存在 时间相关性,各帧之间画面内容相似,字幕信息可能相同,在通过文字识别算 法识别得到各帧的字幕信息后,若判断得到各帧的字幕信息相同,可以只保留 其中一帧的字幕信息。
现有技术中已存在多种成熟的文字识别算法,这里不再详述。
当然,实际应用中获得目标视频中的文字信息流的方式并不仅限于上述三 种,本申请并不对此进行限定。
根据上述三种方式除了可以获得目标视频中的文字信息流外,还可以获得 文字信息流中的文字与视频播放时间之间的对应关系。
具体的,可以根据音频信息中的同步信息等获得文字信息流中的文字与视 频播放时间之间的对应关系;
可以根据预设的文件中记录的各段字幕文字相对于播放起始时刻的播放时 间,获得文字信息流中的文字与视频播放时间之间的对应关系;
可以根据进行文字识别的视频帧的帧号,获得文字信息流中的文字与视频 播放时间之间的对应关系等等。
需要说明的是,本申请中所提到的文字可以是汉字,也可以是英文单词, 本申请并不对此进行限定。
S102:利用大小为w1、单位滑动距离为d1的滑动窗口,分别计算待处理文 字段第i个窗口内文字的文字相关度Ri,进而得到文字相关度序列:{R1,R2, R3……}。
其中,第i个窗口的起点为1+(i-1)d1、终点为w1+(i-1)d1,i=1、2、3……,w1≥d1。
S103:根据文字相关度序列的变化趋势,确定目标视频的分段点。
可以理解的是,在滑动窗口从描述第一事件的文字滑动到描述第二事件的 文字的过程中,所得到的各个滑动窗内文字的文字相关度会逐渐减弱,但是随 着滑动窗口内所包含的描述第二事件的文字信息增多,所得到的各个滑动窗口 内文字的文字相关度会逐渐增强,所以,可以取滑动窗口从描述第一事件的文 字滑动到描述第二事件的文字的过程,文字相关度最小的滑动窗口对应的视频 播放时间为分段点。
也就是说,所确定的分段点相对于文字相关度序列中位于该分段点之前的 值呈递减变化,文字相关度序列中位于该分段点之后的值相对于该分段点呈递 增变化。
在本发明的一个较佳实施例中,可以将上述的文字相关度序列中,满足如 下条件的文字相关度对应的视频播放时间,确定为目标视频的视频分段点:
由任一文字相关度Rj与在上述的文字相关度序列中位于Rj之前的文字相关 度,确定的曲线的斜率g1<0;
由任一文字相关度Rj与在上述的文字相关度序列中位于Rj之后的文字相关 度,确定的曲线的斜率g2>0。
由于视频的连续若干视频帧之间存在时间相关性,所以,根据文字相关度 序列的变化趋势所确定的用于确定分段点的文字相关度对应的视频播放时间可 能是一个时间段,本发明的另一个较佳实施例中,可以将上述的时间段中最后 一个视频帧所对应的视频播放时刻确定为分段点,这样可以最大限度的保证用 于描述第一时间的视频帧不被划分到用于描述第二事件的视频帧构成的视频段 中。
S104:根据所确定的分段点对目标视频进行分段。
由以上可见,本实施例提供的方案中,对目标视频中的文字信息流进行拼 接,生成待处理文字段后,利用滑动窗口,分别计算待处理文字段第i个窗口内 文字的文字相关度,进而得到文字相关度序列,再根据文字相关度序列的变化 趋势,确定目标视频的分段点,并根据所确定的视频分段点对目标视频进行分 段。由于描述同一事件的各个视频帧对应的文字信息间存在较强的相关性,因 此,应用本实施例提供的方案进行视频分段时,能够将描述同一事件的各个视 频帧划分到一个视频分段中,用户选择跳过目标视频的某一部分时,可直接跳 过该部分对应的视频段,无需多次操作;另外,由于描述不同事件的各个视频 帧对应的文字信息间相关性较弱,因此,即使描述不同事件的各个视频帧对应 的视频场景相似,也依然可以根据文字信息将上述各个视频帧划分到针对两个 不同事件的不同视频段中。综合以上,本实施例提供的方案能够为用户提供准 确的、便于操作的分段信息,能够提高用户体验。
在本发明的一个具体实施例中,参见图2,提供了一种计算文字相关度的方 法的流程示意图,本实施例中,上述的计算待处理文字段第i个窗口内文字的文 字相关度Ri,包括:
S1021:利用大小为w2、单位滑动距离为d2的滑动子窗口,计算待处理文字 段第i个窗口内任意两个子窗口第x和第y个子窗口中文字的窗口间文字相关度。
其中,第x个子窗口的起点为1+(i-1)d1+(x-1)d2、终点为w2+(i-1)d1+(x-1)d2, 第y个子窗口的起点为1+(i-1)d1+(y-1)d2、终点为w2+(i-1)d1+(y-1)d2,x、y=1、2、 3……,w2≥d2,w1-w2等于d2的非负整数倍,d1等于d2的非负整数倍。
当w2=d2时,说明相邻两个子窗口中的文字间不重叠,而当w2>d2时,说明 相邻两个子窗口中的文字间重叠。本领域内的技术人员可以理解的是,重叠部 分越长,计算得到的窗口间文字的相关度越高,当然相邻两个子窗口不能完全 重叠,例如,当d2=1时,计算得到的窗口间文字相关度为针对每一个文字的窗口 间文字相关度。
进一步的,当w1=d1时,可以理解为将待处理文字段划分为若干个连续的文 字分段;当w2=d2时,可以理解为将待处理文字段的各个窗口划分为若干个连续 的子文字分段。
在本发明的一个优选实施例中,当(w1-w2)/d2=d1/d2-1时,所得到的待处理文 字段的各个窗口内的子窗口合集,与直接利用大小为w2、单位滑动距离为d2的滑 动子窗口,在待处理文字段得到的子窗口合集相同。
较佳的,为保证计算待处理文字段的各个窗口内文字的文字相关度时,所 利用的各个窗口对应的子窗口的数量相等,可通过设置w2和d2的取值,使得待处 理文字段的各个窗口内子窗口的数量相等实现。
下面通过具体实例对待处理文字段的各个窗口以及各个窗口内的子窗口进 行说明。
实例一、w1=d1,w2=d2:
假设,w1=d1=15,w2=d2=5,w1-w2=d2的2倍,d1=d2的3倍,则待处理文字段 第1个滑动窗口的起点为:1+(1-1)x15=1、终点为:15+(1-1)x15=15,该第1个窗 口内各个子窗口的起始点和终点如表1所示。
表1

待处理文字段第2个窗口的起点为:1+(2-1)x15=16、终点为:15+(2-1)x15=30, 该第2个窗口内各个子窗口的起始点和终点如表2所示。
表2

实例二、w1>d1,w2>d2:
假设,w1=14,d1=12,w2=5,d2=3,w1-w2等于d2的3倍,d1等于d2的4倍,则 待处理文字段第1个窗口的起点为:1+(1-1)x12=1、终点为:14+(1-1)x12=14,该 第1个窗口内各个子窗口的起始点和终点如表3所示。
表3


待处理文字段第2个窗口的起点为:1+(2-1)x12=13、终点为:14+(2-1)x12=26, 该第2个窗口内各个子窗口的起始点和终点如表4所示。
表4

在本发明的另一个具体实施例中,参见图3,提供了另一种计算文字相关度 的方法的流程示意图,与图2所示实施例相比,本实施例中,计算待处理文字段 第i个窗口内任意两个子窗口第x和第y个子窗口中文字的窗口间文字相关度,包 括:
S1021A:分别统计待处理文字段第i个窗口内任意两个子窗口第x和第y个子 窗口中各个文字出现的概率。
上述的各个文字出现的概率可以以各个文字在子窗口内出现的次数表示, 也可以各个文字在子窗口内出现的次数与子窗口内文字总数量的比例表示,本 申请并不对此进行限定。
S1021B:根据统计得到的文字出现的概率,计算待处理文字段第i个窗口内 任意两个子窗口第x和第y个子窗口中文字的窗口间文字相关度。
本发明的一种实现方式中,可以先确定出待处理文字段第i个窗口内任意两 个子窗口第x和第y个子窗口中相同的文字,再根据以下表达式计算第x个子窗口 和第y个子窗口中文字的窗口间文字相关度
S xy = P sx 1 * P sy 1 + P sx 2 * P sy 2 + . . . + P sxm * P sym P x 1 2 + P x 2 2 + . . . + P xn 2 + P y 1 2 + P y 2 2 + . . . + P yp 2 , ]]>
其中,m表示第x个子窗口和第y个子窗口中相同文字的数量,n表示第x个子 窗口中包含的不同文字的数量,p表示第y个子窗口中包含的不同文字的数量, Psxm、Psym表示第x个子窗口和第y个子窗口中第m个相同文字出现的概率,Pxn表 示第x个子窗口中第n个不同文字出现的概率,Pyp表示第y个子窗口中第p个不同 文字出现的概率。
需要说明的是,上述的n和p可能不相同,当n不等于p时,Px1……Pxm的个数 与Py1……Pyp的个数不相同,为保证能够正常使用上述表达式计算窗口间的文字 相关度,在n<p的情况下,可以在Pxm之后以0补齐,在n>p的情况下,可以在 Pyp之后以0补齐,使得两组数的个数相同。
例如,n=3,p=2,则Px1……Pxm为:Px1、Px2、Px3,Py1……Pyp为:Py1、Py2, 则需在Py2之后以补0,补0后为:Py1、Py2、0。
另外,Pxn与第x个子窗口中不同文字间的对应关系,可根据这些不同文字在 第x个子窗口中出现的顺序确定,当然,也按照各个不同文字在第x个子窗口中 出现的概率从高到低或者从低到高的排序等等确定该对应关系,对应关系的确 定方式并不仅限于上述几种,实际应用中可以根据具体情况确定。
确定Pyp与第y个子窗口中不同文字间的对应关系的方式,可以与确定Pxn与第 x个子窗口中不同文字间的对应关系相同,这里不再重复。
S1022:根据计算得到的窗口间文字相关度,计算待处理文字段第i个窗口内 文字的文字相关度Ri。
具体的,可以根据预设的加权系数,对计算得到的窗口间文字相关度进行 加权计算,得到待处理文字段第i个窗口内文字的文字相关度Ri。
由以上可见,上述实施例提供的方案中,以滑动窗口形式计算待处理文字 段总第i个窗口内文字的文字相关度,可通过调整滑动窗口的大小以及单位滑动 距离得到不同精度的文字相关度,便于满足用户的各种计算精度需求。
下面通过一个具体实例再对图3所示实施例进行详细说明。
S1021A:假设待处理文字段第1个窗口内第x个子窗口中的文字为“上面下 面左”,第y个子窗口中的文字为“面右面后面”,则
第x个子窗口内各个文字出现的概率(以文字在子窗口中出现的次数表示) 为:上:1,面:2,下:1,左:1;
第y个子窗口内各个文字出现的概率为:面:3,右:1,后:1。
S102B:根据第x个子窗口中的文字和第y个子窗口中的文字,可以得知这两 个子窗口中相同的文字为“面”,则这两个子窗口中相同文字的数量m=1,第x 个子窗口中包含的不同文字的数量n=4,第y个子窗口中包含的不同文字的数量 p=3,文字“面”在第x个子窗口中出现的概率Psx1=2,在第y个子窗口中出现的 概率Psy1=3,第x个子窗口中文字“上”、“面”、“下”和“左”出现的概率分别 为:Px1=1、Px2=2、Px3=1、Px4=1,第y个子窗口中文字“面”、“左”和“右”出 现的概率分别为:Py1=3、Py2=1、Py3=1;
另外,n>p,可以在Py3之后补充一个Py4=0;
根据以下公式计算Sxy为:
S xy = P sx 1 * P sy 1 P x 1 2 + P x 2 2 + P x 3 2 + P x 4 2 + P y 1 2 + P y 2 2 + P y 3 2 + P y 4 2 = 2 * 3 1 2 + 2 2 + 1 2 + 1 2 + 3 2 + 1 2 + 1 2 + 0 2 = 1 3 . ]]>
S1022:按照上述过程可计算得到第i个窗口内任意两个子窗口中文字的窗口 文字相关度,根据预设的加权系数,对上述计算得到的窗口文字相关度进行加 权计算,得到待处理文字段第i个窗口内文字的文字相关度Ri。
与上述的视频分段方法相对应,本发明实施例还提供了一种视频分段装置。
图4为本发明实施例提供的一种视频分段装置的结构示意图,该装置包括: 文字段生成模块401、文字相关度计算模块402、分段点确定模块403和视频分段 模块404。
其中,文字段生成模块401,用于对目标视频中的文字信息流进行拼接,生 成待处理文字段;
文字相关度计算模块402,用于利用大小为w1、单位滑动距离为d1的滑动窗 口,分别计算所述待处理文字段第i个窗口内文字的文字相关度Ri,进而得到文 字相关度序列:{R1,R2,R3……},其中,第i个窗口的起点为1+(i-1)d1、终点为 w1+(i-1)d1,i=1、2、3……,w1≥d1;
分段点确定模块403,用于根据所述文字相关度序列的变化趋势,确定所述 目标视频的分段点,其中,所确定的分段点相对于所述文字相关度序列中位于 该分段点之前的值呈递减变化,所述文字相关度序列中位于该分段点之后的值 相对于该分段点呈递增变化;
视频分段模块404,用于根据所确定的分段点对所述目标视频进行分段。
具体的,上述的分段点确定模块403,具体用于将所述文字相关度序列中, 满足如下条件的文字相关度对应的视频播放时间,确定为所述目标视频的视频 分段点:
由任一文字相关度Rj与在所述文字相关度序列中位于Rj之前的文字相关度, 确定的曲线的斜率g1<0;
由任一文字相关度Rj与在所述文字相关度序列中位于Rj之后的文字相关度, 确定的曲线的斜率g2>0。
具体的,上述的视频分段装置还可以包括:文字信息流获得模块(图中未 示出)。
其中,文字信息流获得模块,用于获得所述目标视频中的文字信息流;
具体用于根据语音识别算法获得所述目标视频的文字信息流;或
具体用于从预设的文件中获得所述目标视频的文字信息流;或
具体用于根据文字识别算法,从目标视频的各个视频帧的预设位置获得所 述目标视频的文字信息流。
由以上可见,本实施例提供的方案中,对目标视频中的文字信息流进行拼 接,生成待处理文字段后,利用滑动窗口,分别计算待处理文字段第i个窗口内 文字的文字相关度,进而得到文字相关度序列,再根据文字相关度序列的变化 趋势,确定目标视频的分段点,并根据所确定的视频分段点对目标视频进行分 段。由于描述同一事件的各个视频帧对应的文字信息间存在较强的相关性,因 此,应用本实施例提供的方案进行视频分段时,能够将描述同一事件的各个视 频帧划分到一个视频分段中,用户选择跳过目标视频的某一部分时,可直接跳 过该部分对应的视频段,无需多次操作;另外,由于描述不同事件的各个视频 帧对应的文字信息间相关性较弱,因此,即使描述不同事件的各个视频帧对应 的视频场景相似,也依然可以根据文字信息将上述各个视频帧划分到针对两个 不同事件的不同视频段中。综合以上,本实施例提供的方案能够为用户提供准 确的、便于操作的分段信息,能够提高用户体验。
在本发明的一个具体实施例中,参见图5,提供了一种计算文字相关度的装 置的结构示意图,本实施例中,前述实施例中的文字相关度计算模块402,包括: 窗口间文字相关度计算子模块4021和文字相关度计算子模块4022。
其中,窗口间文字相关度计算子模块4021,用于利用大小为w2、单位滑动 距离为d2的滑动子窗口,计算所述待处理文字段第i个窗口内任意两个子窗口第x 和第y个子窗口中文字的窗口间文字相关度,其中,第x个子窗口的起点为 1+(i-1)d1+(x-1)d2、终点为w2+(i-1)d1+(x-1)d2,第y个子窗口的起点为 1+(i-1)d1+(y-1)d2、终点为w2+(i-1)d1+(y-1)d2,x、y=1、2、3……,w2≥d2,w1-w2等于d2的非负整数倍,d1等于d2的非负整数倍;
具体的,文字相关度计算子模块4022,具体用于根据预设的加权系数,对 计算得到的窗口间文字相关度进行加权计算,得到所述待处理文字段第i个窗口 内文字的文字相关度Ri。
在本发明的另一个具体实施例中,参见图6,提供了另一种计算文字相关度 的装置的结构示意图,与图5所示实施例相比,本实施例中,窗口间文字相关度 计算子模块4021,包括:概率统计单元40211和窗口间文字相关度计算单元 40212。
其中,概率统计单元40211,用于分别统计所述待处理文字段第i个窗口内任 意两个子窗口第x和第y个子窗口中各个文字出现的概率;
段间相似度计算单元40212,用于根据统计得到的文字出现的概率,计算所 述待处理文字段第i个窗口内任意两个子窗口第x和第y个子窗口中文字的窗口间 文字相关度。
具体的,上述的窗口间文字相关度计算单元40212可以包括:相同文字确定 子单元和相似度特征值计算子单元(图中未示出)。
其中,相同文字确定子单元,用于确定所述待处理文字段第i个窗口内任意 两个子窗口第x和第y个子窗口中相同的文字;
相似度特征值计算子单元,用于根据以下表达式计算第x个子窗口和第y个 子窗口中文字的窗口间文字相关度Sxy:
S XY = P sx 1 * P sy 1 + P sx 2 * P sy 2 + . . . + P sxm * P sym P x 1 2 + P x 2 2 + . . . + P xn 2 + P y 1 2 + P y 2 2 + . . . + P yp 2 , ]]>
其中,m表示第x个子窗口和第y个子窗口中相同文字的数量,n表示第x个子 窗口中包含的不同文字的数量,p表示第y个子窗口中包含的不同文字的数量, Psxm、Psym表示第x个子窗口和第y个子窗口中第m个相同文字出现的概率,Pxn表 示第x个子窗口中第n个不同文字出现的概率,Pyp表示第y个子窗口中第p个不同 文字出现的概率。
由以上可见,上述实施例提供的方案中,以滑动窗口形式计算待处理文字 段总第i个窗口内文字的文字相关度,可通过调整滑动窗口的大小以及单位滑动 距离得到不同精度的文字相关度,便于满足用户的各种计算精度需求。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简 单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些 实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含” 或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过 程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他 要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有 更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要 素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤 是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读 取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。 凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在 本发明的保护范围内。

一种视频分段方法及装置.pdf_第1页
第1页 / 共18页
一种视频分段方法及装置.pdf_第2页
第2页 / 共18页
一种视频分段方法及装置.pdf_第3页
第3页 / 共18页
点击查看更多>>
资源描述

《一种视频分段方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种视频分段方法及装置.pdf(18页珍藏版)》请在专利查询网上搜索。

本发明实施例公开了一种视频分段方法及装置,涉及视频处理技术领域,其中,上述方法包括:对目标视频中的文字信息流进行拼接,生成待处理文字段;利用大小为w1、单位滑动距离为d1的滑动窗口,分别计算待处理文字段第i个窗口内文字的文字相关度Ri,进而得到文字相关度序列:R1,R2,R3;根据文字相关度序列的变化趋势,确定目标视频的分段点;根据所确定的分段点对目标视频进行分段。应用本发明实施例提供的方案进行视。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 电学 > 电通信技术


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1