《一种新闻视频字幕标注方法.pdf》由会员分享,可在线阅读,更多相关《一种新闻视频字幕标注方法.pdf(9页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102780856 A (43)申请公布日 2012.11.14 C N 1 0 2 7 8 0 8 5 6 A *CN102780856A* (21)申请号 201210106534.3 (22)申请日 2012.04.12 H04N 5/278(2006.01) G06T 7/00(2006.01) (71)申请人天脉聚源(北京)传媒科技有限公司 地址 100007 北京市东城区安定门东大街 28号雍和大厦E座808室 (72)发明人刘赵杰 (54) 发明名称 一种新闻视频字幕标注方法 (57) 摘要 本发明公开了一种新闻视频字幕标注方法, 首先采集新闻视频;对新。
2、闻视频进行解码,获得 单帧的视频图像;从视频图像中提取候选字幕区 域,进行新闻字幕区域定位;将新闻字幕区域与 新闻模板库中的模板图像进行匹配,如果匹配,则 按照模板图像标注格式对新闻字幕区域进行标 注,如果不匹配,则对新闻字幕区域进行标注。采 用了本发明的技术方案,能够提高视频中字幕标 注的准确率,减少人工校对的时间,提高对新闻视 频检索的效果。 (51)Int.Cl. 权利要求书2页 说明书5页 附图1页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 5 页 附图 1 页 1/2页 2 1.一种新闻视频字幕标注方法,其特征在于,包括以下步骤: A、采。
3、集新闻视频; B、对所述新闻视频进行解码,获得单帧的视频图像; C、从所述视频图像中提取候选字幕区域,进行新闻字幕区域定位; D、将所述新闻字幕区域与新闻模板库中的模板图像进行匹配,如果匹配,则转至步骤 E,如果不匹配,则转至步骤F; E、按照模板图像标注格式对所述新闻字幕区域进行标注; F、对所述新闻字幕区域进行标注。 2.根据权利要求1所述的一种新闻视频字幕标注方法,其特征在于,步骤F进一步还包 括以下步骤: 将对所述新闻字幕区域的标注结果存储到新闻模板库中。 3.根据权利要求1所述的一种新闻视频字幕标注方法,其特征在于,步骤A中,采用电 脑和电视卡的方式采集新闻视频。 4.根据权利要求1。
4、所述的一种新闻视频字幕标注方法,其特征在于,步骤C中从所述视 频图像中提取候选字幕区域进一步包括以下步骤: C1、对所述视频图像进行灰度变换,生成灰度图像; C2、对所述灰度图像中的角点进行检测,删除背景中的角点; C3、将剩下的角点进行合并,生成候选字幕区域。 5.根据权利要求4所述的一种新闻视频字幕标注方法,其特征在于,步骤C1中,按照下 述公式进行灰度变换: L(x,y)=0.3R(x,y)+0.59G(x,y)+0.11* B(x,y),其中,L(x,y)为像素点(x,y)的 灰度值,R(x,y)、G(x,y)和B(x,y)为像素点(x,y)的RGB颜色中的红、绿和蓝分量。 6.根据权。
5、利要求4所述的一种新闻视频字幕标注方法,其特征在于,步骤C2中进一步 包括以下步骤: 将所述灰度图像中孤立的角点滤除; 通过两帧相邻的视频图像的灰度图像进行比对,保留两帧相邻的视频图像的灰度图像 的公共角点集合。 7.根据权利要求1所述的一种新闻视频字幕标注方法,其特征在于,步骤C中进行新闻 字幕区域定位进一步包括以下步骤: 采用Sobel边缘对所述候选字幕区域进行垂直和水平方向的分解,确定所述候选字幕 区域的垂直和水平方向。 8.根据权利要求1所述的一种新闻视频字幕标注方法,其特征在于,步骤C与步骤D中 间还对所述新闻字幕区域进行验证,过滤掉不符合以下至少一个规则的字幕区域: 新闻视频中字幕。
6、的出现持续预定时间; 新闻视频中横向字幕出现在屏幕的下方区域; 字幕区域距离视频图像边界有预定的距离,字幕区域的上下左右边界距视频图像边界 大于预定的像素点; 字幕框高度大于最小的字幕高度和小于最大的字幕高度; 视频图像中的标题字幕颜色与背景颜色有预设的对比度。 权 利 要 求 书CN 102780856 A 2/2页 3 9.根据权利要求1所述的一种新闻视频字幕标注方法,其特征在于,步骤D中,提取所 述新闻字幕区域中的文字和背景的颜色纹理特征,与新闻模板库中的模板图像的特征进行 匹配。 10.根据权利要求1所述的一种新闻视频字幕标注方法,其特征在于,步骤E中,按照模 板图像标注格式对所述新闻。
7、字幕区域进行标注的格式是分层次的,每一层次对应的信息是 根据新闻的内容设定的,所述信息在视频的索引中以不同的权重出现。 权 利 要 求 书CN 102780856 A 1/5页 4 一种新闻视频字幕标注方法 技术领域 0001 本发明涉及视频内容分析技术领域,尤其涉及一种新闻视频字幕标注方法。 背景技术 0002 随着信息时代的发展,视频资料的增多,日益呈现海量化的规模。视频内容同其它 类型内容相比,具备更为生动的展现形式,承载了更为丰富的信息。为了实现对视频信息的 高效访问,方便人们对其高效浏览和检索,视频处理和检索工具的研制成为当务之急。视频 是集图像、声音、文字为一体的,其中视频中的字幕。
8、是视频高层语意内容的一个重要来源, 如新闻的标题、内容提示信息、播出时的时间、旁白、节目后的致谢和工作人员名单等都包 含了丰富的高层语意信息。提取视频中的字幕信息对大量视频的自动化管理,对利用成熟 的文本检索技术进行视频检索具有重要的意义。 0003 新闻视频作为视频数据中最具有代表性的媒体之一,广泛地受到人们的关注。而 随着新闻视频数据的大量而快速地增加,导致了人们迫切需要一个快速、有效的基于内容 的浏览和检索系统。在新闻视频中字幕具有明确、丰富的信息,有助于人对新闻视频语义内 容的理解,是新闻视频语义信息获取的一条重要途径。同时还为新闻视频索引和视频分类 提供了重要的信息,因此新闻视频字幕。
9、的自动检测具有重要意义。新闻视频中出现的字幕 主要有下面几种形式:新闻的标题,重要信息提示字幕(新闻记者,新闻的地点和新闻中人 物地点的提示),语音提示字幕和滚动的实时信息提示。这些字幕中滚动的实时信息提示字 幕可能与新闻本身关系不大,其他都对新闻的标注有重要的作用。 0004 传统的新闻视频中字幕的标注方法一般有两种,一是人工标注,就是通过采用简 单的标注工具,通过标注人员对新闻视频反复浏览,找出新闻视频中出现的字幕信息,对其 中的重要信息进行简单的标注。二是通过计算机程序自动对新闻视频字幕检测和识别,对 新闻视频中的全部字幕进行统一处理,然后由人工对识别的结果进行校正。程序提取新闻 视频字。
10、幕一般是通过对视频解码,通过对视频帧进行分析,比如采用基于连通域的方法,基 于纹理的方法,基于边缘的方法或基于对字幕块特征建立分类器的方法对视频中的字幕进 行定位,然后对定位的字幕块进行识别,最后识别的结果由人工进行确认形成统一格式的 视频内容文本信息标注结果。 0005 现有的字幕标注技术没有考虑到新闻视频的特点,新闻视频一般都有标准格式或 自己固定的格式,而且这个格式一般也很长时间都不会更新。这些格式一般包括新闻标题 的位置,字体颜色大小,背景的颜色等都固定,还有其中的提示字幕也固定位置或横竖方向 等。通用的字幕标注技术中没有对这些类型加以区分,只要是新闻中出现的字幕,系统都会 自动定位识。
11、别。让这些字幕的信息量的等级没有区分,从而降低了字幕所提供的信息量。这 样的标注不利于人工后期的校对也不利于视频信息的检索,当然也更不利于读者对这些新 闻视频的浏览。 0006 人工标注的方式能保证信息的准确,但是人工标注的销量低下,成本高,而且所能 提取的信息有限。同时随着数据量上飞速的增长,这种方式的让标注变成不可接受的方式。 说 明 书CN 102780856 A 2/5页 5 计算机程序自动定位识别然后辅助人工校对的方法,在视频字幕提取方法中,基于连通域 能快速定位字幕区域,但对背景复杂度敏感;基于纹理算法实现简单,但是由于视频中相近 纹理区域影响使得检测的准确率低;基于边缘的方法计算。
12、复杂度低,但很依赖视频字幕的 背景;还有一些基于统计建立分类器的方法,太依赖于训练样本。现有的视频字幕处理方法 中都存在各自的问题,很难找到一种方法能应对目前新闻视频的情况。而且现有的系统没 有充分利用新闻视频的特点,仅从一个通用的视频字幕标注考虑,泛发型不好还有没有考 虑到视频中字幕的不同类型。结果导致视频字幕自动定位和识别的效果很不理想,导致最 后人工校对的工作量增加,从而增大了标注的成本。 发明内容 0007 本发明的目的在于提出一种新闻视频字幕标注方法,能够提高视频中字幕标注的 准确率,减少人工校对的时间,提高对新闻视频检索的效果。 0008 为达此目的,本发明采用以下技术方案: 一种。
13、新闻视频字幕标注方法,包括以下步骤: A、采集新闻视频; B、对所述新闻视频进行解码,获得单帧的视频图像; C、从所述视频图像中提取候选字幕区域,进行新闻字幕区域定位; D、将所述新闻字幕区域与新闻模板库中的模板图像进行匹配,如果匹配,则转至步骤 E,如果不匹配,则转至步骤F; E、按照模板图像标注格式对所述新闻字幕区域进行标注; F、对所述新闻字幕区域进行标注。 0009 步骤F进一步还包括以下步骤: 将对所述新闻字幕区域的标注结果存储到新闻模板库中。 0010 步骤A中,采用电脑和电视卡的方式采集新闻视频。 0011 步骤C中从所述视频图像中提取候选字幕区域进一步包括以下步骤: C1、对所。
14、述视频图像进行灰度变换,生成灰度图像; C2、对所述灰度图像中的角点进行检测,删除背景中的角点; C3、将剩下的角点进行合并,生成候选字幕区域。 0012 步骤C1中,按照下述公式进行灰度变换: L(x,y)=0.3R(x,y)+0.59G(x,y)+0.11* B(x,y),其中,L(x,y)为像素点(x,y)的 灰度值,R(x,y)、G(x,y)和B(x,y)为像素点(x,y)的RGB颜色中的红、绿和蓝分量。 0013 步骤C2中进一步包括以下步骤: 将所述灰度图像中孤立的角点滤除; 通过两帧相邻的视频图像的灰度图像进行比对,保留两帧相邻的视频图像的灰度图像 的公共角点集合。 0014 步。
15、骤C中进行新闻字幕区域定位进一步包括以下步骤: 采用Sobel边缘对所述候选字幕区域进行垂直和水平方向的分解,确定所述候选字幕 区域的垂直和水平方向。 0015 步骤C与步骤D中间还对所述新闻字幕区域进行验证,过滤掉不符合以下至少一 说 明 书CN 102780856 A 3/5页 6 个规则的字幕区域: 新闻视频中字幕的出现持续预定时间; 新闻视频中横向字幕出现在屏幕的下方区域; 字幕区域距离视频图像边界有预定的距离,字幕区域的上下左右边界距视频图像边界 大于预定的像素点; 字幕框高度大于最小的字幕高度和小于最大的字幕高度; 视频图像中的标题字幕颜色与背景颜色有预设的对比度。 0016 步骤。
16、D中,提取所述新闻字幕区域中的文字和背景的颜色纹理特征,与新闻模板 库中的模板图像的特征进行匹配。 0017 步骤E中,按照模板图像标注格式对所述新闻字幕区域进行标注的格式是分层次 的,每一层次对应的信息是根据新闻的内容设定的,所述信息在视频的索引中以不同的权 重出现。 0018 采用了本发明的技术方案,利用新闻视频固定的格式,通过字幕模板的方法和分 层次的方法对新闻视频中的字幕进行标引,尽可能地挖掘新闻视频中的字幕信息,从而提 高了视频中字幕标注的准确率,减少了人工校对的时间,提高了对新闻视频检索的效果。 附图说明 0019 图1是本发明具体实施方式中新闻视频字幕标注的流程图。 具体实施方式。
17、 0020 下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。 0021 图1是本发明具体实施方式中新闻视频字幕标注的流程图。如图1所示,该新闻 视频字幕标注的流程包括以下步骤: 步骤101、采集新闻视频。新闻视频的录制和采集阶段,对于电视节目,采用电脑加电视 卡的方案,可以边采集边存储;采集阶段系统通过采集配置计划对视频流进行定向采集,然 后对采集的视频数据进行视频内容分析。 0022 步骤102、对新闻视频进行解码,获得单帧的视频图像。 0023 步骤103、对每一帧视频图像进行灰度变换,生成灰度图像,按照下述公式进行灰 度变换: L(x,y)=0.3R(x,y)+0.59G(x。
18、,y)+0.11* B(x,y),其中,L(x,y)为像素点(x,y)的 灰度值,R(x,y)、G(x,y)和B(x,y)为像素点(x,y)的RGB颜色中的红、绿和蓝分量。 0024 步骤104、对生成的灰度图像中的角点进行检测,删除背景中的角点。 0025 由于视频图像中所有边界曲率足够高的点都会被判断成是角点,因此在视频图像 的角点分布图中除了含有字幕区域的角点之外,还可能存在一些背景留下的角点。为了提 高字幕区域检测的准确率,先将角点分布图中孤立的角点滤除,这样可以避免噪声积累,减 少最后提取结果中的噪声。由于视频中同一字幕会接连出现在多个视频图像中并且位置通 常不会发生变化,而视频图像。
19、的背景则变化相对较大,这样就会导致如果相邻的两个视频 图像中含有相同的字幕,则这两幅视频图像的字符对应的角点的坐标位置不会发生变化, 而背景像素留下的角点的坐标值会发生变化,这就可以通过寻找两个相邻视频图像的公共 说 明 书CN 102780856 A 4/5页 7 角点集合(这个集合是一个包含字幕角点的准最小集合,因为这个集合仍然含有一些固定 不变的背景角点)过滤掉很大一部分背景像素留下的角点,从而大大降低了误检率。在对角 点过滤算法进行实现时,为了提高匹配的速度,需要先对相邻两个视频图像角点集合中的 每个角点按照x或者y坐标值的大小进行排序,然后再找出两个角点集合中x、y坐标值相 同的角点。
20、。由于在字幕区的角点几乎是均匀分布的,且一般的字幕区域是矩形,所以孤立的 角点可以删除。为了形成候选字幕区域,彼此水平或垂直接近的角点合并。为合并后的面 积可能比实际的小,所以适当的扩张几次,最后确定相同的候选字幕区域。 0026 步骤105、为了将提取的候选字幕区域进一步分解,采用Sobel边缘对候选字幕 区域进行垂直和水平方向的分解,通过边缘区域的分解确定候选字幕区域的垂直和水平方 向。 0027 步骤106、对新闻字幕区域进行验证。经过垂直和水平分解后的结果,接下来每个 区域扩展到它的外接矩形。此时候选字幕区域已经很接近真实的字幕框了。本步骤中主要 利用一些新闻中字幕的特征有针对性的处理。
21、。新闻视频中的字幕出现具有特定的一些规 律,可以通过这些规律,过滤掉不符合以下至少一个规则的字幕区域: 新闻视频中字幕的出现持续预定时间; 新闻视频中横向字幕出现在屏幕的下方区域; 字幕区域距离视频图像边界有预定的距离,字幕区域的上下左右边界距视频图像边界 大于预定的像素点; 字幕框高度大于最小的字幕高度和小于最大的字幕高度; 视频图像中的标题字幕颜色与背景颜色有预设的对比度。 0028 以上规则可以过滤很多过小,过大,或是垂直水平比率过小的非字幕框。但是误报 依然存在,后续结合sobel特征减少误报。这里应该提到上述约束可以筛选出包含大量的 水平边缘点,但很少有垂直边缘点,或包含大量的垂直边。
22、缘点,但很少有横向边缘点的候选 字幕区域。最后,使用基于单字幕行的特征分析来减少误报警。 0029 步骤107、提取新闻字幕区域中的文字和背景的颜色纹理特征,与新闻模板库中的 模板图像的特征进行匹配,如果匹配,则转至步骤108,如果不匹配,则转至步骤109。 0030 在本系统中模板库的建立主要有两个阶段,系统前期就是用人工的手段,主要对 需要标注新闻视频的格式,通过人工选出每个节目中有代表的字幕信息图片作为模板图 片,然后对该图片标上相应的格式。比如中央一套的新闻联播,相应的标注格式为标题块及 其标题出现的区域,横向提示字幕信息,竖向提示字幕信息和说话内容字幕信息等。后期随 系统的运行,模板。
23、的定位准确程度提高,仅仅需要人工对非模板内候选图片进行人工确认 即可。根据需要处理新闻视频的量决定是否加入新的模板。为了减少人工的标注的工作量, 系统目前只需标注模板图片中相应字幕出现的位置即可。 0031 步骤108、按照模板图像标注格式对新闻字幕区域进行标注。就是按模板库中模板 图片标注格式系统自动对该候选图片进行标注。该标注格式是层次的,每一层次对应的信 息都是由人工根据新闻的内容设定的,比如节目内容字幕,新闻标题,重要信息提示字幕, 说话内容字幕等。这些信息会在视频的索引中以不同的权重出现。同时由于模板信息,比 如字幕的颜色,字幕的背景可能是固定,这些信息对字幕识别有很大帮助。有模板标。
24、注的字 幕识别的性能远远好于非模板标注的字幕。 说 明 书CN 102780856 A 5/5页 8 0032 步骤109、对新闻字幕区域进行标注。这类图片主要有以下几种形式,一是新闻视 频中不常规的字幕信息,比如可能是视频内容中的字幕;二是新的新闻节目,比如没有标注 的新的新闻节目或改版的新闻节目。系统会根据字体的大小和横竖的方向信息对其中的字 幕标注,字体大的字幕和竖向字幕在新闻视频中可能有更重要的作用。 0033 步骤110、将步骤109对非模板的新闻字幕区域的标注结果存储到新闻模板库中, 或者认定为一般字幕。 0034 步骤111、系统会把定位和识别的结果导入到编辑系统,编辑系统利用丰富的候选 结果和似然值信息,系统会突出显示识别得分低的位置。 0035 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此, 任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖 在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。 说 明 书CN 102780856 A 1/1页 9 图1 说 明 书 附 图CN 102780856 A 。