一种新闻节目视频分段方法及系统.pdf

摘要
申请专利号：	CN201010123111.3	申请日：	2010.02.25
公开号：	CN101790049A	公开日：	2010.07.28
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回IPC(主分类):H04N 5/262申请公布日:20100728\|\|\|实质审查的生效IPC(主分类):H04N 5/262申请日:20100225\|\|\|公开
IPC分类号：	H04N5/262	主分类号：	H04N5/262
申请人：	深圳市茁壮网络股份有限公司
发明人：	徐佳宏; 肖友能; 陈金鸿
地址：	518002 广东省深圳市罗湖区沿河北路1002号京广中心办公楼12楼01-07单元
优先权：
专利代理机构：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	彭愿洁;李文红
PDF下载：	PDF下载

内容摘要

本发明公开了一种新闻节目视频分段方法及系统。一种新闻节目视频分段方法，包括：对视频文件进行分析，检测视频文件中的关键帧，所述关键帧为：视频图像中场景变化处的帧；检测所述关键帧中的播音员帧，所述播音员帧为：具有播音员在播音室场景图像的帧；以所检测出的播音员帧作为分段依据，对视频文件进行分段处理。本发明利用新闻节目的固有特点，应用图像识别技术确定一些特定的视频帧作为对视频进行分段的依据，可以实现对新闻节目视频的自动分段，从而有效减少视频分段工作的人力和时间投入，提高处理效率。

权利要求书

1：一种新闻节目视频分段方法，其特征在于，包括：对视频文件进行分析，检测视频文件中的关键帧，所述关键帧为：视频图像中场景变化处的帧；检测所述关键帧中的播音员帧，所述播音员帧为：具有播音员在播音室场景图像的帧；以所检测出的播音员帧作为分段依据，对视频文件进行分段处理。
2：根据权利要求1所述的方法，其特征在于，所述检测关键帧中的播音员帧，包括：将关键帧图像与播音环境标准图像进行匹配，如果相似度大于预置的阈值，则将所述关键帧确定为播音员帧。
3：根据权利要求1所述的方法，其特征在于，所述检测关键帧中的播音员帧，包括：对所述关键帧图像进行人脸检测，如果检测出的人脸区域与预置的播音员位置匹配，则将所述关键帧确定为播音员帧。
4：根据权利要求1至3任一项所述的方法，其特征在于，进一步包括：检测所述关键帧中的标题帧，所述标题帧为：具有新闻标题字幕图像的帧；以所检测出的标题帧作为分段依据，对视频文件进行分段处理。
5：根据权利要求4所述的方法，其特征在于，进一步包括：对标题帧图像的字幕区域进行文字识别，以获得的文本信息作为视频分段的标题。
6：一种新闻节目视频分段系统，其特征在于，包括：关键帧检测单元，用于对视频文件进行分析，检测视频文件中的关键帧，所述关键帧为：视频图像中场景变化处的帧；播音员帧检测单元，用于检测所述关键帧中的播音员帧，所述播音员帧为：具有播音员在播音室场景图像的帧；分段单元，用于以所检测出的播音员帧作为分段依据，对视频文件进行分段处理。
7：根据权利要求6所述的系统，其特征在于，所述播音员帧检测单元包括：第一匹配子单元，用于将关键帧图像与播音环境标准图像进行匹配，如果相似度大于预置的阈值，则将所述关键帧确定为播音员帧。
8：根据权利要求6所述的系统，其特征在于，所述播音员帧检测单元包括：第二匹配子单元，用于对所述关键帧图像进行人脸检测，如果检测出的人脸区域与预置的播音员位置匹配，则将所述关键帧确定为播音员帧。
9：根据权利要求6至8任一项所述的系统，其特征在于，进一步包括：标题帧检测单元，用于检测所述关键帧中的标题帧，所述标题帧为：具有新闻标题字幕图像的帧；所述分段单元，还用于以所检测出的标题帧作为分段依据，对视频文件进行分段处理。
10：根据权利要求9所述的系统，其特征在于，进一步包括：字幕文字识别单元，用于对标题帧图像的字幕区域进行文字识别，以获得的文本信息作为视频分段的标题。

说明书

一种新闻节目视频分段方法及系统
    【技术领域】

    本发明涉及多媒体处理技术领域，特别是涉及一种新闻节目视频分段方法及系统。

    背景技术

    新闻节目是一种人们日常生活中经常接触的节目类型，随着多媒体和网络技术的发展，用户收看新闻节目的途径已经不仅局限于电视播放，而是可以通过下载或者点播等多种形式观看新闻节目。

    和观看其他类型视频一样，很多情况下，用户可能并不需要每次都观看完整的新闻节目内容，而只关注其中的一些新闻片段。为了满足上述应用需求，一种常用的实现方式是，用户在播放视频时，通过“快进”、“快退”等操作，或者直接拖动播放进度条，找到特定的视频播放时间点。但是，通常情况下用户并不知道自己想要观看的视频片段应该在整个视频的什么位置，也就无法准确定位播放时间点，这样用户可能需要多次的调整操作才能找到自己需要的内容位置。

    新闻节目一般是由多条新闻内容组合而成，存在着较为明显的分段依据。基于新闻节目的这种特点，可以将新闻节目视频预先划分成若干个段落，并加以适当的索引，以满足用户的选择播放需求。现有的新闻节目分段是主要是基于人工操作的方式，即由操作人员在视频文件中手工标记出分段点，这就要求操作人员首先要浏览过全部的新闻视频，工作量大且繁琐，处理效率较低。

    【发明内容】

    为解决上述技术问题，本发明提供一种新闻节目视频分段方法及系统，以实现对新闻节目视频的自动分段，技术方案如下：

    一种新闻节目视频分段方法，包括：

    对视频文件进行分析，检测视频文件中的关键帧，所述关键帧为：视频图像中场景变化处的帧；

    检测所述关键帧中的播音员帧，所述播音员帧为：具有播音员在播音室场景图像的帧；

    以所检测出的播音员帧作为分段依据，对视频文件进行分段处理。

    一种新闻节目视频分段系统，包括：

    关键帧检测单元，用于对视频文件进行分析，检测视频文件中的关键帧，所述关键帧为：视频图像中场景变化处的帧；

    播音员帧检测单元，用于检测所述关键帧中的播音员帧，所述播音员帧为：具有播音员在播音室场景图像的帧；

    分段单元，用于以所检测出的播音员帧作为分段依据，对视频文件进行分段处理。

    本发明所提供的技术方案，利用新闻节目的固有特点，应用图像识别技术确定一些特定的视频帧作为对视频进行分段的依据，其中，作为分段依据的特定视频帧可以是播音员帧或标题帧。应用本发明技术方案，可以实现对新闻节目视频的自动分段，从而有效减少视频分段工作的人力和时间投入，提高处理效率。

    【附图说明】

    为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

    图1为新闻节目编排方式示意图；

    图2为本发明的新闻节目视频分段方法流程图；

    图3为本发明关键帧检测结果示意图；

    图4(a)为新闻节目中的一种播音员位置示意图；

    图4(b)为新闻节目中的另一种播音员位置示意图；

    图5为本发明的播音员帧检测结果示意图；

    图6为新闻节目中的标题字幕区域示意图；

    图7为本发明标题帧检测结果示意图；

    图8为本发明播音员帧与标题帧的检测结果示意图；

    图9为本发明建立节目分段的示意图；

    图10为本发明的新闻节目视频分段系统的结构示意图；

    图11为本发明的新闻节目视频分段系统的另一种结构示意图。

    【具体实施方式】

    通过对现有技术的研究，发明人发现：新闻节目具有以下特点：一个完整的新闻节目，一般是由若干个新闻片段组成，每个新闻片段在开始的时候由电视台播音员做导播、然后是新闻的具体内容和画面；然后是下一个新闻片段的导播、下一个新闻片段的具体内容和画面；......以此规律重复，如图1所示。可见，尽管每个新闻片段的时长不同，但是其编排方式是有一定的规律可循地，根据这种规律，“播音员”在做新闻分段时，是一个很重要的线索。找到了播音员，就能很快找到一个新闻片段的边界。本发明则是基于这一规律，结合图像处理等技术，实现对新闻节目视频的自动分段。

    为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

    参见图2所示，本发明所提供的新闻节目视频的分段方法可以包括以下步骤：

    S201，对视频文件进行分析，检测视频文件中的关键帧；

    首先选择待处理的视频文件，打开视频文件后可对其进行快速分析，这时系统通过镜头分割提取出视频中的关键帧。这里所述的关键帧是通过分析视频中镜头变换或前后图像变化剧烈的小片段来获取的，因为同一个场景中前后帧图像的变化往往很小，所以通过此方法可使场景划分更加准确，同时减少冗余。可以将关键帧图像显示出来形成节目的故事板，如图3所示，使流式节目变成可非线性浏览的图像列表。

    S202，检测关键帧中的播音员帧；

    根据本说明书前面的分析可知，“播音员”是做新闻分段的一个重要线索，播音员出现的场景，可以认为是一个新闻片段的开始。在S201中，已经检测到了整个视频中涉及场景变换的关键帧，那么，通过在这些关键帧中进一步找出具有播音员在播音室场景图像的帧，就可以将其作为视频分段的依据。

    对播音员帧的检测，可以通过图像匹配和/或人脸检测等方式实现。

    以新闻联播为例，新闻播音室的环境在较长的时期内都是固定不变的，因此可以预先选取一张播音环境的标准图片，将关键帧图片分别与其进行匹配运算，其中，匹配运算可以依据图像灰度值、直方图等参数来进行。通过进行匹配，可以将相似度大于某个预置阈值的关键帧确定为播音员帧。

    同理，在新闻节目的导播场景中，播音员的位置也是固定的，一般包括两种形式：一人居中或两人分别占据左右，如图4(a)和图4(b)所示。根据这一规律，可以对关键帧图像进行人脸检测，如果检测出关键帧中包含人脸，并且人脸所在的区域符合上述两种情况，则可以将关键帧确定为播音员帧。

    可以理解的是，在实际应用中，为了获得更好的播音员帧的检测效果，也可以将上述两种方式进行结合：首先通过播音环境标准图片与关键帧的图像的对比，筛选出与播音室标准图片相似度高的帧。再对筛选结果进行人脸检测，获得画面中的人脸区域位置，最后找出人脸区域处于特定位置的帧。这样，通过多次筛选，可以使检测结果更为准确。另一方面，人脸检测需要消耗大量的系统资源，而对筛选后的关键帧进行人脸检测处理，可以有效减少人脸检测的数据量，从而获得更快的检测速度。

    播音员帧的检测结果如图5所示，其中，图像中的人头标识表示该帧为播音员帧，图像下方的数字表示帧的编号。

    S203，以所检测出的播音员帧作为分段依据，对视频文件进行分段处理。

    检测出播音员帧后，就可以以这些播音员帧作为分段依据，对视频文件进行分段处理。例如，以每个播音员帧作为分段的起始点，建立播放索引。当然，在实际操作时，也可以对检测到的播音员帧再进行手工微调，本发明对此并不进行限定。

    在新闻节目中，一般对应每段新闻内容，都会在该段内容播放时显示新闻标题字幕，而标题字幕的显示一般也是在场景变换之后，基于这一特点，在本发明的另一个实施例中，还可以进一步将具有新闻标题字幕图像的帧也作为视频分段的依据。

    参见图6所示，以新闻联播为例，新闻标题落在白色底色区域上，且标题固定出现在图像底部。可通过直接判断特殊帧是否存在白底区域来确定是否存在标题区域。由于标题可能是一行或多行，所以区域位置并不是固定在某个高度。由于自然图像中出现水平线的几率非常低，系统通过将图像转换为灰度图像SOBEL算子图像，检测出边缘水平线位置来初步定位标题区域所在位置，然后通过匹配标题区域内背景色再次确认是否标题区域。当然，根据具体新闻节目画面设计的不同，也可以选用其他的标题帧检测方式，本发明对此不需进行限定。

    标题帧的检测结果如图7所示，其中，图像中的“T”标识表示该帧为标题帧，图像下方的数字表示帧的编号。

    由于每段新闻都有其相应的标题帧，因此，与播音员帧类似的，也可以利用标题帧来作为对新闻节目视频分段的依据。当然，在实际情况中，也可以结合这两种特殊的帧类型来实现对新闻节目视频的分段。并且，可以理解的是，某些帧也可能既是播音员帧，同时也是标题帧，如图8所示。

    在根据特殊帧确定节目分段的起始位置之后，可以进一步为节目分段附加其他信息。如图9所示，为一种建立节目分段的示意图。在图的右上方列出了一些可作为片段海报的预览图片，用户可以自行在其中选择一张合适的图片作为片段海报。片段的标题，可以由用户自行输入，也可以通过对标题帧图像的字幕区域进行文字识别，以获得的文本信息作为视频分段的标题。进一步的，用户也可以对新闻片段的内容进行文字编辑，其中，由于新闻播音员的发音都非常标准，因此也可以通过语音识别技术，将播音内容自动转换为文本信息，用户可以直接对所生成的文本进行适度编辑截取，作为新闻片段的内容简介。

    相应于上面的方法实施例，本发明还提供一种新闻节目视频分段系统，参见图10所示，包括：

    关键帧检测单元1001，用于对视频文件进行分析，检测视频文件中的关键帧，所述关键帧为：视频图像中场景变化处的帧；

    播音员帧检测单元1002，用于检测所述关键帧中的播音员帧，所述播音员帧为：具有播音员在播音室场景图像的帧；

    分段单元1003，用于以所检测出的播音员帧作为分段依据，对视频文件进行分段处理。

    其中，所述播音员帧检测单元可以包括第一匹配子单元或第二匹配子单元：

    第一匹配子单元，用于将关键帧图像与播音环境标准图像进行匹配，如果相似度大于预置的阈值，则将所述关键帧确定为播音员帧。

    第二匹配子单元，用于对所述关键帧图像进行人脸检测，如果检测出的人脸区域与预置的播音员位置匹配，则将所述关键帧确定为播音员帧。

    参见图11所示，上述系统还可以进一步包括：

    标题帧检测单元1004，用于检测所述关键帧中的标题帧，所述标题帧为：具有新闻标题字幕图像的帧；

    所述分段单元1003，还可以以标题帧检测单元1004所检测出的标题帧作为分段依据，对视频文件进行分段处理。

    字幕文字识别单元1005，用于对标题帧图像的字幕区域进行文字识别，以获得的文本信息作为视频分段的标题。

    为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

    通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

    本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

    本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

    本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

    以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。