一种基于视频标题和内容的视频过滤方法和系统.pdf

上传人:Y94****206 文档编号:6180853 上传时间:2019-05-17 格式:PDF 页数:11 大小:437.90KB
返回 下载 相关 举报
摘要
申请专利号:

CN201310631404.6

申请日:

2013.12.02

公开号:

CN103678527A

公开日:

2014.03.26

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20131202|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

TCL集团股份有限公司

发明人:

刘世才; 毛海涛; 宋轲

地址:

516001 广东省惠州市鹅岭南路6号TCL工业大厦8楼技术中心

优先权:

专利代理机构:

深圳市君胜知识产权代理事务所 44268

代理人:

王永文;刘文求

PDF下载: PDF下载
内容摘要

本发明公开了一种基于视频标题和内容的视频过滤方法和系统,通过对视频的标题进行拆词,计算标题的相似度和比较视频流的相似度。并将标题的相似度和视频流的相似度作为组合条件进行视频过滤,达到视频去重的效果。从而可以对相似度高的视频新闻进行有效过滤,最大限度的去掉一些类似的视频新闻,让用户在有限时间内观看到的新闻都是当日的头条新闻,为用户带来更好的体验。

权利要求书

权利要求书
1.  一种基于视频标题和内容的视频过滤方法,其特征在于,包括:
获取两则视频;
比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。

2.  根据权利要求1所述的基于视频标题和内容的视频过滤方法,其特征在于,所述过滤掉其中一则视频步骤中,包括:
进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视频;
其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。

3.  根据权利要求1所述的基于视频标题和内容的视频过滤方法,其特征在于,比较两则视频的视频内容是否一致具体包括:
A、根据两则视频的播放地址,分别获取与所述播放地址对应的视频信息文件,并从所述视频信息文件里面获取两则视频的视频地址;
B、根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较;
C、若两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。

4.  根据权利要求3所述的基于视频标题和内容的视频过滤方法,其特征在于,所述步骤B中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。

5.  根据权利要求1所述的基于视频标题和内容的视频过滤方法,其特征在于,预先设定的匹配度阈值为60%。

6.  一种基于视频标题和内容的视频过滤系统,其特征在于,包括:
提取单元,用于获取两则视频;
第一过滤单元,用于比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
第二过滤单元,用于判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。

7.  根据权利要求6所述的基于视频标题和内容的视频过滤系统,其特征在于,所述第一过滤单元中过滤掉其中一则视频具体包括:
比较模块,用于进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视频;
其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。

8.  根据权利要求6所述的基于视频标题和内容的视频过滤系统,其特征在于,所述第二过滤单元中比较两则视频的视频内容是否一致具体包括:
视频地址获取模块,用于根据两则视频的播放地址,分别获取与所述播放地址对应的视频信息文件,并从所述视频信息文件里面获取两则视频的视频地址;
数据流获取模块,用于根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较;
判断模块,用于当两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。

9.  根据权利要求8所述的基于视频标题和内容的视频过滤系统,其特征在于,所述数据流获取模块中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。

10.  根据权利要求6所述的基于视频标题和内容的视频过滤系统,其特征在于,预先设定的匹配度阈值为60%。

说明书

说明书一种基于视频标题和内容的视频过滤方法和系统
技术领域
本发明涉及视频比对技术领域,特别涉及一种基于视频标题和内容的视频过滤方法和系统。 
背景技术
为了使用户更快、更多、更准确地获取最新的新闻视频内容,如何抓取各大视频网站最新的新闻并及时的推荐给用户成为当前的研究方向之一。
但是这种从各大视频网站聚合的新闻,内容相似的非常多。比如:同样是禽流感的新闻,可能存在多个新闻都是介绍禽流感的,用户观看起来就很乏味,因此,需要对抓取的视频新闻进行分析,对相似内容进行有效过滤。
有鉴于此,现有技术还有待改进和提高。 
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种基于视频标题和内容的视频过滤方法和系统,以解决现有各大视频网站聚合的新闻视频内容重复率高,不利于向用户推送的问题。
为了达到上述目的,本发明采取了以下技术方案:
一种基于视频标题和内容的视频过滤方法,其中,包括:
获取两则视频;
比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
所述的基于视频标题和内容的视频过滤方法,其中,所述过滤掉其中一则视频步骤中,包括:
进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视频;
其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。
所述的基于视频标题和内容的视频过滤方法,其中,比较两则视频的视频内容是否一致具体包括:
A、根据两则视频的播放地址,分别获取与所述播放地址对应的视频信息文件,例如m3u文件,并从所述视频信息文件里面获取两则视频的视频地址;
B、根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较;
C、若两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。
所述的基于视频标题和内容的视频过滤方法,其中,所述步骤B中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。
所述的基于视频标题和内容的视频过滤方法,其中,预先设定的匹配度阈值为60%。
一种基于视频标题和内容的视频过滤系统,其中,包括:
提取单元,用于获取两则视频;
第一过滤单元,用于比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
第二过滤单元,用于判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
所述的基于视频标题和内容的视频过滤系统,其中,所述第一过滤单元中过滤掉其中一则视频具体包括:
比较模块,用于进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视频;
其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。
所述的基于视频标题和内容的视频过滤系统,其中,所述第二过滤单元中比较两则视频的视频内容是否一致具体包括:
视频地址获取模块,用于根据两则视频的播放地址,分别获取与所述播放地址对应的视频信息文件,例如m3u文件,并从所述视频信息文件里面获取两则视频的视频地址;
数据流获取模块,用于根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较;
判断模块,用于当两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。
所述的基于视频标题和内容的视频过滤系统,其中,所述判断模块中当两则视频的视频标题一样, 进一步比较具有相同视频标题的视频的属性值,根据所述属性值确定过滤掉哪一则视频;其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。
所述的基于视频标题和内容的视频过滤系统,其中,预先设定的匹配度阈值为60%。
相较于现有技术,本发明提供的基于视频标题和内容的视频过滤方法和系统,通过对视频的标题进行拆词,计算标题的相似度和比较视频流的相似度。并将标题的相似度和视频流的相似度作为组合条件进行视频过滤,达到视频去重的效果。从而可以对相似度高的视频新闻进行有效过滤,最大限度的去掉一些类似的视频新闻,让用户在有限时间内观看到的新闻都是当日的头条新闻,为用户带来更好的体验。
附图说明
图1为本发明提供的基于视频标题和内容的视频过滤方法的流程图。
图2为本发明提供的基于视频标题和内容的视频过滤系统的结构框图。
具体实施方式
本发明提供一种基于视频标题和内容的视频过滤方法和系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参阅图1,其为本发明提供的基于视频标题和内容的视频过滤方法的流程图。如图所示,所述基于视频标题和内容的视频过滤方法包括:
S100、获取两则视频;
S200、比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
S300、判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
在步骤S100至S300只是其中两则视频进行比较的一个过程,当具有多个相同视频内容的多个视频源时候,分别进行两两比较,直到保留最后一则或者数则视频即可。
下面分别针对上述步骤进行描述:
步骤S100为获取两则视频。在本实施例中,以视频新闻为例,选取两则视频新闻。视频新闻的信息包括视频新闻的视频标题和视频内容。为了最大限度的去掉类似的视频新闻,我们从视频新闻的视频标题和视频内容入手进行过滤。
步骤S200为比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理。具体来说,我们直接通过标题比较去重:若两则视频新闻的标题完全一样,则过滤掉其中一帧。否则我们即对视频标题进行拆词处理。在本实施例中,所述拆词方法为使可用开源项目lucene的词库(在JAVA程序代码引入程序包lucene-core-2.4.1.jar,使用智能中文分词模块SmartChineseAnalyzer即可)进行拆词,比如:杰出人物(如:李东生)、明星(如:刘德华)等检索量大的词 ,按照正向拆分法对新闻标题进行切分。(正向拆分法:从前往后匹配。如:"湖南大学堂屋顶",正向拆分为"湖南 大学 堂屋 顶"。)
下面通过一个具体的例子来说明:有三个标题如下:
第一标题:北京至南宁高铁贯通 全程仅需10小时”
进行拆词后变成:[北京,南宁,高铁,全程,10,小时];
第二标题:北京至南宁全程贯通高铁啦!只要10小时[凤凰新闻网]
进行拆词后变成: [北京,南宁,全程,贯通,高铁,10,小时,凤凰,新闻, 网];
第三标题:衡柳高铁和柳南客运专线贯通 南宁到北京全程高铁10小时
进行拆词后变成: [衡柳,高铁,和,柳南,客运,专线,贯通,南宁,北京,全程,高铁,10,小时];
通过拆词匹配,我们可以看出:第一标题和第二、第三标题的匹配程度达到100%;第二标题和第三标题匹配程度(例如可以采用各个词匹配计数的方式衡量文字匹配相同的程度)达到85%。
进一步地,当两则视频的视频标题是一致时,需要过滤掉其中一则视频,保留其中一则视频。
为了保证保留的视频是最佳的(尤其是当视频个数较多时)视频。本发明的基于视频标题和内容的视频过滤方法进一步比较具有相同视频标题的视频的属性值,其中,所述视频的属性值包括:视频的连接速度、视频的清晰度等。每一属性具有不同的权重(所述权重的大小可以根据客户需要来设定),通过比较所述具有相同视频标题的视频的属性值,来确保保留下的视频是最佳的。举例来说,当两则视频的视频标题是一致的,那么我们先来判断两则视频的连接速度,当发现一则视频无法链接播放时,则过滤掉。若两则视频的连接速度相同,我们进一步比较两则视频的清晰度,过滤掉清晰度比较差的一则视频。当所有属性相同时,可随机滤掉一则视频。
步骤S300 为判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值(在本实施例中,所述匹配度的阈值为60%),若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。具体来说,预先设定一匹配度阈值,将拆词后的视频标题的匹配度与预先设定的匹配度阈值进行比较:若拆词后的视频标题的匹配度超过预先设定的匹配度阈值,则判断两则视频的视频标题基本一致,过滤掉其中一条视频,否则再对视频内容进行判断:比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
在本实施例中,比较两则视频的视频内容是否一致具体包括:
S110、根据两则视频的播放地址,分别获取与所述播放地址对应的视频信息文件,例如m3u文件,并从所述视频信息文件里面获取两则视频的视频地址;
其中,所述视频的播放地址为提供视频内容的地址,然后,根据所述播放地址对应的视频文件内容里面获取视频地址信息。一般来说,做视频推荐类的应用时候,使用的视频可以从优酷及土豆上获取的,其实它们也提供了开放的API,可以获取视频地址以及视频的多个标签,视频的同类视频推荐,视频同类目下的视频等,使用者可以直接去申请。
在本实施例中,所述播放地址优选为m3u8地址,其也是一种M3U地址,只是它的编码格式是UTF-8格式。m3u8地址是用来流播放,直播流或者点播形式,目的是实现时实性及保密性它会不让你获取它的视频所在地址。M3U本质上说不是音频文件,它是音频文件的列表文件,是纯文本文件。根据两则视频的m3u8地址,分别获取与所述m3u8地址对应的m3u8文件内容,并从所述文件内容里面获取两则视频的视频地址。
S120、根据两则视频的视频地址,下载并获取二进制的数据流(也称视频流)内容,并对数据流内容进行比较;以JAVA部分代码为例说明如下:
private boolean contentEquals(String address1, String address2) {
    InputStream is1 = null;
    InputStream is2 = null;
    URLConnection conn1 = null;
    URLConnection conn2 = null;
    try {
        URL url1 = new URL(address1);
        conn1 = url1.openConnection();
        conn1.setConnectTimeout(5000);
        is1 = conn1.getInputStream();
        URL url2 = new URL(address2);
        conn2 = url2.openConnection();
        conn2.setConnectTimeout(5000);
        is2 = conn2.getInputStream();
        if (IOUtils.contentEquals(is1, is2))
         return false;
    } catch (MalformedURLException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    } finally {
        IOUtils.close(conn1);
        IOUtils.close(conn2);
        IOUtils.closeQuietly(is1);
        IOUtils.closeQuietly(is2);
    }
    return true;
}
上述源码描述的是通过两则视频的视频地址,下载并获取二进制的数据流(也称视频流)内容,并对数据流内容进行比较的过程。
S130、若两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。
举例说明:
第一视频的m3u8地址、视频地址和视频流(即二进制的数据流)内容分别如下:
a1)    m3u8地址(即播放地址,下同):
http://v.youku.com/player/getRealM3U8/vid/XNTU0NjIxNjI0/type/mp4/video.m3u8
b1)    视频地址:
http://183.60.145.137/6573AB247393F81012EB6E2127/0300020200518BD10B0893076443B2EAA5E66C-C04F-E90B-EA30-8E2670F78AF2.flv.ts?ts_start=0&ts_end=6&ts_seg_no=0&ts_keyframe=1
c1)     视频流内容:
[-128, 0, 0, 1, 101, -120, -124, 1, -1, -96, -12, -80, 5, -21, 86, 46, -85, 64, -107, -20, 121, -81, 16, 96, 106, -30, 95, -31, 106, 92, -128, 104, -30, -64, -103, 20, -9, -3, 67, -31, -44, -80, -7, 115, -65, -109, -128, 104, -51, -74, -77, 4, -2, 71, … …]。
第二视频的m3u8地址、视频地址和视频流(即二进制的数据流)内容分别如下:
a2)    m3u8地址:
http://v.youku.com/player/getRealM3U8/vid/XNTU1OTIwNDMy/type/mp4/video.m3u8
b2)    视频地址:
http://119.147.103.25/6573C8B07C93381DEC31ED2F6C/0300020200518F9744860308FFF8B98B79AC98-7C6E-1222-F1D8-BCAFA9757802.flv.ts?ts_start=0&ts_end=6&ts_seg_no=0&ts_keyframe=1
c2)     视频流内容:
[-128, 0, 0, 1, 101, -120, -124, 1, -1, -96, -28, -116, 12, 55, -110, -71, 76, -46, -106, -52, -23, -56, -72, 65, -65, 38, -64, 99, 56, -6, -47, -36, -67, 52, -36, 98, 111, 106, -102, 115, 18, -107, 90, 79, 29, 14, 18, -4, 57, -11, 18, -5, -77, -66, 73… …]。
通过对第一视频和第二视频的两个视频流内容的比较,可以确定两个两个视频流内容不一致,从而确定第一视频和第二视频为不同的视频。
值得说明的是,这里比较的两个则视频流的内容指的是比较两则视频的相同播放位置,例如文件头或者文件尾部的二进制码流数据,其针对的是拷贝来源相同,压制格式相同的视频。当其压缩比不相同时候,可通过其他方式,例如通过图像分析的方法对两则视频的图像进行分析,并得出是否为同一内容的视频的判断。
本发明还相应提供一种基于视频标题和内容的视频过滤系统,如图2所示,其包括:
提取单元100,用于获取两则视频;
第一过滤单元200,用于比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
第二过滤单元300,用于判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
进一步地,所述的基于视频标题和内容的视频过滤系统中,所述第一过滤单元中对两则视频的视频标题进行拆词处理具体包括:
使用开源项目lucene的词库按照正向拆分法对视频标题进行切分。
进一步地,所述的基于视频标题和内容的视频过滤系统中,所述第一过滤单元中过滤掉其中一则视频具体包括:比较模块,用于进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视频;其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。
进一步地,所述的基于视频标题和内容的视频过滤系统中,所述第二过滤单元中比较两则视频的视频内容是否一致具体包括:
视频地址获取模块,用于根据两则视频的播放地址,分别获取与所述播放地址对应的视频信息文件,例如m3u文件,并从所述视频信息文件里面获取两则视频的视频地址;
数据流获取模块,用于根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较;
判断模块,用于当两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。
进一步地,所述的基于视频标题和内容的视频过滤系统中,所述数据流获取模块中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。比如,在本实施例中,使可用开源项目lucene的词库(在JAVA程序代码引入程序包lucene-core-2.4.1.jar,使用智能中文分词模块SmartChineseAnalyzer即可)进行拆词。
这里获取两则视频相同位置的二进制的数据流进行比较,值得说明的是,一般点播的视频文件最先加载的为视频文件头的内容,一般可比较文件头即可。
进一步地,所述的基于视频标题和内容的视频过滤系统中,预先设定的匹配度阈值为60%。
具体来说,所述匹配度阈值即为临界值,意思是在本发明的基于视频标题和内容的视频过滤系统中,若判断拆词后的视频标题之间的匹配度达到或者超过60%时,即认为拆词后的视频标题是一样的,过滤掉其中一则视频。
上述各个部分的功能都已经在上述方法中进行了详细介绍,这里就不再冗述了。
综上所述,本发明提供的基于视频标题和内容的视频过滤方法和系统,通过对视频的标题进行拆词,计算标题的相似度和比较视频流的相似度。并将标题的相似度和视频流的相似度作为组合条件进行视频过滤,达到视频去重的效果。从而可以对相似度高的视频新闻进行有效过滤,最大限度的去掉一些类似的视频新闻,让用户在有限时间内观看到的新闻都是当日的头条新闻,为用户带来更好的体验。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

一种基于视频标题和内容的视频过滤方法和系统.pdf_第1页
第1页 / 共11页
一种基于视频标题和内容的视频过滤方法和系统.pdf_第2页
第2页 / 共11页
一种基于视频标题和内容的视频过滤方法和系统.pdf_第3页
第3页 / 共11页
点击查看更多>>
资源描述

《一种基于视频标题和内容的视频过滤方法和系统.pdf》由会员分享,可在线阅读,更多相关《一种基于视频标题和内容的视频过滤方法和系统.pdf(11页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103678527 A (43)申请公布日 2014.03.26 CN 103678527 A (21)申请号 201310631404.6 (22)申请日 2013.12.02 G06F 17/30(2006.01) (71)申请人 TCL 集团股份有限公司 地址 516001 广东省惠州市鹅岭南路 6 号 TCL 工业大厦 8 楼技术中心 (72)发明人 刘世才 毛海涛 宋轲 (74)专利代理机构 深圳市君胜知识产权代理事 务所 44268 代理人 王永文 刘文求 (54) 发明名称 一种基于视频标题和内容的视频过滤方法和 系统 (57) 摘要 本发明公开了一种基。

2、于视频标题和内容的视 频过滤方法和系统, 通过对视频的标题进行拆词, 计算标题的相似度和比较视频流的相似度。并将 标题的相似度和视频流的相似度作为组合条件进 行视频过滤, 达到视频去重的效果。 从而可以对相 似度高的视频新闻进行有效过滤, 最大限度的去 掉一些类似的视频新闻, 让用户在有限时间内观 看到的新闻都是当日的头条新闻, 为用户带来更 好的体验。 (51)Int.Cl. 权利要求书 2 页 说明书 7 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书7页 附图1页 (10)申请公布号 CN 103678527 A CN 1036785。

3、27 A 1/2 页 2 1. 一种基于视频标题和内容的视频过滤方法, 其特征在于, 包括 : 获取两则视频 ; 比较两则视频的视频标题是否一样, 若是则过滤掉其中一则视频, 否则对两则视频的 视频标题进行拆词处理 ; 判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值, 若是则过滤掉其中 一则视频, 否则比较两则视频的视频内容是否一致, 若一致则过滤掉其中一则视频。 2. 根据权利要求 1 所述的基于视频标题和内容的视频过滤方法, 其特征在于, 所述过 滤掉其中一则视频步骤中, 包括 : 进一步比较两则视频的属性值, 根据所述属性值确定过滤掉哪一则视频 ; 其中, 所述视频的属性值包括。

4、 : 视频的连接速度和视频的清晰度。 3. 根据权利要求 1 所述的基于视频标题和内容的视频过滤方法, 其特征在于, 比较两 则视频的视频内容是否一致具体包括 : A、 根据两则视频的播放地址, 分别获取与所述播放地址对应的视频信息文件, 并从所 述视频信息文件里面获取两则视频的视频地址 ; B、 根据两则视频的视频地址, 下载并获取二进制的数据流内容, 并对数据流内容进行 比较 ; C、 若两个二进制的数据流内容一致, 则确定两则视频的视频内容一致, 否则为不同的 视频内容。 4. 根据权利要求 3 所述的基于视频标题和内容的视频过滤方法, 其特征在于, 所述步 骤 B 中对数据流内容进行比。

5、较具体为使用开发语言提供的处理数据流的类库的方法对数 据流内容进行读取并比较。 5. 根据权利要求 1 所述的基于视频标题和内容的视频过滤方法, 其特征在于, 预先设 定的匹配度阈值为 60%。 6. 一种基于视频标题和内容的视频过滤系统, 其特征在于, 包括 : 提取单元, 用于获取两则视频 ; 第一过滤单元, 用于比较两则视频的视频标题是否一样, 若是则过滤掉其中一则视频, 否则对两则视频的视频标题进行拆词处理 ; 第二过滤单元, 用于判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈 值, 若是则过滤掉其中一则视频, 否则比较两则视频的视频内容是否一致, 若一致则过滤掉 其中一则视频。

6、。 7. 根据权利要求 6 所述的基于视频标题和内容的视频过滤系统, 其特征在于, 所述第 一过滤单元中过滤掉其中一则视频具体包括 : 比较模块, 用于进一步比较两则视频的属性值, 根据所述属性值确定过滤掉哪一则视 频 ; 其中, 所述视频的属性值包括 : 视频的连接速度和视频的清晰度。 8. 根据权利要求 6 所述的基于视频标题和内容的视频过滤系统, 其特征在于, 所述第 二过滤单元中比较两则视频的视频内容是否一致具体包括 : 视频地址获取模块, 用于根据两则视频的播放地址, 分别获取与所述播放地址对应的 视频信息文件, 并从所述视频信息文件里面获取两则视频的视频地址 ; 权 利 要 求 书。

7、 CN 103678527 A 2 2/2 页 3 数据流获取模块, 用于根据两则视频的视频地址, 下载并获取二进制的数据流内容, 并 对数据流内容进行比较 ; 判断模块, 用于当两个二进制的数据流内容一致, 则确定两则视频的视频内容一致, 否 则为不同的视频内容。 9. 根据权利要求 8 所述的基于视频标题和内容的视频过滤系统, 其特征在于, 所述数 据流获取模块中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的 方法对数据流内容进行读取并比较。 10. 根据权利要求 6 所述的基于视频标题和内容的视频过滤系统, 其特征在于, 预先设 定的匹配度阈值为 60%。 权 利 要 求。

8、 书 CN 103678527 A 3 1/7 页 4 一种基于视频标题和内容的视频过滤方法和系统 技术领域 0001 本发明涉及视频比对技术领域, 特别涉及一种基于视频标题和内容的视频过滤方 法和系统。 背景技术 0002 为了使用户更快、 更多、 更准确地获取最新的新闻视频内容, 如何抓取各大视频网 站最新的新闻并及时的推荐给用户成为当前的研究方向之一。 0003 但是这种从各大视频网站聚合的新闻, 内容相似的非常多。 比如 : 同样是禽流感的 新闻, 可能存在多个新闻都是介绍禽流感的, 用户观看起来就很乏味, 因此, 需要对抓取的 视频新闻进行分析, 对相似内容进行有效过滤。 0004 。

9、有鉴于此, 现有技术还有待改进和提高。 发明内容 0005 鉴于上述现有技术的不足之处, 本发明的目的在于提供一种基于视频标题和内容 的视频过滤方法和系统, 以解决现有各大视频网站聚合的新闻视频内容重复率高, 不利于 向用户推送的问题。 0006 为了达到上述目的, 本发明采取了以下技术方案 : 一种基于视频标题和内容的视频过滤方法, 其中, 包括 : 获取两则视频 ; 比较两则视频的视频标题是否一样, 若是则过滤掉其中一则视频, 否则对两则视频的 视频标题进行拆词处理 ; 判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值, 若是则过滤掉其中 一则视频, 否则比较两则视频的视频内容是否。

10、一致, 若一致则过滤掉其中一则视频。 0007 所述的基于视频标题和内容的视频过滤方法, 其中, 所述过滤掉其中一则视频步 骤中, 包括 : 进一步比较两则视频的属性值, 根据所述属性值确定过滤掉哪一则视频 ; 其中, 所述视频的属性值包括 : 视频的连接速度和视频的清晰度。 0008 所述的基于视频标题和内容的视频过滤方法, 其中, 比较两则视频的视频内容是 否一致具体包括 : A、 根据两则视频的播放地址, 分别获取与所述播放地址对应的视频信息文件, 例如 m3u 文件, 并从所述视频信息文件里面获取两则视频的视频地址 ; B、 根据两则视频的视频地址, 下载并获取二进制的数据流内容, 并。

11、对数据流内容进行 比较 ; C、 若两个二进制的数据流内容一致, 则确定两则视频的视频内容一致, 否则为不同的 视频内容。 0009 所述的基于视频标题和内容的视频过滤方法, 其中, 所述步骤 B 中对数据流内容 说 明 书 CN 103678527 A 4 2/7 页 5 进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并 比较。 0010 所述的基于视频标题和内容的视频过滤方法, 其中, 预先设定的匹配度阈值为 60%。 0011 一种基于视频标题和内容的视频过滤系统, 其中, 包括 : 提取单元, 用于获取两则视频 ; 第一过滤单元, 用于比较两则视频的视频标题。

12、是否一样, 若是则过滤掉其中一则视频, 否则对两则视频的视频标题进行拆词处理 ; 第二过滤单元, 用于判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈 值, 若是则过滤掉其中一则视频, 否则比较两则视频的视频内容是否一致, 若一致则过滤掉 其中一则视频。 0012 所述的基于视频标题和内容的视频过滤系统, 其中, 所述第一过滤单元中过滤掉 其中一则视频具体包括 : 比较模块, 用于进一步比较两则视频的属性值, 根据所述属性值确定过滤掉哪一则视 频 ; 其中, 所述视频的属性值包括 : 视频的连接速度和视频的清晰度。 0013 所述的基于视频标题和内容的视频过滤系统, 其中, 所述第二过滤。

13、单元中比较两 则视频的视频内容是否一致具体包括 : 视频地址获取模块, 用于根据两则视频的播放地址, 分别获取与所述播放地址对应的 视频信息文件, 例如 m3u 文件, 并从所述视频信息文件里面获取两则视频的视频地址 ; 数据流获取模块, 用于根据两则视频的视频地址, 下载并获取二进制的数据流内容, 并 对数据流内容进行比较 ; 判断模块, 用于当两个二进制的数据流内容一致, 则确定两则视频的视频内容一致, 否 则为不同的视频内容。 0014 所述的基于视频标题和内容的视频过滤系统, 其中, 所述判断模块中当两则视频 的视频标题一样, 进一步比较具有相同视频标题的视频的属性值, 根据所述属性值。

14、确定过 滤掉哪一则视频 ; 其中, 所述视频的属性值包括 : 视频的连接速度和视频的清晰度。 0015 所述的基于视频标题和内容的视频过滤系统, 其中, 预先设定的匹配度阈值为 60%。 0016 相较于现有技术, 本发明提供的基于视频标题和内容的视频过滤方法和系统, 通 过对视频的标题进行拆词, 计算标题的相似度和比较视频流的相似度。并将标题的相似度 和视频流的相似度作为组合条件进行视频过滤, 达到视频去重的效果。从而可以对相似度 高的视频新闻进行有效过滤, 最大限度的去掉一些类似的视频新闻, 让用户在有限时间内 观看到的新闻都是当日的头条新闻, 为用户带来更好的体验。 附图说明 0017 。

15、图 1 为本发明提供的基于视频标题和内容的视频过滤方法的流程图。 0018 图 2 为本发明提供的基于视频标题和内容的视频过滤系统的结构框图。 说 明 书 CN 103678527 A 5 3/7 页 6 具体实施方式 0019 本发明提供一种基于视频标题和内容的视频过滤方法和系统, 为使本发明的目 的、 技术方案及效果更加清楚、 明确, 以下参照附图并举实施例对本发明进一步详细说明。 应当理解, 此处所描述的具体实施例仅用以解释本发明, 并不用于限定本发明。 0020 请参阅图1, 其为本发明提供的基于视频标题和内容的视频过滤方法的流程图。 如 图所示, 所述基于视频标题和内容的视频过滤方法。

16、包括 : S100、 获取两则视频 ; S200、 比较两则视频的视频标题是否一样, 若是则过滤掉其中一则视频, 否则对两则视 频的视频标题进行拆词处理 ; S300、 判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值, 若是则过滤 掉其中一则视频, 否则比较两则视频的视频内容是否一致, 若一致则过滤掉其中一则视频。 0021 在步骤 S100 至 S300 只是其中两则视频进行比较的一个过程, 当具有多个相同视 频内容的多个视频源时候, 分别进行两两比较, 直到保留最后一则或者数则视频即可。 0022 下面分别针对上述步骤进行描述 : 步骤S100为获取两则视频。 在本实施例中, 以。

17、视频新闻为例, 选取两则视频新闻。 视频 新闻的信息包括视频新闻的视频标题和视频内容。为了最大限度的去掉类似的视频新闻, 我们从视频新闻的视频标题和视频内容入手进行过滤。 0023 步骤 S200 为比较两则视频的视频标题是否一样, 若是则过滤掉其中一则视频, 否 则对两则视频的视频标题进行拆词处理。 具体来说, 我们直接通过标题比较去重 : 若两则视 频新闻的标题完全一样, 则过滤掉其中一帧。否则我们即对视频标题进行拆词处理。在本 实施例中, 所述拆词方法为使可用开源项目 lucene 的词库 ( 在 JAVA 程序代码引入程序包 lucene-core-2.4.1.jar, 使用智能中文分。

18、词模块SmartChineseAnalyzer即可)进行拆词, 比如 : 杰出人物 (如 : 李东生) 、 明星 (如 : 刘德华) 等检索量大的词 , 按照正向拆分法对新闻 标题进行切分。 (正向拆分法 : 从前往后匹配。如 : “ 湖南大学堂屋顶 “, 正向拆分为 “ 湖南 大学 堂屋 顶 “。 ) 下面通过一个具体的例子来说明 : 有三个标题如下 : 第一标题 : 北京至南宁高铁贯通 全程仅需 10 小时” 进行拆词后变成 : 北京 , 南宁 , 高铁 , 全程 ,10, 小时 ; 第二标题 : 北京至南宁全程贯通高铁啦!只要 10 小时 凤凰新闻网 进行拆词后变成 : 北京 , 南宁 。

19、, 全程 , 贯通 , 高铁 ,10, 小时 , 凤凰 , 新闻 , 网 ; 第三标题 : 衡柳高铁和柳南客运专线贯通 南宁到北京全程高铁 10 小时 进行拆词后变成 : 衡柳 , 高铁 , 和 , 柳南 , 客运 , 专线 , 贯通 , 南宁 , 北京 , 全 程 , 高铁 ,10, 小时 ; 通过拆词匹配, 我们可以看出 : 第一标题和第二、 第三标题的匹配程度达到 100% ; 第二 标题和第三标题匹配程度 ( 例如可以采用各个词匹配计数的方式衡量文字匹配相同的程 度 ) 达到 85%。 0024 进一步地, 当两则视频的视频标题是一致时, 需要过滤掉其中一则视频, 保留其中 一则视频。。

20、 0025 为了保证保留的视频是最佳的 (尤其是当视频个数较多时) 视频。本发明的基于视 说 明 书 CN 103678527 A 6 4/7 页 7 频标题和内容的视频过滤方法进一步比较具有相同视频标题的视频的属性值, 其中, 所述 视频的属性值包括 : 视频的连接速度、 视频的清晰度等。每一属性具有不同的权重 (所述权 重的大小可以根据客户需要来设定) , 通过比较所述具有相同视频标题的视频的属性值, 来 确保保留下的视频是最佳的。 举例来说, 当两则视频的视频标题是一致的, 那么我们先来判 断两则视频的连接速度, 当发现一则视频无法链接播放时, 则过滤掉。 若两则视频的连接速 度相同, 。

21、我们进一步比较两则视频的清晰度, 过滤掉清晰度比较差的一则视频。 当所有属性 相同时, 可随机滤掉一则视频。 0026 步骤 S300 为判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值 (在本实施例中, 所述匹配度的阈值为 60%) , 若是则过滤掉其中一则视频, 否则比较两则视 频的视频内容是否一致, 若一致则过滤掉其中一则视频。具体来说, 预先设定一匹配度阈 值, 将拆词后的视频标题的匹配度与预先设定的匹配度阈值进行比较 : 若拆词后的视频标 题的匹配度超过预先设定的匹配度阈值, 则判断两则视频的视频标题基本一致, 过滤掉其 中一条视频, 否则再对视频内容进行判断 : 比较两则视。

22、频的视频内容是否一致, 若一致则过 滤掉其中一则视频。 0027 在本实施例中, 比较两则视频的视频内容是否一致具体包括 : S110、 根据两则视频的播放地址, 分别获取与所述播放地址对应的视频信息文件, 例如 m3u 文件, 并从所述视频信息文件里面获取两则视频的视频地址 ; 其中, 所述视频的播放地址为提供视频内容的地址, 然后, 根据所述播放地址对应的视 频文件内容里面获取视频地址信息。 一般来说, 做视频推荐类的应用时候, 使用的视频可以 从优酷及土豆上获取的, 其实它们也提供了开放的 API, 可以获取视频地址以及视频的多个 标签, 视频的同类视频推荐, 视频同类目下的视频等, 使。

23、用者可以直接去申请。 0028 在本实施例中, 所述播放地址优选为m3u8地址, 其也是一种M3U地址, 只是它的编 码格式是UTF-8格式。 m3u8地址是用来流播放, 直播流或者点播形式, 目的是实现时实性及 保密性它会不让你获取它的视频所在地址。M3U 本质上说不是音频文件 , 它是音频文件的 列表文件 , 是纯文本文件。根据两则视频的 m3u8 地址, 分别获取与所述 m3u8 地址对应的 m3u8 文件内容, 并从所述文件内容里面获取两则视频的视频地址。 0029 S120、 根据两则视频的视频地址, 下载并获取二进制的数据流 (也称视频流) 内容, 并对数据流内容进行比较 ; 以 。

24、JAVA 部分代码为例说明如下 : private boolean contentEquals(String address1, String address2) InputStream is1 = null; InputStream is2 = null; URLConnection conn1 = null; URLConnection conn2 = null; try URL url1 = new URL(address1); conn1 = url1.openConnection(); conn1.setConnectTimeout(5000); is1 = conn1.getInp。

25、utStream(); URL url2 = new URL(address2); 说 明 书 CN 103678527 A 7 5/7 页 8 conn2 = url2.openConnection(); conn2.setConnectTimeout(5000); is2 = conn2.getInputStream(); if (IOUtils.contentEquals(is1, is2) return false; catch (MalformedURLException e) e.printStackTrace(); catch (IOException e) e.printSta。

26、ckTrace(); finally IOUtils.close(conn1); IOUtils.close(conn2); IOUtils.closeQuietly(is1); IOUtils.closeQuietly(is2); return true; 上述源码描述的是通过两则视频的视频地址, 下载并获取二进制的数据流 (也称视频 流) 内容, 并对数据流内容进行比较的过程。 0030 S130、 若两个二进制的数据流内容一致, 则确定两则视频的视频内容一致, 否则为 不同的视频内容。 0031 举例说明 : 第一视频的 m3u8 地址、 视频地址和视频流 (即二进制的数据流) 内容分别。

27、如下 : a1)m3u8 地址 (即播放地址, 下同) : http:/ m3u8 b1) 视频地址 : http:/183.60.145.137/6573AB247393F81012EB6E2127/0300020200518BD10B089307 6443B2EAA5E66C-C04F-E90B-EA30-8E2670F78AF2.flv.ts?ts_start=0&ts_end=6&ts_seg_ no=0&ts_keyframe=1 c1) 视频流内容 : -128, 0, 0, 1, 101, -120, -124, 1, -1, -96, -12, -80, 5, -21, 86,。

28、 46, -85, 64, -107, -20, 121, -81, 16, 96, 106, -30, 95, -31, 106, 92, -128, 104, -30, -64, -103, 20, -9, -3, 67, -31, -44, -80, -7, 115, -65, -109, -128, 104, -51, -74, -77, 4, -2, 71, 。 0032 第二视频的 m3u8 地址、 视频地址和视频流 (即二进制的数据流) 内容分别如下 : a2)m3u8 地址 : http:/ m3u8 说 明 书 CN 103678527 A 8 6/7 页 9 b2) 视频地。

29、址 : http:/119.147.103.25/6573C8B07C93381DEC31ED2F6C/0300020200518F9744860308 FFF8B98B79AC98-7C6E-1222-F1D8-BCAFA9757802.flv.ts?ts_start=0&ts_end=6&ts_seg_ no=0&ts_keyframe=1 c2) 视频流内容 : -128, 0, 0, 1, 101, -120, -124, 1, -1, -96, -28, -116, 12, 55, -110, -71, 76, -46, -106, -52, -23, -56, -72, 65, -。

30、65, 38, -64, 99, 56, -6, -47, -36, -67, 52, -36, 98, 111, 106, -102, 115, 18, -107, 90, 79, 29, 14, 18, -4, 57, -11, 18, -5, -77, -66, 73 。 0033 通过对第一视频和第二视频的两个视频流内容的比较, 可以确定两个两个视频流 内容不一致, 从而确定第一视频和第二视频为不同的视频。 0034 值得说明的是, 这里比较的两个则视频流的内容指的是比较两则视频的相同播放 位置, 例如文件头或者文件尾部的二进制码流数据, 其针对的是拷贝来源相同, 压制格式相 同的视频。

31、。 当其压缩比不相同时候, 可通过其他方式, 例如通过图像分析的方法对两则视频 的图像进行分析, 并得出是否为同一内容的视频的判断。 0035 本发明还相应提供一种基于视频标题和内容的视频过滤系统, 如图 2 所示, 其包 括 : 提取单元 100, 用于获取两则视频 ; 第一过滤单元 200, 用于比较两则视频的视频标题是否一样, 若是则过滤掉其中一则视 频, 否则对两则视频的视频标题进行拆词处理 ; 第二过滤单元 300, 用于判断拆词后的视频标题的匹配度是否超过预先设定的匹配度 阈值, 若是则过滤掉其中一则视频, 否则比较两则视频的视频内容是否一致, 若一致则过滤 掉其中一则视频。 00。

32、36 进一步地, 所述的基于视频标题和内容的视频过滤系统中, 所述第一过滤单元中 对两则视频的视频标题进行拆词处理具体包括 : 使用开源项目 lucene 的词库按照正向拆分法对视频标题进行切分。 0037 进一步地, 所述的基于视频标题和内容的视频过滤系统中, 所述第一过滤单元中 过滤掉其中一则视频具体包括 : 比较模块, 用于进一步比较两则视频的属性值, 根据所述属 性值确定过滤掉哪一则视频 ; 其中, 所述视频的属性值包括 : 视频的连接速度和视频的清 晰度。 0038 进一步地, 所述的基于视频标题和内容的视频过滤系统中, 所述第二过滤单元中 比较两则视频的视频内容是否一致具体包括 :。

33、 视频地址获取模块, 用于根据两则视频的播放地址, 分别获取与所述播放地址对应的 视频信息文件, 例如 m3u 文件, 并从所述视频信息文件里面获取两则视频的视频地址 ; 数据流获取模块, 用于根据两则视频的视频地址, 下载并获取二进制的数据流内容, 并 对数据流内容进行比较 ; 判断模块, 用于当两个二进制的数据流内容一致, 则确定两则视频的视频内容一致, 否 则为不同的视频内容。 0039 进一步地, 所述的基于视频标题和内容的视频过滤系统中, 所述数据流获取模块 说 明 书 CN 103678527 A 9 7/7 页 10 中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库。

34、的方法对数据流 内容进行读取并比较。比如, 在本实施例中, 使可用开源项目 lucene 的词库 ( 在 JAVA 程序 代码引入程序包 lucene-core-2.4.1.jar, 使用智能中文分词模块 SmartChineseAnalyzer 即可 ) 进行拆词。 0040 这里获取两则视频相同位置的二进制的数据流进行比较, 值得说明的是, 一般点 播的视频文件最先加载的为视频文件头的内容, 一般可比较文件头即可。 0041 进一步地, 所述的基于视频标题和内容的视频过滤系统中, 预先设定的匹配度阈 值为 60%。 0042 具体来说, 所述匹配度阈值即为临界值, 意思是在本发明的基于视频。

35、标题和内容 的视频过滤系统中, 若判断拆词后的视频标题之间的匹配度达到或者超过 60% 时, 即认为 拆词后的视频标题是一样的, 过滤掉其中一则视频。 0043 上述各个部分的功能都已经在上述方法中进行了详细介绍, 这里就不再冗述了。 0044 综上所述, 本发明提供的基于视频标题和内容的视频过滤方法和系统, 通过对视 频的标题进行拆词, 计算标题的相似度和比较视频流的相似度。并将标题的相似度和视频 流的相似度作为组合条件进行视频过滤, 达到视频去重的效果。从而可以对相似度高的视 频新闻进行有效过滤, 最大限度的去掉一些类似的视频新闻, 让用户在有限时间内观看到 的新闻都是当日的头条新闻, 为用户带来更好的体验。 0045 可以理解的是, 对本领域普通技术人员来说, 可以根据本发明的技术方案及其发 明构思加以等同替换或改变, 而所有这些改变或替换都应属于本发明所附的权利要求的保 护范围。 说 明 书 CN 103678527 A 10 1/1 页 11 图 1 图 2 说 明 书 附 图 CN 103678527 A 11 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1