一种基于海报与剧情介绍的电影类型的快速分类方法.pdf

上传人:Y948****062 文档编号:6404269 上传时间:2019-06-07 格式:PDF 页数:10 大小:526.92KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510592018.X

申请日:

2015.09.17

公开号:

CN105260398A

公开日:

2016.01.20

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回 IPC(主分类):G06F 17/30申请公布日:20160120|||实质审查的生效IPC(主分类):G06F 17/30申请日:20150917|||公开

IPC分类号:

G06F17/30; G06K9/46; G06K9/62

主分类号:

G06F17/30

申请人:

中国科学院自动化研究所

发明人:

胡卫明; 付志康; 李兵

地址:

100190北京市海淀区中关村东路95号

优先权:

专利代理机构:

中科专利商标代理有限责任公司11021

代理人:

宋焰琴

PDF下载: PDF下载
内容摘要

本发明公开了一种基于海报与剧情介绍的电影类型的快速分类方法,该方法包括:确定电影所属的类型集合,建立各种类型的电影的海报训练集和剧情介绍的训练集;提取待测电影的海报的特征,利用得到的每幅海报的特征及其对应的标签训练支持向量机得到海报的分类模型;提取待测电影的剧情介绍的文本的特征,利用得到的每个文本的特征及其对应的标签训练支持向量机得到文本的分类模型;用海报的分类模型,对待测的电影的海报进行预测得到结果Y1,然后再调用文本的分类模型对待测电影的剧情介绍进行预测得到结果Y2;最后将Y1和Y2进行“或“操作,得到最后的待测电影的类型。本发明能够在没有电影视频的情况下,对电影的类型实现快速、高准确率的预测。

权利要求书

1.一种基于海报与剧情介绍的电影类型的快速分类方法,该方
法包括以下步骤:
步骤1:确定电影所属的类型集合,建立各种类型的电影的海报
训练集和剧情介绍的训练集;
步骤2:提取待测电影的海报的特征,利用得到的每幅海报的特
征及其对应的标签训练支持向量机得到海报的分类模型;
步骤3:提取待测电影的剧情介绍的文本的特征,利用得到的每
个文本的特征及其对应的标签训练支持向量机得到文本的分类模型;
步骤4:用海报的分类模型,对待测电影的海报进行预测得到结
果Y1,然后再调用文本的分类模型对待测电影的剧情介绍进行预测
得到结果Y2;最后将Y1和Y2进行“或”操作,即与待测电影的类
型标签对比,只要一个预测结果是正确的,则预测正确的那个类型当
作最后的待测电影的类型;否则将Y1作为最后的待测电影的类型。
2.根据权利要求1所述的方法,其特征在于,搜集中外视频网
站上的电影的类型,确定电影所属的类型集合;搜集电影对应的海报
和剧情介绍,分别建立海报的训练集和文本的训练集。
3.根据权利要求2所述的方法,其特征在于,所述的海报的特
征包括:颜色情感特征、颜色和谐度特征、边缘特征、纹理特征、颜
色变化特征和海报中人脸的个数。
4.据权利要求3所述的方法,其特征在于,当剧情介绍的文本
为英文时,提取剧情介绍的文本的特征包括:
步骤4a:去文本中的标点符号和停留词;
步骤4b:还原词型;
步骤4c:选取特征词,建立词包模型;
步骤4d:把每个电影的剧情介绍用词包模型表示成空间向量模
型。
5.据权利要求3所述的方法,其特征在于,使用行列式
ΔF=det(ρ)表示所述颜色变化特征,在颜色变化特征的计算过
程中,首先将RGB颜色空间转换到Luv颜色空间,然后得到颜色变换
矩阵;图像在Luv空间,每个像素3个通道产生的协方差矩阵为:
ρ = σ L 2 σ L u 2 σ L v 2 σ L u 2 σ u 2 σ u v 2 σ L v 2 σ u v 2 σ v 2 ]]>
其中,表示在Luv空间i通道的方差,表示在Luv空间i和j
通道的协方差。

说明书

一种基于海报与剧情介绍的电影类型的快速分类方法

技术领域

本发明涉及模式识别领域,特别涉及电影类型的检测技术。

背景技术

随着互联网的快速发展,电影已经成为人们业余生活中不可缺少
的一部分。目前为止、还没有对电影的种类做出统一的规定,电影的
类别大体分为:恐怖、爱情、动作、喜剧、科幻等等。电影网站上都
会人工给电影标上类别标签,所以、实现电影的快速分类是很有必要。

电影类型的检测基本上都是基于视频内容本身来检测。视频内容
的检测包括:镜头边界的检测、镜头视频关键帧的检测和音频特征的
检测。镜头边界检测的基本假设是相邻两个镜头的内容存在较大的差
异。因此,可以通过测量相邻帧之间的差异程度来确定镜头的边界。
镜头视频关键帧的特征包括:视频关键帧的颜色、对比度、明亮度、
纹理等特征。通过提取这些特征对视频的关键帧进行检测。音频特征
主要有:时域特征、频域特征和声学感知特征等。

基于视频内容的检测存在以下问题:需要的数据量大、视频检测
较慢、在没有视频内容本身的情况下显然无法完成检测任务,同时准
确率不是很高。

发明内容

(一)要解决的技术问题

本发明的目的在于提出一种在没有电影视频的情况下可以方便
快速地对电影进行检测的方法,从而实现了快速的电影分类。

二)技术方案

为了解决上述技术问题,本发明提出了一种基于海报与剧情介绍
的电影类型的快速分类方法,该方法包括以下步骤:步骤1:确定电
影所属的类型集合,建立各种类型的电影的海报训练集和剧情介绍的
训练集;

步骤2:提取待测电影的海报的特征,利用得到的每幅海报的特
征及其对应的标签训练支持向量机得到海报的分类模型;

步骤3:提取待测电影的剧情介绍的文本的特征,利用得到的每
个文本的特征及其对应的标签训练支持向量机得到文本的分类模型;

步骤4:用海报的分类模型,对待测电影的海报进行预测得到类
型Y1,然后再调用文本的分类模型对待测电影的剧情介绍进行预测
得到类型Y2;最后将Y1和Y2进行“或”操作;即与待测电影的类
型标签对比,只要一个预测结果是正确的,则预测正确的那个类型当
作最后的待测电影的类型;否则将Y1作为最后的待测电影的类型。

(三)有益效果

本发明结合电影的海报和剧情介绍对电影的类型进行检测,能够
在没有电影视频的情况下,对电影的类型实现快速、高准确率的检测。

附图说明

图1是本发明的基于海报与剧情介绍的电影类型的快速分类方法的
流程图。

图2是本发明的确定电影的类型,和获得类型集合的方法流程图。

图3是本发明的获得海报分类模型的方法流程图。

图4是本发明的获得文本分类模型的方法流程图。

图5是本发明的获得待测电影类型的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具
体实施例,并参照附图,对本发明作进一步的详细说明。

本发明的方法具体运行的硬件和编程语言并不受限制,用任何语
言编写都可以实现本发明的方法。本发明采用一台具有2.67G赫兹中
央处理器和4G字节内存的计算机,并用C++语言编制本发明所涉及
到的程序,实现了本发明的方法。

图1是基于海报与剧情介绍的电影类型的快速分类方法的流程
图。

步骤101:搜集中外视频网站,确定电影所属的类型集合,搜集
尽可能多的电影对应的海报和剧情介绍,建立电影海报的训练集和剧
情介绍的训练集,具体流程如图2所示。

首先搜集中外视频网站上的电影常见类型,确定常见的电影类型
集合为:恐怖片、爱情片、喜剧片和动作片等。然后搜集尽可能多的
这四种类型的电影的海报和剧情介绍。分别建立电影海报的训练集和
电影剧情介绍的训练集。

步骤102:提取海报的特征,利用得到的每幅海报的特征及其对
应的标签训练支持向量机得到海报的分类模型,具体流程如图3所
示。

1):提取海报的特征。

对每幅海报提取的海报的特征包括:颜色情感特征、颜色和谐度
特征、边缘特征、纹理特征、颜色变化特征和海报中人脸的个数。

颜色情感特征的计算方法如下。颜色情感常用来描述图像的情
感。在颜色情感特征的计算中,首先,将RGB颜色空间转换到
CLELAB
和CLELCH颜色空间中,与颜色情感特征有关的三个因素为:热度
(heat)、重要性(weight)和活动性(activity),该三个因素的计算方法如
下:

a c t i v i t y = - 2.1 + 0.06 [ ( a * - 3 ) 2 + ( L * - 50 ) 2 + ( b * - 17 1.4 ) 2 ] 1 / 2 ]]>

weight=-1.8+0.45cos(h-10°)+0.04(100-L*)

heat=-0.5+0.02(C*)1.07cos(h-50°)

其中,(L*,C*,h)和(L*,a*,b*)分别是颜色空间CIELCH和CIELAB的
颜色分量。

本发明采用的颜色情感特征EI(x,y)的定义为:

E I ( x , y ) = activity 2 + weight 2 + heat 2 ]]>

颜色和谐度特征的计算方法如下。颜色的和谐度特征同样常用来描述
图像的情感。在颜色情感特征的计算中,首先,将RGB颜色空间转
换到CLELAB颜色空间,与颜色和谐度特征相关的和谐度因子包括:
色调因子HH(hueeffect)、亮度因子HL(lightnesseffect)和饱和度因子
HC(chromaticeffect):


HL=HLsum+HΔL

HLsum=0.28+0.54tanh(-3.88+0.029ΔLsum)

Lsum=L1*+L2*

HΔL=0.14+0.15tanh(-2+0.2ΔL)

ΔL=|L*1-L*2|

HH=HSY1+HSY2

HSY=EC(HS+EY)

EC=0.5+0.5tanh(-2+0.5Cab*)

Hs=0.08-0.14sin(hab+50°)-0.07sin(2hab+90°)


其中,hab和C*ab表示的是CIELAB颜色空间中的色调和色饱和度,
ΔCab*和ΔH*ab则分别是两种颜色在CIELAB颜色空间中的色调和色

饱和度差值,L1*和L*2分别是一个颜色对在CIELAB颜色空间中
的亮度值。

整体的颜色和谐度特征则由色调因子HH、亮度因子HL和饱和度
因子HC联合起来得到:

CH=HH+HC+HL

边缘特征的计算方法如下。研究表明,HSV颜色空间比RGB颜色
空间能够更准确地表述人类对颜色的感知。所以,先将图像由RGB
颜色空间转换到HSV颜色空间,然后,V通道经过高斯滤波器进行滤
波,随后将得到的结果与边缘检测器进行掩模,最后计算超过阈值的
像素的个数。

纹理特征的计算方法如下。纹理特征与图像情感有密切的关系。
场景的空间纹理特征符合韦布分布:

w b ( y ) = γ β ( x β ) γ - 1 e - 1 γ ( y β ) γ ]]>

其中,x为随机变量,(β,γ)为韦布分布参数。韦伯分布中的
参数对图像纹理的空间结构具有很完整的表示,参数β表示的是图像
的对比度,其值越大图像对比度越大;参数γ则表示的是图像的颗粒
度,其值越大表示图像颗粒度越小。

颜色变化特征的计算方法如下。研究表明,Luv颜色空间具有空
间统一性。本发明用行列式ΔF=det(ρ)表示颜色变化特征。在颜
色变化特征的计算过程中,首先将RGB颜色空间转换到Luv颜色空
间,然后得到颜色变换矩阵:

ρ = σ L 2 σ L u 2 σ L v 2 σ L u 2 σ u 2 σ u v 2 σ L v 2 σ u v 2 σ v 2 ]]>

其中,σi2表示在Luv空间i通道的方差,表示在Luv空间i和j
通道的协方差。

计算海报中人脸的个数的计算过程如下。恐怖海报中没有正常的
人脸,爱情海报中大多是两个人脸,喜剧海报中人脸个数大于两个。
因此,本发明提取海报中的人脸的个数来体现不同类型电影的差别。
在计算海报中人脸的个数过程中,采用opencv自带的模型对海报中人
脸的个数进行检测。

2):利用得到的每幅海报的特征及其对应的标签训练支持向量机
得到海报的分类模型。

步骤103:提取剧情介绍的文本的特征,利用得到的每个文本的
特征及其对应的标签训练支持向量机得到文本的分类模型,具体流程
如图4所示。

1)剧情介绍的文本的预处理。

要先去除该文本中的标点符号和停留词。本实施例涉及的电影是
外国电影,所以它们的剧情介绍是用英文写的,因此要对英文单词进
行词型的还原。

然后构建词包模型。构建词包模型需要有特征词。本发明采用了
信息增益的方法来获取特征词。信息增益的计算公式如下所示:

IG(T)=H(C)-H(C|T)

H ( C ) = - Σ i = 1 n P ( C i ) 1 og 2 P ( C i ) ]]>

H ( C | T ) = - P ( t ) Σ i = 1 n P ( C i | t ) 1 og 2 P ( C i | t ) - P ( t ) Σ i = 1 n P ( C i | t ) 1 og 2 P ( C i | t ) ]]>

其中、p(ci)表示电影类型ci出现的概率,p(t)表示特征T出
现的概率。p(ci|t)表示出现T的时候,类ci出现的概率。H(C)表示
存在n种电影类型的情况下系统的熵,H(C|T)表示在得知特征T的情
况下系统的熵减少量。

2):把每个电影的剧情介绍用词包模型表示成空间向量。利用
得到的每个文本的特征及其对应的标签训练支持向量机得到文本的
分类模型。

步骤104:

用海报的分类模型,对待测的电影的海报进行预测得到类型Y1,
然后再调用文本的分类模型对待测电影的剧情介绍进行预测得到类
型Y2。最后将Y1和Y2进行“或“操作,即与待测电影的类型标签
对比,得到最后的待测电影的类型,具体流程如图5所示。

Y1和Y2中只要有一个预测结果是正确的,则将检测正确的那个
结果当做最后的预测结果;否则,把海报模型预测的结果Y1当作最
后的预测结果。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果
进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实
施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所
做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之
内。

一种基于海报与剧情介绍的电影类型的快速分类方法.pdf_第1页
第1页 / 共10页
一种基于海报与剧情介绍的电影类型的快速分类方法.pdf_第2页
第2页 / 共10页
一种基于海报与剧情介绍的电影类型的快速分类方法.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《一种基于海报与剧情介绍的电影类型的快速分类方法.pdf》由会员分享,可在线阅读,更多相关《一种基于海报与剧情介绍的电影类型的快速分类方法.pdf(10页珍藏版)》请在专利查询网上搜索。

本发明公开了一种基于海报与剧情介绍的电影类型的快速分类方法,该方法包括:确定电影所属的类型集合,建立各种类型的电影的海报训练集和剧情介绍的训练集;提取待测电影的海报的特征,利用得到的每幅海报的特征及其对应的标签训练支持向量机得到海报的分类模型;提取待测电影的剧情介绍的文本的特征,利用得到的每个文本的特征及其对应的标签训练支持向量机得到文本的分类模型;用海报的分类模型,对待测的电影的海报进行预测得到。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1