一种基于海报与剧情介绍的电影类型的快速分类方法技术领域
本发明涉及模式识别领域,特别涉及电影类型的检测技术。
背景技术
随着互联网的快速发展,电影已经成为人们业余生活中不可缺少
的一部分。目前为止、还没有对电影的种类做出统一的规定,电影的
类别大体分为:恐怖、爱情、动作、喜剧、科幻等等。电影网站上都
会人工给电影标上类别标签,所以、实现电影的快速分类是很有必要。
电影类型的检测基本上都是基于视频内容本身来检测。视频内容
的检测包括:镜头边界的检测、镜头视频关键帧的检测和音频特征的
检测。镜头边界检测的基本假设是相邻两个镜头的内容存在较大的差
异。因此,可以通过测量相邻帧之间的差异程度来确定镜头的边界。
镜头视频关键帧的特征包括:视频关键帧的颜色、对比度、明亮度、
纹理等特征。通过提取这些特征对视频的关键帧进行检测。音频特征
主要有:时域特征、频域特征和声学感知特征等。
基于视频内容的检测存在以下问题:需要的数据量大、视频检测
较慢、在没有视频内容本身的情况下显然无法完成检测任务,同时准
确率不是很高。
发明内容
(一)要解决的技术问题
本发明的目的在于提出一种在没有电影视频的情况下可以方便
快速地对电影进行检测的方法,从而实现了快速的电影分类。
二)技术方案
为了解决上述技术问题,本发明提出了一种基于海报与剧情介绍
的电影类型的快速分类方法,该方法包括以下步骤:步骤1:确定电
影所属的类型集合,建立各种类型的电影的海报训练集和剧情介绍的
训练集;
步骤2:提取待测电影的海报的特征,利用得到的每幅海报的特
征及其对应的标签训练支持向量机得到海报的分类模型;
步骤3:提取待测电影的剧情介绍的文本的特征,利用得到的每
个文本的特征及其对应的标签训练支持向量机得到文本的分类模型;
步骤4:用海报的分类模型,对待测电影的海报进行预测得到类
型Y1,然后再调用文本的分类模型对待测电影的剧情介绍进行预测
得到类型Y2;最后将Y1和Y2进行“或”操作;即与待测电影的类
型标签对比,只要一个预测结果是正确的,则预测正确的那个类型当
作最后的待测电影的类型;否则将Y1作为最后的待测电影的类型。
(三)有益效果
本发明结合电影的海报和剧情介绍对电影的类型进行检测,能够
在没有电影视频的情况下,对电影的类型实现快速、高准确率的检测。
附图说明
图1是本发明的基于海报与剧情介绍的电影类型的快速分类方法的
流程图。
图2是本发明的确定电影的类型,和获得类型集合的方法流程图。
图3是本发明的获得海报分类模型的方法流程图。
图4是本发明的获得文本分类模型的方法流程图。
图5是本发明的获得待测电影类型的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具
体实施例,并参照附图,对本发明作进一步的详细说明。
本发明的方法具体运行的硬件和编程语言并不受限制,用任何语
言编写都可以实现本发明的方法。本发明采用一台具有2.67G赫兹中
央处理器和4G字节内存的计算机,并用C++语言编制本发明所涉及
到的程序,实现了本发明的方法。
图1是基于海报与剧情介绍的电影类型的快速分类方法的流程
图。
步骤101:搜集中外视频网站,确定电影所属的类型集合,搜集
尽可能多的电影对应的海报和剧情介绍,建立电影海报的训练集和剧
情介绍的训练集,具体流程如图2所示。
首先搜集中外视频网站上的电影常见类型,确定常见的电影类型
集合为:恐怖片、爱情片、喜剧片和动作片等。然后搜集尽可能多的
这四种类型的电影的海报和剧情介绍。分别建立电影海报的训练集和
电影剧情介绍的训练集。
步骤102:提取海报的特征,利用得到的每幅海报的特征及其对
应的标签训练支持向量机得到海报的分类模型,具体流程如图3所
示。
1):提取海报的特征。
对每幅海报提取的海报的特征包括:颜色情感特征、颜色和谐度
特征、边缘特征、纹理特征、颜色变化特征和海报中人脸的个数。
颜色情感特征的计算方法如下。颜色情感常用来描述图像的情
感。在颜色情感特征的计算中,首先,将RGB颜色空间转换到
CLELAB
和CLELCH颜色空间中,与颜色情感特征有关的三个因素为:热度
(heat)、重要性(weight)和活动性(activity),该三个因素的计算方法如
下:
a c t i v i t y = - 2.1 + 0.06 [ ( a * - 3 ) 2 + ( L * - 50 ) 2 + ( b * - 17 1.4 ) 2 ] 1 / 2 ]]>
weight=-1.8+0.45cos(h-10°)+0.04(100-L*)
heat=-0.5+0.02(C*)1.07cos(h-50°)
其中,(L*,C*,h)和(L*,a*,b*)分别是颜色空间CIELCH和CIELAB的
颜色分量。
本发明采用的颜色情感特征EI(x,y)的定义为:
E I ( x , y ) = activity 2 + weight 2 + heat 2 ]]>
颜色和谐度特征的计算方法如下。颜色的和谐度特征同样常用来描述
图像的情感。在颜色情感特征的计算中,首先,将RGB颜色空间转
换到CLELAB颜色空间,与颜色和谐度特征相关的和谐度因子包括:
色调因子HH(hueeffect)、亮度因子HL(lightnesseffect)和饱和度因子
HC(chromaticeffect):
HL=HLsum+HΔL
HLsum=0.28+0.54tanh(-3.88+0.029ΔLsum)
Lsum=L1*+L2*
HΔL=0.14+0.15tanh(-2+0.2ΔL)
ΔL=|L*1-L*2|
HH=HSY1+HSY2
HSY=EC(HS+EY)
EC=0.5+0.5tanh(-2+0.5Cab*)
Hs=0.08-0.14sin(hab+50°)-0.07sin(2hab+90°)
其中,hab和C*ab表示的是CIELAB颜色空间中的色调和色饱和度,
ΔCab*和ΔH*ab则分别是两种颜色在CIELAB颜色空间中的色调和色
饱和度差值,L1*和L*2分别是一个颜色对在CIELAB颜色空间中
的亮度值。
整体的颜色和谐度特征则由色调因子HH、亮度因子HL和饱和度
因子HC联合起来得到:
CH=HH+HC+HL
边缘特征的计算方法如下。研究表明,HSV颜色空间比RGB颜色
空间能够更准确地表述人类对颜色的感知。所以,先将图像由RGB
颜色空间转换到HSV颜色空间,然后,V通道经过高斯滤波器进行滤
波,随后将得到的结果与边缘检测器进行掩模,最后计算超过阈值的
像素的个数。
纹理特征的计算方法如下。纹理特征与图像情感有密切的关系。
场景的空间纹理特征符合韦布分布:
w b ( y ) = γ β ( x β ) γ - 1 e - 1 γ ( y β ) γ ]]>
其中,x为随机变量,(β,γ)为韦布分布参数。韦伯分布中的
参数对图像纹理的空间结构具有很完整的表示,参数β表示的是图像
的对比度,其值越大图像对比度越大;参数γ则表示的是图像的颗粒
度,其值越大表示图像颗粒度越小。
颜色变化特征的计算方法如下。研究表明,Luv颜色空间具有空
间统一性。本发明用行列式ΔF=det(ρ)表示颜色变化特征。在颜
色变化特征的计算过程中,首先将RGB颜色空间转换到Luv颜色空
间,然后得到颜色变换矩阵:
ρ = σ L 2 σ L u 2 σ L v 2 σ L u 2 σ u 2 σ u v 2 σ L v 2 σ u v 2 σ v 2 ]]>
其中,σi2表示在Luv空间i通道的方差,表示在Luv空间i和j
通道的协方差。
计算海报中人脸的个数的计算过程如下。恐怖海报中没有正常的
人脸,爱情海报中大多是两个人脸,喜剧海报中人脸个数大于两个。
因此,本发明提取海报中的人脸的个数来体现不同类型电影的差别。
在计算海报中人脸的个数过程中,采用opencv自带的模型对海报中人
脸的个数进行检测。
2):利用得到的每幅海报的特征及其对应的标签训练支持向量机
得到海报的分类模型。
步骤103:提取剧情介绍的文本的特征,利用得到的每个文本的
特征及其对应的标签训练支持向量机得到文本的分类模型,具体流程
如图4所示。
1)剧情介绍的文本的预处理。
要先去除该文本中的标点符号和停留词。本实施例涉及的电影是
外国电影,所以它们的剧情介绍是用英文写的,因此要对英文单词进
行词型的还原。
然后构建词包模型。构建词包模型需要有特征词。本发明采用了
信息增益的方法来获取特征词。信息增益的计算公式如下所示:
IG(T)=H(C)-H(C|T)
H ( C ) = - Σ i = 1 n P ( C i ) 1 og 2 P ( C i ) ]]>
H ( C | T ) = - P ( t ) Σ i = 1 n P ( C i | t ) 1 og 2 P ( C i | t ) - P ( t ‾ ) Σ i = 1 n P ( C i | t ‾ ) 1 og 2 P ( C i | t ‾ ) ]]>
其中、p(ci)表示电影类型ci出现的概率,p(t)表示特征T出
现的概率。p(ci|t)表示出现T的时候,类ci出现的概率。H(C)表示
存在n种电影类型的情况下系统的熵,H(C|T)表示在得知特征T的情
况下系统的熵减少量。
2):把每个电影的剧情介绍用词包模型表示成空间向量。利用
得到的每个文本的特征及其对应的标签训练支持向量机得到文本的
分类模型。
步骤104:
用海报的分类模型,对待测的电影的海报进行预测得到类型Y1,
然后再调用文本的分类模型对待测电影的剧情介绍进行预测得到类
型Y2。最后将Y1和Y2进行“或“操作,即与待测电影的类型标签
对比,得到最后的待测电影的类型,具体流程如图5所示。
Y1和Y2中只要有一个预测结果是正确的,则将检测正确的那个
结果当做最后的预测结果;否则,把海报模型预测的结果Y1当作最
后的预测结果。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果
进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实
施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所
做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之
内。