图片的源相机型号的识别方法和装置.pdf

摘要
申请专利号：	CN201510846362.7	申请日：	2015.11.26
公开号：	CN105488529A	公开日：	2016.04.13
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06K 9/62申请日:20151126\|\|\|公开
IPC分类号：	G06K9/62	主分类号：	G06K9/62
申请人：	国网北京市电力公司; 国家电网公司
发明人：	赵璧
地址：	100031北京市西城区前门西大街41号
优先权：
专利代理机构：	北京康信知识产权代理有限责任公司11240	代理人：	韩建伟; 张永明
PDF下载：	PDF下载

内容摘要

本发明公开了一种图片的源相机型号的识别方法和装置。其中，该方法包括：对图片样本集中的第一类图片样本进行过采样处理，其中，第一类图片样本的数量远小于图片样本集中其他类图片样本的数量，图片样本集中的图片样本与源相机型号存在对应关系；提取经过过采样处理后的图片样本集中每个图片样本的特征；使用每个图片样本的特征与每个图片样本对应的源相机型号构建支持向量机分类器；以及利用支持向量机分类器识别待识别图片的源相机型号。本发明解决了相关技术针对不均衡数据训练集无法识别图片的源相机型号的技术问题。

权利要求书

1.一种图片的源相机型号的识别方法，其特征在于，包括：
对图片样本集中的第一类图片样本进行过采样处理，其中，所述第一类图片
样本的数量远小于所述图片样本集中其他类图片样本的数量，所述图片样本集中
的图片样本与源相机型号存在对应关系；
提取经过过采样处理后的图片样本集中每个图片样本的特征；
使用所述每个图片样本的特征与所述每个图片样本对应的源相机型号构建支
持向量机分类器；以及
利用所述支持向量机分类器识别待识别图片的源相机型号。
2.根据权利要求1所述的方法，其特征在于，对图片样本集中的第一类图片样本进
行过采样处理包括：
从所述第一类图片样本中选取第一图片样本和第二图片样本，其中，所述第
二图片样本是所述第一类图片样本中距离所述第一图片样本最近的图片样本；以
及
在所述第一图片样本和所述第二图片样本之间的连线上选取一点作为新合成
的第一类图片样本中的图片样本。
3.根据权利要求1所述的方法，其特征在于，提取经过过采样处理后的图片样本集
中每个图片样本的特征包括：
在硬件构件或者软件纹路上从所述每个图片样本的图像中提取特征，其中，
所述特征至少包括以下任意一种特征：平均像素值、红绿蓝相关对、邻居分布质
心、红绿蓝对能量比例、小波域统计数据以及图像质量指标。
4.根据权利要求3所述的方法，其特征在于，使用所述每个图片样本的特征与所述
每个图片样本对应的源相机型号构建支持向量机分类器包括：
将所述每个图片样本的特征构造成特征矢量集合，其中，所述特征矢量集合
中包括至少一对类别样本的特征向量，所述类别样本为已知源相机型号的图片样
本；
使用所述至少一对类别样本的特征向量训练二分类支持向量机；以及
根据训练后的二分类支持向量机构建所述支持向量机分类器。
5.根据权利要求1所述的方法，其特征在于，利用所述支持向量机分类器识别待识
别图片的源相机型号包括：
提取所述待识别图片的特征；
将所述待识别图片的特征输入至所述支持向量机分类器，得到所述待识别图
片对应的聚合的支持向量机识别结果；以及
对所述聚合的支持向量机识别结果使用投票策略，获取所述待识别图片的源
相机型号。
6.一种图片的源相机型号的识别装置，其特征在于，包括：
过采样模块，用于对图片样本集中的第一类图片样本进行过采样处理，其中，
所述第一类图片样本的数量远小于所述图片样本集中其他类图片样本的数量，所
述图片样本集中的图片样本与源相机型号存在对应关系；
提取模块，用于提取经过过采样处理后的图片样本集中每个图片样本的特征；
构建模块，用于使用所述每个图片样本的特征与所述每个图片样本对应的源
相机型号构建支持向量机分类器；以及
识别模块，用于利用所述支持向量机分类器识别待识别图片的源相机型号。
7.根据权利要求6所述的装置，其特征在于，所述过采样模块包括：
第一选取模块，用于从所述第一类图片样本中选取第一图片样本和第二图片
样本，其中，所述第二图片样本是所述第一类图片样本中距离所述第一图片样本
最近的图片样本；以及
第二选取模块，用于在所述第一图片样本和所述第二图片样本之间的连线上
选取一点作为新合成的第一类图片样本中的图片样本。
8.根据权利要求6所述的装置，其特征在于，所述提取模块包括：
第一子提取模块，用于在硬件构件或者软件纹路上从所述每个图片样本的图
像中提取特征，其中，所述特征至少包括以下任意一种特征：平均像素值、红绿
蓝相关对、邻居分布质心、红绿蓝对能量比例、小波域统计数据以及图像质量指
标。
9.根据权利要求8所述的装置，其特征在于，所述构建模块包括：
构造模块，用于将所述每个图片样本的特征构造成特征矢量集合，其中，所
述特征矢量集合中包括至少一对类别样本的特征向量，所述类别样本为已知源相
机型号的图片样本；
训练模块，用于使用所述至少一对类别样本的特征向量训练二分类支持向量
机；以及
第一子构建模块，用于根据训练后的二分类支持向量机构建所述支持向量机
分类器。
10.根据权利要求6所述的装置，其特征在于，所述识别模块包括：
第一子提取模块，用于提取所述待识别图片的特征；
输入模块，用于将所述待识别图片的特征输入至所述支持向量机分类器，得
到所述待识别图片对应的聚合的支持向量机识别结果；以及
获取模块，用于对所述聚合的支持向量机识别结果使用投票策略，获取所述
待识别图片的源相机型号。

说明书

图片的源相机型号的识别方法和装置

技术领域

本发明涉及图像处理领域，具体而言，涉及一种图片的源相机型号的识别方法和
装置。

背景技术

如今，随着数字成像技术的发展和数码相机的普及，在今天的日常生活中，数字
图像的使用已经变得越来越普遍。数字图像被许多政府、法律、科学和新闻媒体组织
用来作为做出某些重要决定的摄影证据。另一方面，随着图像编辑软件的普及，以隐
藏某些真相或事实为目的的数字图像的创建和操纵已经变得更加容易。在这种情况下，
当图像被用来作为证据时，图像认证和图像完整性验证成为一项重要任务。

图像取证就是一个涉及到这两个问题的新兴领域。所谓“图像认证”是指识别图
像的来源设备，如某型号的照相机、某款软件等等。“图像完整性验证”是确定数字图
像是否被操纵、以及如何被操纵的。源相机识别有很多应用。比如，识别法庭上证据
图像的原始来源、找到在版权纠纷案件中，摄影作品的真正主人等等。因此，在这样
的背景之下，图像的源相机识别技术有着极大的市场，各国学者也在这一领域做了许
多研究工作。

近年来，图像的源相机识别技术有了长足的发展。最简单的源相机识别方法是利
用图像的标题。因为图像来源的相关信息，例如相机的品牌、型号、拍摄日期和时间
都嵌入在标题中。但是，图像的标题在实际应用中很容易被操作，是极为不可靠的。

此外，还可以尝试在图像中嵌入一个半透明的水印，在水印中加入例如相机品牌、
型号和时间等相关信息。直接在图像中插入水印看起来似乎是解决源相机识别的一种
非常简单而且直观的方法。但是，水印需要在图像的创建期间加入，这使得数码相机
的设计更加复杂，并且增加了生产成本。事实上，现今捕捉的大部分图像并不包含数
字水印。

通常数码相机获取图像的过程如下：首先外界光线穿过镜头、抗混叠滤波器和颜
色过滤器模组，之后半导体光线传感器把光信号转换成电子信号，之后的后期处理操
作包括伽玛校正、去马赛克、图像校正、白平衡和JPEG压缩。以上这些步骤，包括后
期处理步骤都是在图像存储之前进行的。在图像采集过程中，硬件和软件都可能会在
图像中留下痕迹。这些独一无二的痕迹可以被用来识别成像相机。相比基于图像标题
和水印的方法，依赖于图像采集过程的源相机识别方法无疑更加可靠与实用。

基于图像采集过程的方法首先提取图像特征，这些特征包括在图像采集过程中，
由硬件或软件留下的特定指纹。之后把识别看作一个分类问题。由硬件留下的指纹包
括噪声模式、透镜径向畸变、色差、传感器灰尘等等；由软件留下的相关指纹包括与
图像相关的各种特征、由滤色器模组引入的特征等等。

提取图像特征之后，训练监督性分类器来执行源相机识别任务。支持向量机一般
是最常用的分类器，因为即使是在特征维数与训练数据集大小相当或比训练数据集大
的时候，支持向量机的性能仍然很好，而且能够比较好地解决过拟合问题。

不过，支持向量机方法适用于均衡训练数据集，在训练数据集存在不均衡类分布
时，支持向量机分类器表现欠佳。在不均衡训练数据集情况下，由支持向量机产生的
决策边界往往偏向于多数类，少数类实例很有可能被误诊。因此，如何在不均衡数据
训练集的情况下准确地对图像进行源相机识别，在近年来成为研究的热点之一。

综上所述，目前针对不均衡数据训练集的图片的源相机型号的识别，仍然是亟待
解决的问题之一，也是研究的热点之一。

针对相关技术针对不均衡数据训练集无法识别图片的源相机型号的问题，目前尚
未提出有效的解决方案。

发明内容

本发明实施例提供了一种图片的源相机型号的识别方法和装置，以至少解决相关
技术针对不均衡数据训练集无法识别图片的源相机型号的技术问题。

根据本发明实施例的一个方面，提供了一种图片的源相机型号的识别方法，包括：
对图片样本集中的第一类图片样本进行过采样处理，其中，第一类图片样本的数量远
小于图片样本集中其他类图片样本的数量，图片样本集中的图片样本与源相机型号存
在对应关系；提取经过过采样处理后的图片样本集中每个图片样本的特征；使用每个
图片样本的特征与每个图片样本对应的源相机型号构建支持向量机分类器；以及利用
支持向量机分类器识别待识别图片的源相机型号。

进一步地，对图片样本集中的第一类图片样本进行过采样处理包括：从第一类图
片样本中选取第一图片样本和第二图片样本，其中，第二图片样本是第一类图片样本
中距离第一图片样本最近的图片样本；以及在第一图片样本和第二图片样本之间的连
线上选取一点作为新合成的第一类图片样本中的图片样本。

进一步地，提取经过过采样处理后的图片样本集中每个图片样本的特征包括：在
硬件构件或者软件纹路上从每个图片样本的图像中提取特征，其中，特征至少包括以
下任意一种特征：平均像素值、红绿蓝相关对、邻居分布质心、红绿蓝对能量比例、
小波域统计数据以及图像质量指标。

进一步地，使用每个图片样本的特征与每个图片样本对应的源相机型号构建支持
向量机分类器包括：将每个图片样本的特征构造成特征矢量集合，其中，特征矢量集
合中包括至少一对类别样本的特征向量，类别样本为已知源相机型号的图片样本；使
用至少一对类别样本的特征向量训练二分类支持向量机；以及根据训练后的二分类支
持向量机构建支持向量机分类器。

进一步地，利用支持向量机分类器识别待识别图片的源相机型号包括：提取待识
别图片的特征；将待识别图片的特征输入至支持向量机分类器，得到待识别图片对应
的聚合的支持向量机识别结果；以及对聚合的支持向量机识别结果使用投票策略，获
取待识别图片的源相机型号。

根据本发明实施例的另一方面，还提供了一种图片的源相机型号的识别装置，包
括：过采样模块，用于对图片样本集中的第一类图片样本进行过采样处理，其中，第
一类图片样本的数量远小于图片样本集中其他类图片样本的数量，图片样本集中的图
片样本与源相机型号存在对应关系；提取模块，用于提取经过过采样处理后的图片样
本集中每个图片样本的特征；构建模块，用于使用每个图片样本的特征与每个图片样
本对应的源相机型号构建支持向量机分类器；以及识别模块，用于利用支持向量机分
类器识别待识别图片的源相机型号。

进一步地，过采样模块包括：第一选取模块，用于从第一类图片样本中选取第一
图片样本和第二图片样本，其中，第二图片样本是第一类图片样本中距离第一图片样
本最近的图片样本；以及第二选取模块，用于在第一图片样本和第二图片样本之间的
连线上选取一点作为新合成的第一类图片样本中的图片样本。

进一步地，提取模块包括：第一子提取模块，用于在硬件构件或者软件纹路上从
每个图片样本的图像中提取特征，其中，特征至少包括以下任意一种特征：平均像素
值、红绿蓝相关对、邻居分布质心、红绿蓝对能量比例、小波域统计数据以及图像质
量指标。

进一步地，构建模块包括：构造模块，用于将每个图片样本的特征构造成特征矢
量集合，其中，特征矢量集合中包括至少一对类别样本的特征向量，类别样本为已知
源相机型号的图片样本；训练模块，用于使用至少一对类别样本的特征向量训练二分
类支持向量机；以及第一子构建模块，用于根据训练后的二分类支持向量机构建支持
向量机分类器。

进一步地，识别模块包括：第一子提取模块，用于提取待识别图片的特征；输入
模块，用于将待识别图片的特征输入至支持向量机分类器，得到待识别图片对应的聚
合的支持向量机识别结果；以及获取模块，用于对聚合的支持向量机识别结果使用投
票策略，获取待识别图片的源相机型号。

在本发明实施例中，通过对图片样本集中的第一类图片样本进行过采样处理，其
中，第一类图片样本的数量远小于图片样本集中其他类图片样本的数量，图片样本集
中的图片样本与源相机型号存在对应关系；提取经过过采样处理后的图片样本集中每
个图片样本的特征；使用每个图片样本的特征与每个图片样本对应的源相机型号构建
支持向量机分类器；以及利用支持向量机分类器识别待识别图片的源相机型号，解决
了相关技术针对不均衡数据训练集无法识别图片的源相机型号的技术问题，实现了提
高图片的源相机型号的识别精度的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发
明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图
中：

图1是根据本发明实施例的图片的源相机型号的识别方法的流程图；

图2是根据本发明实施例的图片的源相机型号的识别方法的数据流向的示意图；
以及

图3是根据本发明实施例的图片的源相机型号的识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的
附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例
仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领
域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于
本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第
二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这
样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在
这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的
任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方
法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚
地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种图片的源相机型号的识别的方法实施例，需要说
明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统
中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于
此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的图片的源相机型号的识别方法的流程图，如图1所示，
该方法包括如下步骤：

步骤S102，对图片样本集中的第一类图片样本进行过采样处理，其中，第一类图
片样本的数量远小于图片样本集中其他类图片样本的数量，图片样本集中的图片样本
与源相机型号存在对应关系。

在步骤S102提供的方案中，图片样本集中可以包括多个类别的图片样本，图片样
本的类别由图片的源相机型号决定，属于同一个相机型号的图片样本属于同一类图片
样本。图片样本集中的图片样本的源相机型号为已知的，即图片样本集中的图片样本
与源相机型号存在对应关系，一个图片样本对应一个源相机型号。

该实施例中的图片样本集为不均衡训练数据集，不均衡主要表现在图片样本数量
分布不均衡，比如，第一类图片样本的数量远小于图片样本集中其他类图片样本的数
量。可选地，步骤S102对图片样本集中的第一类图片样本进行过采样处理可以包括：
从第一类图片样本中选取第一图片样本和第二图片样本，其中，第二图片样本是第一
类图片样本中距离第一图片样本最近的图片样本；以及在第一图片样本和第二图片样
本之间的连线上选取一点作为新合成的第一类图片样本中的图片样本。需要说明的是，
第一图片样本为第一类图片样本中的任意一个图片样本，对图片样本集中的第一类图
片样本进行过采样处理需要对第一类图片样本中的每个图片样本均进行以上处理。该
实施例对图片样本数量分布不均衡的图片样本集中的第一类图片样本进行过采样处理，
能够提高图片的源相机型号的识别精度。

该实施例对图片样本集中的第一类图片样本进行过采样处理可以采用SMOTE算法，
SMOTE算法是过采样中比较常用的一种算法。SMOTE算法的思想是合成新的少数类样本，
即该实施例中的第一类图片样本，合成的策略是对每个少数类样本a，从它的最近邻
的同类样本中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的
少数类样本。具体地，随机选定一个参数w∈(0,1)，则新的样本点c＝a+w(b-a)。

步骤S104，提取经过过采样处理后的图片样本集中每个图片样本的特征。

在步骤S104提供的方案中，经过过采样处理后的图片样本集中的每类图片样本数
量分布均衡，使其用作分类器的训练样本能够提高图片的源相机型号的识别精度。可
选地，步骤S104提取经过过采样处理后的图片样本集中每个图片样本的特征可以包括：
在内在硬件构件或者软件相关纹路上从每个图片样本的图像中提取特征，其中，特征
至少包括以下任意一种特征：平均像素值、红绿蓝相关对、邻居分布质心、红绿蓝对
能量比例、小波域统计数据以及图像质量指标。

需要说明的是，提取经过过采样处理后的图片样本集中每个图片样本的特征时可
以提取上述所有特征，也可以只提取上述特征中的部分特征，或者还可以根据实际情
况提取上述特征之外的特征，在此该实施例不再做具体列举说明。

步骤S106，使用每个图片样本的特征与每个图片样本对应的源相机型号构建支持
向量机分类器。

在步骤S106提供的方案中，利用每个图片样本的特征以及每个图片样本对应的源
相机型号训练分类器，此方案中分类器为支持向量机分类器。可选地，步骤S106使用
每个图片样本的特征与每个图片样本对应的源相机型号构建支持向量机分类器可以包
括：将每个图片样本的特征构造成特征矢量集合，其中，特征矢量集合中包括至少一
对类别样本的特征向量，类别样本为已知源相机型号的图片样本；使用至少一对类别
样本的特征向量训练二分类支持向量机；以及根据训练后的二分类支持向量机构建支
持向量机分类器。

该实施例可以使用AdaBoost算法构建支持向量机分类器，具体地：在过采样的少
数类和多数类上用AdaBoost算法去构建支持向量机集成分类器，AdaBoost算法在训
练数据集上通过自适应调整权重创建一组迭代的基分类器。在每次的迭代过程中，当
前分类器的错误分类实例都被给予更高的权重，反之亦然。

步骤S108，利用支持向量机分类器识别待识别图片的源相机型号。

在步骤S108提供的方案中，支持向量机分类器为训练后的分类器，利用该支持向
量机分类器可以识别图片的源相机型号。可选地，步骤S108利用支持向量机分类器识
别待识别图片的源相机型号可以包括：提取待识别图片的特征；将待识别图片的特征
输入至支持向量机分类器，得到待识别图片对应的聚合的支持向量机识别结果；以及
对聚合的支持向量机识别结果使用投票策略，获取待识别图片的源相机型号。需要说
明的是，待识别图片的特征也可以包括以下至少一种特征：平均像素值、红绿蓝相关
对、邻居分布质心、红绿蓝对能量比例、小波域统计数据以及图像质量指标。将待识
别图片的特征输入到支持向量机分类器后，可以得到聚合的支持向量机识别结果，该
聚合的支持向量机识别结果并不是待识别图片的源相机型号，只有在通过投票策略处
理后才能得到待识别图片的源相机型号。

通过上述步骤，该实施例通过对图片样本集中的第一类图片样本进行过采样处理，
其中，第一类图片样本的数量远小于图片样本集中其他类图片样本的数量，图片样本
集中的图片样本与源相机型号存在对应关系；提取经过过采样处理后的图片样本集中
每个图片样本的特征；使用每个图片样本的特征与每个图片样本对应的源相机型号构
建支持向量机分类器；以及利用支持向量机分类器识别待识别图片的源相机型号，解
决了相关技术针对不均衡数据训练集无法识别图片的源相机型号的技术问题，实现了
提高图片的源相机型号的识别精度的技术效果。

本发明还提供了一种可选地实施例，图2是根据本发明实施例的图片的源相机型
号的识别方法的数据流向的示意图，如图2所示，该实施例的方法可以分为训练阶段
和识别阶段，图2中的实线代表训练阶段的数据流向：收集到的图像样本经过特征提
取得到图像的特征，然后生成特征矢量集合，然后使用每个图片样本的特征与每个图
片样本对应的源相机型号构建并训练支持向量机分类器。图2中的虚线代表识别阶段
的数据流向：提取待识别图像的特征，将该待识别图像的特征输入至支持向量机分类
器，得到聚合的支持向量机识别结果，经过投票处理后得到待识别图像的识别经过，
即待识别图像的源相机型号。

下面结合具体实例对本发明进行具体介绍：

本发明实施例可以包括训练步骤和分类(预测)步骤，下面分别进行详细描述：

训练步骤的具体过程如下：

步骤S1，进行图像收集。为了评估本发明实施例提出的方案，本发明实施例在德
累斯顿图像集合上进行了大量的实验。该图像数据库是专门为基于数字取证技术的相
机进行发展和基准测试构建的。为了模拟不均衡训练数据集的真实场景，本发明实施
例挑选了7个不同图像集大小的相机模型。被选中的相机模型的具体细节包括相机型
号、相机别名、训练规模、测试规模等方面。

步骤S2，对收集到的图像进行特征提取，主要是在内在硬件构件或软件相关纹路
上从图像中提取特征。在实验中，本发明实施例提取了Kharrazi等人提出的34个特
性来使这些图像更具有特点。其中这34个特性分别包括：平均像素值(3个特性)，
红绿蓝相关对(3个特性)，邻居分布质心(3个特性)，红绿蓝对能量比例(3个特性)，
小波域统计数据(9个特性)和图像质量指标(13个特性)。

步骤S3，将提取出的特征构成特征矢量集合。

步骤S4，构建并训练支持向量机集成分类器，其中支持向量机的构建过程如下所
述：

由于存在多个相机模型，源相机型号的识别可以被看作多类别分类问题。类之间
的边界可以重叠，这使得分类复杂得多。此外，不均衡训练数据集可能会增加多层次
分类的难度。在这种情况下，本发明实施例将原来的多层次分类问题转化成二元分类
问题。本发明实施例利用一对一的方法去分解多层次分类问题，为k类别分类任务构
造k(k-1)/2二进制分类器。一个二进制分类器用来训练每一个可能的类对。分解完成
后，不均衡训练数据集的多层次分类问题被转化为不均衡训练数据集的二元分类问题。

首先，通过SMOTE算法对少数类进行过采样。在SMOTE算法中，随机合成的样本
点一定在两个已知的少数类样本的连线线段上。

然后，在过采样的少数类和多数类上用AdaBoost算法去构建支持向量机集成分类
器。AdaBoost算法在训练数据集例子上通过自适应调整权重创建一组迭代的基分类器。
在每次的迭代过程中，当前分类器的错误分类实例都被给予更高的权重，反之亦然。

其中，SMOTE算法的提出是由于平时很多分类问题都会面临样本不均衡的问题，
而很多算法在这种情况下分类效果都不够理想。针对不均衡问题，一般有采样和代价
敏感学习两种策略，采样的话又分为过采样和欠采样。其中，SMOTE算法是过采样中
比较常用的一种算法。SMOTE算法的思想是合成新的少数类样本，合成的策略是对每
个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机
选一点作为新合成的少数类样本。

Adaboost算法是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类
器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。
其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是
否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新
数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为
最后的决策分类器。使用AdaBoost分类器可以排除一些不必要的训练数据特征，并将
重点放在关键的训练数据上面。

分类(预测)步骤，即本发明的实际使用步骤，具体过程如下：

步骤S5，进行图像的输入。

步骤S6，对输入的图像进行特征提取，与训练步骤类似，主要也是在内在硬件构
件或软件相关纹路上从图像中提取特征。在实验中，提取Kharrazi等人提出的34个
特性来使这些图像更具有特点。其中这34个特性分别包括：平均像素值(3个特性)，
红绿蓝相关对(3个特性)，邻居分布质心(3个特性)，红绿蓝对能量比例(3个特性)，
小波域统计数据(9个特性)和图像质量指标(13个特性)。

步骤S7，把这些特征输入到训练支持向量机集成分类器中，进而得到聚合的支持
向量机预测结果。其中，支持向量机的输出结果是通过多数投票的方法被聚合的。

步骤S8，完成图像的识别。

本发明实施例对原方法、EnSVM方法、AdaBoost算法、SMOTE算法和本文中提出
的图片的源相机型号的识别方法在识别的准确度和特征的测量方面进行了对比，通过
对比发现本文中提出的方案是最优的，原因是在此方案中使用的AdaBoost算法与
EnSVM方法中采用的装袋算法相比能更有效的处理不均衡训练数据集。数据还表明
SMOTE和AdaBoost算法比原方法能取得更好的性能。这表明这两种算法有助于本发明
提出的图片的源相机型号的识别方法的整体性能。同时，本发明提出的图片的源相机
型号的识别方法，即支持向量机集成方法，能有效地缓解不均衡训练数据集的影响，
主要表现在以下三个方面：第一，SMOTE算法上的过采样减轻了不均衡的程度。第二，
在AdaBoost算法每次的迭代过程中，少数类样本往往被给予更高的权重，因此它们更
可能被误分类。通过这种方式，不均衡训练数据集的影响进一步得到缓解。第三，支
持向量机集成分类器可以克服建立在不均衡训练数据集上单个支持向量机的不稳定性
并且实现更好的性能。

本发明对比现有技术，通过结合SMOTE和AdaBoost算法，将原来的多层次分类问
题转化成二元分类问题，利用一对一的方法去分解多层次分类问题，为k类别分类任
务构造k(k-1)/2二进制分类器，二进制分类器用来训练每一个可能的类对。分解完成
后，不均衡训练数据集的多层次分类问题被转化为不均衡训练数据集的二元分类问题。
本发明能够有效解决不均衡训练数据集问题，提高图片的源相机型号的识别的准确率。

根据本发明实施例，还提供了一种图片的源相机型号的识别的装置实施例，需要
说明的是，该图片的源相机型号的识别装置可以用于执行本发明实施例中的图片的源
相机型号的识别方法，本发明实施例中的图片的源相机型号的识别方法可以在该图片
的源相机型号的识别装置中执行。

图3是根据本发明实施例的图片的源相机型号的识别装置的示意图，如图3所示，
该装置可以包括：

过采样模块22，用于对图片样本集中的第一类图片样本进行过采样处理，其中，
第一类图片样本的数量远小于图片样本集中其他类图片样本的数量，图片样本集中的
图片样本与源相机型号存在对应关系；提取模块24，用于提取经过过采样处理后的图
片样本集中每个图片样本的特征；构建模块26，用于使用每个图片样本的特征与每个
图片样本对应的源相机型号构建支持向量机分类器；以及识别模块28，用于利用支持
向量机分类器识别待识别图片的源相机型号。

需要说明的是，该实施例中的过采样模块22可以用于执行本申请实施例中的步骤
S102，该实施例中的提取模块24可以用于执行本申请实施例中的步骤S104，该实施
例中的构建模块26可以用于执行本申请实施例中的步骤S106，该实施例中的识别模
块28可以用于执行本申请实施例中的步骤S108。上述模块与对应的步骤所实现的示
例和应用场景相同，但不限于上述实施例所公开的内容。

可选地，过采样模块22可以包括：第一选取模块，用于从第一类图片样本中选取
第一图片样本和第二图片样本，其中，第二图片样本是第一类图片样本中距离第一图
片样本最近的图片样本；以及第二选取模块，用于在第一图片样本和第二图片样本之
间的连线上选取一点作为新合成的第一类图片样本中的图片样本。

可选地，提取模块24可以包括：第一子提取模块，用于在硬件构件或者软件纹路
上从每个图片样本的图像中提取特征，其中，特征至少包括以下任意一种特征：平均
像素值、红绿蓝相关对、邻居分布质心、红绿蓝对能量比例、小波域统计数据以及图
像质量指标。

可选地，构建模块26可以包括：构造模块，用于将每个图片样本的特征构造成特
征矢量集合，其中，特征矢量集合中包括至少一对类别样本的特征向量，类别样本为
已知源相机型号的图片样本；训练模块，用于使用至少一对类别样本的特征向量训练
二分类支持向量机；以及第一子构建模块，用于根据训练后的二分类支持向量机构建
支持向量机分类器。

可选地，识别模块28可以包括：第一子提取模块，用于提取待识别图片的特征；
输入模块，用于将待识别图片的特征输入至支持向量机分类器，得到待识别图片对应
的聚合的支持向量机识别结果；以及获取模块，用于对聚合的支持向量机识别结果使
用投票策略，获取待识别图片的源相机型号。

通过该实施例的图片的源相机型号的识别装置，通过过采样模块22对图片样本集
中的第一类图片样本进行过采样处理；通过提取模块24提取经过过采样处理后的图片
样本集中每个图片样本的特征；通过构建模块26使用每个图片样本的特征与每个图片
样本对应的源相机型号构建支持向量机分类器；通过识别模块28利用支持向量机分类
器识别待识别图片的源相机型号，解决了相关技术针对不均衡数据训练集无法识别图
片的源相机型号的技术问题，实现了提高图片的源相机型号的识别精度的技术效果。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有
详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它
的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，
可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件
可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所
显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模
块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显
示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到
多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案
的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以
是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成
的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，
可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质
上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的
形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一
台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所
述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only
Memory)、随机存取存储器(RAM，RandomAccessMemory)、移动硬盘、磁碟或者光盘
等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人
员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润
饰也应视为本发明的保护范围。