减少支持向量与训练时间的交叉合并方法.pdf

上传人:54 文档编号:643276 上传时间:2018-03-01 格式:PDF 页数:11 大小:466.04KB
返回 下载 相关 举报
摘要
申请专利号:

CN200410053659.X

申请日:

2004.08.12

公开号:

CN1588342A

公开日:

2005.03.02

当前法律状态:

终止

有效性:

无权

法律详情:

未缴年费专利权终止IPC(主分类):G06F 15/18申请日:20040812授权公告日:20071205终止日期:20100812|||授权|||实质审查的生效|||公开

IPC分类号:

G06F15/18

主分类号:

G06F15/18

申请人:

上海交通大学;

发明人:

文益民; 吕宝粮

地址:

200240上海市闵行区东川路800号

优先权:

专利代理机构:

上海交达专利事务所

代理人:

王锡麟;王桂忠

PDF下载: PDF下载
内容摘要

一种用于智能信息处理技术领域的减少支持向量与训练时间的交叉合并方法,包括三个步骤:训练集分解:将训练样本集分类别提取样本后,根据预先设定的分解比率,将训练集中的各类样本集合分别分解成两个子集,然后将样本子集进行组合,得到四个训练集;基于支持向量的分层数据筛选:用支持向量机方法并行处理四个训练集,得到四个支持向量集合,按照交叉合并规则,将四个支持向量的集合分两组合并,得到两个训练集,用支持向量机方法并行处理这两个训练集所代表的两个分类问题,得到两个支持向量的集合,将此两个支持向量的集合合并,产生一个训练集,便是最终的训练集;利用分层筛选得到的最终训练集训练支持向量机得到最终的分类器。

权利要求书

1、  一种减少支持向量与训练时间的交叉合并方法,其特征在于,包括训练集分解、基于支持向量的分层数据筛选、最终分类器生成三个步骤:
1)训练集分解:将包含有两类样本的训练样本集分类别提取样本后,根据预先设定的分解比率r,将训练集中的各类样本集合分别分解成两个子集,然后将来自各类别的样本子集进行组合,进而得到四个训练集,这四个训练集所代表的两类分类问题的规模都比原训练样本集要小;
2)基于支持向量的分层数据筛选:用支持向量机方法并行处理这四个两类分类问题,将得到四个支持向量集合,按照交叉合并规则,将得到的四个支持向量的集合分两组合并,从而得到两个训练集,用支持向量机方法并行处理这两个训练集所代表的两个分类问题,得到两个支持向量的集合,将此两个支持向量的集合合并,产生一个训练集,这个训练集便是最终的训练集;
3)最终分类器的生成:利用分层筛选得到的最终训练集训练支持向量机得到最终的分类器。

2、
  如权利要求1所述的减少支持向量与训练时间的交叉合并方法,其特征是,步骤1)中,将训练样本分类提取后,根据预先设定的分解比率r,对训练集中的各类样本集合进行分解后组合成四个两类分类问题,如果每个问题仍然太大,则进一步按照同样的分解方法继续分解,分解比率r决定同一层中计算负荷的分配。

3、
  如权利要求1所述的减少支持向量与训练时间的交叉合并方法,其特征是,步骤2)中,四个分类问题经提取支持向量以后,按照交叉合并的规则将四个支持向量集统合成两个分类问题,每个分类问题体现了原训练集的某个角度的分类信息,将得到的两个分类问题经过并行的支持向量提取,然后将得到的两个支持向量集合合并,将来自两个角度的分类信息统合在一起,从而使得SV12USV34与原整个训练集中包含的分类信息一致,最终使得到的分类器有着一致的识别准确率。

说明书

减少支持向量与训练时间的交叉合并方法
技术领域
本发明涉及一种基于支持向量本质的分层并行机器学习方法,具体是一种减少支持向量与训练时间的交叉合并方法。用于智能信息处理技术领域
背景技术
随着科学技术的发展,人类在各个领域积累了大量数据,而且这些数据还在以更高的速度增加。对这些数据的分析和理解,对于人类社会的进一步发展有着非常重要的意义,甚至可能导致人类对自然界更重要的发现。另一方面,由于有统计学习理论作为坚实的理论基础,支持向量机方法已成为一种广泛流行的模式分类方法。使用支持向量机方法解决大规模模式分类问题有两种方法。增量学习方法将一个大规模问题分成若干子问题,然后将各个子问题串行处理。训练支持向量机的工作集方法就属于这类。这种方法的一个主要优点是它对内存只有线性需求,即所需内存的大小与训练样本数目成正比。在处理大规模模式分类问题时,使用增量学习方法会导致迭代次数过多和训练时间过长等问题,这种方法的训练时间复杂度通常是O(N2)左右。并行学习方法按照分而治之的原则将原问题分解成若干子问题,将各个子问题并行处理以后再进行集成。并行学习方法的优点是建立在并行计算的基础上,能缩短训练时间,具有良好的可修改性和可扩充性,但是训练过程结束后所有子模块的结果都需要保留,从而导致支持向量数目增加。
支持向量是支持向量机方法中的重要概念。经对现有技术文献的检索发现,关于支持向量的本质,1999年syed,N.A.在文献(Incremental Learning withSupport Vector Machines.In:Proceedings of the Workshop on Support VectorMachines at the International Joint Conference on Artificial Intelligence.Sweden,Stockholm,1999)(支持向量机的增量学习,出自:1999国际人工智能联合会议支持向量机研究小组会议论文集)中通过大量的数值仿真试验证明:支持向量集包含了训练样本集中的分类信息,并且这个支持向量集是必要的,即支持向量的数目不可以减少到超过其总数的10%,但并没有对支持向量的个数有进一步的论述。至今也无有关与本发明相同文献的报道。
发明内容
本发明的目的在于针对现有使用支持向量机方法解决大规模问题时训练时间过长的不足,提供一种减少支持向量与训练时间的交叉合并方法,使其能够减少学习时间,同时减少支持向量。本发明在训练样本筛选的过程中采用一种交叉合并的组合方法,以保证最后得到的训练样本集与原训练样本集的一致性。
本发明是通过以下技术方案实现的,本发明方法包括训练集分解、基于支持向量的分层数据筛选、最终分类器生成三个步骤。
1)训练集分解:将包含有两类样本的训练样本集分类别提取样本后,根据预先设定的分解比率r,将训练集中的各类样本集合分别分解成两个子集,然后将来自不同类别的样本子集进行组合,进而得到四个训练集。这四个训练集所代表的两类分类问题的规模都比原训练样本集要小。
2)基于支持向量的分层数据筛选:用支持向量机方法并行处理这四个两类分类问题,将得到四个支持向量集合。按照交叉合并规则,将得到的四个支持向量的集合分两组合并,从而可以得到两个训练集。用支持向量机方法并行处理这两个训练集所代表的两个分类问题,得到两个支持向量的集合。将此两个支持向量的集合合并,产生一个训练集。这个训练集便是最终的训练集。由于一个训练集的支持向量集包含了训练集中的分类信息,因此上述过程将非支持向量逐步筛选掉,减少了训练样本从而减少训练时间。本发明通过两层数据筛选最终得到与原训练集等价的包含样本个数较少的训练集。
3)最终分类器的生成:利用分层筛选得到的最终训练集训练支持向量机得到最终的分类器。
以下对本发明方法作进一步的说明:
1、训练集分解
假设原两类分类问题中属于类C1的样本为: P = { X i } i = 1 L m , ]]>属于类C2的样本为: N = { X i } i = 1 L n , ]]>Xi表示一个样本,Lm和Ln分别表示两类样本的数目,则全部训练样本集可表示为T=P∪N。根据事先确定的分解比率r(0<r≤0.5)将原训练集P和N分别分解为两个子集:
P 1 = { X i } i = 1 L P 1 , P 2 = { X i } i = L P 1 + 1 L m , N 1 = { X i } i = 1 L n 1 , N 2 = { X i } i = L n 1 + 1 L n - - - ( 1 ) ]]>
其中Lp1和Ln1分别表示P1和N1中样本的数目。于是,原两类分类问题T可以分解成下列四个规模较小的两类分类问题:
T1=P1∪N1,T2=P2∪N2,T4=P2∪N2,T4=P2∪N1    (2)
如果这些两类分类问题仍然太大,可以按照以上的方法将它们中的每一个进一步分解成四个规模更小的两类分类问题。
2、基于支持向量的分层数据筛选
采用标准的支持向量机方法,在此四个较小的两类分类问题上并行训练得到四个支持向量机。他们的支持向量的集合分别为:SV1,SV2,SV3和SV4。采用交叉联合规则,将T1和T2的支持向量集合SV1和SV2合并成T12,将T3和T4地支持向量集合SV3和SV4合并成T34。所谓交叉合并规则,是避免在T1和T2或T3和T4中属于同一类的子集的重复出现,从而避免人为造成T12和T34中训练数据的不平衡和分类信息的损失。
T12=SV1∪SV2,T34=SV3∪SV4                           (3)
由于支持向量集中包含了分类信息,因此T12和T34从两个不同的角度保存了原训练样本集中的信息,避免了因数据划分带来的分类信息损失。同时,从T1和T2到T12或T3和T4到T34非支持向量的样本被筛选掉。将T12和T34分别作为训练集,经并行处理而得到两个支持向量机。它们的支持向量集合分别为:SV12和SV34,将两者合并:
Tfinal=SV12∪SV34                             (4)
得到最后的训练集。因此Tfinal将包含训练集T中的全部分类信息。在以上过程中由于只留下支持向量,而非支持向量被逐步筛选掉。与原训练集T相比,Tfinal中将只留下相对较少的训练数据。
3、最终分类器的生成
使用Tfinal作为新的训练集,得到支持向量机SVMfinal。该支持向量机作为最后的模式分类器,它所使用的支持向量较少,这将缩短识别时间。
以上过程可以用算法描述:
已知:
训练样本集T=P∪N和分解比率r
算法:
(1)根据r将P和N分解,然后组合成四个规模较小的分类问题T1、T2、T3和T4
(2)如果T1、T2、T3和T4的问题规模符合内存限制,则转(3),否则转(1);
(3)采用支持向量机方法将T1、T2、T3和T4并行处理,得到与它们对应的四个支持向量集合:SV1,SV2,SV3和SV4
(4)按照交叉合并原则将它们组合成两个分类问题T12和T34,采用支持向量机方法将它们并行处理得到两个支持向量集合SV12和SV34
(5)令Tfinal=SV12∪SV34
(6)将Tfinal作为新的训练集获得最终的支持向量机,将其作为识别阶段的模式分类器。
本发明使得分层筛选后得到的最终训练集与原训练集中包含的分类信息保持一致,从而使得利用分层筛选训练样本得到的分类器与利用原整个训练集得到的分类器的识别准确率保持一致。根据采用本发明所进行的多个试验表明:本发明所提出的方法减少了训练时间和支持向量个数。本发明的另一个效果在于:在保证不降低分类器识别准确率的前提下,采用分解方法降低了问题规模。
附图说明
图1本发明方法流程图
图2本发明实施例实验一的数据分布和分解示意图
具体实施方式
下面以实例的方式并结合附图对本发明作进一步的描述:
如图1所示,如果是多类问题,需要进行多类两类的转换。然后本发明方法包括以下步骤:
第一、通过训练样本的预处理将训练样本分类提取,属于每个类的样本构成一个集合。这种预处理过程可以在采集训练样本时进行,这样可以降低预处理过程的时间复杂度。在两类的情形下,将训练样本预处理成T=P∪N,其中P和N分别表示属于两个类别的训练样本集。
第二、将P和N按照预先设定的分解比率r进行分解,分别分解成P1、P2和N1、N2。比如在图2中一个[0,200]×[0,200]的棋盘被分成四块,所有的样本点均匀分布在这四块上。位于[0,100]×[0,100]和[100,200]×[100,200]中的样本为正例样本,而位于余下空间中的样本为反例样本。取分解比率为r=0.5,可以做出如图2所示的划分。然后按照图1所示的方法,进行分层筛选得到最后的训练集Tfinal。将SV12和SV34合并获得Tfinal的过程是一个去重合并的过程。为了降低时间复杂度,在合并SV12和SV34时,可分别取SV12和SV34中的各个训练样本在原训练集T中的对应序号构成两个集合,然后进行去重合并,再根据去重合并的结果将对应的训练样本取回,最终构成Tfinal
第三、以Tfinal作为训练集,使用通用的支持向量机训练方法可得到最后的分类器SVMfinal。注意:图1中的各个支持向量集是通过采用相同的参数得到的。比如:当采用高斯核函数时需要采用相同的C和σ。
使用分类器SVMfinal对要识别的样本进行识别。
本实施例中的两个试验数据分别来自人工和实际问题。实验平台为:2.4GHz512MB RAM Pentium 4 PC。
在实验一中,为了检验本发明的健壮性,随机生成了四个不同的训练集和一个共同的测试集。这样构成四个两类问题:A1、A2、A3和A4每个训练集包含5000个正例样本和5000个反例样本,测试集中包含10000个正例样本和10000个反例样本。采用高斯核函数,参数选择为:c=1000,σ=31.62。
表1实验一的实验数据集

 Training Testing Positive samples Negative samples Positive samples Negative samples    A1 5000 5000 10000 10000    A2 5000 5000    A3 5000 5000    A4 5000 5000

在实验二中,文本分类试验的数据采用日本读卖新闻提供的文本分类数据库。经过特征提取后,特征空间的维数为5000。本发明从该数据库中提取了如表2所示的三类数据。任选其中的两类构成一个两类分类问题,于是得到三个两类问题:A5、A6和A7。参数的选择为:σ=2,C=64和r=0.5。
表2实验二的实验数据集Category  Data  Training  TestAccidentsHealthBy-time  34044  35932  33590  8483  7004  7702

为了验证本发明所提出的方法的实际效果,分别将本发明提出的分层筛选训练样本的支持向量机方法与将整个训练样本集一次性学习的支持向量机方法进行试验比较。为了描述方便,将本发明提出的方法记为C-SVM(Cascade SVM),而将后一种方法记为S-SVM(Standard SVM)。实验结果见表3和表4:
表3实验一的实验结果  Method  Accuracy(%)Trainingtime(s)Numberof SVs  Train  Test  A1  S-SVM  C-SVM  99.84  99.78  99.81  99.7246.3913.089381  A2  S-SVM  C-SVM  99.89  99.85  99.72  99.7038.0015.349683  A3  S-SVM  C-SVM  99.93  99.86  99.84  99.7532.4413.458879  A4  S-SVM  C-SVM  99.89  99.92  99.81  99.8335.5019.879484  av  S-SVM  C-SVM  99.89  99.85  99.80  99.7538.0815.449382

表4实验二的实验结果  Method A5 A6 A7  Training  accuracy(%)  S-SVM  C-SVM 97.74 97.73 97.93 97.75 96.67 96.67  Test  accuracy(%)  S-SVM  C-SVM 95.81 95.83 96.01 96.02 93.62 93.62  Training  time(s)  S-SVM  C-SVM 12664 9519 7458 4491 18566 15060  Number  of SVs  S-SVM  C-SVM 10933 10553 9445 9222 12750 12387

由以上数据可以知道:
1、本发明能在保证分类器识别准确率的前提下,减少训练时间。同时该方法对训练样本具有鲁棒性;2、本发明减少了支持向量的数目,与1999年Syed N.A的研究成果没有矛盾,但给出了支持向量究竟能减少到什么程度的例证。这对于提高分类器的识别速度,将分类器用于实时监测有重要的意义。

减少支持向量与训练时间的交叉合并方法.pdf_第1页
第1页 / 共11页
减少支持向量与训练时间的交叉合并方法.pdf_第2页
第2页 / 共11页
减少支持向量与训练时间的交叉合并方法.pdf_第3页
第3页 / 共11页
点击查看更多>>
资源描述

《减少支持向量与训练时间的交叉合并方法.pdf》由会员分享,可在线阅读,更多相关《减少支持向量与训练时间的交叉合并方法.pdf(11页珍藏版)》请在专利查询网上搜索。

一种用于智能信息处理技术领域的减少支持向量与训练时间的交叉合并方法,包括三个步骤:训练集分解:将训练样本集分类别提取样本后,根据预先设定的分解比率,将训练集中的各类样本集合分别分解成两个子集,然后将样本子集进行组合,得到四个训练集;基于支持向量的分层数据筛选:用支持向量机方法并行处理四个训练集,得到四个支持向量集合,按照交叉合并规则,将四个支持向量的集合分两组合并,得到两个训练集,用支持向量机方法。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1