减少支持向量与训练时间的交叉合并方法.pdf

摘要
申请专利号：	CN200410053659.X	申请日：	2004.08.12
公开号：	CN1588342A	公开日：	2005.03.02
当前法律状态：	终止	有效性：	无权
法律详情：	未缴年费专利权终止IPC(主分类):G06F 15/18申请日:20040812授权公告日:20071205终止日期:20100812\|\|\|授权\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G06F15/18	主分类号：	G06F15/18
申请人：	上海交通大学;
发明人：	文益民; 吕宝粮
地址：	200240上海市闵行区东川路800号
优先权：
专利代理机构：	上海交达专利事务所	代理人：	王锡麟;王桂忠
PDF下载：	PDF下载

内容摘要

一种用于智能信息处理技术领域的减少支持向量与训练时间的交叉合并方法，包括三个步骤：训练集分解：将训练样本集分类别提取样本后，根据预先设定的分解比率，将训练集中的各类样本集合分别分解成两个子集，然后将样本子集进行组合，得到四个训练集；基于支持向量的分层数据筛选：用支持向量机方法并行处理四个训练集，得到四个支持向量集合，按照交叉合并规则，将四个支持向量的集合分两组合并，得到两个训练集，用支持向量机方法并行处理这两个训练集所代表的两个分类问题，得到两个支持向量的集合，将此两个支持向量的集合合并，产生一个训练集，便是最终的训练集；利用分层筛选得到的最终训练集训练支持向量机得到最终的分类器。

权利要求书

1、  一种减少支持向量与训练时间的交叉合并方法，其特征在于，包括训练集分解、基于支持向量的分层数据筛选、最终分类器生成三个步骤：
1)训练集分解：将包含有两类样本的训练样本集分类别提取样本后，根据预先设定的分解比率r，将训练集中的各类样本集合分别分解成两个子集，然后将来自各类别的样本子集进行组合，进而得到四个训练集，这四个训练集所代表的两类分类问题的规模都比原训练样本集要小；
2)基于支持向量的分层数据筛选：用支持向量机方法并行处理这四个两类分类问题，将得到四个支持向量集合，按照交叉合并规则，将得到的四个支持向量的集合分两组合并，从而得到两个训练集，用支持向量机方法并行处理这两个训练集所代表的两个分类问题，得到两个支持向量的集合，将此两个支持向量的集合合并，产生一个训练集，这个训练集便是最终的训练集；
3)最终分类器的生成：利用分层筛选得到的最终训练集训练支持向量机得到最终的分类器。

2、  如权利要求1所述的减少支持向量与训练时间的交叉合并方法，其特征是，步骤1)中，将训练样本分类提取后，根据预先设定的分解比率r，对训练集中的各类样本集合进行分解后组合成四个两类分类问题，如果每个问题仍然太大，则进一步按照同样的分解方法继续分解，分解比率r决定同一层中计算负荷的分配。

3、  如权利要求1所述的减少支持向量与训练时间的交叉合并方法，其特征是，步骤2)中，四个分类问题经提取支持向量以后，按照交叉合并的规则将四个支持向量集统合成两个分类问题，每个分类问题体现了原训练集的某个角度的分类信息，将得到的两个分类问题经过并行的支持向量提取，然后将得到的两个支持向量集合合并，将来自两个角度的分类信息统合在一起，从而使得SV12USV34与原整个训练集中包含的分类信息一致，最终使得到的分类器有着一致的识别准确率。

说明书

减少支持向量与训练时间的交叉合并方法
技术领域
本发明涉及一种基于支持向量本质的分层并行机器学习方法，具体是一种减少支持向量与训练时间的交叉合并方法。用于智能信息处理技术领域。
背景技术
随着科学技术的发展，人类在各个领域积累了大量数据，而且这些数据还在以更高的速度增加。对这些数据的分析和理解，对于人类社会的进一步发展有着非常重要的意义，甚至可能导致人类对自然界更重要的发现。另一方面，由于有统计学习理论作为坚实的理论基础，支持向量机方法已成为一种广泛流行的模式分类方法。使用支持向量机方法解决大规模模式分类问题有两种方法。增量学习方法将一个大规模问题分成若干子问题，然后将各个子问题串行处理。训练支持向量机的工作集方法就属于这类。这种方法的一个主要优点是它对内存只有线性需求，即所需内存的大小与训练样本数目成正比。在处理大规模模式分类问题时，使用增量学习方法会导致迭代次数过多和训练时间过长等问题，这种方法的训练时间复杂度通常是O(N²)左右。并行学习方法按照分而治之的原则将原问题分解成若干子问题，将各个子问题并行处理以后再进行集成。并行学习方法的优点是建立在并行计算的基础上，能缩短训练时间，具有良好的可修改性和可扩充性，但是训练过程结束后所有子模块的结果都需要保留，从而导致支持向量数目增加。
支持向量是支持向量机方法中的重要概念。经对现有技术文献的检索发现，关于支持向量的本质，1999年syed，N.A.在文献(Incremental Learning withSupport Vector Machines.In：Proceedings of the Workshop on Support VectorMachines at the International Joint Conference on Artificial Intelligence.Sweden，Stockholm，1999)(支持向量机的增量学习，出自：1999国际人工智能联合会议支持向量机研究小组会议论文集)中通过大量的数值仿真试验证明：支持向量集包含了训练样本集中的分类信息，并且这个支持向量集是必要的，即支持向量的数目不可以减少到超过其总数的10％，但并没有对支持向量的个数有进一步的论述。至今也无有关与本发明相同文献的报道。
发明内容
本发明的目的在于针对现有使用支持向量机方法解决大规模问题时训练时间过长的不足，提供一种减少支持向量与训练时间的交叉合并方法，使其能够减少学习时间，同时减少支持向量。本发明在训练样本筛选的过程中采用一种交叉合并的组合方法，以保证最后得到的训练样本集与原训练样本集的一致性。
本发明是通过以下技术方案实现的，本发明方法包括训练集分解、基于支持向量的分层数据筛选、最终分类器生成三个步骤。
1)训练集分解：将包含有两类样本的训练样本集分类别提取样本后，根据预先设定的分解比率r，将训练集中的各类样本集合分别分解成两个子集，然后将来自不同类别的样本子集进行组合，进而得到四个训练集。这四个训练集所代表的两类分类问题的规模都比原训练样本集要小。
2)基于支持向量的分层数据筛选：用支持向量机方法并行处理这四个两类分类问题，将得到四个支持向量集合。按照交叉合并规则，将得到的四个支持向量的集合分两组合并，从而可以得到两个训练集。用支持向量机方法并行处理这两个训练集所代表的两个分类问题，得到两个支持向量的集合。将此两个支持向量的集合合并，产生一个训练集。这个训练集便是最终的训练集。由于一个训练集的支持向量集包含了训练集中的分类信息，因此上述过程将非支持向量逐步筛选掉，减少了训练样本从而减少训练时间。本发明通过两层数据筛选最终得到与原训练集等价的包含样本个数较少的训练集。
3)最终分类器的生成：利用分层筛选得到的最终训练集训练支持向量机得到最终的分类器。
以下对本发明方法作进一步的说明：
1、训练集分解
假设原两类分类问题中属于类C₁的样本为： P = { X i } i = 1 L m , ]]>属于类C₂的样本为： N = { X i } i = 1 L n , ]]>X_i表示一个样本，L_m和L_n分别表示两类样本的数目，则全部训练样本集可表示为T＝P∪N。根据事先确定的分解比率r(0＜r≤0.5)将原训练集P和N分别分解为两个子集：
P 1 = { X i } i = 1 L P 1 , P 2 = { X i } i = L P 1 + 1 L m , N 1 = { X i } i = 1 L n 1 , N 2 = { X i } i = L n 1 + 1 L n - - - ( 1 ) ]]>
其中L_p1和L_n1分别表示P₁和N₁中样本的数目。于是，原两类分类问题T可以分解成下列四个规模较小的两类分类问题：
T₁＝P₁∪N₁，T₂＝P₂∪N₂，T₄＝P₂∪N₂，T₄＝P₂∪N₁    (2)
如果这些两类分类问题仍然太大，可以按照以上的方法将它们中的每一个进一步分解成四个规模更小的两类分类问题。
2、基于支持向量的分层数据筛选
采用标准的支持向量机方法，在此四个较小的两类分类问题上并行训练得到四个支持向量机。他们的支持向量的集合分别为：SV₁，SV₂，SV₃和SV₄。采用交叉联合规则，将T₁和T₂的支持向量集合SV₁和SV₂合并成T₁₂，将T₃和T₄地支持向量集合SV₃和SV₄合并成T₃₄。所谓交叉合并规则，是避免在T₁和T₂或T₃和T₄中属于同一类的子集的重复出现，从而避免人为造成T₁₂和T₃₄中训练数据的不平衡和分类信息的损失。
T₁₂＝SV₁∪SV₂，T₃₄＝SV₃∪SV₄                           (3)
由于支持向量集中包含了分类信息，因此T₁₂和T₃₄从两个不同的角度保存了原训练样本集中的信息，避免了因数据划分带来的分类信息损失。同时，从T₁和T₂到T₁₂或T₃和T₄到T₃₄非支持向量的样本被筛选掉。将T₁₂和T₃₄分别作为训练集，经并行处理而得到两个支持向量机。它们的支持向量集合分别为：SV₁₂和SV₃₄，将两者合并：
T_final＝SV₁₂∪SV₃₄                             (4)
得到最后的训练集。因此T_final将包含训练集T中的全部分类信息。在以上过程中由于只留下支持向量，而非支持向量被逐步筛选掉。与原训练集T相比，T_final中将只留下相对较少的训练数据。
3、最终分类器的生成
使用T_final作为新的训练集，得到支持向量机SVMfinal。该支持向量机作为最后的模式分类器，它所使用的支持向量较少，这将缩短识别时间。
以上过程可以用算法描述：
已知：
训练样本集T＝P∪N和分解比率r
算法：
(1)根据r将P和N分解，然后组合成四个规模较小的分类问题T₁、T₂、T₃和T₄；
(2)如果T₁、T₂、T₃和T₄的问题规模符合内存限制，则转(3)，否则转(1)；
(3)采用支持向量机方法将T₁、T₂、T₃和T₄并行处理，得到与它们对应的四个支持向量集合：SV₁，SV₂，SV₃和SV₄；
(4)按照交叉合并原则将它们组合成两个分类问题T₁₂和T₃₄，采用支持向量机方法将它们并行处理得到两个支持向量集合SV₁₂和SV₃₄；
(5)令T_final＝SV₁₂∪SV₃₄；
(6)将T_final作为新的训练集获得最终的支持向量机，将其作为识别阶段的模式分类器。
本发明使得分层筛选后得到的最终训练集与原训练集中包含的分类信息保持一致，从而使得利用分层筛选训练样本得到的分类器与利用原整个训练集得到的分类器的识别准确率保持一致。根据采用本发明所进行的多个试验表明：本发明所提出的方法减少了训练时间和支持向量个数。本发明的另一个效果在于：在保证不降低分类器识别准确率的前提下，采用分解方法降低了问题规模。
附图说明
图1本发明方法流程图
图2本发明实施例实验一的数据分布和分解示意图
具体实施方式
下面以实例的方式并结合附图对本发明作进一步的描述：
如图1所示，如果是多类问题，需要进行多类两类的转换。然后本发明方法包括以下步骤：
第一、通过训练样本的预处理将训练样本分类提取，属于每个类的样本构成一个集合。这种预处理过程可以在采集训练样本时进行，这样可以降低预处理过程的时间复杂度。在两类的情形下，将训练样本预处理成T＝P∪N，其中P和N分别表示属于两个类别的训练样本集。
第二、将P和N按照预先设定的分解比率r进行分解，分别分解成P₁、P₂和N₁、N₂。比如在图2中一个[0，200]×[0，200]的棋盘被分成四块，所有的样本点均匀分布在这四块上。位于[0，100]×[0，100]和[100，200]×[100，200]中的样本为正例样本，而位于余下空间中的样本为反例样本。取分解比率为r＝0.5，可以做出如图2所示的划分。然后按照图1所示的方法，进行分层筛选得到最后的训练集T_final。将SV₁₂和SV₃₄合并获得T_final的过程是一个去重合并的过程。为了降低时间复杂度，在合并SV₁₂和SV₃₄时，可分别取SV₁₂和SV₃₄中的各个训练样本在原训练集T中的对应序号构成两个集合，然后进行去重合并，再根据去重合并的结果将对应的训练样本取回，最终构成T_final。
第三、以T_final作为训练集，使用通用的支持向量机训练方法可得到最后的分类器SVM_final。注意：图1中的各个支持向量集是通过采用相同的参数得到的。比如：当采用高斯核函数时需要采用相同的C和σ。
使用分类器SVM_final对要识别的样本进行识别。
本实施例中的两个试验数据分别来自人工和实际问题。实验平台为：2.4GHz512MB RAM Pentium 4 PC。
在实验一中，为了检验本发明的健壮性，随机生成了四个不同的训练集和一个共同的测试集。这样构成四个两类问题：A₁、A₂、A₃和A₄每个训练集包含5000个正例样本和5000个反例样本，测试集中包含10000个正例样本和10000个反例样本。采用高斯核函数，参数选择为：c＝1000，σ＝31.62。
表1实验一的实验数据集

Training Testing Positive samples Negative samples Positive samples Negative samples A₁ 5000 5000 10000 10000 A₂ 5000 5000 A₃ 5000 5000 A₄ 5000 5000

在实验二中，文本分类试验的数据采用日本读卖新闻提供的文本分类数据库。经过特征提取后，特征空间的维数为5000。本发明从该数据库中提取了如表2所示的三类数据。任选其中的两类构成一个两类分类问题，于是得到三个两类问题：A₅、A₆和A₇。参数的选择为：σ＝2，C＝64和r＝0.5。
表2实验二的实验数据集Category Data Training TestAccidentsHealthBy-time 34044 35932 33590 8483 7004 7702

为了验证本发明所提出的方法的实际效果，分别将本发明提出的分层筛选训练样本的支持向量机方法与将整个训练样本集一次性学习的支持向量机方法进行试验比较。为了描述方便，将本发明提出的方法记为C-SVM(Cascade SVM)，而将后一种方法记为S-SVM(Standard SVM)。实验结果见表3和表4：
表3实验一的实验结果 Method Accuracy(％)Trainingtime(s)Numberof SVs Train Test A₁ S-SVM C-SVM 99.84 99.78 99.81 99.7246.3913.089381 A₂ S-SVM C-SVM 99.89 99.85 99.72 99.7038.0015.349683 A₃ S-SVM C-SVM 99.93 99.86 99.84 99.7532.4413.458879 A₄ S-SVM C-SVM 99.89 99.92 99.81 99.8335.5019.879484 av S-SVM C-SVM 99.89 99.85 99.80 99.7538.0815.449382

表4实验二的实验结果 Method A₅ A₆ A₇ Training accuracy(％) S-SVM C-SVM 97.74 97.73 97.93 97.75 96.67 96.67 Test accuracy(％) S-SVM C-SVM 95.81 95.83 96.01 96.02 93.62 93.62 Training time(s) S-SVM C-SVM 12664 9519 7458 4491 18566 15060 Number of SVs S-SVM C-SVM 10933 10553 9445 9222 12750 12387

由以上数据可以知道：
1、本发明能在保证分类器识别准确率的前提下，减少训练时间。同时该方法对训练样本具有鲁棒性；2、本发明减少了支持向量的数目，与1999年Syed N.A的研究成果没有矛盾，但给出了支持向量究竟能减少到什么程度的例证。这对于提高分类器的识别速度，将分类器用于实时监测有重要的意义。