在存储器有限的系统中对数据进行分类的方法.pdf

摘要
申请专利号：	CN200910166917.8	申请日：	2009.08.03
公开号：	CN101676912A	公开日：	2010.03.24
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30公开日:20100324\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20090803\|\|\|公开
IPC分类号：	G06F17/30; G06N1/00	主分类号：	G06F17/30
申请人：	三菱电机株式会社
发明人：	安库尔·贾殷; 丹尼尔·N·尼科夫斯基
地址：	日本东京
优先权：	2008.9.15 US 12/210,289
专利代理机构：	北京三友知识产权代理有限公司	代理人：	李辉
PDF下载：	PDF下载

内容摘要

本发明的实施方式表述了一种用于在具有有限存储器的系统中对数据进行分类的方法。该方法对训练数据集应用实例学习(EL)过程，以产生适于该存储器大小的实例数据集。该EL过程是从包括基于熵的实例学习(EBEL)过程和支持宽带的高级学习(ABEL)过程的组中选择的。该实例数据集被用来对系统获取的数据进行分类。

权利要求书

1、  一种用于在具有有限存储器的系统中对数据进行分类的方法，该方法包括以下步骤：
确定训练数据集；
获取用于存储数据的存储器大小；
对所述训练数据集应用实例学习(EL)过程以产生适于所述存储器大小的实例数据集，其中该EL过程是从包括基于熵的实例学习(EBEL)过程和支持宽带的高级学习(ABEL)过程的组中选择的；
获取待分类数据；以及
使用所述实例数据集对所述数据进行分类。

2、  根据权利要求1的方法，其中该确定步骤进一步包括以下步骤：
获取当前实例数据集；
获取样本数据集；以及
将所述当前实例数据集和所述样本数据组合起来以产生训练数据集。

3、  根据权利要求2的方法，其中，所述当前实例数据集最初为空。

4、  根据权利要求1的方法，其中，所述EBEL过程进一步包括以下步骤：
对于所述训练数据集S_n中的各样本x，确定在给定样本x的条件下的类变量C的条件熵损失H(C|x)；以及
从所述训练数据集S_n中移除使得条件熵损失H(C|x)最小的所选择的样本。

5、  根据权利要求4的方法，其中所选择的样本是根据确定的。

6、  根据权利要求4的方法，其中该存储器限制是所述实例数据集的大小k，该方法进一步包括以下步骤：
对确定所述条件熵损失的步骤和移除样本x的步骤进行重复，直到所述训练数据集达到所述大小k。

7、  根据权利要求4的方法，其中确定所述条件熵损失的步骤使用所述训练数据集的样本的成对核心值。

8、  根据权利要求1的方法，其中所述ABEL过程进一步包括以下步骤：
从所述训练数据集提取验证数据集v；
对于所述训练数据集S_n中的各样本x，确定子集S_n\v的接收机工作曲线下的面积(AUC)；以及
从所述训练数据集中移除与AUC的最小损失相对应的样本x。

9、  根据权利要求8的方法，其中移除步骤是根据下式：
Sn-1=Sn\{argmaxx&Element;Sn[Ag(v,Sn\{x})]},]]>
其中是针对所述验证数据集v和所述训练数据集S_n的样本x确定的AUC，且S_n-1是在移除步骤之后的新训练数据集。

10、  根据权利要求8的方法，其中所述验证数据集的大小等于所述训练数据集大小的0.1倍。

说明书

在存储器有限的系统中对数据进行分类的方法
技术领域
本发明总体上涉及数据的分类，更具体地涉及在存储器有限的系统中进行数据的分类。
背景技术
数据分类
数据分类是基于从数据项中提取的某种定量信息以及先前标记过的数据项的训练集而将预定标记指派给该数据项。例如，电子邮件分类系统可以基于电子邮件的内容以及已知是“垃圾邮件”或者“非垃圾邮件”的电子邮件的训练数据集而将特定的邮件标记为“垃圾邮件”或者“非垃圾邮件”。分类器的性能很大程度上依赖于要被分类的数据的特性。不存在对所有的分类问题都能很好地工作的单一分类器。该性能还依赖于训练数据的质量。一个良好训练的分类器要求大的训练数据集，该大的训练数据集具有带有各种特性的带标记样本。
分类器可以根据用于从数据项中提取信息的数学模型、训练数据的量和模型复杂度而不同。分类器的选择通常依赖于数据特性及其对计算资源的要求，例如CPU的使用和存储器要求。例如，当实时地要求分类结果时，某些分类器可能是不适合的。
嵌入式系统
嵌入式系统通常集成在某种其它设备或机器中。嵌入式系统可以被设计为通常实时地执行专用的功能。对于很多设备而言嵌入式系统是非常常见的，这些设备例如便携式视频播放器、照相机、交通信号灯、工厂控制器和监视系统。因为许多嵌入式系统执行专用功能，因此可以在大小、成本、可靠性和性能方面对嵌入式系统进行优化。
包括传感器并执行分类的嵌入式系统可以使用训练数据进行训练。经过训练的嵌入式系统可以具有增强的功能和性能。例如，照相机上的分类器可以报警在“非法侵入(non-trespassing)”监视区域中有入侵者出现。然而，嵌入式系统通常具有有限的存储器，且不能存储大训练数据集。
对于有限存储器的一个解决方法是存储在训练数据中精心选择的足以用于进行有效分类的少量的“实例”。如这里定义的，范例是具有更大量训练数据集的特性的样本数据。
实例学习(EL)方法
实例学习(EL)方法可以被用来从大训练数据集中选择一个小的训练数据集。就像其名称所暗示的，EL通过实例来学习。也就是说，降低了分类器的错误率的“好的”样本被保留，而“坏的”样本被丢弃。因此，EL可以被用来在具有有限存储器的嵌入式系统中生成基于存储器的分类器的少量训练数据集。
常规的EL方法基于某种邻域结构而学习实例。那么，这些方法使用常规的误分类率对由于样本被移除而产生的性能损失或性能增加进行测量。
EL方法可以随着对样本的处理而连续地调整训练数据集，使得好的新样本被保留，而坏的新样本被丢弃。因此，分类器可以动态适应嵌入式系统工作的变化环境。几乎所有的EL方法都基于以下假设来丢弃样本：
假设0(H₀)：如果移除给定训练数据集中的样本不会增加其余样本的误分类率或者错误率，则该样本可以被丢弃。
EL方法具有某些缺点。
递增更新
常规的EL方法是计算密集型的、离线的且在本质上不是递增的。它们要求整个训练数据集在实例EL方法执行期间始终被存储在存储器中。这使得这些方法不适用于存储器有限并且训练数据定期更新的嵌入式系统。
类不均衡
在假设H₀中使用的误分类率对于类不均衡并不敏感。这个问题在EL中非常关键，其中样本的移除改变了类总体(class population)。例如，在具有90个正样本和10个负样本的集合中，移除一个正样本会导致九个正样本的误分类和一个负样本的误分类，而丢弃一个负样本会导致一个正样本和九个负样本的误分类。
因为在这两种情况下错误率是相同的，即为10％，所以类不均衡会导致负样本的丢弃，从而在训练数据集中仅保留了正向样本。
希望具有如下的EL方法，与产生更好结果的整体分类精度相对照，其产生了对分类器在两个分类之间进行区分的能力的估计。
按顺序的移除
大多数按顺序的移除过程或者是ad-hoc的，或者是返回训练数据集，该训练数据集的大小在运行期间是确定的。这些方法忽略了按顺序移除样本以找到对于给定存储器大小而言最佳的训练数据集。希望有如下的EL方法，其产生满足预定的存储器大小限制(例如典型的在嵌入式系统中)的最优训练数据集。
验证一致性
如果在训练数据集中保留的样本的错误率没有增加，则常规的EL方法将样本移除。因此，一个样本扮演了双重的角色。亦即，该样本同时参与了对训练数据集和待分类测试集的更新。随着移除的进行，训练数据集的大小和属性动态变化，因此，错误率是在不一致且具有更低统计显著性的不同集合上确定。这就希望具有一种与训练数据集不相交且在移除过程中保持不变的单独的验证数据集。
发明内容
本发明的实施方式提供了一种用于对数据样本进行分类的方法和系统。更具体地说，通过具有有限存储器的嵌入式系统中的传感器来感测样本。因此，该方法构建了一种与存储器的大小一致的预定大小的实例数据集。
在一个实施方式中，该方法使用在训练期间保持不变的训练数据集以及与该训练数据集不相交的验证数据集。
本发明的一个实施方式使用基于熵的实例学习(EBEL)过程。该EBEL过程基于训练数据集的信息内容而不使用错误率从训练数据集中移除样本的实例。
并不使用ad-hoc分级(ranking)方案，EBEL过程将如下的训练数据实例移除，即对该训练数据实例的移除使得类指示符变量的条件熵的降低最小化。这使得信息的损失最小化。该EBEL方法具有低计算开销，提供了按顺序的移除，且对于类不均衡是不敏感的。
本发明的另一个实施方式使用利用了支持宽带的高级学习(advanced broadband enabled learning，ABEL)过程的接收机工作特性曲线下的面积(AUC)，其基于AUC的性能来移除样本。ABEL过程使用验证数据集，并且如果对一个样本的移除没有降低在验证数据集上确定的AUC，则移除该样本。
发明效果
本发明的实施方式描述了用于确定实例数据集的EBEL过程和ABEL过程，该实例数据集可以用于在具有有限存储器的嵌入式系统中的对数据进行分类。该EBEL和ABEL过程可以利用新的训练数据集有效地更新，同时维持任意的用户定义大小的高质量实例数据集。
附图说明
图1是根据本发明的实施方式的用于对数据进行分类的方法和系统的框图；
图2是根据本发明的实施方式的用于确定实例数据集的方法和系统的框图；
图3是根据本发明的实施方式的EBEL过程的伪代码；
图4是根据本发明的实施方式的ABEL过程的伪代码。
具体实施方式
图1使出了根据本发明的实施方式的使用实例学习(EL)来对输入信号101进行分类的方法和系统100。该系统可以被嵌入在某种其它的机器或设备105中，或者可独立工作。该系统100具有有限大小的存储器130。该输入信号101通过传感器110获取和并被实时地分类140。
该传感器110从环境103获取信号101。我们使用术语“环境”通常用来指代可以被感测的任何对象，例如，温度、压力、湿度、气体、液体、固体、机器、声学波形和EM波形、照相机图像等。典型地，环境涉及其中嵌入有系统100的设备105的操作。该传感器生成数据102。
数据102被分类140，以产生数据分类输出145。数据分类140可以由处理器150执行。数据分类140使用实例数据集135来对数据102进行分类。实例数据集135存储在具有有限大小的存储器130中，即，存储器大小是预定的较小值。因此，实例数据集135的大小要根据存储器的大小而适于符合存储器130。
确定实例数据集
图2示出了根据本发明的一个实施方式的用于确定实例数据集135的方法和系统200的框图。该实例数据集135还被用于方法和系统100中进行数据分类140。
本发明的实施方式可以使用基于熵的EL(EBEL)过程或基于AUC的EL(ABEL)过程来学习(210)实例数据集135。该EL过程210根据系统100的有限存储器大小k(220)由训练数据集230来学习实例数据集135。
训练数据集230是从样本数据集260和当前实例数据集250确定(240)。在本发明的一个实施方式中，确定步骤240将样本数据集260和当前实例数据集250组合起来，如这里所述。
样本数据集260包括用于确定训练数据集230的数据样本。该样本数据集260可以通过某些应用程序生成，或者可以从通过传感器110生成的数据102来构建。该样本数据集260可以包括一个或多个数据样本。
该系统和方法200启动并更新实例数据集135。在启动期间，当前实例数据集250为空，且训练数据集230仅从样本数据集260确定(240)。在更新期间，当前实例数据集250是先前确定的实例数据集135。
与常规的EL过程相反，训练数据集230不需要利用先前获得的训练数据集来确定。
基于Parzen核密度估计(PKDE)的分类器
本分类器140使用Parzen核密度估计(PKDE)分类器。该PKDE分类器以非参数方式对随机变量的概率分布函数(pdf)进行估计。然而，本发明还可以推广到任意的分类器。
对于给定的类c和n个样本的训练集S_n，子集Z_n^c为：
Znc={z|(z&Element;Sn)^(class(z)=c)}---(1)]]>
对于PKDE分类器，核函数κ具有带宽λ。对于训练子集S_n，属于类c的样本x的密度估计f为：
fcn(x)=1|Znc|λΣy&Element;Zncκ(x-yλ)---(2)]]>
其中y是Z_n^c中的样本元素。
各类的先验概率π_cⁿ为：
πcn=|Znc|n---(3)]]>
给定训练数据集S_n，我们可以确定属于特定类c的任意样本x的后验概率p为：
p(c|x)Sn=πcnfc(x)Σj=1Cπjnfj(x)]]>
=Σy&Element;Zncκ(x-yλ)Σy&Element;Snκ(x-yλ)---(4)]]>
对于二类的分类问题，给定训练数据集S_n，如果两个类由C⁺和C^-表示，则样本x的价值分数(merit-score)γ_n(x)为：
γn(x)=p(c+|x)Sn-pn(c-|x)Sn---(5)]]>
该价值分数可以用来对利用接收机工作特性曲线下的面积(AUC)或者阈值选择来分类的精度进行分析。
实例学习
我们将训练数据集表示为使得其中N是训练数据集中的样本数量。具有n个样本的训练子集是S_n，从而且给定训练子集S_n，本发明的实施方式以递增方式确定被移除的子集
(Sn|(1≤n≤N)^(Sn&SubsetEqual;Sn+1)),]]>
从而在从S_n+1转变为S_n时，分类精度的降低小于预定的阈值。
简单的常规解决方法找到全部子集的所有可能的组合，并选择具有最佳性能的子集，其具有复杂度O(2^N)。
本发明的实施方式使用从S_n有效地获得S_n-1的递增解决方法。
基于熵的实例学习(EBEL)方法
对于训练数据集230中的各样本x∈S_n，EBEL使用子集S_n\{x}作为训练数据集230且x作为测试样本来确定类变量的条件熵损失。EBEL选择并移除所选择的样本，使得条件熵的减少最小化。
如果C是该类，p(x)是训练实例x上的先验概率，而H(C|x)是存在实例x的条件下类变量的熵，则EBEL根据下式选择并移除所选择的样本：
Sn-1=Sn\{arg minx&Element;Sn[H(C|x)]}---(6)]]>
其中，H(C|x)=-p(x)Σc=1Cp(c|x)Sn\{x}log(p(c|x)Sn\{x}).]]>
因为训练数据集是独立且同分布，所以任何样本实例的先验概率p(x)是恒定的，且可以被忽略。分类器的分类错误由条件熵界定为具有下界：

因此，选择具有最小条件熵的子集最不可能降低分类精度。
本发明的实施方式以有效的方式确定了要移除的最适合的候选样本。通过仅存储训练数据集的成对(pair-wise)核心值之和，可以按O(N)时间找到要被移除的样本。
给定训练子集S_n，按如下方式存储各样本x_j∈S_n与该类中的所有其它样本的核心值之和：
vn[c,j]=Σx&Element;ZnC^x&NotEqual;xjκ(x-xjλ)---(8)]]>
然后可以获得如下的具有各实例x_j∈S_n的类输出变量的条件熵：
H(C|xj)=-Σc=1Cvn[c,j]log(vn[c,j])---(9)]]>
如果使用公式(6)来选择要移除实例y，则ν矩阵可以被更新为：
vn-1[class(y),j]=vn[class(y),j]-κ(xj-yλ)---(10)]]>
对于训练数据集230例如使用使得均方误差(MSE)最小化的常规带宽优化方案而获得核带宽。如果样本的密度为r阶连续，且不随样本大小而变化，则使得MSE最小化的最优带宽λ(n)与样本大小n有关，为：
λ(n)=f^(x)&Integral;-∞∞κ2(y)dy(2nrkrfr(x))12r+1---(11)]]>
其中k_r是核函数k(.)的特性成分。对于r＝2，大小为n的样本的最优带宽为：
λ(n)=λ(N)(Nn)0.2---(12)]]>
其中λ(N)是利用大小为N的训练数据集获得的带宽，其使得MSE最小化。尽管这避免了随着样本大小的改变而重复带宽优化这一计算量很大的工作，但带宽更新仍然要求重新计算公式(10)中的ν矩阵。因为带宽随着样本大小而以n^-0.2缓慢地变化，当Nlast/n>Nlastα]]>时，周期性地更新ν矩阵，其中N_last是当最后一次带宽更新发生时的样本大小，而α是用户指定的敏感度参数。
在EBEL过程中的递增步骤的复杂度在训练数据集230的大小中是线性的。因此，用于从大小为N的训练数据集230获得大小为k的实例数据集135的EBEL过程的运行时复杂度是O((N-k)α²N)。
图3示出了根据本发明的一个实施方式的EBEL过程的伪代码。当系统已经使用当前实例数据集250进行分类(140)且利用样本数据集260进行了更新时，在学习步骤210中EBEL方法找到实例数据集135 S s.t.，|S|＝k。期望的实例集的大小k取决于存储器限制220。对应于的带宽值λ是离线地获得的。在初始阶段，我们通过设置且从样本数据集得到大小为k的实例数据集135。
EBEL过程首先将来自当前实例数据集250和样本数据集260的数据组合，并相应地更新对应的核带宽，如图3的步骤1所示。
在计算ν矩阵后，EBEL过程减小训练数据集230S的大小，直到该大小达到期望值k。在步骤4-8中每次移除训练数据集230的一个实例，在步骤9-12，如果样本大小变得小于敏感度参数α所允许的大小，则更新ν矩阵。所产生的实例数据集135S替换当前实例数据集250且被用于对感测的数据102进行分类(140)。
基于AUC的实例学习(ABEL)方法
ABEL过程通过基于一致性验证数据集和保留样本上的AUC性能之间的相关性(dependency)来移除训练数据集的样本，从而解决了验证一致性问题。因此，样本具有训练样本(只要该样本没有被移除)和当确定公式(6)的条件概率时的测试样本的双重角色。
在ABEL过程的不同阶段，性能被验证，即确定对于不同数据集的熵，因此降低了结果的统计显著性。
在ABEL过程中，在移除操作的开始从训练数据集中提取验证数据集，且移除训练数据集的样本使得AUC性能降低，结果，移除的次数被最小化。给定训练数据集230S_n和验证数据集V，使得ABEL过程根据下式移除样本x：

其中是利用集合X进行测试且利用集合Y作为训练数据集时的AUC值。ABEL过程提供了一种简单然而有效的适用于任何分类器的EL框架。
给定验证数据集中的样本的价值分数，在不实际生成ROC曲线的情况下以O(|ν|²)时间确定AUC。然而，对于有限样本集，AUC等于公知的归一化Wilcoxon-Mann-Whitney(WMW)统计量：

其中，Γ+={γ1+,γ2+,...,γp+}]]>是正类的价值分数，而Γ-={γ1-,γ2-,...,γn-}]]>是在ν(ν|＝n+p)中的负类样本的价值分数。该统计量使用非参数测试来评估两个样本是否来自相同的分布。
统计量是P(Г⁺＞Г^-)的估计量，即，所有正类样本比负类样本获得更高的价值分数时的概率，且如果所有价值分数以非降序存储使得r_i是γ_i⁺的次序，则可以进一步简化为：

式(15)表明，给定验证数据集的价值分数，AUC值可以按O(|ν|log(ν))时间确定。如果是由分类器利用训练数据集对测试样本进行分类所花的时间，则ABEL的运行时复杂度是
图4示出了根据本发明的一个实施方式的ABEL过程的伪代码。ABEL过程首先从训练数据230中提取验证数据集，给定验证数据集(η)的部分大小作为输入参数(步骤2)，接着从训练数据集230的其余样本中移除实例(步骤3-6)。部分大小η的最优值取决于存储器的大小以及分类140的复杂度。尽管大小η的较大值导致高存储器开销，但小的值降低了验证数据集元素的AUC分数的统计显著性，从而导致更差的实例移除决策。本发明的一个实施方式使用η＝0.1。
将会理解的是，在本发明的精神和范围内可以进行各种其它的改变和修改。因此，所附权利要求书的目的是涵盖落入本发明的真实精神和范围的所有这种变型和修改。