一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法.pdf

摘要
申请专利号：	CN201410438692.8	申请日：	2014.08.30
公开号：	CN104200134A	公开日：	2014.12.10
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 19/20申请日:20140830\|\|\|公开
IPC分类号：	G06F19/20(2011.01)I; C12Q1/68	主分类号：	G06F19/20
申请人：	北京工业大学
发明人：	李建更; 逄泽楠; 苏磊; 张卫; 李晓丹
地址：	100124 北京市朝阳区平乐园100号
优先权：
专利代理机构：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
PDF下载：	PDF下载

内容摘要

一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法，根据肿瘤基因表达数据的类别信息计算邻域，为了更好地利用类别信息，重新定义一种新的距离表达方式，I相同标签样本之间的距离；II不同标签样本之间的距离；分别计算类内与类外样本点的重构权；判别准则；特征评价函数。本发明具有LLE Score算法可以将高维的邻域信息保留在低维结构里，并可以很好地利用标签信息，同时计算代价小等特点。可以根据特征选择后的降维效果，对基因数据进行有效的分类。

权利要求书

1. 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法，其特征在于：
S1本方法从肿瘤数据库里获取到一组具有i类n组样本的肿瘤基因表达数据集，{x_i}ⁿ，i∈{1,…,c}，让n_i代表相同标签i下的肿瘤样本点，x_i为肿瘤样本点的数据；
S2根据以上肿瘤基因表达数据的类别信息计算邻域；
利用以上的获取到的肿瘤基因表达数据集的类别信息，分别计算相同标签下和不同标签下样本点的邻域为了达到求取到样本点类内与类外的邻域的效果，定义一种新的距离表达方式，如下：
I相同标签样本之间的距离；保存相同标签样本点之间的欧式距离不变，定义不同标签之间的距离为无穷；
ds=||xni-xnj|,i=j∞,i&NotEqual;j]]>
II不同标签样本之间的距离；保存不同标签下样本点之间的欧式距离不变，定义相同标签的样本点之间的距离为无穷；
dd=||xni-xnj||,i&NotEqual;j∞,i=j∞,i&NotEqual;j]]>
S3分别计算获取到的肿瘤基因表达数据集类内与类外样本点的重构权；
样本点与它的邻域点之间的重构权如下表示：
X^i=Σj=1nwijXj]]>
最优重构权的选取，通过极小化下面的重构权误差来实现：
ϵ(wi)arg min||xi-Σj=1kwijxj||2]]>
权w_ij表示样本点x_j对样本点x_i的贡献，并且有两个限制：
⑴若x_j不是x_j的邻域，则w_ij＝0；
⑵对所有的i，∑_jw_ij＝1,i＝1,2,…,n.
根据类别信息定义的距离，分别计算以下类内与类外的重构权：
I类内重构权；
按照定义的新的相同标签的样本点之间的距离，LLE算法可以很容易的通过排序新的距离找到与样本点相同标签下的K_s个最近邻点，而不至于找到到不同标签下的样本点；因此，相同标签下的重构权可以按如下公式计算：
ϵ(ws)=arg min||xni-Σi=1nwiixci||2]]>
这里，样本点是相同标签i下样本点的邻域；
II类外重构权；
按照定义的新的不同标签下的样本点之间的距离，LLE算法同样可以很容易的通过排序新的距离找到与样本点不同标签下的K_d个最近邻点，而不至于找到相同标签下的样本点；因此不同标签下的重构权可以按如下公式计算：
ϵ(wd)=argmin||xni-Σj=1nwijxcj||2]]>
上式中，是标签j下的样本点，是标签i下的样本点，样本点是样本点不同标签下的邻域；
S4判别准则
定义当[K],[M]正定时：
ρ{φ}={φ}T[K]{φ}{φ}T[M]{φ}]]>
其中，φ是特征子空间中的任一向量；
一个好的特征子集是在一定程度上可以代表整个全部数据集；由以上广义Rayleigh商定义，可知最优特征求解：可以通过让以上肿瘤基因表达数据集类间的样本点最大化远离、类内的样本点最大化聚类；于是，一个新的理想的特征求解准则提出：
Y=arg maxtr(YMdYT)tr(YMsYT)]]>
这里，
M_s＝(I-W_s)^T(I-W_s)
M_d＝(I-W_d)^T(I-W_d)
S5特征评价函数；
定义以上从肿瘤数据库获取到的肿瘤基因表达数据集的维数是d；特征选择的目的就是寻找到最优的特征子集；如果是要从d个特征里寻找m个特征，那么就是将d维的数据集x降到m维的数据集y；线性变换表示为：
y＝A^Tx
这里，A∈R^d×m是一个选择矩阵，将一个列向量a_i∈R^d表示为：

那么，在公式y＝A^Tx里的A可以写成：
A＝[a₁,a₂,…,a_m]
在这里，A的作用就是选择一个特征f_i，于是，
tr{yM_dy^T}＝tr{A^TxM_dx^TA}＝f_j^TM_df_j
tr{yM_sy^T}＝tr{A^TxM_sx^TA}＝f_j^TM_sf_j
因此，特征评价的子集f_j可以如下计算：
Score(fj)=fjTMdfjfjTMsfj]]>
其中，f_j∈Rⁿ(j＝1,2,…,m)；
最后，通过根据分数Score(f_j)从大到小对基因进行排序，得到基因序列：[F₁,F₂,...,F₁₂₆₀₀]。

2. 根据权利要求1所述的一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法，其特征在于：Lung_Cancer数据集是取自肺癌细胞与正常组织的基因表达数据；它具有5类，包含203个样本；让1、2、3、4、5分别代表五个类别，再203个样本中，分别有17、21、20、6、139个样本属于1、2、3、4、5类；实验中的训练集和测试集具体分类如下表1；
表1 Lung_Cancer数据集的训练集与测试集具体分类

将数据按近似1:1比例随机分配的，一半分为训练集，用于特征选择，然后用支持向量机在另一半的测试集上测试，得出分类准确率，这样分得的训练集有103个样本，测试集100个样本；
S1特征选择：
Lung_Cancer训练集的103个样本组成的集合可以表示为：X＝[x₁,x₂,...,x₁₀₃]，矩阵的大小为12600103；样本集合还可以写成X＝[f₁,f₂,....,f₁₂₆₀₀]^T，f_j是一个基因在各个样本中的表达值组成的向量；
1)根据Lung_Cancer数据集的类别信息计算邻域；
利用定义的新距离分别计算类内类外距离：
I相同标签样本之间的距离；保存相同标签样本点之间的欧式距离不变，定义不同标签之间的距离为无穷；
ds=||xni-xnj|,i=j∞,i&NotEqual;j]]>
II不同标签样本之间的距离；保存不同标签下样本点之间的欧式距离不变，定义相同标签的样本点之间的距离为无穷；
dd=∞,i=j||xni-xnj||,i&NotEqual;j]]>
根据以上定义的新距离，分别计算相同标签下和不同标签下样本点的邻域
2)分别计算类内与类外样本点的重构权；
样本点与它的邻域点之间的重构权如下表示：
X^i=Σj=1nwijXj]]>
最优重构权的选取，通过极小化下面的重构权误差来实现：
ϵ(wi)arg min||xi-Σj=1kwijxj||2]]>
权w_ij表示样本点x_j对样本点x_i的贡献，并且有两个限制：
⑴若x_j不是x_j的邻域，则w_ij＝0；
⑵对所有的i，∑_jw_ij＝1,i＝1,2,…,n.
根据类别信息定义的距离，以下分别计算类内与类外的重构权：
I类内重构权；
按照定义的新的相同标签的样本点之间的距离，LLE算法可以很容易的通过排序新的距离找到与样本点相同标签下的K_s＝2个最近邻点，而不至于找到到不同标签下的样本点；因此，相同标签下的重构权可以按如下公式计算：
ϵ(ws)=arg min||xni-Σi=1nwiixci||2]]>
这里，样本点是相同标签i下样本点的邻域；
II类外重构权；
按照定义的新的不同标签下的样本点之间的距离，LLE算法同样可以很容易的通过排序新的距离找到与样本点不同标签下的K_d＝12个最近邻点，而不至于找到相同标签下的样本点；因此不同标签下的重构权可以按如下公式计算：
ϵ(ws)=argmin||xni-Σj=1nwijxcj||2]]>
这里，是标签j下的样本点，是标签i下的样本点，样本点是样本点不同标签下的邻域；
3)利用LLE Score特征评价函数进行特征评价；
特征评价的子集f_j可以如下计算：
Score(fj)=fjTMdfjfjTMsfj]]>
其中，f_j∈Rⁿ(j＝1,2,…,m)，M_d＝(I-W_d)^T(I-W_d)，M_s＝(I-W_s)^T(I-W_s)；
由LLE score评价基因的函数：Score(f_j)来计算每一个基因的分数，然后根据分数从大到小对基因进行排序，得到基因序列：[F₁,F₂,...,F₁₂₆₀₀]；
S2采用支持向量机进行训练和测试
经过特征选择，训练集和测试集变为和；取前个基因得到和，用Matlab中libsvm工具箱的“svmtrain”函数对进行训练，然后用libsvm工具箱的“svmpredict”函数进行测试，得到选择个基因时的分类准确率，这样，取1～70便可以得到对应于基因数为1到70的分类准确率曲线；
将上述过程重复25次，得到准确度的平均值。

说明书

一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
技术领域
本发明涉及生物信息学肿瘤基因数据处理技术领域，特别涉及一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法。
背景技术
随着DNA技术的发展，越来越多的肿瘤基因表达数据可以被获得。然而，获得的基因表达数据往往有一个共同的特点“高维、小样本”，因此在肿瘤分类的时候需要进行对这样的高维数据进行降维。特征选择方法就是一个在处理高维数据上很重要的方法，它可以从高维的基因数据里选择出更具有分类信息的基因，从而达到理想的数据降维效果。
特征选择方法大致可以被分为两大类：包装器和过滤器。包装器是通过选择在分类器上有更出色表现的特征；而过滤器是通过定义的准则选择特征。过滤器往往可以更好的利用标签信息进行降维，并大大降低数据计算能力，诸如传统的比较流行的过滤器类型的特征选择方法：Laplacian Score(He et al.,2005)、Fisher Score(Duda et al.,1997)和T-test(Devore et al.,2001)。本发明提出的LLE Score方法就是典型的过滤器类型的特征选择方法。
高维的基因表达数据结构一般是非线性的，但流形学习算法里的局部线性嵌入算法(LLE)在处理高维的非线性数据时更具有出色的表现。本发明便是基于局部线性嵌入算法提出的特征选择方法(LLE Score)，不仅可以利用LLE保存邻域结构在低维不变的优点更好的处理非线性结构基因表达数据，而且还可以充分利用基因表达数据的标签信息。利用LLE Score进行基因表达数据的降维，并通过支持向量机(SVM)进行分类，最后分类的准确率与其他流形的过滤器类型特征选择方法的分类准确率进行比较。
发明内容
为了达到良好的数据降维效果，本发明提出了一种基于局部线性算法的肿瘤基因表达数据特征选择方法，并在构造类内、类外重构权矩阵时定义了一种新的距离方法。本技术LLE Score算法可以将高维的邻域信息保留在低维结构里，并可以很好地利用标签信息，同时计算代价小等特点。可以根据特征选择后的降维效果，对基因数据进行有效的分类。
为实现上述目的，本发明所采用的技术方案如下，
S1本方法从肿瘤数据库里获取到一组具有i类n组样本的肿瘤基因表达数据集，{x_i}ⁿ，i∈{1,…,c}，让n_i代表相同标签i下的肿瘤样本点，x_i为肿瘤样本点的数据。
S2根据以上肿瘤基因表达数据的类别信息计算邻域。
利用以上的获取到的肿瘤基因表达数据集的类别信息，分别计算相同标签下和不同标签下样本点的邻域为了达到求取到样本点类内与类外的邻域的效果，定义一种新的距离表达方式，如下：
I相同标签样本之间的距离。保存相同标签样本点之间的欧式距离不变，定义不同标签之间的距离为无穷。
ds=||xni-xnj|,i=j∞,i&NotEqual;j]]>
II不同标签样本之间的距离。保存不同标签下样本点之间的欧式距离不变，定义相同标签的样本点之间的距离为无穷。
dd=||xni-xnj||,i&NotEqual;j∞,i=j∞,i=j]]>
S3分别计算获取到的肿瘤基因表达数据集类内与类外样本点的重构权。
样本点与它的邻域点之间的重构权如下表示：
X^i=Σj=1nwijXj]]>
最优重构权的选取，通过极小化下面的重构权误差来实现：
ϵ(wi)arg min||xi-Σj=1kwijxj||2]]>
权w_ij表示样本点x_j对样本点x_i的贡献，并且有两个限制：
⑴若x_j不是x_j的邻域，则w_ij＝0；
⑵对所有的i，∑_jw_ij＝1,i＝1,2,…,n.
根据类别信息定义的距离，分别计算以下类内与类外的重构权：
I类内重构权。
按照定义的新的相同标签的样本点之间的距离，LLE算法可以很容易的通过排序新的距离找到与样本点相同标签下的K_s个最近邻点，而不至于找到到不同标签下的样本点。因此，相同标签下的重构权可以按如下公式计算：
ϵ(ws)=arg min||xni-Σi=1nwiixci||2]]>
这里，样本点是相同标签i下样本点的邻域。
II类外重构权。
按照定义的新的不同标签下的样本点之间的距离，LLE算法同样可以很容易的通过排序新的距离找到与样本点不同标签下的K_d个最近邻点，而不至于找到相同标签下的样本点。因此不同标签下的重构权可以按如下公式计算：
ϵ(ws)=argmin||xni-Σj=1nwijxcj||2]]>
上式中，是标签j下的样本点，是标签i下的样本点，样本点是样本点不同标签下的邻域。
S4判别准则
定义当[K],[M]正定时：
ρ{φ}={φ}T[K]{φ}{φ}T[M]{φ}]]>
其中，φ是特征子空间中的任一向量。
一个好的特征子集是在一定程度上可以代表整个全部数据集。由以上广义Rayleigh商定义，可知最优特征求解：可以通过让以上肿瘤基因表达数据集类间的样本点最大化远离、类内的样本点最大化聚类。于是，一个新的理想的特征求解准则提出：
Y=arg maxtr(YMdYT)tr(YMsYT)]]>
这里，
M_s＝(I-W_s)^T(I-W_s)
M_d＝(I-W_d)^T(I-W_d)
S5特征评价函数。
定义以上从肿瘤数据库获取到的肿瘤基因表达数据集的维数是d。特征选择的目的就是寻找到最优的特征子集；如果是要从d个特征里寻找m个特征，那么就是将d维的数据集x降到m维的数据集y。线性变换表示为：
y＝A^Tx
这里，A∈R^d×m是一个选择矩阵，将一个列向量a_i∈R^d表示为：

那么，在公式y＝A^Tx里的A可以写成：
A＝[a₁,a₂,…,a_m]
在这里，A的作用就是选择一个特征f_i，于是，
tr{yM_dy^T}＝tr{A^TxM_dx^TA}＝f_j^TM_df_j
tr{yM_sy^T}＝tr{A^TxM_sx^TA}＝f_j^TM_sf_j
因此，特征评价的子集f_j可以如下计算：
Score(fj)=fjTMdfjfjTMsfj]]>
其中，f_j∈Rⁿ(j＝1,2,…,m)。
最后，通过根据分数Score(f_j)从大到小对基因进行排序，得到基因序列：[F₁,F₂,...,F₁₂₆₀₀]。
与现有技术相比，本发明具有以下优点。
1、本发明提供的基于LLE算法的肿瘤基因表达数据特征选择方法，通过计算机辅助手段，在类别信息的基础上，就LLE算法计算邻域和构造最优重构权对肿瘤基因表达数据进行学习，将其投影到低维嵌入空间，再通过评价函数对特征进行筛选，最后利用核函数-支持向量机对特征矩阵进行训练，进而对测试数据集进行分类。本发明有助于肿瘤的早期诊断，可以帮助人们寻找肿瘤的致病基因，从基因表达的角度解释肿瘤的成因。
2、本发明融合了LLE算法，可以将高维空间的类内与类外邻域之间的信息保留到低维空间结构里。
3、本发明具有良好的特征选择效果，对于肿瘤基因的临床诊断具有很好地参考价值，可应用于建立肿瘤基因的识别系统。
附图说明
图1为本发明的方法流程图。
图2为本发明LLE Score在Lung_Cancer数据集上的分类准确率曲线图。
图3为Lung_Cancer数据在本发明和其他四种方法上的分类准确率曲线图。
具体实施方式
下面结合附图和实施例对本发明的技术方案进一步说明如下：
实施例1：
Lung_Cancer数据集是取自肺癌细胞与正常组织的基因表达数据。它具有5类，包含203个样本。让1、2、3、4、5分别代表五个类别，再203个样本中，分别有17、21、20、6、139个样本属于1、2、3、4、5类。实验中的训练集和测试集具体分类如下表1。
表1 Lung_Cancer数据集的训练集与测试集具体分类

将数据按近似1:1比例随机分配的，一半分为训练集，用于特征选择，然后用支持向量机在另一半的测试集上测试，得出分类准确率(如果某类样本数为奇数，则划分给训练集的比测试集多一个，例如Normal类，划分给训练集的有9个样本，测试集有8个)，这样分得的训练集有103个样本，测试集100个样本。
S1特征选择：
Lung_Cancer训练集的103个样本组成的集合可以表示为：X＝[x₁,x₂,...,x₁₀₃]，矩阵的大小为12600103。样本集合还可以写成X＝[f₁,f₂,....,f₁₂₆₀₀]^T，f_j是一个基因在各个样本中的表达值组成的向量。
1)根据Lung_Cancer数据集的类别信息计算邻域。
利用定义的新距离分别计算类内类外距离：
I相同标签样本之间的距离。保存相同标签样本点之间的欧式距离不变，定义不同标签之间的距离为无穷。
ds=||xni-xnj|,i=j∞,i&NotEqual;j]]>
II不同标签样本之间的距离。保存不同标签下样本点之间的欧式距离不变，定义相同标签的样本点之间的距离为无穷。
dd=i=j||xni-xnj||,i&NotEqual;j]]>
根据以上定义的新距离，分别计算相同标签下和不同标签下样本点的邻域
2)分别计算类内与类外样本点的重构权。
样本点与它的邻域点之间的重构权如下表示：
X^i=Σj=1nwijXj]]>
最优重构权的选取，通过极小化下面的重构权误差来实现：
ϵ(wi)arg min||xi-Σj=1kwijxj||2]]>
权w_ij表示样本点x_j对样本点x_i的贡献，并且有两个限制：
⑴若x_j不是x_j的邻域，则w_ij＝0；
⑵对所有的i，∑_jw_ij＝1,i＝1,2,…,n.
根据类别信息定义的距离，以下分别计算类内与类外的重构权：
I类内重构权。
按照定义的新的相同标签的样本点之间的距离，LLE算法可以很容易的通过排序新的距离找到与样本点相同标签下的K_s＝2个最近邻点，而不至于找到到不同标签下的样本点。因此，相同标签下的重构权可以按如下公式计算：
ϵ(ws)=arg min||xni-Σi=1nwiixci||2]]>
这里，样本点是相同标签i下样本点的邻域。
II类外重构权。
按照定义的新的不同标签下的样本点之间的距离，LLE算法同样可以很容易的通过排序新的距离找到与样本点不同标签下的K_d＝12个最近邻点，而不至于找到相同标签下的样本点。因此不同标签下的重构权可以按如下公式计算：
ϵ(ws)=argmin||xni-Σj=1nwijxcj||2]]>
这里，是标签j下的样本点，是标签i下的样本点，样本点是样本点不同标签下的邻域。
3)利用LLE Score特征评价函数进行特征评价。
特征评价的子集f_j可以如下计算：
Score(fj)=fjTMdfjfjTMsfj]]>
其中，f_j∈Rⁿ(j＝1,2,…,m)，M_d＝(I-W_d)^T(I-W_d)，M_s＝(I-W_s)^T(I-W_s)。
由LLE score评价基因的函数：Score(f_j)来计算每一个基因的分数，然后根据分数从大到小对基因进行排序，得到基因序列：[F₁,F₂,...,F₁₂₆₀₀]。
S2采用支持向量机进行训练和测试
经过特征选择，训练集和测试集变为和。取前个基因得到和，用Matlab中libsvm工具箱的“svmtrain”函数对进行训练，然后用libsvm工具箱的“svmpredict”函数进行测试，得到选择个基因时的分类准确率，这样，取1～70便可以得到对应于基因数为1到70的分类准确率曲线。
将上述过程重复25次，得到准确度的平均值，其分类准确率曲线图如图2。
实施例2
分别有下列几种不同于本发明的特征选择方法：
方法1(Laplacian Score)LS是基于拉普拉斯特征映射(Laplacian Eigenmaps)和局部保存映射(Locality Preserving Projection)提出来的，它的最初思想是根据他们的局部保存能力评价特征。
方法2(Fisher Score)FS是基于Fisher准则来给每个特征打分，然后选择每个特征。
方法3(T-test)是指零假设成立时的任一检定统计有学生t-分布的统计假说检定，属于母数统计。学生t检验常作为检验一群来自常态分配母体的独立样本之期望值的是否为某一实数，或是二群来自常态分配母体的独立样本之期望值的差是否为某一实数。
对实施例1中的Lung_Cancer数据集分别采用上述方法对其进行特征选择，然后利用核函数-支持向量机对特征矩阵进行训练，进而对测试数据集进行分类。将这三种方法的分类准确率与实施例1中的所得的分类准确率作对比，由图3所示，可以看到方法1(Laplacian Score)、方法2(Fisher Score)和方法3(T-test)的分类准确率与本发明相比，都存在一定差距，本法明的准确率更加的突出。

资源描述

《一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法.pdf》由会员分享，可在线阅读，更多相关《一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法.pdf（13页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104200134A43申请公布日20141210CN104200134A21申请号201410438692822申请日20140830G06F19/20201101C12Q1/6820060171申请人北京工业大学地址100124北京市朝阳区平乐园100号72发明人李建更逄泽楠苏磊张卫李晓丹74专利代理机构北京思海天达知识产权代理有限公司11203代理人沈波54发明名称一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法57摘要一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法，根据肿瘤基因表达数据的类别信息计算邻域，为了更好地利用类别信息，重新定义一种新的距离表达方式，。

2、I相同标签样本之间的距离；II不同标签样本之间的距离；分别计算类内与类外样本点的重构权；判别准则；特征评价函数。本发明具有LLESCORE算法可以将高维的邻域信息保留在低维结构里，并可以很好地利用标签信息，同时计算代价小等特点。可以根据特征选择后的降维效果，对基因数据进行有效的分类。51INTCL权利要求书4页说明书6页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书6页附图2页10申请公布号CN104200134ACN104200134A1/4页21一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法，其特征在于S1本方法从肿瘤数据库里获取到一组具有I类N组样本的。

3、肿瘤基因表达数据集，XIN，I1,C，让NI代表相同标签I下的肿瘤样本点，XI为肿瘤样本点的数据；S2根据以上肿瘤基因表达数据的类别信息计算邻域；利用以上的获取到的肿瘤基因表达数据集的类别信息，分别计算相同标签下和不同标签下样本点的邻域为了达到求取到样本点类内与类外的邻域的效果，定义一种新的距离表达方式，如下I相同标签样本之间的距离；保存相同标签样本点之间的欧式距离不变，定义不同标签之间的距离为无穷；II不同标签样本之间的距离；保存不同标签下样本点之间的欧式距离不变，定义相同标签的样本点之间的距离为无穷；S3分别计算获取到的肿瘤基因表达数据集类内与类外样本点的重构权；样本点与它的邻域点之间的重。

4、构权如下表示最优重构权的选取，通过极小化下面的重构权误差来实现权WIJ表示样本点XJ对样本点XI的贡献，并且有两个限制若XJ不是XJ的邻域，则WIJ0；对所有的I，JWIJ1,I1,2,N根据类别信息定义的距离，分别计算以下类内与类外的重构权I类内重构权；按照定义的新的相同标签的样本点之间的距离，LLE算法可以很容易的通过排序新的距离找到与样本点相同标签下的KS个最近邻点，而不至于找到到不同标签下的样本点；因此，相同标签下的重构权可以按如下公式计算这里，样本点是相同标签I下样本点的邻域；II类外重构权；权利要求书CN104200134A2/4页3按照定义的新的不同标签下的样本点之间的距离，LL。

5、E算法同样可以很容易的通过排序新的距离找到与样本点不同标签下的KD个最近邻点，而不至于找到相同标签下的样本点；因此不同标签下的重构权可以按如下公式计算上式中，是标签J下的样本点，是标签I下的样本点，样本点是样本点不同标签下的邻域；S4判别准则定义当K,M正定时其中，是特征子空间中的任一向量；一个好的特征子集是在一定程度上可以代表整个全部数据集；由以上广义RAYLEIGH商定义，可知最优特征求解可以通过让以上肿瘤基因表达数据集类间的样本点最大化远离、类内的样本点最大化聚类；于是，一个新的理想的特征求解准则提出这里，MSIWSTIWSMDIWDTIWDS5特征评价函数；定义以上从肿瘤数据库获取到的。

6、肿瘤基因表达数据集的维数是D；特征选择的目的就是寻找到最优的特征子集；如果是要从D个特征里寻找M个特征，那么就是将D维的数据集X降到M维的数据集Y；线性变换表示为YATX这里，ARDM是一个选择矩阵，将一个列向量AIRD表示为那么，在公式YATX里的A可以写成AA1,A2,AM在这里，A的作用就是选择一个特征FI，于是，TRYMDYTTRATXMDXTAFJTMDFJTRYMSYTTRATXMSXTAFJTMSFJ因此，特征评价的子集FJ可以如下计算权利要求书CN104200134A3/4页4其中，FJRNJ1,2,M；最后，通过根据分数SCOREFJ从大到小对基因进行排序，得到基因序列F1,。

7、F2,F12600。2根据权利要求1所述的一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法，其特征在于LUNG_CANCER数据集是取自肺癌细胞与正常组织的基因表达数据；它具有5类，包含203个样本；让1、2、3、4、5分别代表五个类别，再203个样本中，分别有17、21、20、6、139个样本属于1、2、3、4、5类；实验中的训练集和测试集具体分类如下表1；表1LUNG_CANCER数据集的训练集与测试集具体分类将数据按近似11比例随机分配的，一半分为训练集，用于特征选择，然后用支持向量机在另一半的测试集上测试，得出分类准确率，这样分得的训练集有103个样本，测试集100个样本；S1特征。

8、选择LUNG_CANCER训练集的103个样本组成的集合可以表示为XX1,X2,X103，矩阵的大小为12600103；样本集合还可以写成XF1,F2,F12600T，FJ是一个基因在各个样本中的表达值组成的向量；1根据LUNG_CANCER数据集的类别信息计算邻域；利用定义的新距离分别计算类内类外距离I相同标签样本之间的距离；保存相同标签样本点之间的欧式距离不变，定义不同标签之间的距离为无穷；II不同标签样本之间的距离；保存不同标签下样本点之间的欧式距离不变，定义相同标签的样本点之间的距离为无穷；根据以上定义的新距离，分别计算相同标签下和不同标签下样本点的邻域2分别计算类内与类外样本点的重构。

9、权；样本点与它的邻域点之间的重构权如下表示最优重构权的选取，通过极小化下面的重构权误差来实现权利要求书CN104200134A4/4页5权WIJ表示样本点XJ对样本点XI的贡献，并且有两个限制若XJ不是XJ的邻域，则WIJ0；对所有的I，JWIJ1,I1,2,N根据类别信息定义的距离，以下分别计算类内与类外的重构权I类内重构权；按照定义的新的相同标签的样本点之间的距离，LLE算法可以很容易的通过排序新的距离找到与样本点相同标签下的KS2个最近邻点，而不至于找到到不同标签下的样本点；因此，相同标签下的重构权可以按如下公式计算这里，样本点是相同标签I下样本点的邻域；II类外重构权；按照定义的新的不。

10、同标签下的样本点之间的距离，LLE算法同样可以很容易的通过排序新的距离找到与样本点不同标签下的KD12个最近邻点，而不至于找到相同标签下的样本点；因此不同标签下的重构权可以按如下公式计算这里，是标签J下的样本点，是标签I下的样本点，样本点是样本点不同标签下的邻域；3利用LLESCORE特征评价函数进行特征评价；特征评价的子集FJ可以如下计算其中，FJRNJ1,2,M，MDIWDTIWD，MSIWSTIWS；由LLESCORE评价基因的函数SCOREFJ来计算每一个基因的分数，然后根据分数从大到小对基因进行排序，得到基因序列F1,F2,F12600；S2采用支持向量机进行训练和测试经过特征选择，。

11、训练集和测试集变为和；取前个基因得到和，用MATLAB中LIBSVM工具箱的“SVMTRAIN”函数对进行训练，然后用LIBSVM工具箱的“SVMPREDICT”函数进行测试，得到选择个基因时的分类准确率，这样，取170便可以得到对应于基因数为1到70的分类准确率曲线；将上述过程重复25次，得到准确度的平均值。权利要求书CN104200134A1/6页6一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法技术领域0001本发明涉及生物信息学肿瘤基因数据处理技术领域，特别涉及一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法。背景技术0002随着DNA技术的发展，越来越多的肿瘤基因表达数据可以。

12、被获得。然而，获得的基因表达数据往往有一个共同的特点“高维、小样本”，因此在肿瘤分类的时候需要进行对这样的高维数据进行降维。特征选择方法就是一个在处理高维数据上很重要的方法，它可以从高维的基因数据里选择出更具有分类信息的基因，从而达到理想的数据降维效果。0003特征选择方法大致可以被分为两大类包装器和过滤器。包装器是通过选择在分类器上有更出色表现的特征；而过滤器是通过定义的准则选择特征。过滤器往往可以更好的利用标签信息进行降维，并大大降低数据计算能力，诸如传统的比较流行的过滤器类型的特征选择方法LAPLACIANSCOREHEETAL,2005、FISHERSCOREDUDAETAL,1997。

13、和TTESTDEVOREETAL,2001。本发明提出的LLESCORE方法就是典型的过滤器类型的特征选择方法。0004高维的基因表达数据结构一般是非线性的，但流形学习算法里的局部线性嵌入算法LLE在处理高维的非线性数据时更具有出色的表现。本发明便是基于局部线性嵌入算法提出的特征选择方法LLESCORE，不仅可以利用LLE保存邻域结构在低维不变的优点更好的处理非线性结构基因表达数据，而且还可以充分利用基因表达数据的标签信息。利用LLESCORE进行基因表达数据的降维，并通过支持向量机SVM进行分类，最后分类的准确率与其他流形的过滤器类型特征选择方法的分类准确率进行比较。发明内容0005为了达到。

14、良好的数据降维效果，本发明提出了一种基于局部线性算法的肿瘤基因表达数据特征选择方法，并在构造类内、类外重构权矩阵时定义了一种新的距离方法。本技术LLESCORE算法可以将高维的邻域信息保留在低维结构里，并可以很好地利用标签信息，同时计算代价小等特点。可以根据特征选择后的降维效果，对基因数据进行有效的分类。0006为实现上述目的，本发明所采用的技术方案如下，0007S1本方法从肿瘤数据库里获取到一组具有I类N组样本的肿瘤基因表达数据集，XIN，I1,C，让NI代表相同标签I下的肿瘤样本点，XI为肿瘤样本点的数据。0008S2根据以上肿瘤基因表达数据的类别信息计算邻域。0009利用以上的获取到的肿。

15、瘤基因表达数据集的类别信息，分别计算相同标签下和不同标签下样本点的邻域为了达到求取到样本点类内与类外的邻域的效果，定义一种新的距离表达方式，如下0010I相同标签样本之间的距离。保存相同标签样本点之间的欧式距离不变，定义不同说明书CN104200134A2/6页7标签之间的距离为无穷。00110012II不同标签样本之间的距离。保存不同标签下样本点之间的欧式距离不变，定义相同标签的样本点之间的距离为无穷。00130014S3分别计算获取到的肿瘤基因表达数据集类内与类外样本点的重构权。0015样本点与它的邻域点之间的重构权如下表示00160017最优重构权的选取，通过极小化下面的重构权误差来实现。

16、00180019权WIJ表示样本点XJ对样本点XI的贡献，并且有两个限制0020若XJ不是XJ的邻域，则WIJ0；0021对所有的I，JWIJ1,I1,2,N0022根据类别信息定义的距离，分别计算以下类内与类外的重构权0023I类内重构权。0024按照定义的新的相同标签的样本点之间的距离，LLE算法可以很容易的通过排序新的距离找到与样本点相同标签下的KS个最近邻点，而不至于找到到不同标签下的样本点。因此，相同标签下的重构权可以按如下公式计算00250026这里，样本点是相同标签I下样本点的邻域。0027II类外重构权。0028按照定义的新的不同标签下的样本点之间的距离，LLE算法同样可以很容。

17、易的通过排序新的距离找到与样本点不同标签下的KD个最近邻点，而不至于找到相同标签下的样本点。因此不同标签下的重构权可以按如下公式计算00290030上式中，是标签J下的样本点，是标签I下的样本点，样本点是样本点不同标签下的邻域。说明书CN104200134A3/6页80031S4判别准则0032定义当K,M正定时00330034其中，是特征子空间中的任一向量。0035一个好的特征子集是在一定程度上可以代表整个全部数据集。由以上广义RAYLEIGH商定义，可知最优特征求解可以通过让以上肿瘤基因表达数据集类间的样本点最大化远离、类内的样本点最大化聚类。于是，一个新的理想的特征求解准则提出00360。

18、037这里，0038MSIWSTIWS0039MDIWDTIWD0040S5特征评价函数。0041定义以上从肿瘤数据库获取到的肿瘤基因表达数据集的维数是D。特征选择的目的就是寻找到最优的特征子集；如果是要从D个特征里寻找M个特征，那么就是将D维的数据集X降到M维的数据集Y。线性变换表示为0042YATX0043这里，ARDM是一个选择矩阵，将一个列向量AIRD表示为00440045那么，在公式YATX里的A可以写成0046AA1,A2,AM0047在这里，A的作用就是选择一个特征FI，于是，0048TRYMDYTTRATXMDXTAFJTMDFJ0049TRYMSYTTRATXMSXTAFJT。

19、MSFJ0050因此，特征评价的子集FJ可以如下计算00510052其中，FJRNJ1,2,M。0053最后，通过根据分数SCOREFJ从大到小对基因进行排序，得到基因序列F1,F2,F12600。0054与现有技术相比，本发明具有以下优点。00551、本发明提供的基于LLE算法的肿瘤基因表达数据特征选择方法，通过计算机辅助手段，在类别信息的基础上，就LLE算法计算邻域和构造最优重构权对肿瘤基因表达数据进行学习，将其投影到低维嵌入空间，再通过评价函数对特征进行筛选，最后利用核函说明书CN104200134A4/6页9数支持向量机对特征矩阵进行训练，进而对测试数据集进行分类。本发明有助于肿瘤的早。

20、期诊断，可以帮助人们寻找肿瘤的致病基因，从基因表达的角度解释肿瘤的成因。00562、本发明融合了LLE算法，可以将高维空间的类内与类外邻域之间的信息保留到低维空间结构里。00573、本发明具有良好的特征选择效果，对于肿瘤基因的临床诊断具有很好地参考价值，可应用于建立肿瘤基因的识别系统。附图说明0058图1为本发明的方法流程图。0059图2为本发明LLESCORE在LUNG_CANCER数据集上的分类准确率曲线图。0060图3为LUNG_CANCER数据在本发明和其他四种方法上的分类准确率曲线图。具体实施方式0061下面结合附图和实施例对本发明的技术方案进一步说明如下0062实施例10063LU。

21、NG_CANCER数据集是取自肺癌细胞与正常组织的基因表达数据。它具有5类，包含203个样本。让1、2、3、4、5分别代表五个类别，再203个样本中，分别有17、21、20、6、139个样本属于1、2、3、4、5类。实验中的训练集和测试集具体分类如下表1。0064表1LUNG_CANCER数据集的训练集与测试集具体分类00650066将数据按近似11比例随机分配的，一半分为训练集，用于特征选择，然后用支持向量机在另一半的测试集上测试，得出分类准确率如果某类样本数为奇数，则划分给训练集的比测试集多一个，例如NORMAL类，划分给训练集的有9个样本，测试集有8个，这样分得的训练集有103个样本，测。

22、试集100个样本。0067S1特征选择0068LUNG_CANCER训练集的103个样本组成的集合可以表示为XX1,X2,X103，矩阵的大小为12600103。样本集合还可以写成XF1,F2,F12600T，FJ是一个基因在各个样本中的表达值组成的向量。00691根据LUNG_CANCER数据集的类别信息计算邻域。0070利用定义的新距离分别计算类内类外距离0071I相同标签样本之间的距离。保存相同标签样本点之间的欧式距离不变，定义不同标签之间的距离为无穷。说明书CN104200134A5/6页1000720073II不同标签样本之间的距离。保存不同标签下样本点之间的欧式距离不变，定义相同标。

23、签的样本点之间的距离为无穷。00740075根据以上定义的新距离，分别计算相同标签下和不同标签下样本点的邻域00762分别计算类内与类外样本点的重构权。0077样本点与它的邻域点之间的重构权如下表示00780079最优重构权的选取，通过极小化下面的重构权误差来实现00800081权WIJ表示样本点XJ对样本点XI的贡献，并且有两个限制0082若XJ不是XJ的邻域，则WIJ0；0083对所有的I，JWIJ1,I1,2,N0084根据类别信息定义的距离，以下分别计算类内与类外的重构权0085I类内重构权。0086按照定义的新的相同标签的样本点之间的距离，LLE算法可以很容易的通过排序新的距离找到与。

24、样本点相同标签下的KS2个最近邻点，而不至于找到到不同标签下的样本点。因此，相同标签下的重构权可以按如下公式计算00870088这里，样本点是相同标签I下样本点的邻域。0089II类外重构权。0090按照定义的新的不同标签下的样本点之间的距离，LLE算法同样可以很容易的通过排序新的距离找到与样本点不同标签下的KD12个最近邻点，而不至于找到相同标签下的样本点。因此不同标签下的重构权可以按如下公式计算00910092这里，是标签J下的样本点，是标签I下的样本点，样本点是样本点不同标签下的邻域。00933利用LLESCORE特征评价函数进行特征评价。说明书CN104200134A106/6页110。

25、094特征评价的子集FJ可以如下计算00950096其中，FJRNJ1,2,M，MDIWDTIWD，MSIWSTIWS。0097由LLESCORE评价基因的函数SCOREFJ来计算每一个基因的分数，然后根据分数从大到小对基因进行排序，得到基因序列F1,F2,F12600。0098S2采用支持向量机进行训练和测试0099经过特征选择，训练集和测试集变为和。取前个基因得到和，用MATLAB中LIBSVM工具箱的“SVMTRAIN”函数对进行训练，然后用LIBSVM工具箱的“SVMPREDICT”函数进行测试，得到选择个基因时的分类准确率，这样，取170便可以得到对应于基因数为1到70的分类准确率曲。

26、线。0100将上述过程重复25次，得到准确度的平均值，其分类准确率曲线图如图2。0101实施例20102分别有下列几种不同于本发明的特征选择方法0103方法1LAPLACIANSCORELS是基于拉普拉斯特征映射LAPLACIANEIGENMAPS和局部保存映射LOCALITYPRESERVINGPROJECTION提出来的，它的最初思想是根据他们的局部保存能力评价特征。0104方法2FISHERSCOREFS是基于FISHER准则来给每个特征打分，然后选择每个特征。0105方法3TTEST是指零假设成立时的任一检定统计有学生T分布的统计假说检定，属于母数统计。学生T检验常作为检验一群来自常态。

27、分配母体的独立样本之期望值的是否为某一实数，或是二群来自常态分配母体的独立样本之期望值的差是否为某一实数。0106对实施例1中的LUNG_CANCER数据集分别采用上述方法对其进行特征选择，然后利用核函数支持向量机对特征矩阵进行训练，进而对测试数据集进行分类。将这三种方法的分类准确率与实施例1中的所得的分类准确率作对比，由图3所示，可以看到方法1LAPLACIANSCORE、方法2FISHERSCORE和方法3TTEST的分类准确率与本发明相比，都存在一定差距，本法明的准确率更加的突出。说明书CN104200134A111/2页12图1说明书附图CN104200134A122/2页13图2图3说明书附图CN104200134A13。

展开阅读全文