一种结合随机森林和RELIEFF的全基因组SNP位点分析方法.pdf

摘要
申请专利号：	CN201410765415.8	申请日：	2014.12.11
公开号：	CN104462868A	公开日：	2015.03.25
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F19/18申请日:20141211\|\|\|公开
IPC分类号：	G06F19/18(2011.01)I	主分类号：	G06F19/18
申请人：	西安电子科技大学
发明人：	杨利英; 黎成; 殷黎洋; 张军英; 袁细国
地址：	710071陕西省西安市太白南路2号西安电子科技大学
优先权：
专利代理机构：	北京科亿知识产权代理事务所(普通合伙)11350	代理人：	汤东凤
PDF下载：	PDF下载

内容摘要

本发明公开了一种结合随机森林和Relief-F的全基因组SNP位点分析方法，首先应用广义线性模型对SNP位点进行初步筛选，接着利用Relief-F处理SNP交互作用的能力，预先将存在交互作用的SNP位点排到队列前面，然后将队列后面的SNP位点利用随机森林进行排名，以识别单个SNP位点的边缘作用，这样得到一个SNP的排名队列，去掉排在队列末端的SNP位点之后，重新应用Relief-F和随机森林进行处理，如此迭代，最后得到SNP位点的排序结果。本发明综合考虑单个SNP位点的作用和位点之间的交互作用，能处理全基因组SNP数据，进而发现与复杂疾病相关的SNP位点，对复杂疾病的致病机理研究、疾病风险预测和生物药物研制等都有重要的意义。

权利要求书

权利要求书
1.  一种结合随机森林和Relief-F的全基因组SNP位点分析方法，其特征在于，所述方法包括如下步骤：
S1、对样本数据进行预处理：如果样本数据是AA这种碱基对形式，则对每个SNP位点进行编码，编码成最小等位基因的个数；如果最小等位基因为a，那么基因型AA、Aa、aa分别编码成0、1、2，去掉最小等位基因频率小于设定值的SNP位点；
S2、设单核苷酸多态SNP的个数为m，设置进入下一阶段处理的SNP个数的上限为Lu；若m<＝Lu，则直接执行步骤S3，若m>Lu，则对每个SNP位点xj(j＝1,2,...,m)与样本类别变量y建立广义线性模型以评估单个SNP的作用，建立的广义线性模型如下:
g(E(y|X))=β0+Σj=1mβjxj;]]>
其中g函数为logit函数，β为模型系数，样本X＝(x1,x2,...,xm)T；
根据广义线性模型建模的结果，通过对每个SNP位点对应的p值进行递增排序，筛选得到前Lu个SNP位点构成集合S，所述p值是统计学假设检验方法得到的概率值，表示变量的显著性；设置SNP位点个数m＝Lu并执行步骤S3；
S3、对SNP位点集合进行后向缩减，其中设置每次迭代时过滤SNP的比例为q，迭代次数为随机森林排名的SNP位点个数和初始SNP位点总和的比例为r(r>q)，SNP位点的排名结果队列记为SNPrank，初始化SNP位点个数为u＝m；单次迭代的过程如下：

3.  1)利用Rel ief-F方法对u个SNP位点进行权重排名，得到降序的u个SNP位点；

3.  2)利用随机森林方法对降序后的u个SNP位点中后面个SNP位点按照置换重要性值进行降序排名；

3.  3)将排名末尾个SNP位点存到SNPrank队列的头部，并根据对u进行更新；
S4、将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部，这样就得到了完整的SNP位点排名；
S5、取SNPrank前k个SNP位点为显著SNP位点。

2.  根据权利要求1所述的一种结合随机森林和Rel ief-F的全基因组SNP位点分析方法，其特征在于，步骤S1中所述设定值为0.05，即去掉最小等位基因频率小于0.05的SNP位点。

3.  根据权利要求1所述的一种结合随机森林和Rel ief-F的全基因组SNP位点分析方法，其特征在于，步骤3.1)具体实现过程为：
首先初始化每个SNP位点的权重为0，然后迭代n次，n设置为样本数目，每次选择一个样本X，计算得到与这个样本类别标签一致的最近邻样本H，同时计算得到与这个样本类别标签不一样的最近邻样本M，然后对每个位点gi(i＝1,2,...,u)用如下公式更新权重：
W[gi]＝W[gi]-diff(gi,X,H)/u+diff(gi,X,M)/u；
其中diff函数表示两个样本在这个位点上的间距，如果样本P的SNP位点gi和样本Q的SNP位点gi的基因型相同，则diff(gi,P,Q)＝1，否则为0。

4.  根据权利要求1所述的一种结合随机森林和Rel ief-F的全基因组SNP位点分析方法，其特征在于，步骤3.2)中所述置换重要性值根据如下公式进行计算：
I(A)=1TΣj=1T1NjΣi=1N[F(Vj(Xi)=yi)-F(Vj(Xi(A,j))=yi)]tij;]]>
其中，I(A)表示SNP位点A的置换重要性值，N是所有样本的数目，T是树的总数；i是样本索引，i＝1,2,…,N，j是决策树索引，j＝1,2,…,T，Xi表示第i个样本，yi表示第i个样本真实的类别；Vj(Xi)表示第i个样本在第j棵树的预测值；tij表示第i个样本是否是第j棵树的袋外样本，取1或者0，其中1表示“是”，0表示“否”；表示第j棵树的SNP位点A重新排列后的第i个样本；F(C)是一个指示函数，当条件C满足时取值为1，否则取值为0；Nj表示第j棵树的袋外样本数目。

5.  根据权利要求1所述的一种结合随机森林和Relief-F的全基因组SNP位点分析方法，其特征在于，步骤S5中所述k值取10。

说明书

说明书一种结合随机森林和Relief-F的全基因组SNP位点分析方法
技术领域
本发明属于数据处理技术领域，基于全基因组单核苷酸多态性(SNP，Single Nucleotide Polymorphisms)数据进行全基因组关联研究，识别与疾病相关的SNP位点，可用于阐释复杂疾病的致病机理、疾病风险预测以及生物药物研制。
背景技术
生物信息学是一门生命科学和计算机科学相结合的新兴学科，研究生物信息的采集、处理、存储、传播，分析和解释等，通过综合利用生物学、计算机科学和信息技术来揭示复杂的生物数据所蕴藏的生物学奥秘。全基因组关联研究(GWAS，Genome-Wide Association Studies)的基本原理是在同层人群中选择满足一定统计学数量的病例组和对照组样本，比较全基因组范围内SNP位点在病例组和对照组中的频率差异，若某个SNP位点在病例组中出现的频率明显高于或低于对照组，则认为该SNP位点与复杂疾病存在着某种关联。与复杂疾病相关的SNP位点的发现和识别对复杂疾病的致病机理研究、疾病风险预测和生物药物研制等都有重要的意义。
当前，通过GWAS已经发现了很多与复杂疾病相关的SNP位点，但是发现的相关SNP位点中只有少数能够增加复杂疾病的致病风险，而且还有一些已经被生物实验证明的与复杂疾病相关的SNP位点没有被GWAS识别出来。因此，还存在着大量未被发现的SNP。这种结果主要由如下两方面的原因所造成：
(1)目前GWAS在建模时大多只考虑单个SNP位点与复杂疾病的关联关系，忽略了SNP位点可以通过与其它SNP位点或环境因素共同作用影响复杂疾病的情况。
(2)罕见SNP位点的识别难度大，这类SNP位点在正常人群中出现的频率在1％-5％之间，在样本数量非常少的情况下很难通过GWAS直接识别出来。
为克服GWAS在与复杂疾病相关的SNP位点识别上的不足，研究人员开始关注SNP位点之间的交互作用，在方法层面上进行了更加深入的研究，提出了许多方法。这些方法可概括为两大类，即基于模型的方法和模型无关方法。基于模型的方法预先在基因组和表现型之间定义一种统计模型，然后拟合数据到假设的模型，得到显著的SNP位点，但是该类方法难以处理高维的GWAS数据，面临着“维数灾难”问题。模型无关方法为了有效处理高维SNP数据，通常采用一些启发式信息指导搜索，而不用提前对数据和模型作出假设，该类方法只是通过统计技术测试每个可能存在的交互作用的SNP组，但没有某种单一的方法能准确地找到大部分与复杂疾病相关的SNP位点。
上述两类常用的方法中，有些只是识别单个SNP位点的增加复杂疾病致病风险作用，有些则侧重于SNP位点间的交互作用，大多没有根据疾病的复杂生物机理，综合考虑两者的共同作用。针对当前研究存在的这一问题，本发明提出了一种结合随机森林和Relief-F的全基因组SNP位点分析方法。随机森林是一种集成学习方法，通过将多个决策树进行集成来完成模式识别的任务，其中决策树属性结点划分的统计信息可用来进行特征的重要性排名，如可用置换重要性或基尼(Gini)重要性对特征排序。用随机森林对SNP高维数据集进行处理时，在识别单个SNP位点上有突出的优势，但处理特征之间的交互作用有所欠缺。Relief-F方法利用假设间隔最大化理论进行特征排序，可以用来对SNP位点进行排名，该方法能够很好地识别SNP位点的交互作用，但是易受噪声数据的影响，对单个位点的识别作用不理想。本发明将随机森林和Relief-F有机结合起来，发挥各自的优势，从而达到同时识别单个位点和多个位点交互作用的目的，提高与复杂疾病相关的SNP位点的识别能力。
发明内容
针对现有技术的不足，本发明旨在提出一种结合随机森林和Relief-F的全基因组SNP位点分析方法，兼顾单个SNP位点的增加复杂疾病风险作用与多个SNP位点之间的交互作用，从方法层面保证了罕见与复杂疾病相关的SNP位点的识别效能，为疾病的生物学病理研究提供基础。
为了实现上述目的，本发明采取如下技术方案：
一种结合随机森林和Relief-F的全基因组SNP位点分析方法，包括如下步骤：
S1、对样本数据进行预处理：如果样本数据是AA这种碱基对形式，则对每个SNP位点进行编码，编码成最小等位基因的个数；如果最小等位基因为a，那么基因型AA、Aa、aa分别编码成0、1、2，去掉最小等位基因频率小于设定值的SNP位点；
S2、设单核苷酸多态SNP的个数为m，设置进入下一阶段处理的SNP个数的上限为Lu；若m＜＝Lu，则直接执行步骤S3，若m＞Lu，则对每个SNP位点xj(j＝1，2，...，m)与样本类别变量y建立广义线性模型以评估单个SNP的作用；建立的广义线性模型如下：
g(E(y|X))=β0+Σj=1mβjxj;]]>
其中g函数为logit函数，β为模型系数，样本X＝(x1，x2，...，xm)T；
根据广义线性模型建模的结果，通过对每个SNP位点对应的p值进行递增排序，筛选得到前Lu个SNP位点构成集合S，p值是统计学假设检验方法得到的概率值，表示变量的显著性；设置SNP位点个数m＝Lu并执行步骤S3；
S3、对SNP位点集合进行后向缩减，其中设置每次迭代时过滤SNP的比例为q，迭代次数为随机森林排名的SNP位点个数和初始SNP位点总和的比例为r(r＞q)，SNP位点的排名结果队列记为SNPrank，初始化SNP位点个数为u＝m；单次迭代的过程如下：
3.1)利用Relief-F方法对u个SNP位点进行权重排名，得到降序的u个SNP位点；
3.2)利用随机森林方法对降序后的u个SNP位点中后面个SNP位点按照置换重要性值进行降序排名；
3.3)将排名末尾个SNP位点存到SNPrank队列的头部，并根据对u进行更新；
S4、将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部，这样就得到了完整的SNP位点排名；
S5、取SNPrank前k个SNP位点为显著SNP位点。
需要说明的是，步骤S1中所述设定值为0.05，即去掉最小等位基因频率小于0.05的SNP位点。
需要说明的是，步骤3.1)具体实现过程为：
首先初始化每个SNP位点的权重为0，然后迭代n次，n设置为样本数目，每次选择一个样本X，计算得到与这个样本类别标签一致的最近邻样本H，同时计算得到与这个样本类别标签不一样的最近邻样本M，然后对每个位点gi(i＝1，2，...，u)用如下公式更新权重：
W[gi]＝W[gi]-diff(gi，X，H)/u+diff(gi，X，M)/u；
其中diff函数表示两个样本在一个位点上的间距，如果样本P的SNP位点gi和样本Q的SNP位点gi的基因型相同，则diff(gi，P，Q)＝1，否则为0。
需要说明的是，步骤3.2)中所述置换重要性值按照如下公式进行计算：
I(A)=1TΣj=1T1NjΣi=1N[F(Vj(Xi)=yi)-F(Vj(Xi(A,j))=yi)]tij;]]>
其中，I(A)表示SNP位点A的置换重要性值，N是所有样本的数目，T是树的总数；i是样本索引，i＝1，2，...，N，j是决策树索引，j＝1，2，...，T，Xi表示第i个样本，yi表示第i个样本真实的类别，Vj(Xi) 表示第i个样本在第j棵树的预测值，tij表示第i个样本是否是第j棵树的袋外样本，取1或者0，其中1表示“是”，0表示“否”；表示第j棵树的SNP位点A重新排列后的第i个样本；F(C)是一个指示函数，当条件C满足时取值为1，否则取值为0；Nj表示第j棵树的袋外样本数目。
需要说明的是，步骤S5中所述k值取10。
本发明的有益效果在于：
1、本发明综合考虑单个SNP位点的作用和多个SNP位点的交互作用，按照从后往前消减的思想，迭代过滤排名低的SNP位点，整个迭代过程不会因为SNP位点的交互作用而出现显著SNP位点排名低的问题。
2、本发明利用广义线性模型预先得到单个SNP位点作用的p值，而后依据p值对SNP位点进行筛选，从而降低了维度，因此能够有效处理全基因组SNP数据。
附图说明
图1是本发明方法的流程示意图。
图2是本发明在模拟数据组1上的实验结果示意图。
图3是本发明在模拟数据组2上的实验结果示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出详细的实施步骤和具体的操作方式，但本发明并不限于本实施例。
参照图1，本发明的具体实现步骤如下。
步骤一，对SNP数据进行预处理：
如果样本数据是AA这种碱基对形式，则对每个SNP位点进行编码，编码成最小等位基因的个数；如果最小等位基因为a，那么根据最小等位基因出现的个数，基因型AA、Aa、aa分别编码成0、1、2。去掉最小等位基因频率小于设定值的SNP位点。所述设定值设定为0.05。去掉最小等位基因频率小于设定值的SNP位点，目的在于过滤掉缺乏显著性的位点，如果所述设定值过大，就可能会过滤掉潜在有用的位点。
步骤二，通过广义线性模型对SNP位点进行筛选：
设单核苷酸多态SNP的个数为m，设置进入下一阶段处理的SNP位点个数的上限为Lu。若m＜＝Lu，直接执行步骤三，否则对每个SNP位点xj(j＝1，2，...，m)与样本类别变量y建立广义线性模型(GLM，Genera lized Linear Model)以评估单个SNP的作用。建立的广义线性模型如下：
g(E(y|X))=β0+Σj=1mβjxj;]]>
其中g函数为logit函数，β为模型系数，样本X＝(x1，x2，...，xm)T；
对模型中每个SNP位点，按p值递增的顺序进行排序，得到前Lu个对应的SNP位点集合S，p值是统计学假设检验方法得到的概率值，表示变量的显著性；设置SNP位点个数m＝Lu并执行步骤三。
步骤三，兼顾SNP单个位点的作用及位点间的交互作用，按与复杂疾病的相关度对位点排序：
对SNP位点集合进行后向缩减，设置每次迭代时过滤SNP的比例为q，迭代次数随机森林排名的SNP位点个数和初始SNP位点总和的比例为r(r＞q)，SNP位点的排名结果队列记为SNPrank，初始化SNP位点个数为u＝m，单次迭代步骤如下：
(1)利用Relief-F方法对u个SNP位点进行权重排名，得到降序的u个SNP位点。首先初始化每个SNP位点的权重为0，然后迭代n次，n设置为样本数目，每次选择一个样本X，计算得到与这个样本类别标签一致的最近邻样本H，同时计算得到与这个样本类别标签不一样的最近邻样本M，然后每个位点gi(i＝1，2，...，u)用如下公式更新权重：
W[gi]＝W[gi]-diff(gi，X，H)/u+diff(gi，X，M)/u；
其中diff函数表示两个样本在一个位点上的间距，如果样本P的SNP位点gi和样本Q的SNP位点gi的基因型相同，则diff(gi，P，Q)＝1，否则为0。
(2)取u个SNP位点中后面个SNP位点，利用随机森林方法计算每个SNP位点A的置换重要性值I(A)，计算公式为：
I(A)=1TΣj=1T1NjΣi=1N[F(Vj(Xi)=yi)-F(Vj(Xi(A,j))=yi)]tij;]]>
其中，N是样本个数，i是样本索引，i＝1，2，...，N，j是决策树索引，j＝1，2，...，T，T是树的总数。Xi表示第i个样本，yi表示该样本真实的类别，Vj(Xi)表示第i个样本在第j棵树的预测值，tij表示第i个样本是否是第j棵树的袋外样本，取1(“是”)或者0(“否”)。表示第j棵树的特征A重新排列后的第i个样本。F(C)是一个指示函数，当条件C满足时取值为1，否则取值为0。Nj表示第j棵树的袋外样本数目。
(3)将每个SNP位点对应的置换重要性值进行逆序，将排名末尾个SNP位点存到SNPrank队列的头部，根据对u进行更新。
将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部，这样就得到了完整的SNP位点排名。
步骤四，取SNPrank前k个SNP位点作为显著SNP位点。作为一种优选方案，k值可取为10。
本发明将通过下述的实验例子对本发明方法的效果进行更详细的描述，这些实验例子仅用于举例的目的，而不试图限制本发明的应用范围。
实验1：模拟数据中显著SNP位点的识别
模拟数据集有两组，每组数据集个数为100，模拟数据组1的数据模拟同时包含单个SNP位点的作用和SNP位点之间的交互作用，模拟数据组2模拟了只包含SNP位点之间交互作用情形。
表1设计了一种两个SNP位点的模型，患有某种疾病的基准概率是a，有显著等位基因(a或者b)增加几率1+θ。模拟数据组1根据表1的模型产生，每个数据集有2000个样本，1000个SNP位点，其中有两个显著SNP位点，序号分别为11和21。模拟数据组2取自达特茅斯学院(http：//discovery.dartmouth.edu/epistatic-data)，每个数据集有800个样本，1000个SNP位点，其中有两个显著SNP位点，序号为1和2。
表1
AAAaaaBBaa(1+θ)a(1+θ)2Bba(1+θ)a(1+θ)2a(1+θ)3bba(1+θ)2a(1+θ)3a(1+θ)4
模拟数据组1和模拟数据组2的具体实施步骤如下：
1、对SNP位点集合进行后向缩减，设置迭代次数it＝23，每次迭代时过滤SNP位点的比例为q＝0.2，随机森林排名的SNP位点个数和初始SNP位点总和的比例为r＝0.4，SNP位点的排名结果队列记为SNPrank，设置开始时SNP位点个数为u＝1000，单次迭代步骤如下：
(1)利用Relief-F方法对u个SNP位点进行权重排名，得到降序的u个SNP位点。
(2)取u个SNP位点中后面个SNP位点，利用随机森林方法计算每个SNP位点A的置换重要性值I(A)。
(3)将每个SNP位点对应的置换重要性值进行逆序，将排名末尾个SNP位点存到SNPrank队列的头部，根据对u进行更新。
2、将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部，这样得到SNP位点的最终排名。
3、取SNPrank前2个位点作为显著SNP位点。
对于数据组1中的100个数据集，对每个数据集都进行SNP位点的识别，其中模拟数据集的第11个SNP位点和第21个SNP位点是显著SNP位点，因此根据每个数据集运用本发明的方法后得到的SNPrank的排名，可以用来统计显著SNP位点的识别率。
第一组模拟数据的实验结果如图2所示，横坐标表示SNP位点的排名，纵坐标表示对于每个SNP位点的排名SNP11和SNP21在100个数据集中的识别率，即在100个数据集中SNP11和SNP21的排名都小于当前排名的比例。图2对本发明的方法和随机森林以及Relief-F方法做了对比，从图中明显可以看出本发明方法识别显著SNP位点的优势，识别率接近100％，相比随机森林和Relief-F能更好地识别与复杂疾病相关的SNP位点，每个数据集的运行结果的前2名都基本上是显著SNP位点SNP11和SNP21。本模型的显著SNP位点存在交互作用，从图中也可以看出，Relief-F对于显著SNP位点的识别能力较强，因此实验结果也进一步表明Relief-F识别SNP位点交互作用的能力较强，随机森林则在识别SNP位点交互作用的能力方面有所欠佳。
在数据组2中的数据集中，与疾病相关的因素主要是SNP1和SNP2的交互作用，本应用实例的目的是验证所提方法在识别SNP仅存在交互作用时的性能。图3比较了随机森林、Relief-F和本发明方法在识别交互作用上的能力。为了更好地显示各个方法的差异，纵轴标记为识别率，统计各方法将SNP1和SNP2排到30名之前的数据集个数在全部100个数据集中的比例。从图3的结果可以看出，Relief-F 在这种数据集下有比较好的识别能力，随机森林识别交互作用的能力较弱，很难将SNP1或者SNP2排到前面，本发明方法相比随机森林和Relief-F都有很大优势，能准确识别SNP1。三种方法对SNP2的识别都较弱，三者比较结果差异不大，从整体性能而言，本发明方法明显优于随机森林和Relief-F。
实验2：真实病例数据中显著SNP位点的识别
真实病例选用AMD(Age-related macular degeneration)数据，AMD是年龄相关性黄斑变性，是一种常见的复杂疾病，该病是由于黄斑区色素上皮退化、新生血管膜形成而导致慢性进行性双眼中心视力的减退。AMD数据集一共包含116204个SNP位点，有96个患病样例，50个正常样例，移除一些不符合遗传平衡定律的位点，并且去掉了缺失个数大于5的SNP位点，最终得到96607个SNP位点。在AMD数据上具体实施步骤如下：
1、对初始SNP数据进行预处理，去掉最小等位基因频率小于0.05的SNP位点。
2、设置Lu＝3000，对每个SNP位点xj与样本类别变量y建立广义线性模型，按p值递增的顺序进行排序，得到p值前3000个对应的SNP位点集合S，设置SNP位点个数m＝3000。
3、对SNP位点集合进行后向缩减，设置迭代次数it＝28，每次迭代时过滤SNP的比例为q＝0.2，随机森林排名的SNP位点个数和初始SNP位点总和的比例为r＝0.4，SNP位点的排名结果队列记为SNPrank，设置开始时SNP位点个数为u＝3000，单次迭代步骤如下：
(1)利用Relief-F方法对u个SNP位点进行权重排名，得到降序的u个SNP位点。
(2)取u个SNP位点中后面个SNP位点，利用随机森林方法计算每个SNP位点A的置换重要性值I(A)。
(3)将每个SNP位点对应的置换重要性值进行逆序，将排名末尾个SNP位点存到SNPrank队列的头部，根据对u进行更新。
4、将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部，这样得到SNP位点的最终排名。
5、取SNPrank前30个位点作为待选SNP位点。
6、根据(1-5)的步骤运行10次，得到10次运行结果，每次记录排名前30的SNP位点，然后统计前30名中各SNP位点的出现次数，根据出现次数进行排名。对于出现次数相同的SNP位点，再根据每次运行结果的排名加权，给平均排名比较靠前的位点更高的排名。
表2是本发明方法在AMD数据中识别得到的前10个显著SNP位点。从表2的结果可以看出，本发明的方法准确地识别出已经通过功能验证、具有显著作用的两个SNP位点rs1329428和rs380390，两者分别排在第1名和第2名。本发明方法也找到了其他一些文献所找到的显著SNP位点，如rs1394608排在第6名。此外，本发明方法还找到了一些新的显著SNP位点，如rs6598991、rs10254116、rs10512174等，可为功能验证实验提供理论依据。根据真实数据的运行结果，可以验证本发明方法在识别与复杂疾病相关SNP位点方面的有效性。
表2
排名显著SNP位点染色体1rs132942812rs38039013rs659899194rs1025411615rs10512174206rs139460877rs610467858rs10511467209rs47844891610rs2006429
对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形都应该包括在本发明权利要求的保护范围之内。

资源描述

《一种结合随机森林和RELIEFF的全基因组SNP位点分析方法.pdf》由会员分享，可在线阅读，更多相关《一种结合随机森林和RELIEFF的全基因组SNP位点分析方法.pdf（13页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410765415.8(22)申请日 2014.12.11G06F 19/18(2011.01)(71)申请人西安电子科技大学地址 710071 陕西省西安市太白南路 2 号西安电子科技大学(72)发明人杨利英黎成殷黎洋张军英袁细国(74)专利代理机构北京科亿知识产权代理事务所 ( 普通合伙 ) 11350代理人汤东凤(54) 发明名称一种结合随机森林和 Relief-F 的全基因组SNP 位点分析方法(57) 摘要本发明公开了一种结合随机森林和Relief-F的全基因组SNP位点分析方法，首先应用广义线性模型对SNP。

2、位点进行初步筛选，接着利用Relief-F 处理 SNP 交互作用的能力，预先将存在交互作用的 SNP 位点排到队列前面，然后将队列后面的 SNP 位点利用随机森林进行排名，以识别单个SNP位点的边缘作用，这样得到一个SNP的排名队列，去掉排在队列末端的 SNP 位点之后，重新应用 Relief-F 和随机森林进行处理，如此迭代，最后得到 SNP 位点的排序结果。本发明综合考虑单个 SNP 位点的作用和位点之间的交互作用，能处理全基因组 SNP 数据，进而发现与复杂疾病相关的 SNP 位点，对复杂疾病的致病机理研究、疾病风险预测和生物药物研制等都有重要的意义。(51)Int.Cl.(19)中华。

3、人民共和国国家知识产权局(12)发明专利申请权利要求书2页说明书8页附图2页(10)申请公布号 CN 104462868 A(43)申请公布日 2015.03.25CN 104462868 A1/2 页21.一种结合随机森林和 Relief-F 的全基因组 SNP 位点分析方法，其特征在于，所述方法包括如下步骤：S1、对样本数据进行预处理：如果样本数据是AA这种碱基对形式，则对每个SNP位点进行编码，编码成最小等位基因的个数；如果最小等位基因为 a，那么基因型 AA、Aa、aa 分别编码成 0、1、2，去掉最小等位基因频率小于设定值的 SNP 位点；S2、设单核苷酸多态 SNP 的。

4、个数为 m，设置进入下一阶段处理的 SNP 个数的上限为 Lu；若mLu，则对每个 SNP 位点 xj(j 1,2,.,m) 与样本类别变量 y 建立广义线性模型以评估单个 SNP 的作用，建立的广义线性模型如下 :其中 g 函数为 logit 函数，为模型系数，样本 X (x1,x2,.,xm)T；根据广义线性模型建模的结果，通过对每个SNP位点对应的p值进行递增排序，筛选得到前 Lu个 SNP 位点构成集合 S，所述 p 值是统计学假设检验方法得到的概率值，表示变量的显著性；设置 SNP 位点个数 m Lu并执行步骤 S3 ；S3、对SNP位点集合进行后向缩减，其中设置每次迭代时过滤S。

5、NP的比例为q，迭代次数为随机森林排名的 SNP 位点个数和初始 SNP 位点总和的比例为 r(rq)，SNP 位点的排名结果队列记为 SNPrank，初始化 SNP 位点个数为 u m ；单次迭代的过程如下：3.1) 利用 Rel ief-F 方法对 u 个 SNP 位点进行权重排名，得到降序的 u 个 SNP 位点；3.2) 利用随机森林方法对降序后的 u 个 SNP 位点中后面个 SNP 位点按照置换重要性值进行降序排名；3.3) 将排名末尾个 SNP 位点存到 SNPrank 队列的头部，并根据对u 进行更新；S4、将最后一次迭代后剩下的SNP位点集合添加到SNPran。

6、k队列的头部，这样就得到了完整的 SNP 位点排名；S5、取 SNPrank 前 k 个 SNP 位点为显著 SNP 位点。2.根据权利要求1所述的一种结合随机森林和Rel ief-F的全基因组SNP位点分析方法，其特征在于，步骤 S1 中所述设定值为 0.05，即去掉最小等位基因频率小于 0.05 的 SNP位点。3.根据权利要求1所述的一种结合随机森林和Rel ief-F的全基因组SNP位点分析方法，其特征在于，步骤 3.1) 具体实现过程为：首先初始化每个 SNP 位点的权重为 0，然后迭代 n 次，n 设置为样本数目，每次选择一个样本 X，计算得到与这个样本类别标签一致的最近邻样本。

7、 H，同时计算得到与这个样本类别标签不一样的最近邻样本 M，然后对每个位点 gi(i 1,2,.,u) 用如下公式更新权重：Wgi Wgi-diff(gi,X,H)/u+diff(gi,X,M)/u ；其中 diff 函数表示两个样本在这个位点上的间距，如果样本 P 的 SNP 位点 gi和样本 Q的 SNP 位点 gi的基因型相同，则 diff(gi,P,Q) 1，否则为 0。权利要求书CN 104462868 A2/2 页34.根据权利要求1所述的一种结合随机森林和Rel ief-F的全基因组SNP位点分析方法，其特征在于，步骤 3.2) 中所述置换重要性值根据如下公式进行计算。

8、：其中，I(A) 表示 SNP 位点 A 的置换重要性值，N 是所有样本的数目，T 是树的总数；i 是样本索引，i 1,2,N，j 是决策树索引，j 1,2,T，Xi表示第 i 个样本，yi表示第 i个样本真实的类别；Vj(Xi) 表示第 i 个样本在第 j 棵树的预测值；tij表示第 i 个样本是否是第 j 棵树的袋外样本，取 1 或者 0，其中 1 表示“是”，0 表示“否”；表示第 j 棵树的SNP 位点 A 重新排列后的第 i 个样本；F(C) 是一个指示函数，当条件 C 满足时取值为 1，否则取值为 0 ；Nj表示第 j 棵树的袋外样本数目。5.根据权利要求 1 所述的一种。

9、结合随机森林和 Relief-F 的全基因组 SNP 位点分析方法，其特征在于，步骤 S5 中所述 k 值取 10。权利要求书CN 104462868 A1/8 页4一种结合随机森林和Relief-F的全基因组SNP位点分析方法技术领域0001 本发明属于数据处理技术领域，基于全基因组单核苷酸多态性(SNP，Single Nucleotide Polymorphisms) 数据进行全基因组关联研究，识别与疾病相关的 SNP 位点，可用于阐释复杂疾病的致病机理、疾病风险预测以及生物药物研制。背景技术0002 生物信息学是一门生命科学和计算机科学相结合的新兴学科，研究生物信息的采集、处理、。

10、存储、传播，分析和解释等，通过综合利用生物学、计算机科学和信息技术来揭示复杂的生物数据所蕴藏的生物学奥秘。全基因组关联研究 (GWAS，Genome-Wide Association Studies) 的基本原理是在同层人群中选择满足一定统计学数量的病例组和对照组样本，比较全基因组范围内SNP位点在病例组和对照组中的频率差异，若某个SNP位点在病例组中出现的频率明显高于或低于对照组，则认为该 SNP 位点与复杂疾病存在着某种关联。与复杂疾病相关的 SNP 位点的发现和识别对复杂疾病的致病机理研究、疾病风险预测和生物药物研制等都有重要的意义。0003 当前，通过GWAS已经发现了很多与复杂疾病相。

11、关的SNP位点，但是发现的相关SNP位点中只有少数能够增加复杂疾病的致病风险，而且还有一些已经被生物实验证明的与复杂疾病相关的 SNP 位点没有被 GWAS 识别出来。因此，还存在着大量未被发现的 SNP。这种结果主要由如下两方面的原因所造成：0004 (1) 目前 GWAS 在建模时大多只考虑单个 SNP 位点与复杂疾病的关联关系，忽略了SNP 位点可以通过与其它 SNP 位点或环境因素共同作用影响复杂疾病的情况。0005 (2)罕见SNP位点的识别难度大，这类SNP位点在正常人群中出现的频率在1 -5之间，在样本数量非常少的情况下很难通过 GWAS 直接识别出来。0006 为克服 GWA。

12、S 在与复杂疾病相关的 SNP 位点识别上的不足，研究人员开始关注 SNP位点之间的交互作用，在方法层面上进行了更加深入的研究，提出了许多方法。这些方法可概括为两大类，即基于模型的方法和模型无关方法。基于模型的方法预先在基因组和表现型之间定义一种统计模型，然后拟合数据到假设的模型，得到显著的 SNP 位点，但是该类方法难以处理高维的 GWAS 数据，面临着“维数灾难”问题。模型无关方法为了有效处理高维SNP 数据，通常采用一些启发式信息指导搜索，而不用提前对数据和模型作出假设，该类方法只是通过统计技术测试每个可能存在的交互作用的 SNP 组，但没有某种单一的方法能准确地找到大部分与复杂疾病相关。

13、的 SNP 位点。0007 上述两类常用的方法中，有些只是识别单个 SNP 位点的增加复杂疾病致病风险作用，有些则侧重于 SNP 位点间的交互作用，大多没有根据疾病的复杂生物机理，综合考虑两者的共同作用。针对当前研究存在的这一问题，本发明提出了一种结合随机森林和Relief-F 的全基因组 SNP 位点分析方法。随机森林是一种集成学习方法，通过将多个决策树进行集成来完成模式识别的任务，其中决策树属性结点划分的统计信息可用来进行特征说明书CN 104462868 A2/8 页5的重要性排名，如可用置换重要性或基尼 (Gini) 重要性对特征排序。用随机森林对 SNP 高维数据集进行处理时，在。

14、识别单个 SNP 位点上有突出的优势，但处理特征之间的交互作用有所欠缺。Relief-F 方法利用假设间隔最大化理论进行特征排序，可以用来对 SNP 位点进行排名，该方法能够很好地识别 SNP 位点的交互作用，但是易受噪声数据的影响，对单个位点的识别作用不理想。本发明将随机森林和 Relief-F 有机结合起来，发挥各自的优势，从而达到同时识别单个位点和多个位点交互作用的目的，提高与复杂疾病相关的 SNP 位点的识别能力。发明内容0008 针对现有技术的不足，本发明旨在提出一种结合随机森林和 Relief-F 的全基因组 SNP 位点分析方法，兼顾单个 SNP 位点的增加复杂疾病风险作用与多个。

15、 SNP 位点之间的交互作用，从方法层面保证了罕见与复杂疾病相关的 SNP 位点的识别效能，为疾病的生物学病理研究提供基础。0009 为了实现上述目的，本发明采取如下技术方案：0010 一种结合随机森林和 Relief-F 的全基因组 SNP 位点分析方法，包括如下步骤：0011 S1、对样本数据进行预处理：如果样本数据是AA这种碱基对形式，则对每个SNP位点进行编码，编码成最小等位基因的个数；如果最小等位基因为 a，那么基因型 AA、Aa、aa 分别编码成 0、1、2，去掉最小等位基因频率小于设定值的 SNP 位点；0012 S2、设单核苷酸多态 SNP 的个数为 m，设置进入下一。

16、阶段处理的 SNP 个数的上限为Lu；若mLu，则直接执行步骤 S3，若 m Lu，则对每个 SNP 位点 xj(j 1，2，.，m) 与样本类别变量 y 建立广义线性模型以评估单个 SNP 的作用；建立的广义线性模型如下：0013 0014 其中 g 函数为 logit 函数，为模型系数，样本 X (x1，x2，.，xm)T；0015 根据广义线性模型建模的结果，通过对每个SNP位点对应的p值进行递增排序，筛选得到前 Lu个 SNP 位点构成集合 S，p 值是统计学假设检验方法得到的概率值，表示变量的显著性；设置 SNP 位点个数 m Lu并执行步骤 S3 ；0016 S3、对 SN。

17、P 位点集合进行后向缩减，其中设置每次迭代时过滤 SNP 的比例为 q，迭代次数为随机森林排名的 SNP 位点个数和初始 SNP 位点总和的比例为 r(r q)，SNP 位点的排名结果队列记为 SNPrank，初始化 SNP 位点个数为 u m ；单次迭代的过程如下：0017 3.1) 利用 Relief-F 方法对 u 个 SNP 位点进行权重排名，得到降序的 u 个 SNP 位点；0018 3.2) 利用随机森林方法对降序后的u 个SNP位点中后面个SNP位点按照置换重要性值进行降序排名；0019 3.3)将排名末尾个 SNP 位点存到 SNPrank 队列的头部，。

18、并根据对 u 进行更新；说明书CN 104462868 A3/8 页60020 S4、将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部，这样就得到了完整的 SNP 位点排名；0021 S5、取 SNPrank 前 k 个 SNP 位点为显著 SNP 位点。0022 需要说明的是，步骤S1中所述设定值为0.05，即去掉最小等位基因频率小于0.05的 SNP 位点。0023 需要说明的是，步骤 3.1) 具体实现过程为：0024 首先初始化每个 SNP 位点的权重为 0，然后迭代 n 次，n 设置为样本数目，每次选择一个样本 X，计算得到与这个样本类别标签一致的最近。

19、邻样本 H，同时计算得到与这个样本类别标签不一样的最近邻样本 M，然后对每个位点 gi(i 1，2，.，u) 用如下公式更新权重：0025 Wgi Wgi-diff(gi，X，H)/u+diff(gi，X，M)/u ；0026 其中 diff 函数表示两个样本在一个位点上的间距，如果样本 P 的 SNP 位点 gi和样本Q的SNP位点gi的基因型相同，则 diff(gi，P，Q) 1，否则为 0。0027 需要说明的是，步骤 3.2) 中所述置换重要性值按照如下公式进行计算：0028 0029 其中，I(A) 表示 SNP 位点 A 的置换重要性值，N 是所有样本的数目，T 是树的总数；i。

20、是样本索引，i 1，2，.，N，j 是决策树索引，j 1，2，.，T，Xi表示第 i 个样本，yi表示第 i 个样本真实的类别，Vj(Xi) 表示第 i 个样本在第 j 棵树的预测值，tij表示第 i 个样本是否是第 j 棵树的袋外样本，取 1 或者 0，其中 1 表示“是”，0 表示“否”；表示第 j棵树的 SNP 位点 A 重新排列后的第 i 个样本；F(C) 是一个指示函数，当条件 C 满足时取值为 1，否则取值为 0 ；Nj表示第 j 棵树的袋外样本数目。0030 需要说明的是，步骤 S5 中所述 k 值取 10。0031 本发明的有益效果在于：0032 1、本发明综合考虑单个。

21、 SNP 位点的作用和多个 SNP 位点的交互作用，按照从后往前消减的思想，迭代过滤排名低的SNP位点，整个迭代过程不会因为SNP位点的交互作用而出现显著 SNP 位点排名低的问题。0033 2、本发明利用广义线性模型预先得到单个 SNP 位点作用的 p 值，而后依据 p 值对SNP 位点进行筛选，从而降低了维度，因此能够有效处理全基因组 SNP 数据。附图说明0034 图 1 是本发明方法的流程示意图。0035 图 2 是本发明在模拟数据组 1 上的实验结果示意图。0036 图 3 是本发明在模拟数据组 2 上的实验结果示意图。具体实施方式0037 以下将结合附图对本发明作进一步的描述，需要。

22、说明的是，本实施例以本技术方案为前提，给出详细的实施步骤和具体的操作方式，但本发明并不限于本实施例。说明书CN 104462868 A4/8 页70038 参照图 1，本发明的具体实现步骤如下。0039 步骤一，对 SNP 数据进行预处理：0040 如果样本数据是 AA 这种碱基对形式，则对每个 SNP 位点进行编码，编码成最小等位基因的个数；如果最小等位基因为 a，那么根据最小等位基因出现的个数，基因型 AA、Aa、aa 分别编码成 0、1、2。去掉最小等位基因频率小于设定值的 SNP 位点。所述设定值设定为0.05。去掉最小等位基因频率小于设定值的 SNP 位点，目的在于过滤掉缺乏。

23、显著性的位点，如果所述设定值过大，就可能会过滤掉潜在有用的位点。0041 步骤二，通过广义线性模型对 SNP 位点进行筛选：0042 设单核苷酸多态SNP的个数为m，设置进入下一阶段处理的SNP位点个数的上限为Lu。若mLu，直接执行步骤三，否则对每个 SNP 位点 xj(j 1，2，.，m) 与样本类别变量 y 建立广义线性模型 (GLM，Genera lized Linear Model) 以评估单个 SNP 的作用。建立的广义线性模型如下：0043 0044 其中 g 函数为 logit 函数，为模型系数，样本 X (x1，x2，.，xm)T；0045 对模型中每个SNP位点，按p。

24、值递增的顺序进行排序，得到前Lu个对应的SNP位点集合 S，p 值是统计学假设检验方法得到的概率值，表示变量的显著性；设置 SNP 位点个数 mLu并执行步骤三。0046 步骤三，兼顾 SNP 单个位点的作用及位点间的交互作用，按与复杂疾病的相关度对位点排序：0047 对 SNP 位点集合进行后向缩减，设置每次迭代时过滤 SNP 的比例为 q，迭代次数随机森林排名的 SNP 位点个数和初始 SNP 位点总和的比例为r(r q)，SNP 位点的排名结果队列记为 SNPrank，初始化 SNP 位点个数为 u m，单次迭代步骤如下：0048 (1) 利用 Relief-F 方法对 u 个 S。

25、NP 位点进行权重排名，得到降序的 u 个 SNP 位点。首先初始化每个 SNP 位点的权重为 0，然后迭代 n 次，n 设置为样本数目，每次选择一个样本X，计算得到与这个样本类别标签一致的最近邻样本 H，同时计算得到与这个样本类别标签不一样的最近邻样本 M，然后每个位点 gi(i 1，2，.，u) 用如下公式更新权重：0049 Wgi Wgi-diff(gi，X，H)/u+diff(gi，X，M)/u ；0050 其中 diff 函数表示两个样本在一个位点上的间距，如果样本 P 的 SNP 位点 gi和样本Q的SNP位点gi的基因型相同，则 diff(gi，P，Q) 1，否则为 0。005。

26、1 (2)取u个SNP位点中后面个SNP位点，利用随机森林方法计算每个SNP位点 A 的置换重要性值 I(A)，计算公式为：0052 0053 其中，N是样本个数，i是样本索引，i1，2，.，N，j是决策树索引，j1，2，.，T，T 是树的总数。Xi表示第 i 个样本，yi表示该样本真实的类别，Vj(Xi) 表示第 i 个样本在第 j 棵树的预测值，tij表示第 i 个样本是否是第 j 棵树的袋外样本，取 1(“是”) 或者说明书CN 104462868 A5/8 页80(“否”)。表示第 j 棵树的特征 A 重新排列后的第 i 个样本。F(C) 是一个指示函数，当条件 C 满足时取。

27、值为 1，否则取值为 0。Nj表示第 j 棵树的袋外样本数目。0054 (3)将每个SNP位点对应的置换重要性值进行逆序，将排名末尾个SNP位点存到 SNPrank 队列的头部，根据对 u 进行更新。0055 将最后一次迭代后剩下的 SNP 位点集合添加到 SNPrank 队列的头部，这样就得到了完整的 SNP 位点排名。0056 步骤四，取 SNPrank 前 k 个 SNP 位点作为显著 SNP 位点。作为一种优选方案，k 值可取为 10。0057 本发明将通过下述的实验例子对本发明方法的效果进行更详细的描述，这些实验例子仅用于举例的目的，而不试图限制本发明的应用范围。0058 实验。

28、1 ：模拟数据中显著 SNP 位点的识别0059 模拟数据集有两组，每组数据集个数为 100，模拟数据组 1 的数据模拟同时包含单个 SNP 位点的作用和 SNP 位点之间的交互作用，模拟数据组 2 模拟了只包含 SNP 位点之间交互作用情形。0060 表 1 设计了一种两个 SNP 位点的模型，患有某种疾病的基准概率是 a，有显著等位基因 (a 或者 b) 增加几率 1+。模拟数据组 1 根据表 1 的模型产生，每个数据集有 2000个样本，1000 个 SNP 位点，其中有两个显著 SNP 位点，序号分别为 11 和 21。模拟数据组 2取自达特茅斯学院 (http ：/discovery。

29、.dartmouth.edu/epistatic-data)，每个数据集有800 个样本，1000 个 SNP 位点，其中有两个显著 SNP 位点，序号为 1 和 2。0061 表10062 AA Aa aaBB a a(1+) a(1+)2Bb a(1+) a(1+)2a(1+)3bb a(1+)2a(1+)3a(1+)40063 模拟数据组 1 和模拟数据组 2 的具体实施步骤如下：0064 1、对 SNP 位点集合进行后向缩减，设置迭代次数 it 23，每次迭代时过滤 SNP 位点的比例为q0.2，随机森林排名的SNP位点个数和初始SNP位点总和的比例为r0.4，SNP 位点的排名结果。

30、队列记为 SNPrank，设置开始时 SNP 位点个数为 u 1000，单次迭代步骤如下：0065 (1) 利用 Relief-F 方法对 u 个 SNP 位点进行权重排名，得到降序的 u 个 SNP 位点。0066 (2) 取u 个SNP位点中后面个SNP位点，利用随机森林方法计算每个 SNP位点 A 的置换重要性值 I(A)。0067 (3)将每个SNP位点对应的置换重要性值进行逆序，将排名末尾个SNP位点说明书CN 104462868 A6/8 页9存到 SNPrank 队列的头部，根据对 u 进行更新。0068 2、将最后一次迭代后剩下的 SNP 位点集合添加到 SNPra。

31、nk 队列的头部，这样得到SNP 位点的最终排名。0069 3、取 SNPrank 前 2 个位点作为显著 SNP 位点。0070 对于数据组 1 中的 100 个数据集，对每个数据集都进行 SNP 位点的识别，其中模拟数据集的第 11 个 SNP 位点和第 21 个 SNP 位点是显著 SNP 位点，因此根据每个数据集运用本发明的方法后得到的 SNPrank 的排名，可以用来统计显著 SNP 位点的识别率。0071 第一组模拟数据的实验结果如图2所示，横坐标表示SNP位点的排名，纵坐标表示对于每个 SNP 位点的排名 SNP11 和 SNP21 在 100 个数据集中的识别率，即在 100 。

32、个数据集中 SNP11 和 SNP21 的排名都小于当前排名的比例。图 2 对本发明的方法和随机森林以及Relief-F 方法做了对比，从图中明显可以看出本发明方法识别显著 SNP 位点的优势，识别率接近100，相比随机森林和Relief-F能更好地识别与复杂疾病相关的SNP位点，每个数据集的运行结果的前 2 名都基本上是显著 SNP 位点 SNP11 和 SNP21。本模型的显著 SNP 位点存在交互作用，从图中也可以看出，Relief-F 对于显著 SNP 位点的识别能力较强，因此实验结果也进一步表明 Relief-F 识别 SNP 位点交互作用的能力较强，随机森林则在识别 SNP位点交互。

33、作用的能力方面有所欠佳。0072 在数据组 2 中的数据集中，与疾病相关的因素主要是 SNP1 和 SNP2 的交互作用，本应用实例的目的是验证所提方法在识别 SNP 仅存在交互作用时的性能。图 3 比较了随机森林、Relief-F和本发明方法在识别交互作用上的能力。为了更好地显示各个方法的差异，纵轴标记为识别率，统计各方法将 SNP1 和 SNP2 排到 30 名之前的数据集个数在全部 100 个数据集中的比例。从图 3 的结果可以看出，Relief-F 在这种数据集下有比较好的识别能力，随机森林识别交互作用的能力较弱，很难将SNP1或者SNP2排到前面，本发明方法相比随机森林和Relief。

34、-F都有很大优势，能准确识别SNP1。三种方法对SNP2的识别都较弱，三者比较结果差异不大，从整体性能而言，本发明方法明显优于随机森林和 Relief-F。0073 实验 2 ：真实病例数据中显著 SNP 位点的识别0074 真实病例选用 AMD(Age-related macular degeneration) 数据，AMD 是年龄相关性黄斑变性，是一种常见的复杂疾病，该病是由于黄斑区色素上皮退化、新生血管膜形成而导致慢性进行性双眼中心视力的减退。AMD 数据集一共包含 116204 个 SNP 位点，有 96 个患病样例，50 个正常样例，移除一些不符合遗传平衡定律的位点，并且去掉了缺失个。

35、数大于 5的 SNP 位点，最终得到 96607 个 SNP 位点。在 AMD 数据上具体实施步骤如下：0075 1、对初始 SNP 数据进行预处理，去掉最小等位基因频率小于 0.05 的 SNP 位点。0076 2 、设置 Lu 3000，对每个 SNP 位点 xj与样本类别变量 y 建立广义线性模型，按 p值递增的顺序进行排序，得到 p 值前 3000 个对应的 SNP 位点集合 S，设置 SNP 位点个数 m 3000。0077 3、对 SNP 位点集合进行后向缩减，设置迭代次数 it 28，每次迭代时过滤 SNP 的比例为 q 0.2，随机森林排名的 SNP 位点个数和初始 SNP。

36、位点总和的比例为 r 0.4，SNP位点的排名结果队列记为 SNPrank，设置开始时 SNP 位点个数为 u 3000，单次迭代步骤如下：说明书CN 104462868 A7/8 页100078 (1) 利用 Relief-F 方法对 u 个 SNP 位点进行权重排名，得到降序的 u 个 SNP 位点。0079 (2) 取u 个SNP位点中后面个SNP位点，利用随机森林方法计算每个 SNP位点 A 的置换重要性值 I(A)。0080 (3) 将每个 SNP 位点对应的置换重要性值进行逆序，将排名末尾个 SNP 位点存到 SNPrank 队列的头部，根据对 u 进行更新。0081 。

37、4、将最后一次迭代后剩下的 SNP 位点集合添加到 SNPrank 队列的头部，这样得到SNP 位点的最终排名。0082 5、取 SNPrank 前 30 个位点作为待选 SNP 位点。0083 6、根据(1-5)的步骤运行10次，得到10次运行结果，每次记录排名前30的SNP位点，然后统计前 30 名中各 SNP 位点的出现次数，根据出现次数进行排名。对于出现次数相同的 SNP 位点，再根据每次运行结果的排名加权，给平均排名比较靠前的位点更高的排名。0084 表 2 是本发明方法在 AMD 数据中识别得到的前 10 个显著 SNP 位点。从表 2 的结果可以看出，本发明的方法准确地识别出已经。

38、通过功能验证、具有显著作用的两个 SNP 位点 rs1329428 和 rs380390，两者分别排在第 1 名和第 2 名。本发明方法也找到了其他一些文献所找到的显著 SNP 位点，如 rs1394608 排在第 6 名。此外，本发明方法还找到了一些新的显著SNP位点，如rs6598991、rs10254116、rs10512174等，可为功能验证实验提供理论依据。根据真实数据的运行结果，可以验证本发明方法在识别与复杂疾病相关 SNP 位点方面的有效性。0085 表20086 排名显著 SNP 位点染色体1 rs1329428 12 rs380390 13 rs6598991 94 rs10254116 15 rs10512174 206 rs1394608 77 rs6104678 58 rs10511467 209 rs4784489 1610 rs200642 9说明书CN 104462868 A。

展开阅读全文