基于模糊测度的基因重要度追踪方法.pdf

上传人:54 文档编号:628636 上传时间:2018-02-27 格式:PDF 页数:10 大小:1.10MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410361374.6

申请日:

2014.07.25

公开号:

CN104091096A

公开日:

2014.10.08

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 19/10申请日:20140725|||公开

IPC分类号:

G06F19/10(2011.01)I

主分类号:

G06F19/10

申请人:

华南农业大学

发明人:

王金凤

地址:

510642 广东省广州市天河区五山路483号

优先权:

专利代理机构:

广州市华学知识产权代理有限公司 44245

代理人:

黄磊

PDF下载: PDF下载
内容摘要

本发明公开了一种基于模糊测度的基因重要度追踪方法,将人体的各个基因看作预测特征,通过模糊积分的变形构造线性方程组,采用L1-norm归一化方法求解模糊测度值,获得一组带有少量非零值的解,从而追踪到与之相对应的基因或基因组合对疾病影响的重要度。本发明的基于模糊测度的基因重要度追踪方法采用基于L1-norm的方法对基于模糊测度的模糊积分运算的变形进行参数求解,摈除了传统的假设特征独立的前提,认定各个基因以及各个基因之间的组合都有可能对疾病有着一定的影响,而影响的程度由求解得到的模糊测度值来描述,可以快速确定影响疾病发生的重要基因或基因组合。

权利要求书

1.  基于模糊测度的基因重要度追踪方法,其特征在于所述方法包括:将人体的各个基因看作预测特征,通过模糊积分的变形构造线性方程组,采用L1-norm归一化方法求解模糊测度值,获得一组带有少量非零值的解,从而追踪到与之相对应的基因或基因组合对疾病影响的重要度。

2.
  根据权利要求1所述的基于模糊测度的基因重要度追踪方法,其特征在于所述方法包括以下步骤:
S1、将人体的各个基因看作预测特征,而基因序列所对应的疾病分类为预测目标;
S2、通过模糊积分的变形构造线性方程组,具体如下:
S21、设一个数据集合为训练集,含有l个例子,每个例子包含一个决策特征Y和n个预测特征x1,x2,...,xn
其中,正整数l表示数据集的大小;决策特征Y指示每个例子属于哪一类;预测特征是数字类型的,它们的值由一个n维向量f(x1),f(x2),...,f(xn)所表示;
S22、通过模糊积分的计算来完成基于模糊测度的目标值,如下式:
∫fdμ=Σj=12n-1zjμj]]>
其中,
对于j=1,2,…,2n-1都会有空集为0的惯例;其中,表示的小数部分;上述公式中,如果将j以二进制的形式jnjn-1…j1表示,则有{i|frc(j2i)∈[0,12)}={i|ji=0};]]>
S23、根据已知的疾病DNA数据库,建立一组以模糊测度μ为未知变量的线性方程;
S3、采用L1-norm归一化方法,使得的值最小,从而会得到一组带有少量非零值的解,通过调节其中的参数λ来控制非零值的个数;
S4、根据步骤S3得到的非零值的解,追踪到与之相对应的基因及基因组合对疾病影响的重要度。

3.
  根据权利要求1或2所述的基于模糊测度的基因重要度追踪方法,其特征在于:所述采用L1-norm归一化方法求解模糊测度值直接调用LASSO函数包来完成。

说明书

基于模糊测度的基因重要度追踪方法
技术领域
本发明涉及一种基因重要度追踪方法,尤其是一种基于模糊测度的基因重要度追踪方法,属于生物信息技术领域
背景技术
目前,研究发现人类疾病的发病和基因序列中某些基因的突变有直接的关系。但是基因序列往往是包含成千上万个基因的长串,即使通过多种基因筛选技术到最后,仍然是无法确定哪些基因和疾病有着重要关系。有些研究者借助计算机辅助工具进行特征提取的工作,但是所得到的重要基因的前提假设是各个基因之间是独立作用毫不相关的。事实上,事物的特征之间的交互作用往往也影响着目标决策,因此,基因之间的交互组合对疾病所起到的作用不容忽视。
传统的模糊测度是模糊积分计算中所用到的参数,应用于分类或者回归模型中,通常采用遗传算法学习得到,当数据特征数量较多时,复杂度也会随之增大。
发明内容
本发明的目的是为了解决上述现有技术的缺陷,提供一种可以快速确定影响疾病发生的重要基因或基因组合的基于模糊测度的基因重要度追踪方法。
本发明的目的可以通过采取如下技术方案达到:
基于模糊测度的基因重要度追踪方法,其特征在于所述方法包括:将人体的各个基因看作预测特征,通过模糊积分的变形构造线性方程组,采用L1-norm归一化方法求解模糊测度值,获得一组带有少量非零值的解,从而追踪到与之相对应的基因或基因组合对疾病影响的重要度。
作为一种实施方案,所述方法包括以下步骤:
S1、将人体的各个基因看作预测特征,而基因序列所对应的疾病分类为预测目标;
S2、通过模糊积分的变形构造线性方程组,具体如下:
S21、设一个数据集合为训练集,含有l个例子,每个例子包含一个决策特征Y和n个预测特征x1,x2,...,xn
其中,正整数l表示数据集的大小;决策特征Y指示每个例子属于哪一类;预测 特征是数字类型的,它们的值由一个n维向量f(x1),f(x2),...,f(xn)所表示;
S22、通过模糊积分的计算来完成基于模糊测度的目标值,如下式:
∫fdμ=Σj=12n-1zjμj]]>
其中,
对于j=1,2,…,2n-1都会有空集为0的惯例;其中,表示的小数部分;上述公式中,如果将j以二进制的形式jnjn-1…j1表示,则有{i|frc(j2i)∈[0,12)}={i|ji=0};]]>
S23、根据已知的疾病DNA数据库,建立一组以模糊测度μ为未知变量的线性方程;
S3、采用L1-norm归一化方法,使得的值最小,从而会得到一组带有少量非零值的解,通过调节其中的参数λ来控制非零值的个数;
S4、根据步骤S3得到的非零值的解,追踪到与之相对应的基因及基因组合对疾病影响的重要度。
作为一种实施方案,所述采用L1-norm归一化方法求解模糊测度值直接调用LASSO函数包来完成。
本发明相对于现有技术具有如下的有益效果:
1、本发明的基于模糊测度的基因重要度追踪方法,摈除了传统的假设特征独立的前提,认定各个基因以及各个基因之间的组合都有可能对疾病有着一定的影响,而影响的程度(重要度)由求解得到的模糊测度值来描述,可以快速确定影响疾病发生的重要基因或基因组合。
2、本发明的基于模糊测度的基因重要度追踪方法采用基于L1-norm的方法对基于模糊测度的模糊积分运算的变形进行参数求解,从而解得的模糊测度值带有很少的非零值,非零值所对应的基因或基因组合则对疾病有着重要的作用,非零值越大说明所 对应的基因或基因组合的重要度越高。
附图说明
图1为本发明的基于模糊测度的基因重要度追踪方法流程示意图。
具体实施方式
实施例1:
首先说明模糊测度的使用能够很好地描述特征之间的交互作用对决策的影响,具体如下例所示:
令X表示同一个车间内的所有工人集合,而且他们每天的产量相同;对于我们考虑A组工人工作的情况,每一组可能都有不同的工作方式:存在合作或者单独工作;令μ(A)表示A组成员一小时的产量,那么集合函数μ:P(X)→[0,∞)是单调的并且因此它是模糊测度,模糊测度并不一定是可加的;令A和B是X的不相交子集,来看一下A和B的产量μ(A∪B)如何,如果A和B分别独立工作,那么有μ(A∪B)=μ(A)+μ(B),但是,由于他们通常都会彼此交互影响,上面的等式并不总是成立,A和B有效率的合作会导致μ(A∪B)>μ(A)+μ(B),相反,如果A的操作和B的操作不和谐兼容的话,产量则会降低,如μ(A∪B)<μ(A)+μ(B)。
对于每一个特征和每一组特征子集,都有一个不同的模糊测度值与之对应,来描述其对目标决策的影响力,由于模糊测度的非可加性,特征对目标的影响是不独立的,使得所有特征对于目标决策的全局贡献不仅仅是每个特征贡献的简单加和。
现在用下面这个例子进行进一步说明,假设已经观察到了一个病人的三个基因,希望由此来判断他(她)的疾病,基因可以被看作是信息源,构成全集X={x1,x2,x3}。可以用模糊测度μ来说明他们中单独每一个以及联合体对于疾病预测的贡献度,如表1所示。

表1定义在X={x1,x2,x3}上的模糊测度示例
可以看到μ(x2,x3})>μ(x2})+μ({x3}),即x2和x3的联合贡献要大于它们各自贡献之和,这说明x2和x3之间的交互对于彼此的影响具有提升作用;另一种情况,如μ({x1,x2})<μ({x1})+μ({x2}),表明x1和x2是彼此压制的。
如图1所示,本实施例的基于模糊测度的基因重要度追踪方法,包括以下步骤:
S1、将人体的各个基因看作预测特征,而基因序列所对应的疾病分类为预测目标;
S2、通过模糊积分的变形构造线性方程组,具体为:
S21、设一个数据集合为训练集,含有l个例子,每个例子包含一个决策特征Y和n个预测特征x1,x2,...,xn
其中,正整数l表示数据集的大小;决策特征Y指示每个例子属于哪一类,一般它是分类的特征,它的值来自于一个无序的有限域。此分类特征所有可能的值的集合可以由C=c1,c2,...,xm表示,指一个特定的分类;预测特征是数字类型的,它们的值由一个n维向量f(x1),f(x2),...,f(xn)所表示,向量的范围是n维欧几里得空间的子集,被称作特征空间;例如,第j个例子包含n个特征和一个决策值,即可以表示为(xj(x1),fj(x2),...,fj(xn),Yj),j=1,2,...,l。
S22、通过模糊积分的计算来完成基于模糊测度的目标值,如下式:
∫fdμ=Σj=12n-1zjμj]]>
其中,
对于j=1,2,…,2n-1都会有空集为0的惯例;其中,表示的小数部分;上述公式中,如果将j以二进制的形式jnjn-1…j1表示,则有{i|frc(j2i)∈[0,12)}={i|ji=0};]]>
S23、根据已知的疾病DNA数据库,以步骤S22中求得的z值为系数,建立一组以模糊测度μ为未知变量的线性方程,如下所示:
z11μ1+z12μ2+...+z1,2n-1μ2n-1=y1]]>
z21μ1+z22μ2+...+z2,2n-1μ2n-1=y2]]>
……
zl1μ1+zl2μ2+...+zl,2n-1μ2n-1=yl]]>
S3、采用L1-norm归一化方法,使得的值最小,从而会得到一组带有少量非零值的解,通过调节其中的参数λ来控制非零值的个数;
所述L1-norm归一化方法求解模糊测度值直接调用LASSO函数包来完成,由于LASSO方法是一种压缩估计方法,基于Gauss-Seidel迭代的LASSO是简单且快速的,因此我们用其来解L1-Norm问题,最终解得具有最少非零值的模糊测度解。
S4、根据步骤S3得到的非零值的解,追踪到与之相对应的基因及基因组合对疾病影响的重要度。
实施例2:
本实施例是一个应用实例。
为了更好地说明此专利的效果,我们以一组肝炎疾病的基因序列数据为例,肝炎数据通过聚类可以分为四种类型(B、C1、C2和C3),每一类的数据库如表2描述。

子库无病有病总人数B513788C1101626C2182240C3192544总合98100198

表2定义在X={x1,x2,x3}上的模糊测度示例
基因序列通过前期的生物技术特征筛选方法,剩余5个基因位(x1、x2、x3、x4和x5),每个基因位的取值分别为A、C、G和T。现在使用模糊测度方法来进一步跟踪各个基因和基因组合对疾病的影响程度,具体的实施采用Matlab7.2编程实现,其中L1-norm方法求解模糊测度可直接调用LASSO函数包来完成,经过多次实验,最终压缩参数确定在100,对此四种类型的子数据库进行求解,所得压缩后的模糊测度值分别列在表3-表6中。
基因位B基因位B基因位B基因位Bx10.495x1,x40.738x1,x50x1,x4,x50.472x20.232x2,x40.102x2,x50x2,x4,x50x1,x20x1,x2,x40x1,x4,x50x1,x2,x4,x50.45x30.094x3,x40.252x3,x50x3,x4,x50x1,x30.175x1,x3,x40.566x1,x3,x51.488x1,x3,x4,x50.26x2,x3-0.035x2,x3,x4-0.035x2,x3,x50x2,x3,x4,x50.941x1,x2,x30x1,x2,x3,x40x1,x2,x3,x50X0x40.333x50.457x4,x50  

表3 B类肝炎的基因重要度
基因位C1基因位C1基因位C1基因位C1x10.260x1,x40x1,x50.840x1,x4,x50x20x2,x40x2,x50.500x2,x4,x50x1,x20x1,x2,x40x1,x2,x50.687x1,x2,x4,x50x30x3,x40x3,x50x3,x4,x50x1,x30x1,x3,x40x1,x3,x50.765x1,x3,x4,x50x2,x30x2,x3,x40x2,x3,x50.900x2,x3,x4,x50.600x1,x2,x30.445x1,x2,x3,x40x1,x2,x3,x50.472X0.443x40x50x4,x50  

表4 C1类肝炎的基因重要度
基因位C2基因位C2基因位C2基因位C2x10.45x1,x4-0.604x1,x50.757x1,x4,x50x20x2,x40x2,x50.829x2,x4,x50x1,x20.007x1,x2,x40x1,x2,x50.395x1,x2,x4,x50.558x3-0.183x3,x40x3,x50x3,x4,x50x1,x30.86x1,x3,x40x1,x3,x50.5x1,x3,x4,x50x2,x30x2,x3,x40x2,x3,x50.107x2,x3,x4,x50x1,x2,x30x1,x2,x3,x40x1,x2,x3,x50.565X0.687x40.196x51.374x4,x50.631  

表5 C2类肝炎的基因重要度
基因位C3基因位C3基因位C3基因位C3x10.26x1,x40x1,x50.84x1,x4,x50x20x2,x40x2,x50.5x2,x4,x50x1,x20x1,x2,x40x1,x2,x50.687x1,x2,x4,x50x30x3,x40x3,x50x3,x4,x50x1,x30x1,x3,x40x1,x3,x50.765x1,x3,x4,x50x2,x30x2,x3,x40x2,x3,x50.9x2,x3,x4,x50.6x1,x2,x30.445x1,x2,x3,x40x1,x2,x3,x50.472X0.443x40x50x4,x50  

表6 C3类肝炎的基因重要度
以C3子类为例可以看出,最重要的基因组合是{x2,x3,x5},重要度为0.9,意味着当x2、x3和x5同时发生突变时最容易导致HBV的疾病出现;同时,对于所有的非零值所对应的10项组合,按照模糊测度值由大到小排序,前8项都包含着基因位x5依此可见,x5是对结果有着消极影响最为显著的一项,另一个现象是有模糊测度值对应的几组基因组合{x1,x5}{x2,x5}{x1,x2,x5}{x3,x5}{x1,x3,x5},在加入了基因位x4之后,模糊测度值变为0,表明前者影响作用被x4抑制并消减。即便是最重要的{x2,x3,x5}在加入x4后,重要度值也被消减至了0.6,可见x4是一个积极的基因位。
综上所述,本发明方法摈除了传统的假设特征独立的前提,认定各个基因以及各个基因之间的组合都有可能对疾病有着一定的影响,而影响的程度求解得到的模糊测度值来描述,可以快速确定影响疾病发生的重要基因或基因组合。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

基于模糊测度的基因重要度追踪方法.pdf_第1页
第1页 / 共10页
基于模糊测度的基因重要度追踪方法.pdf_第2页
第2页 / 共10页
基于模糊测度的基因重要度追踪方法.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《基于模糊测度的基因重要度追踪方法.pdf》由会员分享,可在线阅读,更多相关《基于模糊测度的基因重要度追踪方法.pdf(10页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN104091096A43申请公布日20141008CN104091096A21申请号201410361374622申请日20140725G06F19/1020110171申请人华南农业大学地址510642广东省广州市天河区五山路483号72发明人王金凤74专利代理机构广州市华学知识产权代理有限公司44245代理人黄磊54发明名称基于模糊测度的基因重要度追踪方法57摘要本发明公开了一种基于模糊测度的基因重要度追踪方法,将人体的各个基因看作预测特征,通过模糊积分的变形构造线性方程组,采用L1NORM归一化方法求解模糊测度值,获得一组带有少量非零值的解,从而追踪到与之相对应的基因或。

2、基因组合对疾病影响的重要度。本发明的基于模糊测度的基因重要度追踪方法采用基于L1NORM的方法对基于模糊测度的模糊积分运算的变形进行参数求解,摈除了传统的假设特征独立的前提,认定各个基因以及各个基因之间的组合都有可能对疾病有着一定的影响,而影响的程度由求解得到的模糊测度值来描述,可以快速确定影响疾病发生的重要基因或基因组合。51INTCL权利要求书1页说明书7页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书7页附图1页10申请公布号CN104091096ACN104091096A1/1页21基于模糊测度的基因重要度追踪方法,其特征在于所述方法包括将人体的各个基因看。

3、作预测特征,通过模糊积分的变形构造线性方程组,采用L1NORM归一化方法求解模糊测度值,获得一组带有少量非零值的解,从而追踪到与之相对应的基因或基因组合对疾病影响的重要度。2根据权利要求1所述的基于模糊测度的基因重要度追踪方法,其特征在于所述方法包括以下步骤S1、将人体的各个基因看作预测特征,而基因序列所对应的疾病分类为预测目标;S2、通过模糊积分的变形构造线性方程组,具体如下S21、设一个数据集合为训练集,含有L个例子,每个例子包含一个决策特征Y和N个预测特征X1,X2,XN;其中,正整数L表示数据集的大小;决策特征Y指示每个例子属于哪一类;预测特征是数字类型的,它们的值由一个N维向量FX1。

4、,FX2,FXN所表示;S22、通过模糊积分的计算来完成基于模糊测度的目标值,如下式其中,对于J1,2,2N1都会有空集为0的惯例;其中,表示的小数部分;上述公式中,如果将J以二进制的形式JNJN1J1表示,则有和S23、根据已知的疾病DNA数据库,建立一组以模糊测度为未知变量的线性方程;S3、采用L1NORM归一化方法,使得的值最小,从而会得到一组带有少量非零值的解,通过调节其中的参数来控制非零值的个数;S4、根据步骤S3得到的非零值的解,追踪到与之相对应的基因及基因组合对疾病影响的重要度。3根据权利要求1或2所述的基于模糊测度的基因重要度追踪方法,其特征在于所述采用L1NORM归一化方法求。

5、解模糊测度值直接调用LASSO函数包来完成。权利要求书CN104091096A1/7页3基于模糊测度的基因重要度追踪方法技术领域0001本发明涉及一种基因重要度追踪方法,尤其是一种基于模糊测度的基因重要度追踪方法,属于生物信息技术领域。背景技术0002目前,研究发现人类疾病的发病和基因序列中某些基因的突变有直接的关系。但是基因序列往往是包含成千上万个基因的长串,即使通过多种基因筛选技术到最后,仍然是无法确定哪些基因和疾病有着重要关系。有些研究者借助计算机辅助工具进行特征提取的工作,但是所得到的重要基因的前提假设是各个基因之间是独立作用毫不相关的。事实上,事物的特征之间的交互作用往往也影响着目标。

6、决策,因此,基因之间的交互组合对疾病所起到的作用不容忽视。0003传统的模糊测度是模糊积分计算中所用到的参数,应用于分类或者回归模型中,通常采用遗传算法学习得到,当数据特征数量较多时,复杂度也会随之增大。发明内容0004本发明的目的是为了解决上述现有技术的缺陷,提供一种可以快速确定影响疾病发生的重要基因或基因组合的基于模糊测度的基因重要度追踪方法。0005本发明的目的可以通过采取如下技术方案达到0006基于模糊测度的基因重要度追踪方法,其特征在于所述方法包括将人体的各个基因看作预测特征,通过模糊积分的变形构造线性方程组,采用L1NORM归一化方法求解模糊测度值,获得一组带有少量非零值的解,从而。

7、追踪到与之相对应的基因或基因组合对疾病影响的重要度。0007作为一种实施方案,所述方法包括以下步骤0008S1、将人体的各个基因看作预测特征,而基因序列所对应的疾病分类为预测目标;0009S2、通过模糊积分的变形构造线性方程组,具体如下0010S21、设一个数据集合为训练集,含有L个例子,每个例子包含一个决策特征Y和N个预测特征X1,X2,XN;0011其中,正整数L表示数据集的大小;决策特征Y指示每个例子属于哪一类;预测特征是数字类型的,它们的值由一个N维向量FX1,FX2,FXN所表示;0012S22、通过模糊积分的计算来完成基于模糊测度的目标值,如下式0013说明书CN104091096。

8、A2/7页40014其中,0015对于J1,2,2N1都会有空集为0的惯例;其中,表示的小数部分;上述公式中,如果将J以二进制的形式JNJN1J1表示,则有和0016S23、根据已知的疾病DNA数据库,建立一组以模糊测度为未知变量的线性方程;0017S3、采用L1NORM归一化方法,使得的值最小,从而会得到一组带有少量非零值的解,通过调节其中的参数来控制非零值的个数;0018S4、根据步骤S3得到的非零值的解,追踪到与之相对应的基因及基因组合对疾病影响的重要度。0019作为一种实施方案,所述采用L1NORM归一化方法求解模糊测度值直接调用LASSO函数包来完成。0020本发明相对于现有技术具有。

9、如下的有益效果00211、本发明的基于模糊测度的基因重要度追踪方法,摈除了传统的假设特征独立的前提,认定各个基因以及各个基因之间的组合都有可能对疾病有着一定的影响,而影响的程度重要度由求解得到的模糊测度值来描述,可以快速确定影响疾病发生的重要基因或基因组合。00222、本发明的基于模糊测度的基因重要度追踪方法采用基于L1NORM的方法对基于模糊测度的模糊积分运算的变形进行参数求解,从而解得的模糊测度值带有很少的非零值,非零值所对应的基因或基因组合则对疾病有着重要的作用,非零值越大说明所对应的基因或基因组合的重要度越高。附图说明0023图1为本发明的基于模糊测度的基因重要度追踪方法流程示意图。具。

10、体实施方式0024实施例10025首先说明模糊测度的使用能够很好地描述特征之间的交互作用对决策的影响,具体如下例所示0026令X表示同一个车间内的所有工人集合,而且他们每天的产量相同;对于我们考虑A组工人工作的情况,每一组可能都有不同的工作方式存在合作或说明书CN104091096A3/7页5者单独工作;令A表示A组成员一小时的产量,那么集合函数PX0,是单调的并且因此它是模糊测度,模糊测度并不一定是可加的;令A和B是X的不相交子集,来看一下A和B的产量AB如何,如果A和B分别独立工作,那么有ABAB,但是,由于他们通常都会彼此交互影响,上面的等式并不总是成立,A和B有效率的合作会导致ABAB。

11、,相反,如果A的操作和B的操作不和谐兼容的话,产量则会降低,如ABAB。0027对于每一个特征和每一组特征子集,都有一个不同的模糊测度值与之对应,来描述其对目标决策的影响力,由于模糊测度的非可加性,特征对目标的影响是不独立的,使得所有特征对于目标决策的全局贡献不仅仅是每个特征贡献的简单加和。0028现在用下面这个例子进行进一步说明,假设已经观察到了一个病人的三个基因,希望由此来判断他她的疾病,基因可以被看作是信息源,构成全集XX1,X2,X3。可以用模糊测度来说明他们中单独每一个以及联合体对于疾病预测的贡献度,如表1所示。00290030表1定义在XX1,X2,X3上的模糊测度示例0031可以。

12、看到X2,X3X2X3,即X2和X3的联合贡献要大于它们各自贡献之和,这说明X2和X3之间的交互对于彼此的影响具有提升作用;另一种情况,如X1,X2X1X2,表明X1和X2是彼此压制的。0032如图1所示,本实施例的基于模糊测度的基因重要度追踪方法,包括以下步骤0033S1、将人体的各个基因看作预测特征,而基因序列所对应的疾病分类为预测目标;0034S2、通过模糊积分的变形构造线性方程组,具体为0035S21、设一个数据集合为训练集,含有L个例子,每个例子包含一个决策特征Y和N个预测特征X1,X2,XN;0036其中,正整数L表示数据集的大小;决策特征Y指示每个例子属于哪一类,一般它是分类的特。

13、征,它的值来自于一个无序的有限域。此分类特征所有可能的值的集合可以由CC1,C2,XM表示,指一个特定的分类;预测特征是数字类型的,它们的值由一个N维向量FX1,FX2,FXN所表示,向量的范围是N维欧几里得空间的子集,被称作特征空间;例如,第J个例子包含N个特征和一个决策值,即可以表示为XJX1,FJX2,FJXN,YJ,J1,2,L。说明书CN104091096A4/7页60037S22、通过模糊积分的计算来完成基于模糊测度的目标值,如下式00380039其中,0040对于J1,2,2N1都会有空集为0的惯例;其中,表示的小数部分;上述公式中,如果将J以二进制的形式JNJN1J1表示,则有。

14、和0041S23、根据已知的疾病DNA数据库,以步骤S22中求得的Z值为系数,建立一组以模糊测度为未知变量的线性方程,如下所示00420043004400450046S3、采用L1NORM归一化方法,使得的值最小,从而会得到一组带有少量非零值的解,通过调节其中的参数来控制非零值的个数;0047所述L1NORM归一化方法求解模糊测度值直接调用LASSO函数包来完成,由于LASSO方法是一种压缩估计方法,基于GAUSSSEIDEL迭代的LASSO是简单且快速的,因此我们用其来解L1NORM问题,最终解得具有最少非零值的模糊测度解。0048S4、根据步骤S3得到的非零值的解,追踪到与之相对应的基因及。

15、基因组合对疾病影响的重要度。0049实施例20050本实施例是一个应用实例。0051为了更好地说明此专利的效果,我们以一组肝炎疾病的基因序列数据为例,肝炎数据通过聚类可以分为四种类型B、C1、C2和C3,每一类的数据库如表2描述。0052子库无病有病总人数B513788C1101626说明书CN104091096A5/7页7C2182240C3192544总合981001980053表2定义在XX1,X2,X3上的模糊测度示例0054基因序列通过前期的生物技术特征筛选方法,剩余5个基因位X1、X2、X3、X4和X5,每个基因位的取值分别为A、C、G和T。现在使用模糊测度方法来进一步跟踪各个基因。

16、和基因组合对疾病的影响程度,具体的实施采用MATLAB72编程实现,其中L1NORM方法求解模糊测度可直接调用LASSO函数包来完成,经过多次实验,最终压缩参数确定在100,对此四种类型的子数据库进行求解,所得压缩后的模糊测度值分别列在表3表6中。0055基因位B基因位B基因位B基因位BX10495X1,X40738X1,X50X1,X4,X50472X20232X2,X40102X2,X50X2,X4,X50X1,X20X1,X2,X40X1,X4,X50X1,X2,X4,X5045X30094X3,X40252X3,X50X3,X4,X50X1,X30175X1,X3,X40566X1,X。

17、3,X51488X1,X3,X4,X5026X2,X30035X2,X3,X40035X2,X3,X50X2,X3,X4,X50941X1,X2,X30X1,X2,X3,X40X1,X2,X3,X50X0X40333X50457X4,X500056表3B类肝炎的基因重要度0057基因位C1基因位C1基因位C1基因位C1X10260X1,X40X1,X50840X1,X4,X50X20X2,X40X2,X50500X2,X4,X50X1,X20X1,X2,X40X1,X2,X50687X1,X2,X4,X50X30X3,X40X3,X50X3,X4,X50X1,X30X1,X3,X40X1,X3。

18、,X50765X1,X3,X4,X50说明书CN104091096A6/7页8X2,X30X2,X3,X40X2,X3,X50900X2,X3,X4,X50600X1,X2,X30445X1,X2,X3,X40X1,X2,X3,X50472X0443X40X50X4,X500058表4C1类肝炎的基因重要度0059基因位C2基因位C2基因位C2基因位C2X1045X1,X40604X1,X50757X1,X4,X50X20X2,X40X2,X50829X2,X4,X50X1,X20007X1,X2,X40X1,X2,X50395X1,X2,X4,X50558X30183X3,X40X3,X50。

19、X3,X4,X50X1,X3086X1,X3,X40X1,X3,X505X1,X3,X4,X50X2,X30X2,X3,X40X2,X3,X50107X2,X3,X4,X50X1,X2,X30X1,X2,X3,X40X1,X2,X3,X50565X0687X40196X51374X4,X506310060表5C2类肝炎的基因重要度0061基因位C3基因位C3基因位C3基因位C3X1026X1,X40X1,X5084X1,X4,X50X20X2,X40X2,X505X2,X4,X50X1,X20X1,X2,X40X1,X2,X50687X1,X2,X4,X50X30X3,X40X3,X50X3,。

20、X4,X50X1,X30X1,X3,X40X1,X3,X50765X1,X3,X4,X50X2,X30X2,X3,X40X2,X3,X509X2,X3,X4,X506X1,X2,X30445X1,X2,X3,X40X1,X2,X3,X50472X0443X40X50X4,X500062表6C3类肝炎的基因重要度说明书CN104091096A7/7页90063以C3子类为例可以看出,最重要的基因组合是X2,X3,X5,重要度为09,意味着当X2、X3和X5同时发生突变时最容易导致HBV的疾病出现;同时,对于所有的非零值所对应的10项组合,按照模糊测度值由大到小排序,前8项都包含着基因位X5依此可。

21、见,X5是对结果有着消极影响最为显著的一项,另一个现象是有模糊测度值对应的几组基因组合X1,X5X2,X5X1,X2,X5X3,X5X1,X3,X5,在加入了基因位X4之后,模糊测度值变为0,表明前者影响作用被X4抑制并消减。即便是最重要的X2,X3,X5在加入X4后,重要度值也被消减至了06,可见X4是一个积极的基因位。0064综上所述,本发明方法摈除了传统的假设特征独立的前提,认定各个基因以及各个基因之间的组合都有可能对疾病有着一定的影响,而影响的程度求解得到的模糊测度值来描述,可以快速确定影响疾病发生的重要基因或基因组合。0065以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。说明书CN104091096A1/1页10图1说明书附图CN104091096A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1