亚综合征抑郁基因表达诊断芯片.pdf

上传人:62****3 文档编号:8858212 上传时间:2021-01-08 格式:PDF 页数:13 大小:1.67MB
返回 下载 相关 举报
摘要
申请专利号:

CN201110033299.7

申请日:

20110130

公开号:

CN102154478A

公开日:

20110817

当前法律状态:

有效性:

有效

法律详情:

IPC分类号:

C12Q1/68

主分类号:

C12Q1/68

申请人:

上海市精神卫生中心

发明人:

方贻儒,易正辉,李则挚,洪武

地址:

200030 上海市徐汇区宛平南路600号

优先权:

201010288845.7

专利代理机构:

上海申汇专利代理有限公司

代理人:

俞宗耀

PDF下载: PDF下载
内容摘要

本发明属于生物芯片领域,提供了一种亚综合征抑郁基因表达诊断芯片,由固相载体构成,在所述的固相载体上设置有46个基因探针,所述的46个探针所对应的基因分别为PSMB4、TMBIM6、PNN、CD84、PRKCB、PRKAR2A、KALRN、NRAS、NRAS、CTNS、GCHFR、TERF2、NOP56、SH3YL1、COG3、INPP4A、PURA、GINS4、ZCCHC3、STAT5B、SCFD2、TMEM97、SOCS4、SLC16A3、C19orf6、PIK3AP1、FGD3、VARS、KTI12、ZNF791、LHX9、NEK8、ZNF785、RHOQ、PA2G4、CCND2、WWP2、CAPRIN1、BRE、MEF2A、SENP1、STRN、ABL1、PDE6B、FDPS、RPL4,所述的46个基因探针呈矩阵式排列。本发明为诊断亚综合征抑郁提供了生物学依据,可以容易和快速的诊断亚综合征抑郁。

权利要求书

1.一种亚综合征抑郁基因表达诊断芯片,由固相载体构成,其特征在于:在所述的固相载体上设置有46个基因探针,所述的46个探针所对应的基因分别为PSMB4、TMBIM6、PNN、CD84、PRKCB、PRKAR2A、KALRN、NRAS、NRAS、CTNS、GCHFR、TERF2、NOP56、SH3YL1、COG3、INPP4A、PURA、GINS4、ZCCHC3、STAT5B、SCFD2、TMEM97、SOCS4、SLC16A3、C19orf6、PIK3AP1、FGD3、VARS、KTI12、ZNF791、LHX9、NEK8、ZNF785、RHOQ、PA2G4、CCND2、WWP2、CAPRIN1、BRE、MEF2A、SENP1、STRN、ABL1、PDE6B、FDPS、RPL4,所述的46个基因探针呈矩阵式排列。 2.如权利要求1所述的一种亚综合征抑郁基因表达诊断芯片,其特征在于:所述的固相载体上还设置有2个基因探针,分别为18S和GAPDH。 3.如权利要求1所述的一种亚综合征抑郁基因表达诊断芯片,其特征在于:所述的固相载体选自载玻片、硅片、醋酸纤维薄膜、或者硝酸纤维薄膜中的任意一种。

说明书



技术领域

本发明属于生物工程领域,尤其涉及一种诊断芯片,特别是一种亚综合征抑郁基因表达诊断芯片。

背景技术

抑郁症是一种严重危害人类身心健康的精神疾病,具有高患病率、高复发率、高致残率、高自杀率和疾病负担沉重等特点,其对个体身心健康的危害及给社会造成的巨大负担早已为世人瞩目,因此引起国内外学者、政府及社会的广泛关注并进行了一系列的诊断与治疗研究。然而目前仍有三分之二到四分之三有抑郁症状却不符合目前《美国精神疾病诊断手册》第4版修订版(Diagnostic and Statistical Manual,Fourth Edition,Text Revision,DSM-IV-TR)中抑郁症诊断的阈下抑郁患者,有着明显的社会功能损害(Judd LL,Rapaport MH,Paulus MP,Brown JL.1994.Subsyndromal symptomatic depression:a new mood disorder?J Clin Psychiatry 55:18-28.)。其中最为常见也是最隐匿不易被识别的是亚综合征抑郁。亚综合征抑郁(Subsyndromal Symptomatic Depression,SSD)指同时具有2项或多项抑郁症状,大多数或全部时间出现,持续至少2周,虽不符合现时诊断系统的“重症抑郁”和/或“恶劣心境障碍”诊断标准,但同样会造成严重的职业功能下降、社会功能损害等危害的一种阈下抑郁状态(Judd LL,Akiskal HS,Paulus MP.The role and cl inical significance of subsyndromal depressive symptoms(SSD)in unipolar major depressive disorder.J Affect Disorders,1997,45:5-17.)。然而亚综合征抑郁(SSD)却未引起真正的关注和足够的重视,很多人、甚至专业人员都知之甚少。有研究发现与健康人相比较,亚综合征抑郁更容易发展成慢性抑郁和重症抑郁(Judd LL,Akiskal HS,Maser JD,et al.Major depressive disorder:a prospective study of residual subthreshold depressive symptoms as predictor of rapid relapse.J Affect Disorders 1998;50:97-108.),与抑郁症一样会对患者社会功能造成严重的危害(Judd LL,Paulus MP,Wells KB,and Rapaport MH.Socioeconomic burden of subsyndromal depressive symptoms and major depression in a sample of the general population.Am J Psychiatry 1996;153:1411-1417.),因此对亚综合征抑郁早期发现,早期诊断及进行早期干预很有必要。

由于亚综合征抑郁病因未明,目前主要是通过临床症状诊断,因此科学家们致力于发现其生物学标志。因为活体脑组织不易得到,以往人们试图通过尸脑组织差异表达基因研究来寻找其生物学标志,然而尸脑组织研究又受多种因素的影响,而且无法动态随访。目前人们普遍认为抑郁障碍不仅是神经精神疾病,还是一种躯体疾病,其既与中枢神经系统有关,又与神经内分泌系统、自主神经系统及免疫系统有关,由于循环系统外周白细胞受到神经内分泌系统、自主神经系统及免疫系统因抑郁而改变的影响,因此越来越多的有关抑郁障碍基因表达研究开始从脑内转向外周血细胞的基因表达上。

对于多基因疾病的基因表达谱研究,主要是为了探讨疾病的生物学发病机制,疾病的生物学标志以及为疾病的分类和诊断提供帮助。而利用基因芯片技术检测疾病基因表达谱,从而构建疾病的基因诊断芯片数学模型,是疾病基因表达研究的方向。现已对构建糖尿病、高血压及脑膜瘤等疾病诊断模型进行了探索,取得了一些成功,构建了糖尿病及高血压的基因诊断芯片。但目前有关精神疾病的研究较少,Ohmori T等构建了一种专门检测与应激相关基因表达的芯片,应用于抑郁症的基因表达检测,但并未建立亚综合征抑郁的基因表达诊断模型。

发明内容

本发明的目的在于提供一种亚综合征抑郁基因表达诊断芯片,所述的这种亚综合征抑郁基因表达诊断芯片要解决现有技术中尚未有诊断亚综合征抑郁的生物学方法的技术问题。

本发明提供了一种亚综合征抑郁基因表达诊断芯片,由固相载体构成,在所述的固相载体上设置有46个基因探针,所述的46个基因探针分别所对应的基因为PSMB4、TMBIM6、PNN、CD84、PRKCB、PRKAR2A、KALRN、NRAS、NRAS、CTNS、GCHFR、TERF2、NOP56、SH3YL1、COG3、INPP4A、PURA、GINS4、ZCCHC3、STAT5B、SCFD2、TMEM97、SOCS4、SLC16A3、C19orf6、PIK3AP 1、FGD3、VARS、KTI 12、ZNF791、LHX9、NEK8、ZNF785、RHOQ、PA2G4、CCND2、WWP2、CAPRIN1、BRE、MEF2A、SENP1、STRN、ABL1、PDE6B、FDPS、RPL4,所述的46个基因探针呈矩阵式排列。

进一步的,所述的固相载体上还设置有2个基因探针,分别为18S和GAPDH。

进一步的,所述的固相载体选自载玻片、硅片、醋酸纤维薄膜、或者硝酸纤维薄膜中的任意一种。

本发明首先对入组的亚综合征抑郁及健康对照组各8例抽外周血15ml提取RNA进行Affymetrix U133plus 2.0基因表达芯片检测,同时利用基因表达芯片数据,采用支持向量机(SVM)分类器构建亚综合征抑郁基因表达诊断芯片模型,最后我们得到46个基因的疾病诊断模型。通过ABIGene Expression Assays中查询到对应的探针号(www.appliedbiosystems.com),最后确定用于设计诊断芯片的46个基因探针。我们将46个基因探针号交由美国应用生物系统(ABI)公司,制作48Assay Format的ABTaqMan低密度芯片------亚综合征抑郁基因表达诊断芯片。其次,为了检验我们发明的亚综合征抑郁基因表达诊断芯片的效果,我们还对该诊断芯片设计了后续验证实验,我们的验证实验共纳入性别、年龄相匹配亚综合征抑郁及健康对照组各50例,进行亚综合征抑郁基因表达诊断芯片检测,结果发现亚综合征抑郁预测准确度达到82.0%,另外,我们利用SVM分类器对验证数据集进行10倍交叉验证(Cross-validation)的自测,分类平均准确度达到87.0%。其中健康对照组分类性能达到84.0%,亚综合征抑郁分类效果达到90.0%。

本发明芯片所包含探针对应基因主要参与的生物学通路和功能模块包括:GnRH信号通路,丝裂原活化蛋白激酶(MAPK)信号通路,血管内皮生长因子(VEGF)信号通路,CD40信号通路,Fc epsilon RI信号通路,胰岛素信号通路,ErbB信号通路,II型糖尿病,CREB转录调控通路以及Toll样受体信号通路等。

本发明芯片所包含探针对应基因有有关促性腺激素释放激素(gonadotropin releasing hormone,GnRH)信号通路,胰岛素信号通路及II型糖尿病基因,这些基因均与内分泌有关,这也与抑郁症及SSD存在有内分泌改变的病理机制相一致。目前已有大量证据表明HPA轴与HPG轴的相互作用参与了抑郁障碍的发病,性激素受体介导的CRH的过度驱动在抑郁障碍发生、发展中很可能具有重要作用。CRH的过度驱动是抑郁障碍发病的共同通路,不管是男性还是女性抑郁障碍患者都具有这一共性,雌激素受体介导的CRH的过度激活可能是女性易患抑郁障碍的原因之一;而雄激素受体介导的CRH的调控紊乱,则可能是男性抑郁患者发病特征的基础。

诊断芯片的基因探针对应的基因与VEGF信号通路有关,该通路与生长因子相关,生长因子如脑源性神经营养因子(BDNF),VEGF和纤维原细胞生长因子(FGF)在大脑神经生成与血管生成功能中发挥重要的作用。在抗抑郁症研究中,这些生长因子被广泛研究。VEGF对神经元和胶质细胞的形成均有影响,最近研究显示其具有神经保护作用。VEGF对海马组织的形态学产生影响,因此研究发现VEGF与抑郁障碍有很大相关性。还有研究发现对VEGF信号通路有影响的药物可能对抑郁症和老年痴呆症(Alzheimer’s disease,AD)有效。

另外,候选基因也涉及到CREB通路。已有研究发现CREB蛋白调节许多与抑郁障碍有关的基因表达,抑郁障碍自杀患者尸体脑组织CREB表达明显下降,而抑郁症外周血CREB基因表达及蛋白水平均下降。采用对CREB转录因子有影响的药物可作为治疗抑郁症的药物。长期抗抑郁治疗会导致CREB上调,并且CREB在抑郁症和抗抑郁中的作用也有大量的有关抑郁障碍的动物模型研究得到证实,有研究发现在啮齿类动物模型中增加CREB的水平将会使动物模型表现为类似抗抑郁行为。

候选诊断芯片的基因还包含有erbB(epidermal growth factor receptor,EGFR,表皮生长因子受体)信号通路,该信号通路表达异常可导致寡突胶质细胞(OL)异常,少突胶质细胞功能缺陷可导致多巴胺能异常,因此也可能与抑郁障碍有关。转基因小鼠实验已证实OL中的erbB信号通路被阻断将导致OL的数量和形态学上的变化,减少髓磷脂的厚度,而且降低CNS轴突的传导速率。

Toll样受体信号通路,CD40信号通路及Fc epsilon RI(高亲和力免疫球蛋白E受体)信号通路与免疫有关。Toll样受体(Toll-like receptor,TLR)是近年来发现的一类模式识别受体,通过识别病原相关分子模式(pathogen-associated molecular pattern,PAMP)激活天然免疫。CD40是由277个氨基酸组成的i型跨膜蛋白,属于肿瘤坏死因子受体超家族。尽管目前尚无这三类信号通路基因与抑郁障碍关系的研究,但由于抑郁障碍可能与免疫异常有关,因此它们可能与抑郁障碍有关。

丝裂原活化蛋白激酶(MAPK)信号通路是广泛存在于各种细胞中的一条信号转导途径,由一组级联活化的丝/苏氨酸蛋白激酶组成,对于细胞周期的运行和基因表达具有重要调控作用。该信号通路与神经可塑性有关,因此也认为与抑郁障碍存在相关性。AlttoaA等在抑郁症动物模型进行了脑组织基因芯片检测,发现抑郁症大鼠脑组织中MAPK信号通路过度表达。

综上所述,我们构建的SSD的疾病诊断芯片包含探针所对应的基因主要与免疫、内分泌、生长因子及转录调控因子有关,这些通路在以往的研究发现多数与抑郁障碍有关。

本发明和已有技术相比,其技术进步是显而易见的,本发明为诊断亚综合征抑郁提供了生物学依据,可以比较容易和快速的诊断亚综合征抑郁。

附图说明

图1是亚综合征抑郁组(SSD)和对照组(Control)外周血白细胞的基因差异表达聚类分析图。

具体实施方式

实施例1筛选46个基因探针的过程

1.1亚综合征抑郁组及健康对照组外周血基因表达芯片筛查

选择性别及年龄均匹配的亚综合征抑郁患者及健康对照者各8例抽外周血15ml提取RNA进行Affymetrix U133plus 2.0基因表达芯片检测,该实验由上海伯豪生物技术有限公司完成。

1.2芯片差异表达分析和聚类分析

对于芯片表达谱数据的差异分析,我们采用多重假设检验的方法。在分析处理中,我们基于重采样的逐步多重检验处理(MTP)来控制一类广泛的I型错误率。

对亚综合征抑郁组(SSD)和健康对照(Control)组Affymatrix U133plus 2.0芯片进行预处理,在R语言环境下采用MAS5对芯片原始表达值进行背景噪音校正和标准化处理,使得芯片之间具有可比性。然后对SSD的差异表达基因进行筛选。我们采用上述描述的多重假设检验方法中的FWER所控制的向下通用阀值(maxT)处理计算重排校正后的p值。这种处理提供了很强的FWER控制,同时也结合了检验统计量的联合结构。

通过Welch t检验计算maxT处理得到的重排未校正的和校正后的P值。maxT得到递降的p值和t统计量,其中重排的次数参数B=10000,我们得到亚综合征抑郁组vs.健康对照组46个差异表达基因(p值<1e-4)。

针对差异基因,我们通过层次聚类的方法发现对样本(病人)能够进行准确的区分。层次聚类SSD组中差异表达的探针在对应受试体和参照组中的表达谱进行聚类分析,结果表明这些通过多重假设检验所筛选的基因探针具有对样本的病理状态进行区分的能力(如图1所示)。

1.3确定46个诊断探针

我们选择SVM(支持向量机)对SSD组和Control组数据进行10倍独立交叉验证(10CV)测试;自测试结果显示样本属性(对照组和SSD亚抑郁组)全部预测准确,基于选定的46个差异表达基因表达谱的SSD模型预测准确度达到100%。因此我们确定这46个差异表达基因所对应的探针为本发明诊断芯片的靶标基因芯片探针,详细46个靶标基因芯片探针的Affymetrix probe、AssayID、Gene Symbol及Locus Link见下表。

训练集数据中46靶标基因芯片探针与测试集数据中ABI AssayID对应表:

自测10CV的分类能力以及构建模型中的预测能力参见如下表-1和表-2。另外,SVM算法的实现采用weka软件实现;其中参数的设置为:C=1.0,L=0.0010,P=1.0E-12,N=0,V=-1,W=1,并且选择多项式核函数PolyKernel-C 250007-E 1.0。

表-1.训练数据集自测模型的10CV属性分类情况

表-2.训练数据集自测分类模型的详细准确度统计表

实施例2亚综合征抑郁基因表达诊断芯片设计

我们将46个基因探针号交由美国应用生物系统(ABI)公司,制作48Assay Format的AB TaqMan低密度芯片(Applied BiosystemsLow Density Array)------亚综合征抑郁基因表达诊断芯片。该诊断芯片由固相载体构成,在所述的固相载体上设置有46个基因探针,所述的46个基因探针分别所对应的基因为PSMB4、TMBIM6、PNN、CD84、PRKCB、PRKAR2A、KALRN、NRAS、NRAS、CTNS、GCHFR、TERF2、NOP56、SH3YL1、COG3、INPP4A、PURA、GINS4、ZCCHC3、STAT5B、SCFD2、TMEM97、SOCS4、SLC16A3、C19orf6、PIK3AP1、FGD3、VARS、KTI 12、ZNF791、LHX9、NEK8、ZNF785、RHOQ、PA2G4、CCND2、WWP2、CAPRIN1、BRE、MEF2A、SENP1、STRN、ABL1、PDE6B、FDPS、RPL4,所述的46个基因探针呈矩阵式排列。另外,该诊断芯片还包含2个基因探针,其所对应2个管家基因:18S和GAPDH。

进一步的,所述的固相载体选自载玻片、硅片、醋酸纤维薄膜、或者硝酸纤维薄膜中的任意一种。

实施例3亚综合征抑郁基因表达诊断芯片有效性验证

为了验证本发明芯片的诊断的有效性,我们共制作了(委托ABI公司)发明芯片100份,并收集了SSD患者及正常健康者各50例,进行本发明芯片检测,具体步骤如下:

3.1外周血淋巴细胞提取:

对入组的SSD患者及正常健康者各50例采用DSM-IV-TR轴I障碍定式临床检查病人版(Structured Clinical Interview for DSM-IV-TR Axis I Disorders-Patient Edition,SCID-I/P)进行访谈。晨空腹抽取肘静脉血5ml,前一天忌食高油脂食物,2%的EDTA抗凝。使用Ficoll-PlaqueTM Plus(GE,Sweden)按产品说明书分离外周血淋巴细胞,保存在TRIzol中送往上海伯豪生物技术有限公司。

3.2入组受试者基因组RNA的制备及进行本发明芯片检测(由上海伯豪生物技术有限公司完成):

通常在使用TRIzol法抽提组织总RNA时,因为方法的限制,造成总RNA的纯度降低,影响探针的标记和芯片杂交。所以需使用QIAGEN RNeasy Kit进一步的纯化。测定OD值(通常OD数值在1.8-2.1之间)。之后由RNA合成双链DNA(表-3),并纯化双链DNA。接着合成生物素标记cRNA(表-4),片断化cRNA(表3),杂交(表4),并洗脱(表5)、染色、扫描芯片。

通常在使用TRIzol法抽提组织总RNA时,因为方法的限制,造成总RNA的纯度降低,影响探针的标记和芯片杂交。所以需使用QIAGEN RNeasy Kit进一步的纯化。测定OD值(通常OD数值在1.8-2.1之间)。之后由RNA合成双链DNA(表-3),并纯化双链DNA。接着合成生物素标记cRNA(表-4),片断化cRNA(表-5),杂交(表-6),并洗脱(表-7)、染色、扫描芯片。

表-3由RNA合成双链DNA

表-4

4.1cDNA体外转录成分

  成分  体积  模板DNA  见表2  10×IVT Labeling Buffer 4μL  4μl  IVT Labeling NTP Mix  12μl  IVT Labeling Enzyme Mix  4μl  加水至终体积  40μl

4.2所需模板DNA的体积(按总RNA的量计算)

  总RNA(μg)  模板DNA体积  1.0-8.0  12μl  8.1-16.0  6μl

表-5片断化反应

  成分  体积  20μg cRNA  1-32μl

  5×Fragmentation Buffer  8μl  RNase-free水  到40μl

表-6杂交液

20×Eukaryotic Hybridization Controls冻存,使用前65℃温浴5分钟

  Array  杂交体积  总体积  Standard  200μl  250μl  Midi  130μl  160μl  Mini  80μl  100μl  Micro  80μl  100μl

表-7洗脱和染色

11μm真核芯片的洗脱程序

≥18μm真核芯片的洗脱程序

3.3本发明芯片检测结果统计分析:

根据上述发明芯片实验,每张芯片检测后获得48个基因的表达量数值,其中有2个管家基因:18S和GAPDH。根据18S和GAPDH的探针表达量数值作为内参,我们获得46靶标疾病基因的相对表达量增值(delta Ct)。对每个基因探针的重复数据作均值处理,输出验证实验中的46个靶标基因表达量数据。然后,我们利用Affymetrix U133plus 2.0基因表达芯片数据(在筛选46个基因探针的过程中得到)训练获得的SSD模型预测来自ABI平台的独立验证数据集的样本属性(即对照组或SSD组);测试数据集(来自Affymetrix芯片表达谱)和独立验证数据集(来自ABI实验平台)具有相同的靶标基因。其中,验证独立数据集的分类效果所使用的机器学习算法仍然是与构建SSD模型步骤相同的SVM-支持向量机,参数设置也相同;并且选用的核函数为多项式核函数,PolyKernel-C250007-E 1.0。在实现SSD模型构建并将模型应用于对独立验证实验获得的基因表达数值分类之前,我们分别完成2个分析步骤:(1)对独立验证数据集的缺失值处理,以及(2)数据标准化的处理。

对独立验证数据集的缺失值处理:由于ABI独立验证实验存在部分缺失值,我们对缺失值进行处理;选择同类别样本属性下该基因的均值表达量赋值给当前基因表达量的缺失位置;尽管SVM支持存在缺失值的情况,但是我们考虑后续标准化的。

数据标准化的处理:因为两组数据(测试数据集和验证数据集)分别来自不同批次,不同实验平台),我们分别计算每个基因的Z-Score((原始数值-特征下所有基因均值)/特征下所有基因方差),即做两套数据进行标准化(normalization)处理,使得两组不同平台数据具有可比性。

3.4结果的判断分析:

本次针对发明芯片的独立验证结果发现,SSD预测准确度达到82.0%。表-8

表-8.独立验证模型的属性分类情况:

另外,我们利用SVM分类器对独立验证数据集也做了10倍交叉验证(Cross-validation)的自测,分类平均准确度达到87.0%。其中对照组分类性能达到84.0%,SSD分类效果达到90.0%。表-9,表-10。

表-9独立验证数据的自测模型的10CV属性分类情况

  Correctly Classified Instances  87  0.87  Incorrectly Classified Instances  13  0.13  Kappa statistic  0.74  Mean absolute error  0.13  Root mean squared error  0.3606  Relative absolute error  0.26  Root relative squared error  0.72111  Total Number of lnstances  100

表-10独立验证数据集自测分类模型的详细准确度统计表

因此我们认为本发明芯片(亚综合征抑郁基因表达诊断芯片)是有效的,其有效性为90.0%。

亚综合征抑郁基因表达诊断芯片.pdf_第1页
第1页 / 共13页
亚综合征抑郁基因表达诊断芯片.pdf_第2页
第2页 / 共13页
亚综合征抑郁基因表达诊断芯片.pdf_第3页
第3页 / 共13页
点击查看更多>>
资源描述

《亚综合征抑郁基因表达诊断芯片.pdf》由会员分享,可在线阅读,更多相关《亚综合征抑郁基因表达诊断芯片.pdf(13页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102154478 A (43)申请公布日 2011.08.17 CN 102154478 A *CN102154478A* (21)申请号 201110033299.7 (22)申请日 2011.01.30 201010288845.7 2010.09.21 CN C12Q 1/68(2006.01) (71)申请人 上海市精神卫生中心 地址 200030 上海市徐汇区宛平南路 600 号 (72)发明人 方贻儒 易正辉 李则挚 洪武 (74)专利代理机构 上海申汇专利代理有限公司 31001 代理人 俞宗耀 (54) 发明名称 亚综合征抑郁基因表达诊断芯片 (57。

2、) 摘要 本发明属于生物芯片领域, 提供了一种亚综 合征抑郁基因表达诊断芯片, 由固相载体构成, 在 所述的固相载体上设置有 46 个基因探针, 所述的 46 个探针所对应的基因分别为 PSMB4、 TMBIM6、 PNN、 CD84、 PRKCB、 PRKAR2A、 KALRN、 NRAS、 NRAS、 CTNS、 GCHFR、 TERF2、 NOP56、 SH3YL1、 COG3、 INPP4A、 PURA、 GINS4、 ZCCHC3、 STAT5B、 SCFD2、 TMEM97、 SOCS4、 SLC16A3、 C19orf6、 PIK3AP1、 FGD3、 VARS、 KTI12、 。

3、ZNF791、 LHX9、 NEK8、 ZNF785、 RHOQ、 PA2G4、 CCND2、 WWP2、 CAPRIN1、 BRE、 MEF2A、 SENP1、 STRN、 ABL1、 PDE6B、 FDPS、 RPL4, 所述的 46 个基因探针呈 矩阵式排列。本发明为诊断亚综合征抑郁提供了 生物学依据, 可以容易和快速的诊断亚综合征抑 郁。 (66)本国优先权数据 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 10 页 附图 1 页 CN 102154479 A1/1 页 2 1. 一种亚综合征抑郁基因表达诊断芯片, 由固。

4、相载体构成, 其特征在于 : 在所述的固 相载体上设置有 46 个基因探针, 所述的 46 个探针所对应的基因分别为 PSMB4、 TMBIM6、 PNN、 CD84、 PRKCB、 PRKAR2A、 KALRN、 NRAS、 NRAS、 CTNS、 GCHFR、 TERF2、 NOP56、 SH3YL1、 COG3、 INPP4A、 PURA、 GINS4、 ZCCHC3、 STAT5B、 SCFD2、 TMEM97、 SOCS4、 SLC16A3、 C19orf6、 PIK3AP1、 FGD3、 VARS、 KTI12、 ZNF791、 LHX9、 NEK8、 ZNF785、 RHOQ、 。

5、PA2G4、 CCND2、 WWP2、 CAPRIN1、 BRE、 MEF2A、 SENP1、 STRN、 ABL1、 PDE6B、 FDPS、 RPL4, 所述的 46 个基因探针呈矩阵式排列。 2. 如权利要求 1 所述的一种亚综合征抑郁基因表达诊断芯片, 其特征在于 : 所述的固 相载体上还设置有 2 个基因探针, 分别为 18S 和 GAPDH。 3. 如权利要求 1 所述的一种亚综合征抑郁基因表达诊断芯片, 其特征在于 : 所述的固 相载体选自载玻片、 硅片、 醋酸纤维薄膜、 或者硝酸纤维薄膜中的任意一种。 权 利 要 求 书 CN 102154478 A CN 102154479 。

6、A1/10 页 3 亚综合征抑郁基因表达诊断芯片 技术领域 0001 本发明属于生物工程领域, 尤其涉及一种诊断芯片, 特别是一种亚综合征抑郁基 因表达诊断芯片。 背景技术 0002 抑郁症是一种严重危害人类身心健康的精神疾病, 具有高患病率、 高复发率、 高致 残率、 高自杀率和疾病负担沉重等特点, 其对个体身心健康的危害及给社会造成的巨大负 担早已为世人瞩目, 因此引起国内外学者、 政府及社会的广泛关注并进行了一系列的诊断 与治疗研究。然而目前仍有三分之二到四分之三有抑郁症状却不符合目前 美国精神疾病 诊断手册 第 4 版修订版 (Diagnostic and Statistical Ma。

7、nual, Fourth Edition, Text Revision, DSM-IV-TR)中抑郁症诊断的阈下抑郁患者, 有着明显的社会功能损害(Judd LL, Rapaport MH, Paulus MP, Brown JL.1994.Subsyndromal symptomatic depression : a new mood disorder?J Clin Psychiatry 55 : 18-28.)。 其中最为常见也是最隐匿不易被识别 的是亚综合征抑郁。亚综合征抑郁 (Subsyndromal Symptomatic Depression, SSD) 指同时 具有 2 项或多项。

8、抑郁症状, 大多数或全部时间出现, 持续至少 2 周, 虽不符合现时诊断系统 的 “重症抑郁” 和 / 或 “恶劣心境障碍” 诊断标准, 但同样会造成严重的职业功能下降、 社会 功能损害等危害的一种阈下抑郁状态 (Judd LL, Akiskal HS, Paulus MP.The role and cl inical significance of subsyndromal depressive symptoms(SSD)in unipolar major depressive disorder.J Affect Disorders, 1997, 45 : 5-17.)。然而亚综合征抑郁 (。

9、SSD) 却未引起真正的关注和足够的重视, 很多人、 甚至专业人员都知之甚少。 有研究发现与健康 人相比较, 亚综合征抑郁更容易发展成慢性抑郁和重症抑郁 (Judd LL, Akiskal HS, Maser JD, et al.Major depressive disorder : a prospective study of residual subthreshold depressive symptoms as predictor of rapid relapse.J Affect Disorders 1998 ; 50 : 97-108.), 与抑郁症一样会对患者社会功能造成严重的危害。

10、 (Judd LL, Paulus MP, Wells KB, and Rapaport MH.Socioeconomic burden of subsyndromal depressive symptoms and major depression in a sample of the general population.Am J Psychiatry 1996 ; 153 : 1411-1417.), 因此对亚综合征抑郁早期发现, 早期诊断及进行早期干预很有必要。 0003 由于亚综合征抑郁病因未明, 目前主要是通过临床症状诊断, 因此科学家们致力 于发现其生物学标志。因为活体脑组织不易。

11、得到, 以往人们试图通过尸脑组织差异表达基 因研究来寻找其生物学标志, 然而尸脑组织研究又受多种因素的影响, 而且无法动态随访。 目前人们普遍认为抑郁障碍不仅是神经精神疾病, 还是一种躯体疾病, 其既与中枢神经系 统有关, 又与神经内分泌系统、 自主神经系统及免疫系统有关, 由于循环系统外周白细胞受 到神经内分泌系统、 自主神经系统及免疫系统因抑郁而改变的影响, 因此越来越多的有关 抑郁障碍基因表达研究开始从脑内转向外周血细胞的基因表达上。 0004 对于多基因疾病的基因表达谱研究, 主要是为了探讨疾病的生物学发病机制, 疾 病的生物学标志以及为疾病的分类和诊断提供帮助。 而利用基因芯片技术检。

12、测疾病基因表 说 明 书 CN 102154478 A CN 102154479 A2/10 页 4 达谱, 从而构建疾病的基因诊断芯片数学模型, 是疾病基因表达研究的方向。 现已对构建糖 尿病、 高血压及脑膜瘤等疾病诊断模型进行了探索, 取得了一些成功, 构建了糖尿病及高血 压的基因诊断芯片。但目前有关精神疾病的研究较少, Ohmori T 等构建了一种专门检测与 应激相关基因表达的芯片, 应用于抑郁症的基因表达检测, 但并未建立亚综合征抑郁的基 因表达诊断模型。 发明内容 0005 本发明的目的在于提供一种亚综合征抑郁基因表达诊断芯片, 所述的这种亚综合 征抑郁基因表达诊断芯片要解决现有技。

13、术中尚未有诊断亚综合征抑郁的生物学方法的技 术问题。 0006 本发明提供了一种亚综合征抑郁基因表达诊断芯片, 由固相载体构成, 在所述 的固相载体上设置有 46 个基因探针, 所述的 46 个基因探针分别所对应的基因为 PSMB4、 TMBIM6、 PNN、 CD84、 PRKCB、 PRKAR2A、 KALRN、 NRAS、 NRAS、 CTNS、 GCHFR、 TERF2、 NOP56、 SH3YL1、 COG3、 INPP4A、 PURA、 GINS4、 ZCCHC3、 STAT5B、 SCFD2、 TMEM97、 SOCS4、 SLC16A3、 C19orf6、 PIK3AP 1、 。

14、FGD3、 VARS、 KTI 12、 ZNF791、 LHX9、 NEK8、 ZNF785、 RHOQ、 PA2G4、 CCND2、 WWP2、 CAPRIN1、 BRE、 MEF2A、 SENP1、 STRN、 ABL1、 PDE6B、 FDPS、 RPL4, 所述的 46 个基因探针呈矩阵 式排列。 0007 进一步的, 所述的固相载体上还设置有 2 个基因探针, 分别为 18S 和 GAPDH。 0008 进一步的, 所述的固相载体选自载玻片、 硅片、 醋酸纤维薄膜、 或者硝酸纤维薄膜 中的任意一种。 0009 本发明首先对入组的亚综合征抑郁及健康对照组各 8 例抽外周血 15ml 提。

15、取 RNA 进行Affymetrix U133plus 2.0基因表达芯片检测, 同时利用基因表达芯片数据, 采用支持 向量机(SVM)分类器构建亚综合征抑郁基因表达诊断芯片模型, 最后我们得到46个基因的 疾病诊断模型。通过 ABIGene Expression Assays 中查询到对应的探针号 (www. ), 最后确定用于设计诊断芯片的 46 个基因探针。我们将 46 个基 因探针号交由美国应用生物系统 (ABI) 公司, 制作 48Assay Format 的 ABTaqMan 低密度芯 片 - 亚综合征抑郁基因表达诊断芯片。其次, 为了检验我们发明的亚综合征抑郁基因 表达诊断芯片的。

16、效果, 我们还对该诊断芯片设计了后续验证实验, 我们的验证实验共纳入 性别、 年龄相匹配亚综合征抑郁及健康对照组各 50 例, 进行亚综合征抑郁基因表达诊断芯 片检测, 结果发现亚综合征抑郁预测准确度达到 82.0, 另外, 我们利用 SVM 分类器对验证 数据集进行 10 倍交叉验证 (Cross-validation) 的自测, 分类平均准确度达到 87.0。其 中健康对照组分类性能达到 84.0, 亚综合征抑郁分类效果达到 90.0。 0010 本发明芯片所包含探针对应基因主要参与的生物学通路和功能模块包括 : GnRH 信号通路, 丝裂原活化蛋白激酶 (MAPK) 信号通路, 血管内皮。

17、生长因子 (VEGF) 信号通路, CD40 信号通路, Fc epsilon RI 信号通路, 胰岛素信号通路, ErbB 信号通路, II 型糖尿病, CREB 转录调控通路以及 Toll 样受体信号通路等。 0011 本发明芯片所包含探针对应基因有有关促性腺激素释放激素 (gonadotropin releasing hormone, GnRH) 信号通路, 胰岛素信号通路及 II 型糖尿病基因, 这些基因均与 内分泌有关, 这也与抑郁症及 SSD 存在有内分泌改变的病理机制相一致。目前已有大量证 说 明 书 CN 102154478 A CN 102154479 A3/10 页 5 据。

18、表明 HPA 轴与 HPG 轴的相互作用参与了抑郁障碍的发病, 性激素受体介导的 CRH 的过度 驱动在抑郁障碍发生、 发展中很可能具有重要作用。 CRH的过度驱动是抑郁障碍发病的共同 通路, 不管是男性还是女性抑郁障碍患者都具有这一共性, 雌激素受体介导的 CRH 的过度 激活可能是女性易患抑郁障碍的原因之一 ; 而雄激素受体介导的 CRH 的调控紊乱, 则可能 是男性抑郁患者发病特征的基础。 0012 诊断芯片的基因探针对应的基因与 VEGF 信号通路有关, 该通路与生长因子相关, 生长因子如脑源性神经营养因子(BDNF), VEGF和纤维原细胞生长因子(FGF)在大脑神经生 成与血管生成。

19、功能中发挥重要的作用。 在抗抑郁症研究中, 这些生长因子被广泛研究。 VEGF 对神经元和胶质细胞的形成均有影响, 最近研究显示其具有神经保护作用。VEGF 对海马组 织的形态学产生影响, 因此研究发现VEGF与抑郁障碍有很大相关性。 还有研究发现对VEGF 信号通路有影响的药物可能对抑郁症和老年痴呆症 (Alzheimer s disease, AD) 有效。 0013 另外, 候选基因也涉及到CREB通路。 已有研究发现CREB蛋白调节许多与抑郁障碍 有关的基因表达, 抑郁障碍自杀患者尸体脑组织 CREB 表达明显下降, 而抑郁症外周血 CREB 基因表达及蛋白水平均下降。采用对 CREB。

20、 转录因子有影响的药物可作为治疗抑郁症的药 物。长期抗抑郁治疗会导致 CREB 上调, 并且 CREB 在抑郁症和抗抑郁中的作用也有大量的 有关抑郁障碍的动物模型研究得到证实, 有研究发现在啮齿类动物模型中增加 CREB 的水 平将会使动物模型表现为类似抗抑郁行为。 0014 候选诊断芯片的基因还包含有 erbB(epidermal growth factor receptor, EGFR, 表皮生长因子受体 ) 信号通路, 该信号通路表达异常可导致寡突胶质细胞 (OL) 异常, 少突 胶质细胞功能缺陷可导致多巴胺能异常, 因此也可能与抑郁障碍有关。转基因小鼠实验已 证实 OL 中的 erbB。

21、 信号通路被阻断将导致 OL 的数量和形态学上的变化, 减少髓磷脂的厚 度, 而且降低 CNS 轴突的传导速率。 0015 Toll样受体信号通路, CD40信号通路及Fc epsilon RI(高亲和力免疫球蛋白E受 体 ) 信号通路与免疫有关。Toll 样受体 (Toll-like receptor, TLR) 是近年来发现的一类 模式识别受体, 通过识别病原相关分子模式 (pathogen-associated molecular pattern, PAMP) 激活天然免疫。CD40 是由 277 个氨基酸组成的 i 型跨膜蛋白, 属于肿瘤坏死因子受 体超家族。尽管目前尚无这三类信号通路。

22、基因与抑郁障碍关系的研究, 但由于抑郁障碍可 能与免疫异常有关, 因此它们可能与抑郁障碍有关。 0016 丝裂原活化蛋白激酶 (MAPK) 信号通路是广泛存在于各种细胞中的一条信号转 导途径, 由一组级联活化的丝 / 苏氨酸蛋白激酶组成, 对于细胞周期的运行和基因表达具 有重要调控作用。该信号通路与神经可塑性有关, 因此也认为与抑郁障碍存在相关性。 AlttoaA 等在抑郁症动物模型进行了脑组织基因芯片检测, 发现抑郁症大鼠脑组织中 MAPK 信号通路过度表达。 0017 综上所述, 我们构建的 SSD 的疾病诊断芯片包含探针所对应的基因主要与免疫、 内分泌、 生长因子及转录调控因子有关, 这。

23、些通路在以往的研究发现多数与抑郁障碍有关。 0018 本发明和已有技术相比, 其技术进步是显而易见的, 本发明为诊断亚综合征抑郁 提供了生物学依据, 可以比较容易和快速的诊断亚综合征抑郁。 说 明 书 CN 102154478 A CN 102154479 A4/10 页 6 附图说明 0019 图 1 是亚综合征抑郁组 (SSD) 和对照组 (Control) 外周血白细胞的基因差异表达 聚类分析图。 具体实施方式 0020 实施例 1 筛选 46 个基因探针的过程 0021 1.1 亚综合征抑郁组及健康对照组外周血基因表达芯片筛查 0022 选择性别及年龄均匹配的亚综合征抑郁患者及健康对照。

24、者各 8 例抽外周血 15ml 提取 RNA 进行 Affymetrix U133plus 2.0 基因表达芯片检测, 该实验由上海伯豪生物技术 有限公司完成。 0023 1.2 芯片差异表达分析和聚类分析 0024 对于芯片表达谱数据的差异分析, 我们采用多重假设检验的方法。 在分析处理中, 我们基于重采样的逐步多重检验处理 (MTP) 来控制一类广泛的 I 型错误率。 0025 对亚综合征抑郁组 (SSD) 和健康对照 (Control) 组 Affymatrix U133plus 2.0 芯 片进行预处理, 在R语言环境下采用MAS5对芯片原始表达值进行背景噪音校正和标准化处 理, 使得。

25、芯片之间具有可比性。 然后对SSD的差异表达基因进行筛选。 我们采用上述描述的 多重假设检验方法中的 FWER 所控制的向下通用阀值 (maxT) 处理计算重排校正后的 p 值。 这种处理提供了很强的 FWER 控制, 同时也结合了检验统计量的联合结构。 0026 通过Welch t检验计算maxT处理得到的重排未校正的和校正后的P值。 maxT得到 递降的 p 值和 t 统计量, 其中重排的次数参数 B 10000, 我们得到亚综合征抑郁组 vs. 健 康对照组 46 个差异表达基因 (p 值 1e-4)。 0027 针对差异基因, 我们通过层次聚类的方法发现对样本 ( 病人 ) 能够进行准。

26、确的区 分。层次聚类 SSD 组中差异表达的探针在对应受试体和参照组中的表达谱进行聚类分析, 结果表明这些通过多重假设检验所筛选的基因探针具有对样本的病理状态进行区分的能 力 ( 如图 1 所示 )。 0028 1.3 确定 46 个诊断探针 0029 我们选择 SVM( 支持向量机 ) 对 SSD 组和 Control 组数据进行 10 倍独立交叉验证 (10CV) 测试 ; 自测试结果显示样本属性 ( 对照组和 SSD 亚抑郁组 ) 全部预测准确, 基于选 定的 46 个差异表达基因表达谱的 SSD 模型预测准确度达到 100。因此我们确定这 46 个 差异表达基因所对应的探针为本发明诊断。

27、芯片的靶标基因芯片探针, 详细 46 个靶标基因 芯片探针的 Affymetrix probe、 AssayID、 Gene Symbol 及 Locus Link 见下表。 0030 训练集数据中 46 靶标基因芯片探针与测试集数据中 ABI AssayID 对应表 : 0031 说 明 书 CN 102154478 A CN 102154479 A5/10 页 7 0032 说 明 书 CN 102154478 A CN 102154479 A6/10 页 8 0033 自测 10CV 的分类能力以及构建模型中的预测能力参见如下表 -1 和表 -2。另 外, SVM 算法的实现采用 wek。

28、a 软件实现 ; 其中参数的设置为 : C 1.0, L 0.0010, P 1.0E-12, N 0, V -1, W 1, 并且选择多项式核函数 PolyKernel-C 250007-E 1.0。 0034 表 -1. 训练数据集自测模型的 10CV 属性分类情况 0035 说 明 书 CN 102154478 A CN 102154479 A7/10 页 9 0036 0037 表 -2. 训练数据集自测分类模型的详细准确度统计表 0038 0039 实施例 2 亚综合征抑郁基因表达诊断芯片设计 0040 我们将46个基因探针号交由美国应用生物系统(ABI)公司, 制作48Assay 。

29、Format 的AB TaqMan低密度芯片(Applied BiosystemsLow Density Array)-亚综 合征抑郁基因表达诊断芯片。该诊断芯片由固相载体构成, 在所述的固相载体上设置有 46 个基因探针, 所述的 46 个基因探针分别所对应的基因为 PSMB4、 TMBIM6、 PNN、 CD84、 PRKCB、 PRKAR2A、 KALRN、 NRAS、 NRAS、 CTNS、 GCHFR、 TERF2、 NOP56、 SH3YL1、 COG3、 INPP4A、 PURA、 GINS4、 ZCCHC3、 STAT5B、 SCFD2、 TMEM97、 SOCS4、 SLC1。

30、6A3、 C19orf6、 PIK3AP1、 FGD3、 VARS、 KTI 12、 ZNF791、 LHX9、 NEK8、 ZNF785、 RHOQ、 PA2G4、 CCND2、 WWP2、 CAPRIN1、 BRE、 MEF2A、 SENP1、 STRN、 ABL1、 PDE6B、 FDPS、 RPL4, 所述的 46 个基因探针呈矩阵式排列。另外, 该诊断芯片还包含 2 个基因探针, 其所对应 2 个管家基因 : 18S 和 GAPDH。 0041 进一步的, 所述的固相载体选自载玻片、 硅片、 醋酸纤维薄膜、 或者硝酸纤维薄膜 中的任意一种。 0042 实施例 3 亚综合征抑郁基因表达。

31、诊断芯片有效性验证 0043 为了验证本发明芯片的诊断的有效性, 我们共制作了 ( 委托 ABI 公司 ) 发明芯片 100 份, 并收集了 SSD 患者及正常健康者各 50 例, 进行本发明芯片检测, 具体步骤如下 : 0044 3.1 外周血淋巴细胞提取 : 0045 对入组的 SSD 患者及正常健康者各 50 例采用 DSM-IV-TR 轴 I 障碍定式临床检查 病人版 (Structured Clinical Interview for DSM-IV-TR Axis I Disorders-Patient Edition, SCID-I/P) 进行访谈。晨空腹抽取肘静脉血 5ml, 前。

32、一天忌食高油脂食物, 2的 EDTA 抗凝。使用 Ficoll-PlaqueTM Plus(GE, Sweden) 按产品说明书分离外周血淋巴细胞, 保存在 TRIzol 中送往上海伯豪生物技术有限公司。 0046 3.2 入组受试者基因组 RNA 的制备及进行本发明芯片检测 ( 由上海伯豪生物技术 有限公司完成 ) : 0047 通常在使用 TRIzol 法抽提组织总 RNA 时, 因为方法的限制, 造成总 RNA 的纯度降 低, 影响探针的标记和芯片杂交。所以需使用 QIAGEN RNeasy Kit 进一步的纯化。测定 OD 值 ( 通常 OD 数值在 1.8-2.1 之间 )。之后由 。

33、RNA 合成双链 DNA( 表 -3), 并纯化双链 DNA。 接着合成生物素标记 cRNA( 表 -4), 片断化 cRNA( 表 3), 杂交 ( 表 4), 并洗脱 ( 表 5)、 染色、 扫描芯片。 0048 通常在使用 TRIzol 法抽提组织总 RNA 时, 因为方法的限制, 造成总 RNA 的纯度降 说 明 书 CN 102154478 A CN 102154479 A8/10 页 10 低, 影响探针的标记和芯片杂交。所以需使用 QIAGEN RNeasy Kit 进一步的纯化。测定 OD 值 ( 通常 OD 数值在 1.8-2.1 之间 )。之后由 RNA 合成双链 DNA(。

34、 表 -3), 并纯化双链 DNA。 接着合成生物素标记 cRNA( 表 -4), 片断化 cRNA( 表 -5), 杂交 ( 表 -6), 并洗脱 ( 表 -7)、 染 色、 扫描芯片。 0049 表 -3 由 RNA 合成双链 DNA 0050 0051 表 -4 0052 4.1cDNA 体外转录成分 0053 成分 体积 模板 DNA 见表 2 10IVT Labeling Buffer 4L 4l IVT Labeling NTP Mix 12l IVT Labeling Enzyme Mix 4l 加水至终体积 40l 0054 4.2 所需模板 DNA 的体积 ( 按总 RNA 。

35、的量计算 ) 0055 总 RNA(g) 模板 DNA 体积 1.0-8.0 12l 8.1-16.0 6l 0056 表 -5 片断化反应 0057 成分 体积 20g cRNA 1-32l 说 明 书 CN 102154478 A CN 102154479 A9/10 页 11 5Fragmentation Buffer 8l RNase-free 水 到 40l 0058 表 -6 杂交液 0059 20Eukaryotic Hybridization Controls 冻存, 使用前 65温浴 5 分钟 0060 Array 杂交体积 总体积 Standard 200l 250l Mi。

36、di 130l 160l Mini 80l 100l Micro 80l 100l 0061 表 -7 洗脱和染色 0062 11m 真核芯片的洗脱程序 0063 0064 18m 真核芯片的洗脱程序 0065 0066 3.3 本发明芯片检测结果统计分析 : 0067 根据上述发明芯片实验, 每张芯片检测后获得 48 个基因的表达量数值, 其中有 2 个管家基因 : 18S 和 GAPDH。根据 18S 和 GAPDH 的探针表达量数值作为内参, 我们获得 46 靶 标疾病基因的相对表达量增值 (delta Ct)。对每个基因探针的重复数据作均值处理, 输出 验证实验中的 46 个靶标基因表。

37、达量数据。然后, 我们利用 Affymetrix U133plus 2.0 基因 表达芯片数据 ( 在筛选 46 个基因探针的过程中得到 ) 训练获得的 SSD 模型预测来自 ABI 平台的独立验证数据集的样本属性 ( 即对照组或 SSD 组 ) ; 测试数据集 ( 来自 Affymetrix 芯片表达谱 ) 和独立验证数据集 ( 来自 ABI 实验平台 ) 具有相同的靶标基因。其中, 验证 独立数据集的分类效果所使用的机器学习算法仍然是与构建 SSD 模型步骤相同的 SVM- 支 持向量机, 参数设置也相同 ; 并且选用的核函数为多项式核函数, PolyKernel-C250007-E 1.。

38、0。在实现 SSD 模型构建并将模型应用于对独立验证实验获得的基因表达数值分类之前, 我们分别完成 2 个分析步骤 : (1) 对独立验证数据集的缺失值处理, 以及 (2) 数据标准化的 处理。 0068 对独立验证数据集的缺失值处理 : 由于 ABI 独立验证实验存在部分缺失值, 我们 说 明 书 CN 102154478 A CN 102154479 A10/10 页 12 对缺失值进行处理 ; 选择同类别样本属性下该基因的均值表达量赋值给当前基因表达量的 缺失位置 ; 尽管 SVM 支持存在缺失值的情况, 但是我们考虑后续标准化的。 0069 数据标准化的处理 : 因为两组数据 ( 测试。

39、数据集和验证数据集 ) 分别来自不同批 次, 不同实验平台 ), 我们分别计算每个基因的 Z-Score( 原始数值 - 特征下所有基因均 值)/特征下所有基因方差), 即做两套数据进行标准化(normalization)处理, 使得两组不 同平台数据具有可比性。 0070 3.4 结果的判断分析 : 0071 本次针对发明芯片的独立验证结果发现, SSD 预测准确度达到 82.0。表 -8 0072 表 -8. 独立验证模型的属性分类情况 : 0073 0074 另 外, 我 们 利 用 SVM 分 类 器 对 独 立 验 证 数 据 集 也 做 了 10 倍 交 叉 验 证 (Cross-。

40、validation) 的自测, 分类平均准确度达到 87.0。其中对照组分类性能达到 84.0, SSD 分类效果达到 90.0。表 -9, 表 -10。 0075 表 -9 独立验证数据的自测模型的 10CV 属性分类情况 0076 Correctly Classified Instances 87 0.87 Incorrectly Classified Instances 13 0.13 Kappa statistic 0.74 Mean absolute error 0.13 Root mean squared error 0.3606 Relative absolute error 0.26 Root relative squared error 0.72111 Total Number of lnstances 100 0077 表 -10 独立验证数据集自测分类模型的详细准确度统计表 0078 0079 因此我们认为本发明芯片 ( 亚综合征抑郁基因表达诊断芯片 ) 是有效的, 其有效 性为 90.0。 说 明 书 CN 102154478 A CN 102154479 A1/1 页 13 图 1 说 明 书 附 图 CN 102154478 A 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 化学;冶金 > 生物化学;啤酒;烈性酒;果汁酒;醋;微生物学;酶学;突变或遗传工程


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1