头颈鳞癌分子分类诊断用小型化寡核苷酸芯片 【技术领域】
本发明涉及一种头颈鳞癌分子分类诊断用小型化寡核苷酸芯片,以及一种头颈鳞癌分子分类诊断方法。
背景技术
头颈鳞癌是一类多基因,多步骤性发生的疾病。由于该部位癌肿多位于或临近重要的组织器官(如颅脑、上呼吸道、咀嚼、语言、听觉、视觉及重要的神经血管),因而手术切除安全范围受到严重的制约,并且治疗后患者多存在明显的功能障碍和容貌的破坏。二十世纪末,口腔颌面部癌肿患者5年生存率达到60%左右,但晚期患者5年生存率仅为20-40%。这与肿瘤的异质性与生物学行为密切相关。早期诊断对提高头颈鳞癌患者的生存率具有重要意义。而临床上通用的组织病理分级系统,主要依靠肿瘤的形态学特点进行肿瘤分型,其结果既不能准确地反映肿瘤的生物学特性和临床特征,又无法对肿瘤进行早期正确的诊断。因此癌症相关表达基因的鉴定对疾病的早期诊断十分重要。随着人类基因组测序计划的完成和高通量微阵列技术的发展,基因表达谱国外已经用于鉴定某些肿瘤中特异性表达的基因(如恶性淋巴瘤),以此对肿瘤进行早期地分子分类诊断。这一技术成功的一个重要前提是芯片所设定的特异性基因群以及芯片对被测组织表达基因测试的敏感程度,对于多基因性疾病区分背景和那些低丰度的重要功能基因,它们十分重要。但目前市场已有的成品化寡核苷酸芯片,由于造价昂贵,检测方法复杂,最重要的一点是缺乏组织特异性,限制了其进入临床使用的可能。因此,市场上迫切需要有组织特异性的、小型化、专业化的寡核苷酸芯片。
由于生物芯片技术是一个新兴起的领域,如何对生物芯片技术所获取的数据进行分析,还缺乏有效和统一的方法。目前有大量的计算方法和统计学方法可对微阵列检测结果进行分析,但这些方法都有自身的优点和缺点。由这些方法获得的微阵列结果的可靠性常常受到怀疑,除用传统的分子生物学手段证实微阵列的结果外,有效而可靠的统计学方法也是生物芯片领域中的一个噬待解决的问题。
【发明内容】
本发明的目的在于提供一种头颈鳞癌分子分类诊断用小型寡核苷酸芯片,其对头颈鳞癌分子分类诊断的正确性好、敏感程度高。
本发明的再一目的,提供一种头颈鳞癌分子分类方法,及其用途。
本发明一种头颈鳞癌分子分类诊断用小型化寡核苷酸芯片,由与头颈鳞癌显著相关的一些基因序列构成相应的寡核苷酸探针,制备成小型化诊断用芯片,其特点是,所述探针为下列寡核苷酸序列,共代表39条基因,包括:EMP1、CEACAM5、NA、ZNF185、ACPP、COL1A2、HPGD、TGM3、ITGA6、NMU、OPN、SCEL、COL1A1、COL4A2、KRT13、PPL、PP11、CYP3A5、PLAU、IL1RN、PITX1、MAL、BLNK、FN1、COL5A2、MMP1、MFAP2、SERPINH2、COL4A1、KRT4、LAGY、C5ORF13、FAPA、SPINK5、KIAA0790、DUSP5、PTHLH、GPX3、CEACAM1。
利用上述芯片的头颈鳞癌分子分类方法:建立头颈鳞癌分子分类标准;综合采用以下统计学方法和计算机算法获得,包括:传统的统计学方法(t-test,Wilcoxon rank-sum test和配对t-test)、芯片显著性分析(SAM)、Genespring软件的分类预测方法,以及一种综合分级系统(COM),包括minimal distance to ideal ranking(MDIR)和Weightedpunishment on overlap(WEPO);同时检测标本中小型化寡核苷酸芯片上的39条探针的表达情况,并与头颈鳞癌分子分类标准进行比较。
利用本发明芯片和上述头颈鳞癌分子分类方法可用于头颈鳞癌分子分类诊断方法,具体步骤包括,(1)标本收集:收集病人的可疑癌变组织组织块仅需约1cm3大小,放入液氮中保存;(2)RNA提取:组织匀浆后加入预冷的Trizol,随后采用氯仿抽提,异丙醇沉淀,并将沉淀溶解于不含RNAse的水中,纯化,其特征在于RNA终浓度1μg/μl;(3)RNA标记和芯片杂交,纯化后的RNA反转录合成cDNA的第一链,随后采用poly(A+)合成cDNA双链,双链内同时引入了T7 RNA聚合酶的位点并采用体外转录反应(IVT),获得生物素标记的cRNA探针;将15μg cRNA碱水解成35-200bp的片断,随后取10μg片断化后的cRNA探针与权利要求1所述寡核苷酸芯片进行杂交、扫描、分析;其特征在于仅需要10μgRNA样本。(4)不同芯片上各探针的信号值经RMA均一化处理后,进行分子分类诊断的分析。
本发明的优越性在于:本发明头颈鳞癌分子分类诊断用小型化寡核苷酸芯片对头颈鳞癌密切相关基因表达情况的测试敏感度高,对多基因表达模式的算法可靠。结合头颈鳞癌分子分类诊断标准,可以对头颈鳞癌进行准确的早期分子分类诊断。
【具体实施方式】
本发明所指的一种头颈鳞癌分子分类诊断用小型化寡核苷酸芯片,由与头颈鳞癌显著相关的一些基因序列构成相应的寡核苷酸探针,制备成小型化诊断用芯片,其特征在于,所述探针为下列寡核苷酸序列,共代表39条基因,包括:EMP1、CEACAM5、NA、ZNF185、ACPP、COL1A2、HPGD、TGM3、ITGA6、NMU、OPN、SCEL、COL1A1、COL4A2、KRT13、PPL、PP11、CYP3A5、PLAU、IL1RN、PITX1、MAL、BLNK、FN1、COL5A2、MMP1、MFAP2、SERPINH2、COL4A1、KRT4、LAGY、C5ORF13、FAPA、SPINK5、KIAA0790、DUSP5、PTHLH、GPX3、CEACAM1。
本发明所指的头颈鳞癌分子分类方法,涉及建立头颈鳞癌分子分类标准;综合采用以下统计学方法和计算机算法获得,包括:传统的统计学方法(t-test,Wilcoxon rank-sum test和配对t-test)、芯片显著性分析(SAM)、Genespring软件的分类预测方法,以及一种综合分级系统(COM),包括minimal distance to ideal ranking(MDIR)和Weightedpunishment on overlap(WEPO);同时检测标本中小型化寡核苷酸芯片上的39条探针的表达情况,并与头颈鳞癌分子分类标准进行比较。
本发明所指的头颈鳞癌分子分类诊断方法,可用多种统计学方法和计算机算法来分析头颈鳞癌细胞相关的基因表达谱。如在用AffymetrixHG-U95Av2型基因芯片检查了22对(44例)配对的头颈鳞癌组织和正常上皮组织基因表达谱后,采用RMA(Robust Multi-chip Analysis)算法对各张芯片的数据结果进行均一化。随后采用3种分析方法进行分析,包括传统的统计学方法(t-test,Wilcoxon rank-sum test和配对t-test)、芯片显著性分析(SAM)、Genespring软件的分类预测方法、以及一种综合分级系统(COM)、包括minimal distance to ideal ranking(MDIR)和Weighted punishment overlap(WEPO)。采用以上统计学方法和计算机算法,挑选出与头颈鳞癌显著相关的一些基因,合成相应的寡核苷酸探针,并制备小型的诊断化芯片,用于临床标本的分子分类诊断。综合使用上述各种统计学方法可以利用各种不同统计学方法和算法的优点,以选择那些只在肿瘤组织中显著异常表达的基因。随后,通过聚类分析和对靶探针分析、实时定量PCR对这些基因表达谱进行验证。最终选择了39条探针,而且发现通过检测这39条探针的表达谱可正确区分头颈鳞癌组织和正常组织。
本发明用于头颈鳞癌分子分类诊断方法,具体步骤包括,(1)标本收集:收集病人的可疑癌变组织组织块仅需约1cm3大小,放入液氮中保存;(2)RNA提取:组织匀浆后加入预冷的Trizol,随后采用氯仿抽提,异丙醇沉淀,并将沉淀溶解于不含RNAse的水中,纯化,其特征在于RNA终浓度1μg/μl;(3)RNA标记和芯片杂交,纯化后的RNA反转录合成cDNA的第一链,随后采用poly(A+)合成cDNA双链,双链内同时引入了T7 RNA聚合酶的位点并采用体外转录反应(IVT),获得生物素标记的cRNA探针;将15μg cRNA碱水解成35-200bp的片断,随后取10μg片断化后的cRNA探针与权利要求1所述寡核苷酸芯片进行杂交、扫描、分析;其特征在于仅需要10μgRNA样本。(4)不同芯片上各探针的信号值经RMA均一化处理后,进行分子分类诊断的分析。
针对材料和方法有下述步骤:
(1)组织收集
22位患者,经病理学诊断确诊为鳞状细胞癌,同时收集同一病人的肿瘤组织和配对的正常组织。组织块切成约1cm3大小,切取标本后立即放入液氮中,随后转移至-80℃储存。正常组织切取部位是肿瘤对侧的正常粘膜。那些复发的患者或是接受过放疗、化疗的患者不纳入实验。肿瘤组织来源自头颈部不同部位,包括不同的病理阶段。
(2)RNA提取
总RNA的提取是使用Trizol(Invitrogen)。标本匀浆后加入预冷的Trizol,随后采用氯仿抽提,异丙醇沉淀,并将沉淀溶解于不含RNAse的水中。采用Rneasy的柱子进一步纯化RNA。调整RNA至终浓度1μg/μl。每组组织使用的RNA起始量一致。
(3)RNA标记和芯片杂交
纯化后的RNA反转录合成cDNA的第一链,随后采用poly(A+)合成cDNA双链。双链内同时引入了T7 RNA聚合酶的位点并采用体外转录反应(IVT),获得生物素标记的cRNA探针。将15μg cRNA碱水解成35-200bp的片断。随后取10μg片断化后的cRNA探针与HG-U95Av2的Genechip进行杂交、扫描、分析。扫描结果依次用MAS 5.0软件,从原始的.DAT文件到.CEL文件,然后进一步采用RMA算法对不同芯片的检测信号进行均一化处理。
(4)微阵列的结果统计分析方法和计算机分析
不同芯片上各探针的信号值经RMA均一化处理后,进行如下分析:
步骤1:采用7种统计方法处理均一化的数据:
(a)t-test:参数分析,方差不齐;(Parametric,variance not assumedequal)
(b)Wilcoxon rank-sum test:Non-parametric;(非参数分析)
上述两种检验方法是采用Gene spring软件进行,用Benjamini和Hochberg校对(correction)来减低假阳性率。
(c)配对t-test
(d)SAM(1.10):采用Stanford univ.提供得的软件。
(e)预测用基因的挑选:“class prediction”,是Genespring软件中携带的一个功能。
(f)MDIR
(g)WEPO
步骤2:将步骤1中的各种分析方法所获得的结果分成3组,(A),(B),(C)三组:
(A)组包括步骤1(a),(b),(c)中按3种传统的统计学方法挑选到的基因的交集。
(B)组包括步骤1(d),(e)中SAM和Class prediction所获得的基因的交集。
(C)组COM framework的分级目录(ranking list form COM framework)构成,称为M,它由步骤1中(f)和(g)中MDIR所获得的M1基因群和WEPO获得的M2基因群共同组成。
COM Framework可以用于分析多探针表达情况。COM ranking list合并了MDIR和WEPO所获得的M1和M2的ranking list,对每条探针取其rankings的平均值。M=COM(M1,M2)代表了M1和M2的联合。
步骤3:对步骤2中获得的差异表达基因(A),(B),(C)求取交集,得到一群新的基因,理论上认为该群基因与头颈鳞癌的关系最为密切,用其对头颈鳞癌进行分子分类诊断最为可靠。
实时定量PCR
参考NCBI网站上提供的探针序列,采用LC Probe Design软件设计PCR用引物。所用引物序列如下:
EMP1(probe 37762_at)上游5’TGGGGAGTTGTTATGCC
下游5’-GCACTAAGACAGCCTTCT
CEACAM1(probe 36082)上游5’GAGGGAGGATGCTGGGACGTATT
下游5’TGGGGAGGCTGAAGTTGGTTGT
MMP1(probe 38428_at)上游5’NCACATGGTGTGAGTCC
下游5’TGGCCTATAGAATCCATAAGC
PLAU(probe 37310_at)上游5’ACTAACGACTTCAGGGC
下游:5’AGTGAGGATTGGATGAACT
实时定量PCR在Roche的LightCycler(LC)进行。采用RNAAmplification Kit SYBR Green I Kit。实验按试剂盒提供方法进行。结果用LightCycler软件分析。
挑选差异表达基因群:
步骤1:每种分析方法的结果:
采用传统的统计学分析方法(a,b,c),经RMA算法处理过的信号值(所有的12626条探针)再经Gene Spring和Gene Traffic提供的过滤功能对其进行初步过滤。
1.在所有44例样品中,绝对信号值低于50者被过滤掉后,剩余探针10929条
2.信号强度比值(肿瘤/正常)范围(在所有44例标本中最大-最小)<2者被过滤掉后,剩余探针9802条。
联合以上两项过滤原则,最后选择了9281条基因。采用Genespring软件中的Benjamini and Hochberg correction以降低试验中的假阳性率。随后采用t-test和Wilcoxon rank-sum test处理数据。经过参数,方差不齐t-test,最终选择到502条探针,其p<0.05。采用非参数Wilcoxin test,在p<0.01时,选择到469条探针。在p<0.0001时,配对t-test选择到464条探针。
微阵列显著性分析(significant analysis of microarrays,SAM)这种方法被用来发现那些过表达或不表达的重要探针。使用如下参数:
response type=paired data;
number of permutation-100 interpretation engine-k-nearest neighbors.在delta value=1.50940,fold change=2,false positive=0.52927时获得182条探针。
“Predict Parameter Values”被用来选择能预测肿瘤和正常标本的探针。试验中使用所有的44(22×2)样品作为训练组,来进行自身预测。在使用所有未经过滤的12626条探针进行预测时,当neighbor=10,cutoffP值=0.4,使用88-93条探针可获得最佳效果:在所有的44例样品中,41例样品能够正确预测,3例样品不能预测(没有预测错误者);因此选择了93条探针。
使用Ranking list的结果:M=COM(M1,M2),M1和M2分别得自MDIR和WEPO。
步骤2:各种分析方法的综合结果:
7种统计结果按所用的统计学方法分成3组:
A 三种传统的统计学方法(a,b,c)交集获得246条探针。
B SAM法和Predictor genes算法(d,e)的交集获得55条探针
C 合并两种分级算法(f,g)中显著性最高的探针选择到200探针。
步骤3最后选择基因:对步骤2中获得的3群基因进一步分析,求取交集,最后得到42条基因探针。
对选择到的基因进行验证
聚类分析:
对所有探针进行Unsupervised hierarchical clustering,发现对肿瘤和正常组织聚类结果并不理想。然而,用步骤3得到的42条基因可以清楚的区分肿瘤组织和正常组织。一些正常组织与肿瘤组织的聚类距离很近,可能是因为这些临床上和组织病理上认为是“正常”的组织可能已经有了一些遗传学上的变化,正在成为第二个原发癌,这一点在头颈癌中已有报道。
同一基因的多探针检测点分析:
在选择到差异表达的42条探针中,27条基因在芯片上只有1个探针,其余15个探针对每条基因而言在芯片上有多个探针。其中3条基因对应的2个探针均被选择到,因此,共计42条探针对应39条基因。
被重复选择到的基因是:
1.ACPP
2.SPP1
3.COL1A2
在U95A芯片上,ACPP和SPP1基因只对应了2条探针。对这2条基因,他们所对应的2条探针均被各种统计学方法选择到了。对其它的多探针基因,并不是所有的相关探针都被上述步骤3所选择到。分析结果发现,没有选择到的这些探针的变化趋势和选择到的探针是相同的。由此表明,我们在步骤3中的选择方法是很严谨的。因为,一些差异表达基因如果差异的倍数不够2倍,可能就不会被上述统计学方法所获得。而且试验中合成反义cRNA是从3’末端开始的,因此,5’末端一些片断会丢失,导致一些探针检测信号出现假阴性。
实时定量PCR
为证实上述统计学方法和算法所获得的基因芯片结果的可靠性,我们随机在基因上调组和基因下调组中选择了4条基因用实时定量PCR进行验证。选择基因如下:MMP1,PLAU,EMP1,CEACM1。
PCR所用的引物是根据NCBI所提供的基因序列设计的。PCR的条件和产物的大小都经过验证。所获得的PCR产物经回收,测序。检测了7对样品,其中3对是做过芯片检测的样品,另外4对是新收集的样品。结果发现,一致性良好。
头颈部恶性肿瘤如上唇癌,口腔癌,鼻咽口咽癌的病理类型一般都是属于鳞癌。在发展中国家,约占了恶性肿瘤的第6位,全球发病率约为5000,000。这些肿瘤患者通常生存率较低,复发率较高,这很大程度上是由于晚期诊断引起。因此早期诊断对这些病人来说是提高其生存率和生存质量的重要方法。
头颈鳞癌有明显的地理学分布特点。大约3%发生在美国,50%发生在东南亚地区。这可能是由于不同的环境致癌因素引起的,如烟草,酒精,槟榔等。但是不同地区发病的头颈鳞癌的生物学行为和对治疗的反应却基本相同。全世界范围内头颈鳞癌患者的总体生存率约为50%左右。头颈鳞癌是一类多基因,多步骤性的疾病。因此癌症相关表达基因的鉴定对早期诊断疾病十分重要。而传统的方法分析组织中基因的表达情况却十分麻烦,无法用于临床。高通量微阵列技术的发现使快速全面分析基因表达谱成为可能。加上人类基因组测序计划的完成,进一步为鉴定头颈部正常上皮细胞恶变成鳞癌细胞的可能分子机制奠定了基础,由此,也为对头颈鳞癌进行分子分类诊断提供了可能。但全基因测试也存在严重缺点,一方面成本过高,无法广泛用于临床;另一方面,过多无关的基因检测信号对重要功能基因的信号造成影响,甚至掩盖有用的一些信息。因此如何使目前所有的全基因组扫描芯片真正做到小型化、特性化和专用化,一直以来是研究者们极为关心的课题。
很多研究者试图利用高通量的方法检测头颈癌相关基因的表达谱。但是,这些研究往往用了很少的正常和肿瘤配对组织或细胞系。而且,如何从基因芯片所提供的大量表达谱信息中获得重要的基因也是目前面临的一大困难。采用单一的倍数改变或是利用信号值直接进行聚类分析,不能满足研究者试图对多样品多基因进行比较的要求。因此,这引起了长期对芯片分析结果缺乏一致性。本发明提供了一种有效的多基因表达谱关键信息甄别和分析的方法。
目前使用的微阵列分析方法的优点和缺点:
使用的参数检验如t-test等是根据正常和肿瘤组织中差异表达基因的平均值(配对t检验)或是平均值的差异进行分析。非参数统计方法,如Wilcoxin rank sum test(相当于Mann-Whitney test)是根据两组数据ranksums的差异进行分析的。如果检测样本的变异系数符合正态分布,则参数分析的方法比较合适,但是,在多数情况下,检测样本都不符合正态分布。另一方面,如果这两组数据的Rank sums能够真实地反映样品的特性、疾病的类型、生物学特性以及生理学特征化,非参数分析将是一个十分有利的工具。但是,rank sums的差异所代表的涵义却很难评估,因为生物学体系本身十分复杂。SAM(significant analysis of microarrays)是一种常用于微阵列数据分析的有力工具。它采用一种称为Balancedpermutations方法来测量预期基因表达和观察到的变异之间的关系。SAM结合了参数统计和非参数统计方法的一些优点,不需要假设样品的表达成正态分布。该方法通过一种散点图(SAM)分析观测到的相对差异和与其真实差异间的关系,以鉴定那些可能重要的一些基因表达的改变。只要数据成balanced permutations,该统计学方法就很适合。因此所预期的相对差异,可以真实地反映标本的生理学特性和进行诊断。Class prediction是一种使用K-nearest neighbor为分类方法的辅助学习软件,适合于寻找那些能够区别正常标本和肿瘤标本的基因。但是这种方法受到所设模型参数和所测试样品的较大限制。
MDIR和WEPO是一种分级评价系统,能够给每一条探针一个指定的分数。这两种方法能够根据每条探针所得分数对样品分类。在求取样品的评分总数时,不是使用常用的Wilcoxon分级评价方法来计算p值,而是通过计算评分标准和理想评分标准之间的距离来寻找差异表达的基因。MDIR(minimal distance to ideal ranking)通过计算最小相邻交换距离,而WEPO(Weighted punishment on overlap)则求取任何相邻样品均一化Z值差异总和。MDIR和WEPO这两种方法和非参数统计方法有同样的缺点。
COM框架联合使用MDIR和WEPO这两种方法,以增加其适用性能。该方法的效果取决于选择合适的分析方法如分级,计分,加权等方法的总和。
聚类分析在处理微阵列的数据时,特别是根据相似性和差异(指距离)对样品进行分类时特别有用。但是,我们也充分认识到它是一种无管理性的非常主观的统计方法。而且,它也不能提供基因表达差异方面的统计学信息。多种不同的方法可以测量这种距离,从而导致聚类结果的差异。因此,我们没有使用这种图像聚类的方法来鉴定差异表达的基因。本发明中,对我们的标本聚类(hierachical,比值采用Log2,在Genetraffic中进行),使用所有的探针或是过滤后的探针,来证实所选择的探针是否能够很好地将肿瘤标本和正常标本分成两类。结果发现在使用选择后的探针进行聚类时,肿瘤组织和正常标本聚类的结果十分清晰。
RT-PCR的结果与对样品的微阵列检测的结果完全一致。因此这一结果不仅证实了芯片结果的可靠性,而且表明我们选择的探针的可用性。
42条探针中除去重复的探针,最后对应了39条基因。这39条基因可以被分成4组,其中一半以上已被证实与肿瘤发生有关。包括一些肿瘤相关基因或是在肿瘤发生中起作用的癌基因。
肿瘤相关抗原(TAA)类包括5条基因。他们与肿瘤发生有重要关系。Osteopontin,它的探针有2次入选,有文献报道它可作为头颈鳞癌预后相关的血清标志。CEACAM1和CEACAM5是CEA(癌胚抗原家族)和分子黏附相关家族中的成员。CEACAM1目前被研究得较为清楚,在前列腺癌,乳腺癌,结肠癌中是一种抑癌基因,在503位点上丝氨酸变成丙氨酸后,会导致其抑制生长功能的丧失。LAGY,在肺癌中显著下调,因此被称为是肺癌相关基因Y。EMP1是一种肿瘤膜蛋白,和肿瘤生长相关蛋白。在乳腺癌细胞系中发现它是一种肿瘤快速生长的标志物,与肿瘤细胞转移相关。该基因的表达水平和肿瘤浸润转移的关系已引起重视。
在酶类,12条基因中的9条与肿瘤发生的关系已经被证实。ACPP,也是两条探针入选,是前列腺癌预后的一种血清标记物。蛋白裂解酶在降解细胞外基质中有重要作用,可加速肿瘤的浸润和转移。MMP1,PLAU和丝氨酸蛋白酶是蛋白裂解的主要酶类。MMP1也称为胶原酶I,在恶性肿瘤中表达持续升高。PLAU在多种恶性肿瘤中属于独立判断预后的一项指标。PP11(丝氨酸蛋白酶),SERPINH2和SPINK5(都是丝氨酸蛋白酶的抑制剂)被发现与肿瘤发生有关,或参与了肿瘤的浸润。FAFP是丝氨酸蛋白酶的一个高度保守区,它的表达常常与人恶性黑色素瘤和癌细胞浸润生长有关。GPX3的高表达在卵巢癌中有过报道。TGM3参与组装角细胞层(CE)的结构蛋白,这是复层鳞状上皮终末分化的一个重要结构。这可能也解释了它在鳞癌中低表达的原因。
在结构相关类基因中,11条基因中的5条已知与肿瘤相关。FN,随着年龄增加在胞浆内和组织内表达增加,被推测与肿瘤生长有关。而且它的蛋白裂解产物被发现有潜在致癌性。SCEL是CE的一种前体。PPL是CE的另外一种成份,可与TGM交联。CRK4和CRK13是细胞移动因子,在分化好的上皮细胞中出现,因此在鳞癌中表达降低。
在这种分析方法中发现的一些其它基因也有报道直接或间接的参与了肿瘤的发生。C5ORF13,又称为P311,在恶性胶质细胞瘤中有过表达。体外实验证实了P311在恶性胶质细胞瘤中的作用。PTHLH基因的一个位点被认为与肺癌发病相关。而且,同一位点异常与肿瘤的预后密切相关。PTHLH也被认为与恶性肿瘤中内分泌性高血钙有关。IL1RA被认为参与不同实体肿瘤的发生。PITX1,是一种转录因子,被报道在垂体腺瘤中表达下降。
经过上述各种统计学方法和不同的算法,最后获得了39条探针,并且一系列分析证实了这39条探针的可靠性。而且试验发现,利用这群探针可正确区分肿瘤和正常组织,也就是说可以作为头颈部鳞癌分子分类诊断标准。
本发明方法的优点:
采用头颈鳞癌分子分类专用的小型诊断芯片替代传统的高通量大芯片,显著降低了成本,简化了操作过程。该专用芯片的获取系使用多种统计分析标准,多种统计学方法相结合:A和B基因群的交集和COM框架(C基因群)。通过综合使用这些方法,保留不同统计方法敏感性高的优点(参数/非参数/混合参数,差异平均值/平均值的差异),同时克服了不同统计学方法所带来的假阳性率困扰。
针对39条基因分别设计的探针序列如下:
EMP1
tggaaaaactgtaccaacattagctgcagtgacagcctgtcatatgccagtgaagatgcc
ctcaagacagtgcaggccttcatgattctctctatcatcttctgtgtcattgccctcctg
gtcttcgtgttccagctcttcaccatggagaagggaaaccggttcttcctctcaggggcc
accacactggtgtgctggctgtgcattcttgtgggggtgtccatctacactagtcattat
gcgaatcgtgatggaacgcagtatcaccacggctattcctacatcctgggctggatctgc
ttctgcttcagcttcatcatcggcgttctctatctggtcctgagaaagaaataaggccgg
acgagttcatggggatctggggggtggggaggaggaagccgttgaatctgggagggaagt
ggaggttgctgtacaggaaaaaccgagataggggaggggggagggggaagcaaagggggg
aggtcaaatcccaaaccattactgaggggattctctactgccaagcccctgccctgggga
gaaagtagttggctagtactttgatgctcccttgat
CEACAM5
acagaaaagactctgaccagagatcgagaccatcctagccaacatcgtgaaaccccatct
ctactaaaaatacaaaaatgagctgggcttggtggcgcgcacctgtagtcccagttactc
gggaggctgaggcaggagaatcgcttgaacccgggaggtggagattgcagtgagcccaga
tcgcaccactgcactccagtctggcaacagagcaagactccatctcaaaaagaaaagaaa
agaagactctgacctgtactcttgaatacaagtttctgataccactgcactgtctgagaa
tttccaaaactttaatgaactaactgacagcttcatgaaactgtccaccaagatcaagca
gagaaaataattaatttcatgggactaaatgaactaatgaggattgctgattctttaaat
gtcttgtttcccagatttcaggaaactttttttcttttaagctatccactcttacagcaa
tttgataaaatatacttttgtgaacaaaaattgagacatttacattttctccctatgtgg
tcgctccaga
NA
atggccgcggcggctggcggacggctccggcaggagaagtaccggctcgtggtggtcggc
gggggcggcgtgggcaagtcggcgctcaccatccagttcatccagtcctattttgtaacg
gattatgatccaaccattgaagattcttacacaaagcagtgtgtgatagatgacagagca
gcccggctagatattttggatacagcaggacaagaagagtttggagccatgagagaacag
tatatgaggactggcgaaggcttcctgttggtcttttcagtcacagatagaggcagtttt
gaagaaatctataactttcaaagacagattctcagagtaaaggatcgtgatgagttccca
atgattttaattggtaataaagcagatctggatcatcaaagacaggtaacacaggaagaa
ggacaacagttagcacggcagcttaaggtaacatacatggaggcatcagcaaagattagg
atgaatgtagatcaagctttccatgaacttgtccgggttatcaggaaatttcaagagcag
gaatgtcctccttcaccagaaccaacacggaaagaaaaagacaagaaaggctgccattgt
gtcattttctag
ZNF185
tctccagtttctgagccctatgcacannnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnat
cagagaggaacatnccatnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
nantnccaactgctctncctnagctgtannnccccaacatcagacttggcacgtggtgga
cactaacacacaggcactcaatgaatgagtgaaggaaataaaagtcaccccgttggtgag
aggtgctatccctgagtctcagtgcaggaccagtggatgaaaggcaaggtaaagaggccc
aagataggctggcttcccccgttcaaggtatagtctgcctttaagggagttttagaacca
acatgcaagacattgaaagaaatcttgcaagagccattattgacttagatccaaaacagc
ctctctcatgtctaaaaaggcacagaattt
ACPP
ccaagttcaaaacttattggaatgttgagagtgtggttacgaaatacgttaggaggacaa
aaggaatgtgtaagtcnttnnnnnnnnnnnnnnncagaaaacctaagcaaactnnnnnnn
nnnnnnnnnnnnnnccactctgcaagaagaaatcatgatatagctttgccatgtggcaga
tctacatgtctagagaacactgtgctctattaccattatggataaagatgagatggtttc
tagagatggtttctactggctgccagaatctagagcaaagccatccccgctcctggttgg
tcacagaatgannnnnnnnnnnnnnnnnnnnnnnnnnnntttgtgttatttccctcccaa
gtaaatgtttgtccttgggtccattttctatgcttgtaactgtcttctagcagtgagcca
aat
COL1A2
cataaacatttgcaccacttgtggcttttgaatatcttccacagagggaagtttaa
HPGD
gactcatcctgtctgctaactccagacctcccagcttgaagccaaatctttccatgtgag
attgatatggatttcctagaagtactggaatgttgtcatatcttgccctattttaattct
gctatagaaaacaattgccttcacttttaaggagtaatttgaatattaataactctggtc
tagattttcatataatgtattaaagacaaagtagtgaacatcaatgaacatctgatagag
ataaactgtaatcaggcataagcttgtttgtatgttctggcagtgactaatcagtaaatg
atgtcggtttgcccagtatcacttatcttctgtatttttcctctgtcgtgtaaatagtat
aaccttttcatttatggacaattttttggactagtagccttca
TGM3
gtggcctcccgtacaaacttggacaacacggagcagggagagctnnnnnnnnnnnnnnnc
ccccgcccatgctgtccggcctgggaaaccctctccatctcccaaggctgccagacatgg
actccgggctccagcacatccccctctcctctcccccaggttggggctgggtccaccctg
tccntatgacttgantcacttttncacattnccntggccgnttctccccagagctgccnt
gctctngtgagccccacagccctngctcantnncntcacgcccttcaatgctgcaggatg
gactggcccctgacccagggactctccaaacgggatacaggagagaagctggtctagact
gtttgctgatccccaacctgcacggggcattcctgcttctctctca
ITGA6
agtgactgtgtttccctcaaagactgtagctcagtattcgggagtaccttggtggatcat
cctagtggc
NMU
gcctgaacaacagctacagttgtggaatgagatagatgatacttgttncgtcttttctgn
nnnnnnnnnnnnnnnnncnggcatccaacgcactggaggagctttgctttatgattatgg
gaatgnnnnnnnnnnnnnnnnnnnaagatgaaaaagataatactaaaaggttcttatttc
attattcgaagacacagaagttgggcaagtcaaatgttgtgtcgtcagttgtgcatccgt
tgctgcagctcgttcctcacctgcatgagagaagaatgaagagattcagagtggacgaag
aattccaaagtccctttgcaagtcaaagtcgaggatattttttattcaggccacggaatg
gaagaaggtcagcagggttcatttaaaatggatgccagctaattttccacagagcaatgc
tatggaatacaaaatgtactgacattttgttttcttctgaaaaaaatccttgctaaatgt
actctgttgaaaatccctgtgttgtcaatgttctcagt
OPN
attagatagtgcatcttctgaggtcaattaaaaggagaaaaaatacaatttctcactttg
catttagtcaaaagaaaaaatgctttatagcaaaatgaaagagaacatgaaatgcttctt
tctcagtttattggttgaatgtgtatctatttgagtctggaaataactaatgtgtttgat
aattagtttagtttgtggcttcatggaaactccctgtaaactaaaagcttcagggttatg
tct
SCEL
gacaatacactgtgaaccttgctactctaaaattatggcaaagtggattccataactctg
gcacaaggaaatcaagatgaaaagcactcattaaggaattaaagttacaagttttatctt
aataatatgtaatctagaaaagctttcacattgaagatcaactcttgtacaaaattaaca
attctgttattgcataagtaatctaattgtcttcaataaggtcacacanataaaaagagc
catctggtctctggctagagttagcaataaaaagttcaaatggttccnnnnnnnnnnnnn
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnntccatccctgctccgtatgttggctgtgag
tggtggtttccatttaaaccaagtttctcatttcttcacctttttttctctaagaatttg
gattcgtagacattgacatcccgaagaactgtcaaggaagcaagatatgctttcttcatc
tgcaaaagaaatactaacaacaattttcttatacagtttggcag
COL1A1
tcaaggtattgctggacagcgtggtgtggtcggcctgcctggtcagagaggagagagagg
cttccctggtcttcctggcccctctggtgaacctggcaaacaaggtccctctggagcaag
tggtgaacgtggtccccccggtcccatgggcccccctggattggctggaccccctggtga
atctggacgtgagggggctcctgctgccgaaggttcccctggacgagacggttctcctgg
cgccaagggtgaccgtggtgagaccggccccgctggaccccctggtgctctggtgctctg
gtgcccctggccccgttggccctgctggcaagagtggtgatcgtggtgagactggtcctg
ctggtcccgccggtcctgtcggccctgttggcgcccgtggccccgccggaccccaaggcc
cccgtggtgacaagggtgagacaggcgaacagggcgacagaggcataaagggtcaccgtg
gcttctc
COL4A2
acagacgagacaacagcacacaggcagccagccgtnggccagaggntcgaggggnnctca
ggggcntcaggcnacccgtnccccacacganngggccccgtngggtgggcctnggccctn
gctttnctacngnccaatgttatgnccagctnccatgttctncccaaataccngttgnat
gtgaattattttaaaggcaaaacngtgctctttannttttanaaaacactgataatcaca
ctgcggtaggtcattcttttgccacatccctatagaccactgggtttggcaaaactcagg
cagaagtggagaccnttctagacatcantgtcagccttgctacttgaaggtacaccccat
agggtcggaggtgctgtcccccctgccccacnttgtccctgagatttaacccctccactg
ctgggggtgagctgtactcttctgactgc
KRT13
gggactcatcagcagcatcgaggcccagctgagcgagctccgcagtgagatggagtgcca
gaaccaagagtacaagatgctgctggacatcaagacacgtctggannnnnnnnnnnnnnn
nnnnnnnngcctgctcgagggccaggacgccaagatgantgnnttnccntncnnnnnnnn
nnnnnnnnnnnnccgtagcacctctgttaccacgacttctagtgcctctgttaccaccac
ctctaatgcctctggtcgccgcacttctgatgtccgtaggcctnnnnnnnnnnnnnnntc
ccctccctctgtcttcagcacccagaggaggagagagccggcagttccctgcaggagaga
ggaggggctgctggacccaaggctcagtccctctgctctcaggaccccctgtcctgactc
tctcctgatggtgggccctctgtgctcttctcttcnngtcggatctctctcctctctgac
ctggatacgctttggtttctcaacttct
PPL
ggacaagccaaccacagcagccaagcccactccttgcagcatgggtactggtggcacanc
nnnnnnnnnnnnnnnnccnnnnannnnnnngnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
nnnnnnnnnnnnnnnnnnnnnaaanccaactttccatccgagaagcctcctcagtagtta
ctctgctcatgagacagatctgggctccaagccaggaaaggtgaacagaaaccacaagtg
tccagccctcggtgctggagtggacgttaattgtcagccaccagactgtcccggcaccta
cagagaatgtttcacagttctggcattnnnnnnnnnnnnnnnnnnnnnnnnnnnntgtta
gccttagtttcagtgctttacaagtctcgcttattatctcattggtatttaggtatacaa
aacannnnnnnnnnnnnnnnnnnnnncgccaatatctgggtctctgtatctcatgtagaa
PP11
gggagaactccaatgctgaatggagaagggtaataggttggtngcagtgaatgggctggg
ggtggggtgnccttctccaggcctgagtgtttttgtgtccagctcagtatctgcaacaag
aagtttcccacttgtggatgtttagtgcagccacagacttgtattttgatccccaatttt
ttttnngaaagagttctcctcataggaggatgattcagcatcagaagaagaaggaaccca
tagcttggtgtcattaacataattattttaagccttatccagcagccataatttgaataa
ctctacgagaccagagagactgtagttccctattttaacctcaattatgcatttgtcccc
naaccccactgagaactaaatgctgtaccacagagccgggtgtgaactatggttt
CYP3A5
gaaacactcagattattcccagttgctattagacttgagaggacttgcaagaaagatgtt
gaaatcaatggggtattcattcccaaagggtcaatggtggtgattccaacttatgctctt
caccatgacccaaagtactggacagagcctgaggagttccgccctgaaaggttcagtaag
aagaaggacagcatagatccttacatatacacaccctttggaactggacccagaaactgc
attggcatgaggtttgctctcatgaacatgaaacttgctctaatcagagtccttcagaac
ttctccttcaaaccttgtaaagaaacacagatccccttgaaatnnnnnnnnnnnnnnnnn
nnnnnnnnnnnaaaacccattgttctaaaggtggattcaagagatggaaccctaagtgga
gaatgagttattctaagganttctactttggtcttcaagaaagct
PLAU
tcttgagggagcttagccaatgtgggagcagcggtttggggagcagagacactaacgact
tcagggcagggctctgatattccatgaatgtatcaggnnnnnnnnnnnnnnnnnnnnnnn
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnagtgtgagtaagagctggtgtcttgattg
ttaagtctaaatatttccttaaactgtgtggactgtgatgccacacagagtggtctttct
ggagaggttataggtcactcctggggcctcttgggtcccccacgtgacagtgcctgggaa
tgtattattctgcagcatgacctgtgaccagcactgtctcagtttcactttcacatagat
gtccctttcttggccagttatcccttccttttagcctagttcatccaatcctcactgg
IL1RN
tgtgatgtcccaacttgtaaaaattaaaagttatggtactatgttagccccataattttt
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnctcctctgtccaggcactgctgcccagc
ctccaagctccatctccactccagattttttacagctgcctgcagtactttacctcctat
cagaagtttctcagctcccaaggctctgagcaaatgtggctcctgggggttctttcttcc
atgaaagatngctgtgcctctgcctgtctcccccaccgggctgggagctntgcagagcag
gaaacatgactcgtatatgtctcaggtccctgcagggccaagcacctagcctcgctcttg
gcaggtactcagcgaatgaatgctgtatatgttgggtgcaaagttcccta
PITX1
tggacttgcctaggatttcccgaccccgtacaaaccaagttgccctctccgagctaggcc
cggccgagagcgccttanctcgagtcggatccgtgttggggcgggcgttgggtttggggg
gacggntgcccccnagcccnangantcnggnacntangtngnanncgnacacggncccgg
cgcgcctggtagagcctcgctggccccgcgccccggagccctatattaaggccacggagc
gacagcgggcagtgcgggcctggcgggaggtgggggaggtccatctcagaacaccccagc
cttgagcttagctgcaggcccaggccctntgctctgctcccgggctaggaggtggccctc
tgtntgggcgaacagccccctcctcaccgcccgccgtgcaagagtcgagccggcagagca
aggggcgcggccccagggccctgcgcccactttgcacacccgctctccggcccgcgcccc
tgtttacagcgtccctgtgtatgttggactgactgtaataaatctgtctatatcgacttg
tccatg
MAL
actctgctctacgtggtccatgcggtgttctctttaatcannnnnnnnnnnnnnnnnnnn
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnngccgccccactttccgg
cataactttttagaaaacagaaatgncccttgatggtggaaaaaagaaaacaaccanccc
ccccactgncccaaaaaaaaaagccctgccctgttgctcgtgggtgctgtgtttactctc
ccgtgtgccttcgcgtccgggttgggagcttgctgtgtctaacctccaactgctgtgctg
tctgctagggtcacctcctgtttgtgaaaggggaccttcttgttcgggggtgggaagtgg
cgaccgtgacctgagaaggaaagaaagatcctctgctgacccctggagcagctctcgaga
actacctgttggtattgtccacaanntctcccgagcgccccatcttgtgccatgttttaa
gtcttcatggatgttctgcatgtcatggggactaaaactcacccaacagatctttccaga
ggtccatggtg
BLNK
tcggaaaagctctggccatgattccaaacaaccatatacactagttgtattctttaataa
gcgagtatataatattcctgtgcgatttattgaagcaacaaancaatatgccttnggcag
aaagaaaaatggtgaagagtacnnnnnnnnnnnnnnnnnnnnnnnnnnnnatcatcaaca
tagtcctttggttcttattgacagtcagaataacacaaaagattccaccagactgaagta
tgcagttaaagtttcataaagggggaaaaaaaagatcaataccattgcttcagacacttt
cccaaagtttctccttttgagaaaaagtcccaaaacttcatattttggattatgaatcat
ccagtaataaaatggaagatggagtcagctattgaagtggtcatccatttctttttaaga
agctcatgtggacttgttctattgcctgacctgatgaactgtta
FN1
ctaaactggagtgatgttagcagacccagcttagagttcttctttctttcttaagccctt
tgctnnnnnnnnnnnnnnnnnnnnnnnnnnnnactcacagcttctccaagcatcaccctg
ggagtttcctgagggttttctcataaatgagggctgcacattgcctgttctgcttcgaag
tattcaataccgctcagtattttaaatgaagtgattctaagatttggtttgggatcaata
ggaaagcatatgcagccaaccaagatgcaaatgttttgaaatgatatgaccaaaatttta
agtaggaaagtcacccaaacacttctgctttcacnnnnnnnnnnnnnnnnnnatactgta
ggaacaagcatgatcttgttactnnnnnnnnnnnnnnnnnnnnngtactcactttttcca
aatgatcctagtaattgcctagaaatatctttctcttacctgttatttatcaatttttcc
cagtatttttatacggaaaaaattgtattgaaaacacttagtatgcagttgataagagga
atttggtataattatggtgggtgattattttttatactgtatgtgccaaagcttt
COL5A2
taagatgaccaatgacaatgaccacctttgcagaaagtaaactgattgaataaataaatc
tccgttttcttcaatttatttcagtgtaatgaaaaagttgcttagtatttatgaggaaat
tcttcttcctggcaggtagcttaaagagtggggtatatagagccacaacacatgtttatt
ttgcttggctgcagttgaaaaatagaaattagtgcccttttgtgacctctcattccaaga
ttgtcaattaaaaatgagtttaaaatgtttaacttgtgatcgagacctacatgca
MMP1
caaatttgatcctaaaacgaagagaattttgactctccagaaagctaatagctggttcaa
ctgcaggaaaaattgaacattactaatttgaatggaaaancacatggtgtgagtccnaan
gnaggtgttttcctnnnnnnnnnnnnnnnnnnnnnnnnnnnttttaacctctagagtcac
tgatacacagaatataatcttatttatacctcagtttgcatatttttttactatttagaa
tgtagccctttttgtactgatataatttagttccacaaatggtgggtacaaaaagtcaag
tttgtggcttatggattcatataggccagagttgcaaagatcttttcnagagtatgcaac
tctgacgttgatcccagagagcagcttcagtgacaaacatatcctttcaagacagaaaga
gacaggagacatgagtctttgccggaggaaaagcagctcaagaacacatgtgcagtcact
ggtgtcaccctg
MFAP2
aacgaggtctgcttctacagcctccgccgnnnnnnnnnnnnnnncaaggagatctgtgtt
cgtacagtgtgtgcccangaggagctcctccgagctgacctctgtcgggacaagttctcc
aaatgtggcgtgatggccagcagcggcctgtgccaatccgtggcggcctcctgtgccagg
agctgtgggagctgctagggtggtgctggcatcctgagtcctggccctcctgggatctng
ggccctcgggccctgcctgacctggtgcttttttccccatccccatgttccttttattct
gtaaaaagttagtggactgcagccctgggggttgcaggctgcggtgcctcaggcccctcc
ttcagcctgtggccacctctggggcacnattgggggctccccactgcccagtctgcccctc
gggttgggggagtatcccaggcctctctgtgggacnctgggnccntgacgggccttctca
gcccgttttgaggacagacagtcccccgaggtagggctacatccccccaccccagctggtc
tgcttggatttcctaca
SERPINH2
cctgggccatagtcattctgcctgccctgaaagtcccagatcaagcctgcctcnaatcna
gtattcatatttatagccaggtaccttctcacctgtgagannccaaattgagctaggggg
gtcagccagccctcttctgacactaaaacacctcagctgcctccccagctctatcccaac
ctctcccaactataaaactaggtgctgcagcc
COL4A1
gaatgacttgacttcaaaagcaacaaccttaaaggccgtcatttcattagtattcctcat
tctgcatcctggcttgaaaaacagctctgttgaatcacagtatcagtattttcacacgta
agcacattcgggccatttccgtggtttctcatgagctgtgttcacagacctcagcagggc
atcgcatggaccgcaggagggcagattcggaccactaggcctgaaatgacatttcactaa
aagtctccaaaacatttctaagannnnnnnnnnnnnnnatgtaatttctttaaatgtgta
tttcttaagaattcaaatttgtaataaaactatttgtataaaaannaagcttttattaat
ttgttgctagtattgccacagacgcattaaaagaaacttactgcacaagctgctaat
KRT4
gcagttcccgcagcaagatcatctctaccaccaccctgaacaagagacgatagaggagac
gaggtccctgcagctcactgtgtccagctgggcccagcactggtgtctctgtgcttcctt
cacttcacctccatcctctgtctctggggctcatcttactagtatcccctccactatccc
atgggctctctctgccccaggatgatcttctgtgctgggacagggactctgcctcttgga
gtttggtagctacttcttgatttgggcctggtgacccacctggaatgggaaggatgtcag
ctgacctctcacctcccatgggcagagaagaaaatgaccaggagtgtcatctccagaatt
attggggtcacatatgtcccttcccagtccaatgccatctcccactagatcctgtattat
ccatctacatcagaaccaaactccttctccaacacccggcagcacttggccctgcaagct
taggatgagaaccacttagtgtcccattctactcctctcattccctcttatccatctgca
ggtgaat
LAGY
ggcttcactggaaaaatggtgtggctagcatttccctttgagtcatgatgacagatggtg
tgaaaaccatctaagtttgcttttgaccatcacctcccagtagcaatttgctttcataat
ccatttagcaatccaggcctctgttgaaaagataatatgagggagaagggaacacatttc
cttctgaacttacttccctaagtcactttccttatgtatcatctaatacaatgatggttg
agtgaaaatacagaaggggtgtttgagtattcagatttcataaaacacttccttggaata
tagctgcattaacttggaaagaagcctgttgggccagaagacagaaactccaactggcaa
aaaagcaagcatctaagaaaaaaaaccaccaaagttcttgaatttactatatttaaatgc
attggttaagtttattttgctaaataaagttgaactgcttttttgtctcta
C5ORF13
agccagtctgaaagcccaccttaatttttatataactgtctttagctcttcttttgacag
ggcaggccttgttctnnnnnnnnnnnnnnnnngactgttaaacaccgatgacgcatgcac
tgcacttcttcgttttcttcttnnnnnnnnnnnnnnnnnnnnttcttgtgcattactcct
ctccctccttcgttagaataggtatatcagctgtgtaaatagagcaagaaaacagtattc
tgcatctgtggcatttatgtagagttgcaagttgtnnnnnnnnnnnnnnnnnnnnnntgt
aacagtgtgatctttactgatgcactcatgacaagtacccaatgtattttagctatttta
gtagtatttgttcaataaatacgcaagctg
FAPA
ttcctaaagcagtgtttctctttgtcagactaaaancgatgcagatgcaagcctgtatca
gaatctgaaaaccttatataaacccctcagacagtntgcttattttattttttatgttgt
aaaatgctagtataaacaaacaaattaatgttgttctaaaggctgttaaaaaaaagatga
ggactcagaagttcaagctaaatattgtttacattttctggtactctgtgaaagaagaga
aaagggagtcatgcattttgctttggacacagtgttttatcacctgttc
SPINK5
caaatacacacatccgcagtacagggaagtgtgaggagagcagcaccccnggaaccaccg
cagccagcatgcccccgtctgacgaatgacaggaagattgttgaaagccatgagggaaaa
aataaaccccagttctgaatcacctaccttcaccatctgtatatacaaagaattcttcgg
agcttgtcttatttgctatagaaaacaatacagagcttttgggaatggactcactgattt
tcagtcttttccatctctttcctcctagactctgtgatctgagggtataaagacatctcc
accaagtctgagccctcaaaatgtcctgattacaatgctgtctgtccaactgcctgttca
ataaaagtaaactcagcagnnnnnnnnnnnngggatttctttgtcactatctggataata
g
KIAA0790
aagtgccttctctgtctcacacttgnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
nnnnnnnnnnnnnnnatctgcagccagactnnnnnnnnnnnnnnnnnnnnnnnnnnccat
gtagccaggcccggaatgggcctctctggacaagagccaccctttcactgtgcatatgat
gntgatgcaattccnccatcatctctggacnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
nnnnnnnnnnnnnnnnnnnnnnnnnnnngcacaggactgaggatcctctcctccagaaaa
gcccccgaggaaataaattagtgcggttctctttgacctccaaagacaagacaagcac
ttatttttattttcagaagacaaaagaaccnnnnnnnnnnnnnnntgcgaatgctctatc
tccagtctgtctctgtgtactggtagaggctgggaggagtaggnnnnnnnnnnnnnnnnn
nnnnnnnnnnnncttgctcttctgtctgtcatcttgcaggatncccgagggccagatggg
cttagctaggccaaagtaacagactcaagagttattgtacattactgaccacgc
DUSP5
ttcactgaccttggactttggcatgattcttagtcatacttgaacttgtctcattccacc
tcttctcagagcaactcttcctttgggaaaagagttcttcagatcatagaccaaaaaagt
cataccttcgaggtggtagcagtagattccaggaggagagggtacttgctaggtatcct
gggtcagtggcggtgcaaactggtttcctcagctgcctgtccttctgtgtgcttatgtct
cttgtgacaattgttttcctccctgcccctggaggttgtcttcaactgtggacttctggg
atttgcagattttgcaacgtggtac
PTHLH
gtaaatgtatcttggtgctgctgaatttctatattttttgtaacataatgcactttagat
atacatatcaagtatgttgataaatgacacaatgaagtgtctctattttgtggttgattt
taatgaatgcctaaatataattatccaaattgattttcctttgtgcatgtaaaaat
GPX3
tgtcctacctatgtgtctttctgggaatgtgtaccatctgtgtgcctgcagctgtgtagt
gctggacagtgacaaccctttctctccagttctccactccaatgataatagttcactatc
acctaaacccaaaggaaaaaccagctctaggtccaattgttctgctctaactgatacctc
aaccttggggccagcatctcccactgcctccaaatattagtaactatgactgacgtcccc
agaagtttctgggtctaccacactccccaaccccccactcctacttcctgaagggccctc
ccaaggctacatccccaccccacagttctccctgagagagatcaacctccctagatcaac
caaggcagatgtgacaagcaagggccacggaccccataggcag
CEACAM1
ctatcactcatgctggtggcattgtttacagctagaaagctgcactggtgctaatgcccc
ttgggaaatggggctgtgaggaggaggattataacttaggcctagcctcttttaacagcc
tctgaaatttatcttttcttctatggggcttataaatgtatcttataataaaaagsaagg
acaggaggaagacaggcaaatgtacttctcacccagtcttctacacagatggaatctctt
tggggctaagagaaaggttttattctatattgcttgatctcatgttaggcctaaga
ggctttctccaggaggattagcttggagttctctatactcaggtacctctttcagggttt
tctaaccctgacacggactgtgcatactttccctcatccatgctgtgctgtgttatttaa
tttttcctggctaagatcatgtctgaattatgtatga