X染色体失活逃脱基因及其应用.pdf

上传人:e1 文档编号:74316 上传时间:2018-01-23 格式:PDF 页数:20 大小:15.67MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310176159.4

申请日:

2013.05.13

公开号:

CN104152456A

公开日:

2014.11.19

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):C12N 15/12申请日:20130513|||公开

IPC分类号:

C12N15/12; C12Q1/68

主分类号:

C12N15/12

申请人:

中国科学院上海生命科学研究院

发明人:

孔祥银; 张宇超; 胡兰靛; 朱于非

地址:

200031 上海市徐汇区岳阳路319号

优先权:

专利代理机构:

上海专利商标事务所有限公司 31100

代理人:

陈静

PDF下载: PDF下载
内容摘要

本发明涉及基于高通量数据大规模的研究,能否证实或发现正常细胞株基因逃脱X失活。本发明利用永生B淋巴细胞的RNA测序数据,基于高通量数据大规模研究,揭示了一些新的正常细胞株基因逃脱X失活的基因,并研究了这些基因的群体间或个体间基因逃脱差异。

权利要求书

1.  一种X-染色体失活逃脱基因,其特征在于,所述基因包括:ABCB7、AIFM1、ALG13、APEX2、APOO、ARHGAP4、ARMCX3、ATP6AP1、ATP6AP2、ATP7A、BCOR、BTK、CCDC22、CD99L2、CDK16、CTPS2、CXORF21、CXORF38、CXORF40A、CYBB、DDX26B、DDX3X、DKC1、DMD、DNASE1L1、DOCK11、EBP、EDA2R、EIF1AX、EIF2S3、ELF4、ELK1、FAM3A、FLNA、FTSJ1、G6PD、GDI1、GEMIN8、GPR174、GRIPAP1、HAUS7、HCFC1、HDHD1、HUWE1、IDS、IGBP1、IRAK1、LAMP2、LOC550643、MAGED1、MAGED2、MAGEH1、MAP7D2、MAP7D3、MBNL3、MED12、MED14、MID1IP1、MORF4L2、MPP1、MSL3、MTMR1、NSDHL、P2RY10、PDHA1、PDK3、PGK1、PIM2、PIN4、PIR、PJA1、PLXNA3、PQBP1、PRKX、RBM3、RENBP、RNF113A、RPL10、SASH3、SAT1、SEPT6、SH3BGRL、SH3KBP1、SLC25A43、SLC25A5、SLC38A5、SMC1A、SNX12、STS、SUV39H1、SYN1、TAZ、TBC1D25、TBL1X、TCEAL4、TLR7、TMEM187、TRAPPC2、TSIX、TSR2、TXLNG、UBA1、UBL4A、USP9X、UTP14A、VBP1、WWC3、XIAP、XIST、ZC4H2、ZFX、ZMYM3、ZNF275或ZNF75D。

2.
  如权利要求1所述的X-染色体失活逃脱基因,其特征在于,所述基因包括:ARHGAP4、CXORF21、CYBB、ELF4、GDI1、GPR174、HAUS7、LOC550643、MAGED1、P2RY10、SLC25A43、TAZ、TLR7或TSIX。

3.
  如权利要求1所述的X-染色体失活逃脱基因,其特征在于,所述基因包括:DMD、PDHA1、HCFC1、BCOR、ATP6AP2、FLNA、SYN1、PGK1、GDI1、MED12、DKC1、IDS、PQBP1、SMC1A、HUWE1、NSDHL、IGBP1、LAMP2、ATP7A、FTSJ1、RPL10或EIF2S3。

4.
  权利要求3所述的X-染色体失活逃脱基因作为X-连锁精神发育迟滞(XLMR)或智力残疾(ID)疾病研究靶点的用途。

5.
  权利要求1-3任一所述的失活逃脱基因的用途,用于分析人群中倾向基因 逃脱的差异或个体间基因逃脱差异。

6.
  权利要求1-3任一所述的失活逃脱基因的用途,用于分析个体间基因逃脱差异。

说明书

X-染色体失活逃脱基因及其应用
技术领域
本发明属于生物技术和遗传性领域;更具体地,本发明涉及X-染色体失活逃脱基因及其应用。
背景技术
为了保持两性之间X染色体基因表达计量的平衡,哺乳动物进化出了一种机制来失活一条女性的X染色体。虽然人类大部分的X连锁基因将被失活,但至少有15%[1]的基因认为可以逃脱X失活,在女性中呈现一条活跃的X(Xa)和一条“不活跃”X(Xi)染色体。逃脱基因在人类X染色体上分布在集中[1,2],这说明逃脱的调控可能由染色质的区域效应调控,并且大多数的逃脱基因已经被证明是位于X染色体短臂上的[3]。这反映了一种约束机制:基因距离X失活中心(Xic)遥远,其受到失活的影响越小,例如失活中心远端X长臂的基因,当然异染色质的着丝粒也可能是阻断XIST RNA转播失活效应的障碍。
考虑到哺乳动物X染色体基因含量的保守性,可以推测能够逃脱X失活可能是一种进化的特征。这个问题通过对比老鼠和人类[1,4,5]的X染色体失活基因有所了解。例如,Yong et al.[5]利用RNA测序技术,结合单核苷酸多态性(SNP)识别,来推断小鼠逃脱概况并且比较与人类的不同。老鼠的X逃脱情况和人类的有显著差异,在基因数量和整体状态都不相同,但是为什么人类的较之老鼠逃脱更普遍,原因不明。
这种人类的逃脱X失活的普遍性可能与人类的X多倍体的相对严重程度相关。X染色体多倍型目前与众多的表型相关,包括引起精神发育迟滞和对增长的影响[6]。通常,当超过一个X染色体存在时,其他所有的X染色体都会失活[7,8]。因此,逃脱失活基因是目前研究与X多倍体有关的剂量介导的表型紊乱的重要候选基因[9,10],确定哪些基因逃脱X失活具有潜在临床意义。
目前X多倍体的研究也说明了,即使有相同的染色体组型的表型,但个体之间仍然有明显的多样性[6,9,11]。事实上,尽管许多XXX女性未被确诊[9,12],她们已经有明显的表型多样性[11]。这可能反映了不同程度的镶嵌性 [9]。然而,它还可能反映个体逃脱X失活的差异。这与目前的发现一致,人类不同的个体基因逃脱X失活可以有不同的表达水平[1,13],这些表达有差异的基因估计占到X连锁基因10%或更多。
之前的研究,通过采用基于荧光的定量分析及单核苷酸引物延伸的技术发现了人类的逃脱基因[1],为确定人类基因的X失活状态做出巨大贡献。该研究检测了成纤维细胞有限的x连锁基因(N=94),总共发现有35%的基因表现出某种形式的逃脱,而其中15%表现为在所有样本中逃脱[1]。鉴于这个细胞株的有限的基础分析,同一作者又使用一个更系统化的体细胞杂交系统(超过600X连锁的转录本),确认了94个转录本总是逃脱失活和另外61在样本中是杂合的。
虽然体细胞杂交数据已经呈现与成纤维细胞数据相对一致的结果[1],但仍然值得探讨是,基于高通量数据大规模的研究,能否证实或发现正常细胞株基因逃脱X失活。
发明内容
本发明的目的在于提供X-染色体失活逃脱基因及其应用。
在本发明的第一方面,提供一种X-染色体失活逃脱基因,所述基因包括:ABCB7、AIFM1、ALG13、APEX2、APOO、ARHGAP4、ARMCX3、ATP6AP1、ATP6AP2、ATP7A、BCOR、BTK、CCDC22、CD99L2、CDK16、CTPS2、CXORF21、CXORF38、CXORF40A、CYBB、DDX26B、DDX3X、DKC1、DMD、DNASE1L1、DOCK11、EBP、EDA2R、EIF1AX、EIF2S3、ELF4、ELK1、FAM3A、FLNA、FTSJ1、G6PD、GDI1、GEMIN8、GPR174、GRIPAP1、HAUS7、HCFC1、HDHD1、HUWE1、IDS、IGBP1、IRAK1、LAMP2、LOC550643、MAGED1、MAGED2、MAGEH1、MAP7D2、MAP7D3、MBNL3、MED12、MED14、MID1IP1、MORF4L2、MPP1、MSL3、MTMR1、NSDHL、P2RY10、PDHA1、PDK3、PGK1、PIM2、PIN4、PIR、PJA1、PLXNA3、PQBP1、PRKX、RBM3、RENBP、RNF113A、RPL10、SASH3、SAT1、SEPT6、SH3BGRL、SH3KBP1、SLC25A43、SLC25A5、SLC38A5、SMC1A、SNX12、STS、SUV39H1、SYN1、TAZ、TBC1D25、TBL1X、TCEAL4、TLR7、TMEM187、TRAPPC2、TSIX、TSR2、TXLNG、UBA1、UBL4A、USP9X、UTP14A、VBP1、WWC3、XIAP、XIST、ZC4H2、ZFX、ZMYM3、ZNF275或ZNF75D。
在一个优选例中,所述基因包括:ARHGAP4、CXORF21、CYBB、ELF4、GDI1、GPR174、HAUS7、LOC550643、MAGED1、P2RY10、SLC25A43、TAZ、TLR7或TSIX。
在另一优选例中,所述基因包括:DMD、PDHA1、HCFC1、BCOR、ATP6AP2、FLNA、SYN1、PGK1、GDI1、MED12、DKC1、IDS、PQBP1、SMC1A、HUWE1、NSDHL、IGBP1、LAMP2、ATP7A、FTSJ1、RPL10或EIF2S3。
在本发明的另一方面,提供所述的X-染色体失活逃脱基因作为X-连锁精神发育迟滞(XLMR)或智力残疾(ID)疾病研究靶点的用途。
在本发明的另一方面,提供所述的失活逃脱基因的用途,用于分析人群中倾向基因逃脱的差异或个体间基因逃脱差异。
在本发明的另一方面,提供所述的失活逃脱基因的用途,用于分析个体间基因逃脱差异。
本发明的其它方面由于本文的公开内容,对本领域的技术人员而言是显而易见的。
附图说明
图1、本发明人将RNA测序的读段比对到参考基因组,并计算每个外显子的读段覆盖度。外显子区域是根据X染色体编码基因的信息确定。a)GSE16921的数据有更高的覆盖深度和广度,表明该数据的测序和比对结果质量较高。b)GSE19480是中等的覆盖度,而且有些区域是比较低的测序深度。覆盖度低的区域的分析结果肯定是不可靠的,所以这些区域将不会被考虑。c)GSE25030中大部分样本的覆盖度不高,所以GSE25030中高覆盖度的区域被保留,作为GSE16921数据集的补充。
图2、CEU和YRI人群中至少有两个个体中确定的逃脱失活基因在X染色体上分布的概貌,这与已报道的人类X染色体逃脱失活基因在X染体上呈现聚集分布的结论是一致的。在至少三个中并且是大于潜在逃脱个体总数的50%的个体中发现的逃脱基因标为常见逃脱(红色),其他的基因被定义为罕见逃脱(蓝色)。
图3、本发明人统计了每个个体与XLMR相关的逃脱失活基因的个数,并按其数目从大到小依次画出与XLMR相关的基因的数目。
图4、在CEU、YRI两人群中有显著差异的基因在X染色体上的位置。
具体实施方式
本发明利用永生B淋巴细胞的RNA测序数据,基于高通量数据大规模研究,发现了一些新的正常细胞株基因逃脱X失活的基因。
本发明首次提出使用高通量技术寻找正常人中逃脱X染色体失活的基因,确定了76个新基因,发现它们呈现一定种程度的逃脱失活。同时利用相同的数据,也可以发现个体之间逃脱失活的异质性。会有一些人表现出易于常人的逃脱(hyper-escapees)么,允许比别人更多的基因逃脱么?不同人群在逃脱数量和程度上会不同么?为了解决这些问题,本发明人研究了两种群的逃脱X失活基因的概况,两种人群分别是拥有北方和西部的欧洲血统的美国居民(CEU)和尼日利亚Yoruban人群(YRI)。本发明人找到了有力的证据,证明两个人群之间或人与人之间存在显著的异质性。并且,第一个发现这些易逃脱失活基因与智力发育基因高度相关,智力差异的数量性状可能由于逃脱失活的程度决定。这些结果对药物基因组学的病因分析和X染色体倍数性破坏表型的研究具有重要作用。
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件如J.萨姆布鲁克等编著,分子克隆实验指南,第三版,科学出版社,2002中所述的条件,或按照制造厂商所建议的条件。除非另外说明,否则百分比和份数按重量计算。
分析方法:
数据收集
RNA测序的数据时从NCBI GEO数据库[3]下载(CEU:GSE16921和 GSE25030,YRI:GSE19480)。使用了其中所有的女性样本,并随机选取一些男性作为对照。样本GSE25030中的NA10847和NA12414被提出,因为这两个样本没有在HapMap数据库中注释的SNP。基因以及注释信息来自UCSC的人类基因注释信息(hg19,GRCh37)。
覆盖度分析
本发明人用BEDtools[31]来计算全基因组的覆盖度。
将测序Reads比对到参考基因组
用Tophat[32]软件将Reads比对到参考基因组序列(build hg19)。比对过程中选择Tophat默认的分析Illumina测序仪结果的默认参数。
寻找杂合位点
利用SAMTOOLS软件[33],根据贝叶斯推断检测杂合位点,其中QUAL值小于20或Reads数小于6的被去除。同时考虑5’和3’的测序变差不同,本发明人要求必须有正链和负链共同覆盖杂合位点,并且找到的杂合位点不能位于3’末端,因为3’末端测序质量明显下降。
实施例1、策略和质量控制
因为X失活发生在胚胎发育早期[14、15],所有的细胞都是来源于同一个细胞系,所以都应该只是表达的两个等位基因的其中某一个。那么,杂合(同时表达两个等位基因)的转录本信息就可能预示该基因逃脱了X染色体失活。为了识别哪些基因同时表达来自父本和来自母本的转录本,本发明人分析了来自CEU和YRI的正常女性的RNA-seq高通量测序数据。RNA-seq测序的Reads比对到人类参考基因组。比对上的Reads条数反映了基因的表达量[16]。X染色体两等位基因共同表达的位置,根据比对上的Reads的碱基序列确定,并且去掉已验证的SNP位点以外的位点。
虽然这种方法的原理简单直接,但测序的深度和覆盖的广度,会明显影响数据的可靠性和双等位基因表达的明显程度式。因此,为了减少噪音,低覆盖度的区域应该被删除。为此,本发明人基于X染色体的外显子注释信息,计算了测序的覆盖程度和深度(图1)。YRI的Reads覆盖度略低于CEU的,这可能 会阻碍在YRI中有效逃脱位点的观测。然而标准化后,X染色体和常染色体的Reads丰度没有显示出显著的偏差,除了GSE25030的数据。所以,GSE25030的数据只能被用来作为GSE16921补充。本发明人认为,在研究中超过6x的深度足够发现杂合位点,其他低的覆盖区域将被除去。
沉默的等位基因的低量Reads,会引起一定程度上的假阳性杂合,为了避免这种错误,需要较少等位等位基因至少要占较多的等位等位基因的10%以上(这个标准被用来识别人类基因逃脱[1])。注意,这里较少的比较多的频率是指等位基因在转录组内的比值,而不是在人群中的比值。根据这个定义可以排除一部分人为的假杂合的错误,但也可能会错误地增加一些不逃脱基因(假阴性)。
由国际人类基因组单体型图计划发布的dbSNP134中CEU和YRI的变异位点[17]作为验证的变异位点,来识别本发明测序数据中的杂合位点。共有73792和89732X-连锁的SNP位点分别在CEU人群和YRI中注释出。其中,分别有21087和26413个SNP位点是在CEU和YRI的基因内(平均每个基因有31.24和37.41个SNP)。大多数SNP是分布在内含子区域,对于寻找X染色体逃脱基因没有作用。X连锁基因已知有1001个(其中包括823已知的人类蛋白质编码基因和178个非蛋白编码基因[18]),分别CEU和YRI中有675和706个基因包含至少一个外显子SNP的,被认为是确定逃脱失活的潜在基因。
实施例2、比对错误罕见
即使有上述质量控制,比对错误仍然不可避免。这种错误在重复基因中尤为明显。假设我们只关注X染色体基因,但对于某些X连锁基因,至少在某些个体中,基因组中存在我们关注的基因相似序列的同源基因,但这个同源基因没有在参考基因组中注释。在这种情况下,我们将会无意识的将我们不关注的这一同源基因的转录本比对到我们关注的X染色体基因上来。这个时候,如果两个重复的基因的某些碱基不同,那么可能会错误地推断关注的基因逃脱失活了。因此,为了确保可以避免这种问题,我们使用人类基因组单体型图中描述的X染色体基因中的SNP作为确定逃脱的候选位点,这样就可以很大程度上解决这个问题(任何随机突变如果发生在非关注的基因中,将不会将其考虑为杂合性的证据)。当然不一定能够完全消除这一方面的错误。这种错误是现在高通量测序数据比对到基因组是时普遍面临的问题。
通过采用男性细胞系作为阴性对照,检测基因在男性中的表达(男性应该只 能表达一份,所以不会出现杂合),我们可以检验这种错误发生的频率。如果这种不正确的比对发生,并且关注基因和非关注基因都表达,那么男性也应该出现在X染色体上的“杂合”。我们发现男性样本中X染色体基因仅有少量的“杂合”(CEU3个和YRI2个),表明女性样品中极少会产生比对错误带来的假阳性。这些男性中发现的“杂合”基因有STS,FTX,PLXNA3,CXorf4B和MTMR1。STS PLXNA3和MTMR1在两个人群中都出现,CXorf40B只出现在YRI。这些错误可能是由于基因组未知区域或CNVs的Reads比对到了目标基因。
还应注意,在男性中存在的这些“杂合的”X-连锁基因并不意味着比对问题。可能还会出现这样的情况,在细胞培养中一个X连锁基因突变,并且和已知的SNP一样(虽然这可能不能够解释重复的杂合)。由于RNA-Seq数据来自细胞群(而不是在单细胞),因此低频率的由突变衍生的杂合性是可以预见的。进一步的分析中我们删除这些男性中“杂合”的位点,它们在女性可能导致错误的分析。
随后我们进一步的阴性控制,排除比对问题引起的错误。如果发生比对错误,我们也应在女性中检测到X-连锁基因有三个或三个以上的等位基因。37CEU女性里285个基因中,我们只检测到26个位置,40YRI女性的510个基因只有14个位置被判定为具有2个以上等位基因。在进一步分析中,这些位点也被删除了。
在原则上,拟常基因的分析可以作为阳性对照。但在人类基因组单体型计划中未给出这19个假体染色体基因的SNP[19],除了XG,然而,XG却没有足够的Reads覆盖度。
根据上述的质量控制,本发明人考虑同一个基因内不同SNP的杂合和纯合的信号应该是一致。在这两个群体中,有些基因(CEU和YRI分别为32和44个)包含至少两个SNP。在这些包含多个信息位点的基因中,大部分基因(CEU和90.3%,90.9%在YRI)内的SNP表现一致的结果,即RNA-seq的Reads在所有潜在的杂合位点要么都是纯合,要么都杂合。例外的情况下,一个位点是杂合子,另一些不是杂合,是由于这些位置的测序深度不够引起的。总共有1643个基因有足够的测序深度,并且包含有多个潜在的杂合位点。其中,只有75个基因(<5%)至少有一个位点是不与其他基因内的位置保持一致的。
实施例3、确定新的X-染色体失活逃脱基因
本发明人从UCSC提取注释基因的转录信息,将双等位基因位点定位到注释基因。由于从失活的X染色体表达的量应该低于活性X染色体,所以我们认为较少的Reads值的等位基因是来自“沉默的”X染色体,较多的Reads值的等位基因是“活性”等位基因。根据杂合10%的阈值[1],总共发现了CEU的37个人中有113个基因表现出逃脱失活,YRI的40个人中103个基因逃脱失活。
本发明人只认为具有重复证据的基因是“验证”的逃脱基因。重复是指两个或两个以上的个人或一个人两个或多个SNP位点,表明基因逃脱(表1)(初步认为逃脱的基因,没有重复证据的基因见表1’)。允许这两种判定重复的方法之间重叠时,我们发现,其中有38个与先前报道的通过啮齿动物/人的体细胞杂交法和初级人类细胞系测定[1]的逃脱基因一致。此外,我们观察到76个新的逃脱失活的基因。在我们正常个体的B淋巴细胞系中总共发现了114个确定逃脱失活的基因(表1)。其中14个在先前未被报道是逃脱基因(而不是根本就没有研究)。这14个基因里面有4个是满足在不同个体间的一致性并且基因内SNP位点杂合性也一致的要求。我们提供了更多的支持人类X染色体逃脱的证据,但也有23个基因,之前被证实[1]在一定程度上会逃脱失活,我们这里无法确认是逃脱的。
表1、114个逃脱基因及重复证据


“SNP”栏表明该基因是否含有多个杂合位点支持该基因逃脱失活;“个体”栏表明该基因是否在多个个体中都表现出逃脱失活;“据报道”一栏指明之前人鼠杂交细胞的结果。“逃脱”指基因在所有女性样本中表现逃脱失活,“杂合”指基因只在一部分女性中逃脱失活,不是所有样本中。
表1’

在本发明人发现的114个逃脱基因中,有110个基因是在两个或两个以上的个人中表现逃脱失活的。其中CEU有60个,YRI有80个基因在至少有两个不同的个体内逃脱(图2),共103个不同的基因。共45个确认为杂合基因是基因多个SNP位点(见表1),其中27个是以前不知道可以逃脱X染色体失活,其中41个被证实基于个体之间的重复。少数(3或4个)基因中大多数杂合位点是一致的,但不是所有的,在不同人中的杂合性是一致的。本发明人认为这些仍然是具有重复证据的基因,因为a)大多数位点都一致和b)如上文所述,由于覆盖度问题,在一个基因的杂合性的不一致性是难以避免的或由于某些等位基因的Reads数低于10%,但种情况下,它们仍然会被称为是纯合。
实施例4、新发现的逃脱X染色体失活基因在已知领域的聚集
先前发现的逃脱基因往往距离X染色体失活中心很远。在数据中同样看到这样的情况(图2)。两个种群的逃脱基因在染色体上的分布与大多数逃脱基因一 样,位于短臂远端部分和X染色体长臂(PAR2区域)。这与此前发表的人类的X染色体失活由染色质区域的控制的理论是一致的[1,2,5]。
也有一小簇逃脱基因是在紧邻XIC的区域内(图2)。这个集群只有在YRI中发现,这可能是由于YRI有更大程度的DNA杂合性,使我们更容易在该人群中发现逃脱基因。如果这个集群是真实的,只与几个基因相关,产生杂合,然而这些基因在两个种群之间并没有显著差异。但是一个类似位置的群集逃脱分布也在先前的研究中报道[1]。本发明人认为,Xist基因在XIC的附近可能有较弱的影响。
实施例5、逃脱X染色体失活基因普遍与精神障碍相关
值得注意的是,许多X染色体倍性的改变(包括XXY,XXX,XXXX,XXXXX)都与学习障碍有关[6]。事实上,这可能是X多倍体核型唯一的一贯的特点[6]。通常是全部被失活但如果只有一个X失活,它的表型通常被认为是反映这种逃脱X染色体失活的基因作用。是否可以找到逃脱失活的基因通常与精神发育迟滞有关的证据呢?
我们可以定义X-连锁精神发育迟滞(XLMR)或智力残疾(ID)的基因,这些基因突变会影响正常智力水平[20,21]。相关XLMR基因可以从格林伍德遗传中心(Greenwood Genetic Centre)获得[20]。在114个逃脱基因中,有22个基因参与疾病的X连锁精神发育迟滞(XLMR)或智力残疾(ID)(表2)。有833个包含足够的Reads数的可检测基因,包括91个XLMR/ID基因和114逃脱基因。为了计算显著性(P值),本发明人随机从833个基因中选择114个基因,记录有多少次找到的XLMR基因,是大于或等于22的。由此得到的P值为:P=(n+1)/(m+1),其中n是一些情况下的观察值大于随机的值,m是随机的次数(我们采用m=10,000)。最终,22个基因显著大于随机情况下的值,说明逃脱失活的基因在XLMR基因中富集(P=0.0025)。这22个基因将是进一步分析的候选基因,在这种情况下,在智力水平受影响的个体中,这些基因可能反映了高剂量(图3),不同个体逃脱的计量各不相同。
表2、与XLMR相关的逃脱基因

注:XLMR鉴定的基因突变。数值A/B,其中A表示发生基因逃脱的个体数,B表示潜在的逃脱个体数(包含杂合基因型的个体)。
实施例6、基因逃脱的情况在CEU和YRI中明显不同
在本研究中,本发明人总共找到CEU和YRI的人群有相同的66个逃脱X染色体失活的基因,包括几个著名的逃脱基因(HDHD1,STS,ZFX,EIF2S3,CXorf38,DDX3X)。然而,本发明人更关注两人群之间的差异,而不是两个群体中常见的逃脱基因。表3中列出的所有确认的逃脱基因在两个种群中的基因多态性,和潜在的逃脱基因,以及这些基因的在不同人群中的逃脱状态。
表3


注:百分比指示该人群中有百分之多少的个体逃脱失活。每个百分比范围内,CEU和YRI两个人群共有的逃脱失活基因被标为红色。
为了确定是否存在人群之间的逃脱趋势的差异,本发明人计算了这两个群体中,每个基因的逃脱情况,包括有多少人逃脱失活(不一定要求重复)和有多少人包含是杂合的潜在逃脱信息(SNP)。缺乏足够Reads数的区域或个人被剔除。然后进行了似卡方检验,P值根据蒙托卡罗模拟求得。显著性检验基于,任何给定基因分布的比例在CEU和YRI中没有差别的零假设(同时考虑各样本大小所占的比例)。最终,本发明人将总的观察到的逃脱数目,随机地重新分配给两个人群,并基于他们两个基团的相对潜在逃脱人数的大小。然后,对于每个基因,可以计算卡方值,再对从模拟得到的分布进行比较。在样本量较低的情况下,蒙特卡罗方法是最好的求P值的办法。对于比较两个人群所有基因的整体差异,用每个基因卡方值的总和来比较。
两个人群在整体逃脱情况上是否有差异的这个问题的答案是明确的:这两个人口群体有显著不同(观察到的卡方=196.56,预期=119.94+/-16.07(SD),P<0.0001)。这种整体上的差异既可以是因为在这两个群体中逃脱基因是不同的,也可以是因为对于一个给定的基因逃脱的个体的比例是不同的。
实施例7、分析哪些基因在两人群中倾向逃脱的情况不同
在群体间,基因整体水平上表现显著的变化。但是,我们能否确定这两个种群之间的那些基因是不同的?对于每一个基因,本发明人找到一些基因在两人群中有显著差异(表4,图4)。这些显著基因也说明了群体间的差异性。所以值得去研究这些基因的不同是不是导致生物种群表型不同的因素。
这6个显著基因在X染色体上并不是聚在一起,而是分散的。它们周围的基因并没有表现出种群间逃脱的差异(图4)。这一结果说明种群间逃脱差异的调控,不是像通常失活调控那样,受染色体区域调控的。
表4

CEU和YRI栏中的分数表明了人群中该基因发生逃脱失活的比例。分子是逃脱失活个体的个数,分母是个体在DNA水平是杂合的个数。比较CEU和YRI两个人群的逃脱失活基因的差异,计算差异显著度P值(这里只给出P值小于0.1的基因)。
实施例8、个体间逃脱差异的证据
上述数据表明,这两个种群在他们允许逃脱X染色体失活的倾向有很大不同。但是,是否有些女性更容易或更不容易发生逃脱失活呢?为了解决这个问 题,本发明人计算了基因逃脱的个数和潜在的逃脱基因的个数(即可能是杂合子的基因但没有表现出杂合性),并比较每个不同的人与剩下所有人,进行似卡方检验,和蒙特卡洛模拟。结果显示77个人中,CEU有5个人表现出比预期有更多的逃脱,YRI有8个人,本发明人定义为过高逃脱女性(hyper-escapees)(P<0.05)(表5)。Holm多重检验修正后CEU有4个,YRI有1个仍然保持高逃脱。这与之前的研究中群体内的个体在他们允许基因逃脱失活的倾向上不同是一致的[1]。如果仅仅根据这13个过高逃脱女性的数据,我们仍然可以检测到两个种群之间存在出显着的差异(P=0.028)。这表明,对于逃脱失活,人群间的差异和个体间的差异并存。此外,我们还发现CEU和YRI中分别有5个和6个女性表现出过低逃脱(hypo-escape),但经过多重检验修正后只剩下YRI的一个女性是显著的。由此可见逃脱失活在个体之间存在30%的差异,这一差异可能体现着这些计量的不同,表现出个体不同的表型,尤其是智力发育相关的基因。寻找这些差异逃脱基因为寻找影响智力的基因提供了指导,智力差异的数量性状可能由于逃脱失活的程度决定。因此本研究提出的寻找正常人逃脱基因的方法为药物基因组学提供了个体治疗的新思路。
表5


在“逃脱”栏中的两个数N:M分别代表:N是该个体发生逃脱的基因个数,M是潜在的但没有发生逃脱失活的基因个数。Holm多重检验矫正后,仍然显著地基因标为红色和蓝色:红色代表“过高逃脱”,蓝色代表“过低逃脱”。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
参考文献
1.Carrel L,Willard HF:X-inactivation profile reveals extensive variability in X-linked gene expression in females.Nature2005,434(7031):400-404.
2.Tsuchiya KD,Greally JM,Yi Y,Noel KP,Truong JP,Disteche CM:Comparative sequence and x-inactivation analyses of a domain of escape in human xp11.2and the conserved segment in mouse.Genome research2004,14(7):1275-1284.
3.Disteche CM:Escapees on the X chromosome.Proceedings of the National Academy of Sciences of the United States of America1999,96(25):14180-14182.
4.Disteche CM,Filippova GN,Tsuchiya KD:Escape from X inactivation.Cytogenetic and genome research2002,99(1-4):36-43.
5.Yang F,Babak T,Shendure J,Disteche CM:Global survey of escape from X inactivation by RNA-sequencing in mouse.Genome research2010,20(5):614-622.
6.Rooman RP,Van Driessche K,Du Caju MV:Growth and ovarian function in girls with48,XXXX karyotype--patient report and review of the literature.JPediatr Endocrinol Metab2002,15(7):1051-1055.
7.Belmont AS,Bignone F,Ts’O POP:The relative intranuclear positions of barr bodies in XXX non-transformed human fibroblasts.Experimental Cell Research1986,165(1):165-179.
8.Lyon MF:Gene action in the X-chromosome of the mouse(Mus musculus L.).Nature1961,190:372-373.
9.Tartaglia N,Howell S,Sutherland A,Wilson R,Wilson L:A review of trisomy X(47,XXX).Orphanet Journal of Rare Diseases2010,5(1):8.
10.Linden M,Bender B,Robinson A:Sex chromosome tetrasomy and pentasomy.Pediatrics1995,96(4Pt1):672-682.
11.Otter M,Schrander-Stumpel CT,Curfs LM:Triple X syndrome:a review of the literature.Eur J Hum Genet2010,18(3):265-271.
12.Gustavson KH:Triple X syndrome deviation with mild symptoms.The majority goes undiagnosed.Lakartidningen1999,96(50):5646-5647.
13.Brown CJ,Greally JM:A stain upon the silence:genes escaping X  inactivation.Trends in genetics:TIG2003,19(8):432-438.
14.Brown CJ,Ballabio A,Rupert JL,Lafreniere RG,Grompe M,Tonlorenzi R,Willard HF:A gene from the region of the human X inactivation centre is expressed exclusively from the inactive X chromosome.Nature1991,349(6304):38-44.
15.Heard E,Disteche CM:Dosage compensation in mammals:fine-tuning the expression of the X chromosome.Genes&development2006,20(14):1848-1867.
16.Wang Z,Gerstein M,Snyder M:RNA-Seq:a revolutionary tool for transcriptomics.Nature reviews Genetics2009,10(1):57-63.
17.Altshuler DM,Gibbs RA,Peltonen L,Dermitzakis E,Schaffner SF,Yu F,Bonnen PE,de Bakker PI,Deloukas P,Gabriel SB et al:Integrating common and rare genetic variation in diverse human populations.Nature2010,467(7311):52-58.
18.Hsu F,Kent WJ,Clawson H,Kuhn RM,Diekhans M,Haussler D:The UCSC Known Genes.Bioinformatics2006,22(9):1036-1046.
19.Helena Mangs A,Morris BJ:The Human Pseudoautosomal Region(PAR):Origin,Function and Future.Current genomics2007,8(2):129-136.
20.Gecz J,Shoubridge C,Corbett M:The genetic landscape of intellectual disability arising from chromosome X.Trends in genetics:TIG2009,25(7):308-316.
21.Stevenson RE,Schwartz CE:X-linked intellectual disability:unique vulnerability of the male genome.Developmental disabilities research reviews 2009,15(4):361-368.
22.Rao E,Weiss B,Fukami M,RumpAndreas,Niesler B,Mertz A,Muroya K,Binder G,Kirsch S,Winkelmann M et al:Pseudoautosomal deletions encompassing a novel homeobox gene cause growth failure in idiopathic short stature and Turner syndrome.Nat Genet1997,16(1):54-63.
23.Deng HW,Xu FH,Liu YZ,Shen H,Deng H,Huang QY,Liu YJ,Conway T,Li JL,Davies KM et al:A whole-genome linkage scan suggests several genomic regions potentially containing QTLs underlying the variation of stature.Am J Med Genet2002,113(1):29-39.
24.Liu YZ,Xu FH,Shen H,Liu YJ,Zhao LJ,Long JR,Zhang YY,Xiao P, Xiong DH,Dvornyk V et al:Genetic dissection of human stature in a large sample of multiplex pedigrees.Ann Hum Genet2004,68(Pt5):472-488.
25.Liu Y-Z,Xiao P,Guo Y-f,Xiong D-H,Zhao L-J,Shen H,Liu Y-J,Dvornyk V,Long J-R,Deng H-Y et al:Genetic linkage of human height is confirmed to9q22and Xq24.Human Genetics2006,119(3):295-304.
26.Visscher PM,Macgregor S,Benyamin B,Zhu G,Gordon S,Medland S,Hill WG,Hottenga JJ,Willemsen G,Boomsma DI et al:Genome partitioning of genetic variation for height from11,214sibling pairs.Am J Hum Genet2007,81(5):1104-1110.
27.Lai Y:A moment-based method for estimating the proportion of true null hypotheses and its application to microarray gene expression data.Biostatistics 2007,8(4):744-755.
28.Lopes A,Burgoyne P,Ojarikre A,Bauer J,Sargent C,Amorim A,Affara N:Transcriptional changes in response to X chromosome dosage in the mouse:implications for X inactivation and the molecular basis of Turner Syndrome.BMC Genomics2010,11(1):82.
29.DeVeale B,van der Kooy D,Babak T:Critical evaluation of imprinted gene expression by RNA-Seq:a new perspective.PLoS Genet2012,8(3):e1002600.
30.Barrett T,Troup DB,Wilhite SE,Ledoux P,Rudnev D,Evangelista C,Kim IF,Soboleva A,Tomashevsky M,Marshall KA et al:NCBI GEO:archive for high-throughput functional genomic data.Nucleic acids research2009,37(Database issue):D885-890.
31.Quinlan AR,Hall IM:BEDTools:a flexible suite of utilities for comparing genomic features.Bioinformatics2010,26(6):841-842.
32.Trapnell C,Pachter L,Salzberg SL:TopHat:discovering splice junctions with RNA-Seq.Bioinformatics2009,25(9):1105-1111.
33.Li H,Handsaker B,Wysoker A,Fennell T,Ruan J,Homer N,Marth G,Abecasis G,Durbin R:The Sequence Alignment/Map format and SAMtools.Bioinformatics2009,25(16):2078-2079.

X染色体失活逃脱基因及其应用.pdf_第1页
第1页 / 共20页
X染色体失活逃脱基因及其应用.pdf_第2页
第2页 / 共20页
X染色体失活逃脱基因及其应用.pdf_第3页
第3页 / 共20页
点击查看更多>>
资源描述

《X染色体失活逃脱基因及其应用.pdf》由会员分享,可在线阅读,更多相关《X染色体失活逃脱基因及其应用.pdf(20页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN104152456A43申请公布日20141119CN104152456A21申请号201310176159422申请日20130513C12N15/12200601C12Q1/6820060171申请人中国科学院上海生命科学研究院地址200031上海市徐汇区岳阳路319号72发明人孔祥银张宇超胡兰靛朱于非74专利代理机构上海专利商标事务所有限公司31100代理人陈静54发明名称X染色体失活逃脱基因及其应用57摘要本发明涉及基于高通量数据大规模的研究,能否证实或发现正常细胞株基因逃脱X失活。本发明利用永生B淋巴细胞的RNA测序数据,基于高通量数据大规模研究,揭示了一些新的正常。

2、细胞株基因逃脱X失活的基因,并研究了这些基因的群体间或个体间基因逃脱差异。51INTCL权利要求书1页说明书14页附图4页19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书14页附图4页10申请公布号CN104152456ACN104152456A1/1页21一种X染色体失活逃脱基因,其特征在于,所述基因包括ABCB7、AIFM1、ALG13、APEX2、APOO、ARHGAP4、ARMCX3、ATP6AP1、ATP6AP2、ATP7A、BCOR、BTK、CCDC22、CD99L2、CDK16、CTPS2、CXORF21、CXORF38、CXORF40A、CYBB、DDX26。

3、B、DDX3X、DKC1、DMD、DNASE1L1、DOCK11、EBP、EDA2R、EIF1AX、EIF2S3、ELF4、ELK1、FAM3A、FLNA、FTSJ1、G6PD、GDI1、GEMIN8、GPR174、GRIPAP1、HAUS7、HCFC1、HDHD1、HUWE1、IDS、IGBP1、IRAK1、LAMP2、LOC550643、MAGED1、MAGED2、MAGEH1、MAP7D2、MAP7D3、MBNL3、MED12、MED14、MID1IP1、MORF4L2、MPP1、MSL3、MTMR1、NSDHL、P2RY10、PDHA1、PDK3、PGK1、PIM2、PIN4、PIR、。

4、PJA1、PLXNA3、PQBP1、PRKX、RBM3、RENBP、RNF113A、RPL10、SASH3、SAT1、SEPT6、SH3BGRL、SH3KBP1、SLC25A43、SLC25A5、SLC38A5、SMC1A、SNX12、STS、SUV39H1、SYN1、TAZ、TBC1D25、TBL1X、TCEAL4、TLR7、TMEM187、TRAPPC2、TSIX、TSR2、TXLNG、UBA1、UBL4A、USP9X、UTP14A、VBP1、WWC3、XIAP、XIST、ZC4H2、ZFX、ZMYM3、ZNF275或ZNF75D。2如权利要求1所述的X染色体失活逃脱基因,其特征在于,所述。

5、基因包括ARHGAP4、CXORF21、CYBB、ELF4、GDI1、GPR174、HAUS7、LOC550643、MAGED1、P2RY10、SLC25A43、TAZ、TLR7或TSIX。3如权利要求1所述的X染色体失活逃脱基因,其特征在于,所述基因包括DMD、PDHA1、HCFC1、BCOR、ATP6AP2、FLNA、SYN1、PGK1、GDI1、MED12、DKC1、IDS、PQBP1、SMC1A、HUWE1、NSDHL、IGBP1、LAMP2、ATP7A、FTSJ1、RPL10或EIF2S3。4权利要求3所述的X染色体失活逃脱基因作为X连锁精神发育迟滞XLMR或智力残疾ID疾病研究靶点。

6、的用途。5权利要求13任一所述的失活逃脱基因的用途,用于分析人群中倾向基因逃脱的差异或个体间基因逃脱差异。6权利要求13任一所述的失活逃脱基因的用途,用于分析个体间基因逃脱差异。权利要求书CN104152456A1/14页3X染色体失活逃脱基因及其应用技术领域0001本发明属于生物技术和遗传性领域;更具体地,本发明涉及X染色体失活逃脱基因及其应用。背景技术0002为了保持两性之间X染色体基因表达计量的平衡,哺乳动物进化出了一种机制来失活一条女性的X染色体。虽然人类大部分的X连锁基因将被失活,但至少有151的基因认为可以逃脱X失活,在女性中呈现一条活跃的XXA和一条“不活跃”XXI染色体。逃脱基。

7、因在人类X染色体上分布在集中1,2,这说明逃脱的调控可能由染色质的区域效应调控,并且大多数的逃脱基因已经被证明是位于X染色体短臂上的3。这反映了一种约束机制基因距离X失活中心XIC遥远,其受到失活的影响越小,例如失活中心远端X长臂的基因,当然异染色质的着丝粒也可能是阻断XISTRNA转播失活效应的障碍。0003考虑到哺乳动物X染色体基因含量的保守性,可以推测能够逃脱X失活可能是一种进化的特征。这个问题通过对比老鼠和人类1,4,5的X染色体失活基因有所了解。例如,YONGETAL5利用RNA测序技术,结合单核苷酸多态性SNP识别,来推断小鼠逃脱概况并且比较与人类的不同。老鼠的X逃脱情况和人类的有。

8、显著差异,在基因数量和整体状态都不相同,但是为什么人类的较之老鼠逃脱更普遍,原因不明。0004这种人类的逃脱X失活的普遍性可能与人类的X多倍体的相对严重程度相关。X染色体多倍型目前与众多的表型相关,包括引起精神发育迟滞和对增长的影响6。通常,当超过一个X染色体存在时,其他所有的X染色体都会失活7,8。因此,逃脱失活基因是目前研究与X多倍体有关的剂量介导的表型紊乱的重要候选基因9,10,确定哪些基因逃脱X失活具有潜在临床意义。0005目前X多倍体的研究也说明了,即使有相同的染色体组型的表型,但个体之间仍然有明显的多样性6,9,11。事实上,尽管许多XXX女性未被确诊9,12,她们已经有明显的表型。

9、多样性11。这可能反映了不同程度的镶嵌性9。然而,它还可能反映个体逃脱X失活的差异。这与目前的发现一致,人类不同的个体基因逃脱X失活可以有不同的表达水平1,13,这些表达有差异的基因估计占到X连锁基因10或更多。0006之前的研究,通过采用基于荧光的定量分析及单核苷酸引物延伸的技术发现了人类的逃脱基因1,为确定人类基因的X失活状态做出巨大贡献。该研究检测了成纤维细胞有限的X连锁基因N94,总共发现有35的基因表现出某种形式的逃脱,而其中15表现为在所有样本中逃脱1。鉴于这个细胞株的有限的基础分析,同一作者又使用一个更系统化的体细胞杂交系统超过600X连锁的转录本,确认了94个转录本总是逃脱失活。

10、和另外61在样本中是杂合的。0007虽然体细胞杂交数据已经呈现与成纤维细胞数据相对一致的结果1,但仍然值得探讨是,基于高通量数据大规模的研究,能否证实或发现正常细胞株基因逃脱X失活。说明书CN104152456A2/14页4发明内容0008本发明的目的在于提供X染色体失活逃脱基因及其应用。0009在本发明的第一方面,提供一种X染色体失活逃脱基因,所述基因包括ABCB7、AIFM1、ALG13、APEX2、APOO、ARHGAP4、ARMCX3、ATP6AP1、ATP6AP2、ATP7A、BCOR、BTK、CCDC22、CD99L2、CDK16、CTPS2、CXORF21、CXORF38、CXO。

11、RF40A、CYBB、DDX26B、DDX3X、DKC1、DMD、DNASE1L1、DOCK11、EBP、EDA2R、EIF1AX、EIF2S3、ELF4、ELK1、FAM3A、FLNA、FTSJ1、G6PD、GDI1、GEMIN8、GPR174、GRIPAP1、HAUS7、HCFC1、HDHD1、HUWE1、IDS、IGBP1、IRAK1、LAMP2、LOC550643、MAGED1、MAGED2、MAGEH1、MAP7D2、MAP7D3、MBNL3、MED12、MED14、MID1IP1、MORF4L2、MPP1、MSL3、MTMR1、NSDHL、P2RY10、PDHA1、PDK3、PGK。

12、1、PIM2、PIN4、PIR、PJA1、PLXNA3、PQBP1、PRKX、RBM3、RENBP、RNF113A、RPL10、SASH3、SAT1、SEPT6、SH3BGRL、SH3KBP1、SLC25A43、SLC25A5、SLC38A5、SMC1A、SNX12、STS、SUV39H1、SYN1、TAZ、TBC1D25、TBL1X、TCEAL4、TLR7、TMEM187、TRAPPC2、TSIX、TSR2、TXLNG、UBA1、UBL4A、USP9X、UTP14A、VBP1、WWC3、XIAP、XIST、ZC4H2、ZFX、ZMYM3、ZNF275或ZNF75D。0010在一个优选例中,所。

13、述基因包括ARHGAP4、CXORF21、CYBB、ELF4、GDI1、GPR174、HAUS7、LOC550643、MAGED1、P2RY10、SLC25A43、TAZ、TLR7或TSIX。0011在另一优选例中,所述基因包括DMD、PDHA1、HCFC1、BCOR、ATP6AP2、FLNA、SYN1、PGK1、GDI1、MED12、DKC1、IDS、PQBP1、SMC1A、HUWE1、NSDHL、IGBP1、LAMP2、ATP7A、FTSJ1、RPL10或EIF2S3。0012在本发明的另一方面,提供所述的X染色体失活逃脱基因作为X连锁精神发育迟滞XLMR或智力残疾ID疾病研究靶点的用途。。

14、0013在本发明的另一方面,提供所述的失活逃脱基因的用途,用于分析人群中倾向基因逃脱的差异或个体间基因逃脱差异。0014在本发明的另一方面,提供所述的失活逃脱基因的用途,用于分析个体间基因逃脱差异。0015本发明的其它方面由于本文的公开内容,对本领域的技术人员而言是显而易见的。附图说明0016图1、本发明人将RNA测序的读段比对到参考基因组,并计算每个外显子的读段覆盖度。外显子区域是根据X染色体编码基因的信息确定。AGSE16921的数据有更高的覆盖深度和广度,表明该数据的测序和比对结果质量较高。BGSE19480是中等的覆盖度,而且有些区域是比较低的测序深度。覆盖度低的区域的分析结果肯定是不。

15、可靠的,所以这些区域将不会被考虑。CGSE25030中大部分样本的覆盖度不高,所以GSE25030中高覆盖度的区域被保留,作为GSE16921数据集的补充。0017图2、CEU和YRI人群中至少有两个个体中确定的逃脱失活基因在X染色体上分布的概貌,这与已报道的人类X染色体逃脱失活基因在X染体上呈现聚集分布的结论是一致的。在至少三个中并且是大于潜在逃脱个体总数的50的个体中发现的逃脱基因标为常见逃脱红色,其他的基因被定义为罕见逃脱蓝色。0018图3、本发明人统计了每个个体与XLMR相关的逃脱失活基因的个数,并按其数目说明书CN104152456A3/14页5从大到小依次画出与XLMR相关的基因的。

16、数目。0019图4、在CEU、YRI两人群中有显著差异的基因在X染色体上的位置。具体实施方式0020本发明利用永生B淋巴细胞的RNA测序数据,基于高通量数据大规模研究,发现了一些新的正常细胞株基因逃脱X失活的基因。0021本发明首次提出使用高通量技术寻找正常人中逃脱X染色体失活的基因,确定了76个新基因,发现它们呈现一定种程度的逃脱失活。同时利用相同的数据,也可以发现个体之间逃脱失活的异质性。会有一些人表现出易于常人的逃脱HYPERESCAPEES么,允许比别人更多的基因逃脱么不同人群在逃脱数量和程度上会不同么为了解决这些问题,本发明人研究了两种群的逃脱X失活基因的概况,两种人群分别是拥有北方。

17、和西部的欧洲血统的美国居民CEU和尼日利亚YORUBAN人群YRI。本发明人找到了有力的证据,证明两个人群之间或人与人之间存在显著的异质性。并且,第一个发现这些易逃脱失活基因与智力发育基因高度相关,智力差异的数量性状可能由于逃脱失活的程度决定。这些结果对药物基因组学的病因分析和X染色体倍数性破坏表型的研究具有重要作用。0022下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件如J萨姆布鲁克等编著,分子克隆实验指南,第三版,科学出版社,2002中所述的条件,或按照制造厂商所建议的条件。除非另外说。

18、明,否则百分比和份数按重量计算。0023分析方法0024数据收集0025RNA测序的数据时从NCBIGEO数据库3下载CEUGSE16921和GSE25030,YRIGSE19480。使用了其中所有的女性样本,并随机选取一些男性作为对照。样本GSE25030中的NA10847和NA12414被提出,因为这两个样本没有在HAPMAP数据库中注释的SNP。基因以及注释信息来自UCSC的人类基因注释信息HG19,GRCH37。0026覆盖度分析0027本发明人用BEDTOOLS31来计算全基因组的覆盖度。0028将测序READS比对到参考基因组0029用TOPHAT32软件将READS比对到参考基因。

19、组序列BUILDHG19。比对过程中选择TOPHAT默认的分析ILLUMINA测序仪结果的默认参数。0030寻找杂合位点0031利用SAMTOOLS软件33,根据贝叶斯推断检测杂合位点,其中QUAL值小于20或READS数小于6的被去除。同时考虑5和3的测序变差不同,本发明人要求必须有正链和负链共同覆盖杂合位点,并且找到的杂合位点不能位于3末端,因为3末端测序质量明显下降。0032实施例1、策略和质量控制0033因为X失活发生在胚胎发育早期14、15,所有的细胞都是来源于同一个细胞系,所以都应该只是表达的两个等位基因的其中某一个。那么,杂合同时表达两个等位基因的转录本信息就可能预示该基因逃脱了。

20、X染色体失活。为了识别哪些基因同时表达来自父说明书CN104152456A4/14页6本和来自母本的转录本,本发明人分析了来自CEU和YRI的正常女性的RNASEQ高通量测序数据。RNASEQ测序的READS比对到人类参考基因组。比对上的READS条数反映了基因的表达量16。X染色体两等位基因共同表达的位置,根据比对上的READS的碱基序列确定,并且去掉已验证的SNP位点以外的位点。0034虽然这种方法的原理简单直接,但测序的深度和覆盖的广度,会明显影响数据的可靠性和双等位基因表达的明显程度式。因此,为了减少噪音,低覆盖度的区域应该被删除。为此,本发明人基于X染色体的外显子注释信息,计算了测序。

21、的覆盖程度和深度图1。YRI的READS覆盖度略低于CEU的,这可能会阻碍在YRI中有效逃脱位点的观测。然而标准化后,X染色体和常染色体的READS丰度没有显示出显著的偏差,除了GSE25030的数据。所以,GSE25030的数据只能被用来作为GSE16921补充。本发明人认为,在研究中超过6X的深度足够发现杂合位点,其他低的覆盖区域将被除去。0035沉默的等位基因的低量READS,会引起一定程度上的假阳性杂合,为了避免这种错误,需要较少等位等位基因至少要占较多的等位等位基因的10以上这个标准被用来识别人类基因逃脱1。注意,这里较少的比较多的频率是指等位基因在转录组内的比值,而不是在人群中的比。

22、值。根据这个定义可以排除一部分人为的假杂合的错误,但也可能会错误地增加一些不逃脱基因假阴性。0036由国际人类基因组单体型图计划发布的DBSNP134中CEU和YRI的变异位点17作为验证的变异位点,来识别本发明测序数据中的杂合位点。共有73792和89732X连锁的SNP位点分别在CEU人群和YRI中注释出。其中,分别有21087和26413个SNP位点是在CEU和YRI的基因内平均每个基因有3124和3741个SNP。大多数SNP是分布在内含子区域,对于寻找X染色体逃脱基因没有作用。X连锁基因已知有1001个其中包括823已知的人类蛋白质编码基因和178个非蛋白编码基因18,分别CEU和Y。

23、RI中有675和706个基因包含至少一个外显子SNP的,被认为是确定逃脱失活的潜在基因。0037实施例2、比对错误罕见0038即使有上述质量控制,比对错误仍然不可避免。这种错误在重复基因中尤为明显。假设我们只关注X染色体基因,但对于某些X连锁基因,至少在某些个体中,基因组中存在我们关注的基因相似序列的同源基因,但这个同源基因没有在参考基因组中注释。在这种情况下,我们将会无意识的将我们不关注的这一同源基因的转录本比对到我们关注的X染色体基因上来。这个时候,如果两个重复的基因的某些碱基不同,那么可能会错误地推断关注的基因逃脱失活了。因此,为了确保可以避免这种问题,我们使用人类基因组单体型图中描述的。

24、X染色体基因中的SNP作为确定逃脱的候选位点,这样就可以很大程度上解决这个问题任何随机突变如果发生在非关注的基因中,将不会将其考虑为杂合性的证据。当然不一定能够完全消除这一方面的错误。这种错误是现在高通量测序数据比对到基因组是时普遍面临的问题。0039通过采用男性细胞系作为阴性对照,检测基因在男性中的表达男性应该只能表达一份,所以不会出现杂合,我们可以检验这种错误发生的频率。如果这种不正确的比对发生,并且关注基因和非关注基因都表达,那么男性也应该出现在X染色体上的“杂合”。我们发现男性样本中X染色体基因仅有少量的“杂合”CEU3个和YRI2个,表明女性样品中极少会产生比对错误带来的假阳性。这些。

25、男性中发现的“杂合”基因有STS,FTX,PLXNA3,说明书CN104152456A5/14页7CXORF4B和MTMR1。STSPLXNA3和MTMR1在两个人群中都出现,CXORF40B只出现在YRI。这些错误可能是由于基因组未知区域或CNVS的READS比对到了目标基因。0040还应注意,在男性中存在的这些“杂合的”X连锁基因并不意味着比对问题。可能还会出现这样的情况,在细胞培养中一个X连锁基因突变,并且和已知的SNP一样虽然这可能不能够解释重复的杂合。由于RNASEQ数据来自细胞群而不是在单细胞,因此低频率的由突变衍生的杂合性是可以预见的。进一步的分析中我们删除这些男性中“杂合”的位。

26、点,它们在女性可能导致错误的分析。0041随后我们进一步的阴性控制,排除比对问题引起的错误。如果发生比对错误,我们也应在女性中检测到X连锁基因有三个或三个以上的等位基因。37CEU女性里285个基因中,我们只检测到26个位置,40YRI女性的510个基因只有14个位置被判定为具有2个以上等位基因。在进一步分析中,这些位点也被删除了。0042在原则上,拟常基因的分析可以作为阳性对照。但在人类基因组单体型计划中未给出这19个假体染色体基因的SNP19,除了XG,然而,XG却没有足够的READS覆盖度。0043根据上述的质量控制,本发明人考虑同一个基因内不同SNP的杂合和纯合的信号应该是一致。在这两。

27、个群体中,有些基因CEU和YRI分别为32和44个包含至少两个SNP。在这些包含多个信息位点的基因中,大部分基因CEU和903,909在YRI内的SNP表现一致的结果,即RNASEQ的READS在所有潜在的杂合位点要么都是纯合,要么都杂合。例外的情况下,一个位点是杂合子,另一些不是杂合,是由于这些位置的测序深度不够引起的。总共有1643个基因有足够的测序深度,并且包含有多个潜在的杂合位点。其中,只有75个基因5至少有一个位点是不与其他基因内的位置保持一致的。0044实施例3、确定新的X染色体失活逃脱基因0045本发明人从UCSC提取注释基因的转录信息,将双等位基因位点定位到注释基因。由于从失活。

28、的X染色体表达的量应该低于活性X染色体,所以我们认为较少的READS值的等位基因是来自“沉默的”X染色体,较多的READS值的等位基因是“活性”等位基因。根据杂合10的阈值1,总共发现了CEU的37个人中有113个基因表现出逃脱失活,YRI的40个人中103个基因逃脱失活。0046本发明人只认为具有重复证据的基因是“验证”的逃脱基因。重复是指两个或两个以上的个人或一个人两个或多个SNP位点,表明基因逃脱表1初步认为逃脱的基因,没有重复证据的基因见表1。允许这两种判定重复的方法之间重叠时,我们发现,其中有38个与先前报道的通过啮齿动物/人的体细胞杂交法和初级人类细胞系测定1的逃脱基因一致。此外,。

29、我们观察到76个新的逃脱失活的基因。在我们正常个体的B淋巴细胞系中总共发现了114个确定逃脱失活的基因表1。其中14个在先前未被报道是逃脱基因而不是根本就没有研究。这14个基因里面有4个是满足在不同个体间的一致性并且基因内SNP位点杂合性也一致的要求。我们提供了更多的支持人类X染色体逃脱的证据,但也有23个基因,之前被证实1在一定程度上会逃脱失活,我们这里无法确认是逃脱的。0047表1、114个逃脱基因及重复证据0048说明书CN104152456A6/14页800490050“SNP”栏表明该基因是否含有多个杂合位点支持该基因逃脱失活“个体”栏表明该基因是否在多个个体中都表现出逃脱失活;“据。

30、报道”一栏指明之前人鼠杂交细胞的结果。“逃脱”指基因在所有女性样本中表现逃脱失活,“杂合”指基因只在一部分女性中逃脱失活,不是所有样本中。0051表100520053在本发明人发现的114个逃脱基因中,有110个基因是在两个或两个以上的个人中表现逃脱失活的。其中CEU有60个,YRI有80个基因在至少有两个不同的个体内逃脱说明书CN104152456A7/14页9图2,共103个不同的基因。共45个确认为杂合基因是基因多个SNP位点见表1,其中27个是以前不知道可以逃脱X染色体失活,其中41个被证实基于个体之间的重复。少数3或4个基因中大多数杂合位点是一致的,但不是所有的,在不同人中的杂合性是。

31、一致的。本发明人认为这些仍然是具有重复证据的基因,因为A大多数位点都一致和B如上文所述,由于覆盖度问题,在一个基因的杂合性的不一致性是难以避免的或由于某些等位基因的READS数低于10,但种情况下,它们仍然会被称为是纯合。0054实施例4、新发现的逃脱X染色体失活基因在已知领域的聚集0055先前发现的逃脱基因往往距离X染色体失活中心很远。在数据中同样看到这样的情况图2。两个种群的逃脱基因在染色体上的分布与大多数逃脱基因一样,位于短臂远端部分和X染色体长臂PAR2区域。这与此前发表的人类的X染色体失活由染色质区域的控制的理论是一致的1,2,5。0056也有一小簇逃脱基因是在紧邻XIC的区域内图2。

32、。这个集群只有在YRI中发现,这可能是由于YRI有更大程度的DNA杂合性,使我们更容易在该人群中发现逃脱基因。如果这个集群是真实的,只与几个基因相关,产生杂合,然而这些基因在两个种群之间并没有显著差异。但是一个类似位置的群集逃脱分布也在先前的研究中报道1。本发明人认为,XIST基因在XIC的附近可能有较弱的影响。0057实施例5、逃脱X染色体失活基因普遍与精神障碍相关0058值得注意的是,许多X染色体倍性的改变包括XXY,XXX,XXXX,XXXXX都与学习障碍有关6。事实上,这可能是X多倍体核型唯一的一贯的特点6。通常是全部被失活但如果只有一个X失活,它的表型通常被认为是反映这种逃脱X染色体。

33、失活的基因作用。是否可以找到逃脱失活的基因通常与精神发育迟滞有关的证据呢0059我们可以定义X连锁精神发育迟滞XLMR或智力残疾ID的基因,这些基因突变会影响正常智力水平20,21。相关XLMR基因可以从格林伍德遗传中心GREENWOODGENETICCENTRE获得20。在114个逃脱基因中,有22个基因参与疾病的X连锁精神发育迟滞XLMR或智力残疾ID表2。有833个包含足够的READS数的可检测基因,包括91个XLMR/ID基因和114逃脱基因。为了计算显著性P值,本发明人随机从833个基因中选择114个基因,记录有多少次找到的XLMR基因,是大于或等于22的。由此得到的P值为PN1/M。

34、1,其中N是一些情况下的观察值大于随机的值,M是随机的次数我们采用M10,000。最终,22个基因显著大于随机情况下的值,说明逃脱失活的基因在XLMR基因中富集P00025。这22个基因将是进一步分析的候选基因,在这种情况下,在智力水平受影响的个体中,这些基因可能反映了高剂量图3,不同个体逃脱的计量各不相同。0060表2、与XLMR相关的逃脱基因说明书CN104152456A8/14页1000610062注XLMR鉴定的基因突变。数值A/B,其中A表示发生基因逃脱的个体数,B表示潜在的逃脱个体数包含杂合基因型的个体。0063实施例6、基因逃脱的情况在CEU和YRI中明显不同0064在本研究中,。

35、本发明人总共找到CEU和YRI的人群有相同的66个逃脱X染色体失活的基因,包括几个著名的逃脱基因HDHD1,STS,ZFX,EIF2S3,CXORF38,DDX3X。然而,本发明人更关注两人群之间的差异,而不是两个群体中常见的逃脱基因。表3中列出的所有确认的逃脱基因在两个种群中的基因多态性,和潜在的逃脱基因,以及这些基因的在不同人群中的逃脱状态。0065表300660067说明书CN104152456A109/14页110068注百分比指示该人群中有百分之多少的个体逃脱失活。每个百分比范围内,CEU和YRI两个人群共有的逃脱失活基因被标为红色。0069为了确定是否存在人群之间的逃脱趋势的差异,。

36、本发明人计算了这两个群体中,每个基因的逃脱情况,包括有多少人逃脱失活不一定要求重复和有多少人包含是杂合的潜在逃脱信息SNP。缺乏足够READS数的区域或个人被剔除。然后进行了似卡方检验,P值根据蒙托卡罗模拟求得。显著性检验基于,任何给定基因分布的比例在CEU和YRI中没有差别的零假设同时考虑各样本大小所占的比例。最终,本发明人将总的观察到的逃脱数目,随机地重新分配给两个人群,并基于他们两个基团的相对潜在逃脱人数的大小。然后,对于每个基因,可以计算卡方值,再对从模拟得到的分布进行比较。在样本量较低的情况下,蒙特卡罗方法是最好的求P值的办法。对于比较两个人群所有基因的整体差异,用每个基因卡方值的总。

37、和来比较。0070两个人群在整体逃脱情况上是否有差异的这个问题的答案是明确的这两个人口群体有显著不同观察到的卡方19656,预期11994/1607SD,P00001。这种整体上的差异既可以是因为在这两个群体中逃脱基因是不同的,也可以是因为对于一个给定的基因逃脱的个体的比例是不同的。0071实施例7、分析哪些基因在两人群中倾向逃脱的情况不同0072在群体间,基因整体水平上表现显著的变化。但是,我们能否确定这两个种群之间的那些基因是不同的对于每一个基因,本发明人找到一些基因在两人群中有显著差异表4,图4。这些显著基因也说明了群体间的差异性。所以值得去研究这些基因的不同是不是导致生物种群表型不同的。

38、因素。0073这6个显著基因在X染色体上并不是聚在一起,而是分散的。它们周围的基因并没有表现出种群间逃脱的差异图4。这一结果说明种群间逃脱差异的调控,不是像通常说明书CN104152456A1110/14页12失活调控那样,受染色体区域调控的。0074表400750076CEU和YRI栏中的分数表明了人群中该基因发生逃脱失活的比例。分子是逃脱失活个体的个数,分母是个体在DNA水平是杂合的个数。比较CEU和YRI两个人群的逃脱失活基因的差异,计算差异显著度P值这里只给出P值小于01的基因。0077实施例8、个体间逃脱差异的证据0078上述数据表明,这两个种群在他们允许逃脱X染色体失活的倾向有很大。

39、不同。但是,是否有些女性更容易或更不容易发生逃脱失活呢为了解决这个问题,本发明人计算了基因逃脱的个数和潜在的逃脱基因的个数即可能是杂合子的基因但没有表现出杂合性,并比较每个不同的人与剩下所有人,进行似卡方检验,和蒙特卡洛模拟。结果显示77个人中,CEU有5个人表现出比预期有更多的逃脱,YRI有8个人,本发明人定义为过高逃脱女性HYPERESCAPEESP005表5。HOLM多重检验修正后CEU有4个,YRI有1个仍然保持高逃脱。这与之前的研究中群体内的个体在他们允许基因逃脱失活的倾向上不同是一致的1。如果仅仅根据这13个过高逃脱女性的数据,我们仍然可以检测到两个种群之间存在出显着的差异P002。

40、8。这表明,对于逃脱失活,人群间的差异和个体间的差异并存。此外,我们还发现CEU和YRI中分别有5个和6个女性表现出过低逃脱HYPOESCAPE,但经过多重检验修正后只剩下YRI的一个女性是显著的。由此可见逃脱失活在个体之间存在30的差异,这一差异可能体现着这些计量的不同,表现出个体不同的表型,尤其是智力发育相关的基因。寻找这些差异逃脱基因为寻找影响智力的基因提供了指导,智力差异的说明书CN104152456A1211/14页13数量性状可能由于逃脱失活的程度决定。因此本研究提出的寻找正常人逃脱基因的方法为药物基因组学提供了个体治疗的新思路。0079表500800081说明书CN1041524。

41、56A1312/14页140082在“逃脱”栏中的两个数NM分别代表N是该个体发生逃脱的基因个数,M是潜在的但没有发生逃脱失活的基因个数。HOLM多重检验矫正后,仍然显著地基因标为红色和蓝色红色代表“过高逃脱”,蓝色代表“过低逃脱”。0083在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。0084参考文献00851CARRELL,WILLARDHFXINACTIVATIONPROFILEREVEALSEXTENS。

42、IVEVARIABILITYINXLINKEDGENEEXPRESSIONINFEMALESNATURE2005,434703140040400862TSUCHIYAKD,GREALLYJM,YIY,NOELKP,TRUONGJP,DISTECHECMCOMPARATIVESEQUENCEANDXINACTIVATIONANALYSESOFADOMAINOFESCAPEINHUMANXP112ANDTHECONSERVEDSEGMENTINMOUSEGENOMERESEARCH2004,1471275128400873DISTECHECMESCAPEESONTHEXCHROMOSOMEPROC。

43、EEDINGSOFTHENATIONALACADEMYOFSCIENCESOFTHEUNITEDSTATESOFAMERICA1999,9625141801418200884DISTECHECM,FILIPPOVAGN,TSUCHIYAKDESCAPEFROMXINACTIVATIONCYTOGENETICANDGENOMERESEARCH2002,9914364300895YANGF,BABAKT,SHENDUREJ,DISTECHECMGLOBALSURVEYOFESCAPEFROMXINACTIVATIONBYRNASEQUENCINGINMOUSEGENOMERESEARCH2010,。

44、20561462200906ROOMANRP,VANDRIESSCHEK,DUCAJUMVGROWTHANDOVARIANFUNCTIONINGIRLSWITH48,XXXXKARYOTYPEPATIENTREPORTANDREVIEWOFTHELITERATURE说明书CN104152456A1413/14页15JPEDIATRENDOCRINOLMETAB2002,1571051105500917BELMONTAS,BIGNONEF,TSOPOPTHERELATIVEINTRANUCLEARPOSITIONSOFBARRBODIESINXXXNONTRANSFORMEDHUMANFIBRO。

45、BLASTSEXPERIMENTALCELLRESEARCH1986,165116517900928LYONMFGENEACTIONINTHEXCHROMOSOMEOFTHEMOUSEMUSMUSCULUSLNATURE1961,19037237300939TARTAGLIAN,HOWELLS,SUTHERLANDA,WILSONR,WILSONLAREVIEWOFTRISOMYX47,XXXORPHANETJOURNALOFRAREDISEASES2010,518009410LINDENM,BENDERB,ROBINSONASEXCHROMOSOMETETRASOMYANDPENTASOMY。

46、PEDIATRICS1995,964PT1672682009511OTTERM,SCHRANDERSTUMPELCT,CURFSLMTRIPLEXSYNDROMEAREVIEWOFTHELITERATUREEURJHUMGENET2010,183265271009612GUSTAVSONKHTRIPLEXSYNDROMEDEVIATIONWITHMILDSYMPTOMSTHEMAJORITYGOESUNDIAGNOSEDLAKARTIDNINGEN1999,965056465647009713BROWNCJ,GREALLYJMASTAINUPONTHESILENCEGENESESCAPINGX。

47、INACTIVATIONTRENDSINGENETICSTIG2003,198432438009814BROWNCJ,BALLABIOA,RUPERTJL,LAFRENIERERG,GROMPEM,TONLORENZIR,WILLARDHFAGENEFROMTHEREGIONOFTHEHUMANXINACTIVATIONCENTREISEXPRESSEDEXCLUSIVELYFROMTHEINACTIVEXCHROMOSOMENATURE1991,34963043844009915HEARDE,DISTECHECMDOSAGECOMPENSATIONINMAMMALSFINETUNINGTHE。

48、EXPRESSIONOFTHEXCHROMOSOMEGENESDEVELOPMENT2006,201418481867010016WANGZ,GERSTEINM,SNYDERMRNASEQAREVOLUTIONARYTOOLFORTRANSCRIPTOMICSNATUREREVIEWSGENETICS2009,1015763010117ALTSHULERDM,GIBBSRA,PELTONENL,DERMITZAKISE,SCHAFFNERSF,YUF,BONNENPE,DEBAKKERPI,DELOUKASP,GABRIELSBETALINTEGRATINGCOMMONANDRAREGENET。

49、ICVARIATIONINDIVERSEHUMANPOPULATIONSNATURE2010,46773115258010218HSUF,KENTWJ,CLAWSONH,KUHNRM,DIEKHANSM,HAUSSLERDTHEUCSCKNOWNGENESBIOINFORMATICS2006,22910361046010319HELENAMANGSA,MORRISBJTHEHUMANPSEUDOAUTOSOMALREGIONPARORIGIN,FUNCTIONANDFUTURECURRENTGENOMICS2007,82129136010420GECZJ,SHOUBRIDGEC,CORBETTMTHEGENETICLANDSCAPEOFINTELLECTUALDISABILITYARISINGFROMCHROMOSOMEXTRENDSINGENETICSTIG2009,257308316010521STEVENSONRE,SCHWARTZCEXLINKEDINTELLECTUALDISABILITYUNIQUEVULNERABILITYOFTHEMALEGENOMEDEVELOPMENTALDISABILITIESRESEARCHREVIEWS2009,154361368010622RAOE,WEISSB,FUKAMIM,RUMPANDREAS,NIESLERB,ME。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 化学;冶金 > 生物化学;啤酒;烈性酒;果汁酒;醋;微生物学;酶学;突变或遗传工程


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1