发明背景
I类和II类HLA基因座是人类基因组中最为多态性的基因,拼缀多态性的复杂模式主要定位于II类基因的外显子2中以及I类基因的外显子2和3中。对于当前的HLA分型方法,对于造血干细胞移植是临床上重要的HLA等位基因的等位基因水平分辨,在技术上是挑战性的。几项大规模的研究展现了,通过降低急性和慢性移植物抗宿主疾病的发生率和严重度以及改善成功的植入的比率,在供体和患者之间精确的、等位基因水平的HLA匹配显著地改善了总体移植存活率。例如,当8个最显著的HLA基因座中的8个匹配时,与8个中的6个对比,移植后的存活率在12个月后提高60%。
当前的实践是维持骨髓供体登记,其中数百万潜在的供体在低-中分辨率下被HLA分型为A、B、以及在许多情况下的DRB1基因座。根据这种初步的分型,选择多个潜在匹配的不相关的供体,然后在这些和其他基因座的等位基因水平的分辨率下分型以鉴定与接受者最佳匹配的供体。
迄今为止,最高分辨率的HLA分型是使用利用毛细血管电泳的、荧光的、基于Sanger的DNA测序获得的。然而,在HLA分型数据中的模糊性可能由于当两种等位基因被一起扩增和测序时等位基因之间的多种多态性、以及产生的相位模糊性而被保留。分辨这种模糊性需要费时间的方法,例如,单独地扩增然后分析两个等位基因。
下一代的测序方法克隆性地并行增殖数百万的单独DNA分子,其然后也被并行地测序。近来,通过这种下一代的焦磷酸测序(pyrosequencing)测序方法(454 Life Sciences,Inc.)可获得的阅读长度提高到>250个核苷酸。本发明提供了改进的HLA基因分型方法,其基于这样的发现,克隆性测序可以用于设置外显子之内连锁的多态性的相,使得每个HLA等位基因的序列的明确的测定成为可能。
发明概述
本发明部分地基于这样的发现,即,8-基因座HLA基因分型可以对获自多个受试者的样品在单次测序运行中进行。在某些实施方式中,因而本发明提供了并行地测定超过一个个体的HLA基因HLA-A、HLA-B、HLA-C、DRB1、DQA1、DQB1、DPA1和DPB1的HLA基因型的方法,所述方法包括:
(a)对于每个个体,扩增包含多态性位点的HLA-A、HLA-B、HLA-C、DRB1、DQA1、DQB1、DPA1和DPB1基因的外显子,来获得每个个体的HLA-A、HLA-B、HLA-C、DRB1、DQA1、DQB1、DPA1和DPB1扩增子,其中每个扩增反应用正向引物和反向引物进行来扩增HLA基因外显子,其中:
(i)所述正向引物从5′到3′包含以下序列:衔接头序列、分子识别序列和HLA序列;和
(ii)所述反向引物从5′到3′包含以下序列:衔接头序列、分子识别序列和HLA序列;
(b)集中来自超过一个个体的HLA扩增子,并进行乳剂PCR;
(c)利用焦磷酸测序并行地测定每个个体的HLA-A、HLA-B、HLA-C、DRB1、DQA1、DQB1、DPA1和DPB1扩增子的序列;和
(d)通过将HLA扩增子的序列与已知的HLA序列比较以确定哪些HLA等位基因存在于个体中,为每个个体指定HLA等位基因。在根据本发明的优选的实施方式中,用于扩增HLA扩增子的正向或反向引物具有表1中列出的引物的HLA杂交区域的序列。这样的引物可以另外包含表1的引物的衔接头区域的序列。在进一步优选的实施方式中,所述引物还可以包含表1中列出的引物的个体识别标签。在特别优选的实施方式中,所述引物具有表1中所列的引物的序列。
此外,本发明提供了包含用于获得HLA扩增子的引物对的试剂盒,来并行地测定超过一个个体的HLA基因HLA-A、HLA-B、HLA-C、DRB1、DQA1、DQB1、DPA1和DPB1的HLA基因型,其中所述引物对包含正向引物和反向引物来扩增HLA基因外显子,其中:(i)所述正向引物从5′到3′包含以下序列:衔接头序列、分子识别序列和HLA序列;和(ii)所述反向引物从5′到3′包含以下序列:衔接头序列、分子识别序列和HLA序列。在优选的实施方式中,所述试剂盒包含表1中所列的一种或更多种正向和反向引物。在其他优选的实施方式中,所述试剂盒包含扩增外显子的引物对,用于对HLA基因HLA-A、HLA-B、HLA-C、DRB1、DQA1、DQB1、DPA1和DPB1基因分型,其中每种引物对选自表1中所列的引物。
本发明另外提供了包含一种或更多种引物对的试剂盒,其中每种引物对包含用于获得HLA扩增子的正向引物,其具有表1中所列的引物的HLA杂交区域的序列;以及用于获得HLA扩增子的反向引物,其具有表1中所列的引物的HLA杂交区域的序列。这样的引物另外包含具有表1中所列序列的衔接头区域。在进一步优选的实施方式中,所述引物具有表1中列出的引物的个体识别标签。在特别优选的实施方式中,所述正向引物具有表1中所列的引物的序列,所述反向引物具有表1中所列的引物的序列。
此外,本发明提供了试剂盒,其中所述试剂盒包含十五种HLA引物对,其中所述引物对扩增HLA-A的外显子2、外显子3和外显子4;HLA-B的外显子2、外显子3和外显子4;HLA-C的外显子2、外显子3和外显子4;DRB1的外显子2、DPB1的外显子2、DPA1的外显子2、DQA1的外显子2;和DQB1的外显子2和外显子3。在优选的实施方式中,本发明提供了包含至少六种引物对、或至少八、九、十、十一、十二、十三或十四种引物对的试剂盒。优选的,所述引物对选自表1中所列的引物。
此外,本发明提供了试剂盒,其中所述试剂盒对扩增HLA-A的外显子2、外显子3和外显子4;HLA-B的外显子2、外显子3和外显子4;HLA-C的外显子2、外显子3和外显子4;DRB1的外显子2、DPB1的外显子2、DPA1的外显子2、DQA1的外显子2;和DQB1的外显子2和外显子3的每种引物对包含多种引物对,其中扩增单独的感兴趣的外显子区域的所述多种引物对具有相同的HLA杂交区域和相同的衔接头区域,但是具有不同的识别标签。在优选的实施方式中,对于每个感兴趣的外显子区域存在着12种或更多的多种引物对,其中所述引物对具有不同的多种识别标签。
附图的简要描述
附图1提供了本发明的正向和反向融合物引物的示意性的描绘。
附图2提供了阅读长度的直方图。
附图3显示了全部正向和反向阅读的阅读深度。
发明的详细说明
如在此使用的,术语“等位基因”是指基因的序列变体。一个或更多个遗传学差异可以构成等位基因。对于HLA等位基因,一般地多个遗传学差异构成等位基因。HLA等位基因序列的实例在Masonand Parham(1998)Tissue Antigens 51:417-66中阐述了,其列出了HLA-A、HLA-B和HLA-C等位基因,以及在Marsh et al.(1992)Hum.Immunol.35:1中阐述了,其列出了DRA、DRB、DQA1、DQB1、DPA1和DPB1的II类HLA等位基因。
如在此使用的,术语“多态的”和“多态性”是指一种情况,其中特定基因组序列、或编码的氨基酸序列的两种或更多种变体可以在群体中找到。多态性位置是指在核酸中发生区分变体的核苷酸差异的位置。如在此使用的,“单核苷酸多态性”或SNP,是指由单个核苷酸位置组成的多态性位点。
术语“基因型”是指在个体或样品中所含的单个基因或复数个基因的等位基因的描述。如在此使用的,在个体的基因型和来自所述个体的样品的基因型之间不进行区分。
如在此使用的,“确定”HLA基因的“基因型”是指确定受试者的个体等位基因中存在的HLA多态性。在本发明中,“确定HLA-A基因的基因型”是指鉴定在至少外显子2和外显子3、以及一般地外显子4中在HLA-A基因等位基因的等位决定簇的位置中存在的多态的残基。在本发明中,“确定HLA-B基因的基因型”是指鉴定在至少外显子2和外显子3以及一般地外显子4中在HLA-B基因等位基因的等位决定簇的位置中存在的多态的残基;和“确定HLA-C基因的基因型″是指鉴定在至少外显子2和外显子3以及一般地外显子4中在HLA-C基因的等位决定簇的位置中存在的多态的残基。类似地,在本发明中,“确定”DRB1、DPB1、DPA1或DQA1基因的“基因型”是指鉴定外显子2中在所述基因的等位决定簇的位置中存在的多态的残基,以及是指在外显子2和外显子3中在DQB1等位基因的等位决定簇的位置中存在的多态的残基。
在此使用的,“等位决定簇”是指变异的存在引起HLA抗原中的变异的多态性位点。
术语“目标区域”是指核酸的区域,在本发明中是指HLA基因的区域,其要被分析多态性位点的存在。
“寡核苷酸”是指由共价地连接在一起的超过2个核苷酸亚基组成的单链的核苷酸聚合物。在此使用的寡核苷酸引物一般长度在约10和100个核苷酸之间,通常长度是20到60个核苷酸。核苷酸亚基的糖基团可以是核糖、脱氧核糖或其修饰的衍生物,例如,o-甲基核糖。寡核苷酸的核苷酸亚基可以通过磷酸二酯键、硫代磷酸酯键、膦酸甲酯键或通过不阻碍寡核苷酸的杂交的其他键,包括但不限于罕有的、或非天然存在的键来连接。此外,寡核苷酸可以具有非常见核苷酸或非核苷酸部分。在此定义的寡核苷酸是核酸,优选的DNA,但可以是RNA,或具有共价连接的核糖核苷酸或脱氧核糖核苷酸的组合。规定序列的寡核苷酸可以通过本领域普通技术人员已知的技术来产生,例如,通过化学或生物化学合成,和通过从重组的核酸分子体外或体内表达。
术语“引物”是指在一定条件下作为DNA合成的起始点的寡核苷酸,在所述条件中与核酸链互补的引物延伸产物的合成在合适的缓冲液中和在适合的温度下被诱导。引物优选的是单链的寡脱氧核糖核苷酸。在本发明中,引物包括与感兴趣的HLA序列精确地或基本上互补的“HLA结合区域”或“HLA杂交区域”。引物的这个区域长度一般是约15到约25、30、35或40个核苷酸。
如在此使用的,引物的“衔接头区域”是指处在5′末端的引物序列的区域,其对于根据在此描述的操作获得的HLA扩增子是通用的,并提供了与用于乳剂PCR的微粒或其他固体表面上存在的寡核苷酸退火的序列。“衔接头区域”可以进一步充当测序引物结合的位点。衔接头区域一般长度从15到30个核苷酸。
术语“个体的标识符标签”、“条型码”、“识别标签”、“多重识别标签”、“分子识别标签”或“MID”在此可互换地使用,是指引物中存在的、充当获自特定受试者的DNA的标记物的核苷酸序列。
如在此使用的,术语“核酸”、“多核苷酸”和“寡核苷酸”是指引物和寡聚体片段。该术语不受长度的限制,对于多聚脱氧核苷酸(含有2-脱氧-D-核糖)、多核糖核苷酸(含有D-核糖)和任何其他嘌呤或嘧啶碱基、或修饰的嘌呤或嘧啶碱基的N-糖苷的线型聚合物是通用的。这些术语包括双链和单链的DNA,以及双链和单链的RNA。
核酸、多核苷酸或寡核苷酸可以包含磷酸二酯键或修饰的键,包括但不限于,磷酸三酯、氨基磷酸酯、硅氧烷、碳酸酯、羧甲基酯、乙酰胺酯(acetamidate)、氨基甲酸酯、硫醚、桥接的氨基磷酸酯、桥接的亚甲基膦酸酯、硫代磷酸酯、甲基膦酸酯、二硫代磷酸酯、桥接的硫代磷酸酯或砜键,以及这样的键的组合。
核酸、多核苷酸或寡核苷酸可以包含五种生物学上存在的碱基(腺嘌呤、鸟嘌呤、胸腺嘧啶、胞嘧啶和尿嘧啶)和/或除了这五种生物学上存在的碱基之外的碱基。这些碱基可以适用于许多目的,例如,来使杂交稳定或不稳定;促进或抑制探针降解;或作为可检测部分或淬灭剂部分的附着点。例如,本发明的多核苷酸可以含有一个或更多个修饰的、非标准的、或衍生的碱基部分,包括但不限于,N6-甲基-腺嘌呤、N6-叔-丁基-苯甲基-腺嘌呤、咪唑、取代的咪唑、5-氟尿嘧啶、5-溴尿嘧啶、5-氯尿嘧啶、5-碘尿嘧啶、次黄嘌呤、黄嘌呤、4-乙酰胞密啶、5(羧基羟基甲基)尿嘧啶、5羧基甲基氨基甲基-2-硫尿核苷、5羧基甲基氨基甲基尿嘧啶、二氢尿嘧啶、β-D-半乳糖基queosine、肌苷、N6异戊烯基腺嘌呤、1-甲基鸟嘌呤、1-甲基肌苷、2,2-二甲基鸟嘌呤、2-甲基腺嘌呤、2-甲基鸟嘌呤、3-甲基胞嘧啶、5-甲基胞嘧啶、N6-甲基腺嘌呤、7-甲基鸟嘌呤、5-甲基氨甲基尿嘧啶、5-甲氧基氨甲基-2-硫尿嘧啶、β-D甘露糖基queosine、5′-甲氧基羧甲基尿嘧啶、5-甲氧基尿嘧啶、2-甲硫基-N6-异戊烯基腺嘌呤、尿嘧啶-5-氧乙酸(v)、wybutoxosine、伪尿嘧啶、queosine、2-硫胞嘧啶、5-甲基-2-硫尿嘧啶、2-硫尿嘧啶、4-硫尿嘧啶、5-甲基尿嘧啶、尿嘧啶-5-氧乙酸甲基酯、3-(3-氨基-3-N-2-羧丙基)尿嘧啶、(acp3)w、2,6-二氨基嘌呤和5-丙炔基嘧啶。修饰的非标准的或衍生的碱基部分的实例可以在美国专利NO.6,001,611;5,955,589;5,844,106;5,789,562;5,750,343;5,728,525和5,679,785中找到。此外,核酸、多核苷酸或寡核苷酸可以包含一个或更多个修饰的糖部分,包括但不限于,阿拉伯糖、2-氟阿拉伯糖、木酮糖和己糖。
术语“扩增条件”是指扩增反应(例如,PCR扩增)中的条件,其容许可延伸的多核苷酸(例如,引物)与目标核苷酸的杂交,以及所述可延伸的多核苷酸的模板依赖性延伸。如在此使用的,足以扩增目标核酸的“扩增条件”或条件是本领域公知的。参见,例如,PCRPrimer:A Laboratory Manual,by Dieffenbach and Dveksler,eds.,2003,Cold Spring Harbor Press;和PCR Protocols,Bartlett and Stirling,eds.,2003,Humana Press。
如在核酸扩增反应的上下文中使用的术语“扩增”是指一种反应,其提高核酸模板,例如,目标核酸序列的拷贝。
引言
本发明提供了HLA基因分型的方法,基于这样的发现,多重的、并行的克隆性测序分析可以同时用于基因分型多个个体的至少3个、一般地至少6个、优选的至少8个HLA基因座。下一代的测序方法克隆性地并行增殖数百万的单独DNA分子,其然后也被并行地测序。近来,通过这种下一代的测序方法(454 Life Sciences,Inc.)可获得的阅读长度提高到>250个核苷酸。这些克隆阅读长度使得设置外显子之内连锁的多态性的相成为可能,因而每个HLA等位基因的序列的明确的测定成为可能。在本发明中,所述系统是足够高通量的,以允许利用在此描述的焦磷酸测序平台对多个个体,例如,24或48个受试者在单次测序运行中的完整的、8-基因座HLA分型。
本发明的高度多重化的扩增子测序采用了引物中的样品特异性内部序列标签(条型码标签或MID),其容许样品的集中而维持了将序列指定于特定的个体的能力。在本发明中,至少八个基因座(HLA-A、B、C、DRB1、DQA1、DQB1、DPA1、DPB1)以及DRB3、4和5的HLA基因型可以从测序产生的数据获得。这种HLA测序系统还可以检测嵌合的混合物,例如,检测在SCID患者的血液中存在的、罕有的非传播的(transmitted)母体等位基因。
HLA基因
人白细胞抗原系统(HLA)复合物跨越了染色体6的短臂上大约3百50万个碱基对。主要的区域是I类和II类区域。主要的I类抗原是HLA-A、HLA-B和HLA-C,主要的II类抗原是HLA-DP、HLA-DQ和HLA-DR。HLA-DP、HLA-DQ和HLA-DR基因座编码HLA-DR、DP和DQ抗原的α和β链。HLA基因是最为多态性的基因之一。在HLA抗原中表达的多态性(因而为了移植的分型是非常感兴趣的)主要定位于II类基因的外显子2中,和I类基因的外显子2和3中。
在本发明中,此处描述的HLA基因的基因分型是指确定该HLA基因中存在的多态性。对于HLA-A,外显子2和外显子3中存在的多态性通过对从个体PCR产生的扩增子测序来确定。在典型的实施方式中,还测定外显子4的序列。外显子2、外显子3和外显子4,或其包含等位决定簇的区域,在单独的PCR反应中各自扩增来获得扩增子。类似地,对个体的HLA-B和HLA-C等位基因的外显子2和外显子3、在某些实施方式中外显子4获得扩增子。对于对II类HLA等位基因基因分型,对DRB1、DPB1、DPA1、DQA1的外显子2,DQB1的外显子2和3获得扩增子。通过以来自任一末端的阅读之间足够的重叠来测序两条链,可以完全地测序每个外显子,从而可以明确地指定具体的HLA等位基因。
来自个体的每个样品,利用用于扩增的、靶向感兴趣的外显子或感兴趣的外显子的多态性区域的引物,在每个外显子处单独地扩增。在扩增反应中采用的引物包括其他序列:用于乳剂PCR的衔接头序列和充当来自单个个体的DNA的标记物的识别序列。
扩增引物
本发明采用了扩增引物,其扩增HLA基因的感兴趣的外显子。一般地,引物被设计以确保获得外显子的全部多态性部分。
在本发明中,本发明的多重扩增的引物序列被设计来包括可以用于促成克隆性测序和分析的序列。因而本发明的扩增引物(在此还称为“融合引物”)包括以下的成分:衔接头、独特的识别标签和与感兴趣的HLA基因杂交以在扩增反应中使用来获得HLA扩增子的序列。附图1提供了显示本发明的融合引物的示意图。
引物序列的衔接头部分存在于扩增子融合引物的5′末端。衔接头区域包含一些序列,其充当测序反应的引物的退火的位点、以及还相应于珠子或固体表面上存在的序列从而扩增子可以与用于乳剂PCR的表面退火。用于扩增HLA外显子的正向引物包括处在5′末端的衔接头序列,在此称为衔接头区域A。反向引物包含一区域,其在5′末端含有衔接头序列,在此称为衔接头区域B。注意的是,在衔接头区域和它们的互补物中存在的序列容许扩增子与用于乳剂PCR的珠子退火。任选地,衔接头可以进一步包括由非重复核苷酸序列(即,ACGT、CAGT,等等)组成的独特的鉴别钥匙序列。这种钥匙序列一般被包括以辨别用于HLA基因分型的扩增子和被包括在反应中的对照序列。例如,在WO/2004/069849和WO2005/073410中描述了这样的序列。例如,在WO/2006/110855中提供了用于配置衔接头引物的另外的指导。
在某些实施方式中,用于本发明的衔接头序列是454 GS-FLX454测序系统(Roche Diagnostics)的引物A和引物B序列。引物A序列是5′GCCTCCCTCGCGCCA 3′(SEQ ID NO:1)。引物B序列是5′GCCTTGCCAGCCCGC 3′(SEQ ID NO:2)。如上所述,引物一般含有另外的“钥匙”序列,其提供了识别测序来辨别扩增子和对照序列。
用于本发明的HLA基因分型方法的PCR引物进一步包含个体标识符标签。这些个体标识符标签被用于标记来自被测试的每个个体的HLA扩增子。感兴趣的HLA序列从来自要被基因分型的受试者的核酸样品中扩增。如上文解释的,包含作为等位决定簇的多态性的HLA外显子或外显子的区域被单独地扩增。从受试者获得的扩增子用相同的识别标签来标记。标签被包括在融合引物中,所述融合引物被用于扩增该受试者的每个扩增子。因而,识别标签也在测序反应中被测序。ID标签存在于用于获得HLA扩增子的融合引物中衔接头区域和融合引物的HLA引发(priming)区域之间。
识别标签可以在长度上不同。一般地,标签长度是至少4或5个核苷酸。在某些应用中,可能希望的是具有更长的识别序列,例如,长度6、8或10个或更多个核苷酸。这样的序列的使用是本领域公知的。(参见,例如Thomas,et al.Nat.Med.,12:852-855,2006;Parameswaran et al,.Nucl.Acids Res.,35:e130,2007;Hofmann et al.,Nucl.Acids Res.35:e91,2007)。在本发明的大多数实施方式中,识别标签是长度4到10个核苷酸。
个体标识符序列可以考虑某些参数来设计。例如,在设计4-残基ID标签时,希望的是考虑测序反应中核苷酸的流动循环来选择4个碱基。例如,如果核苷酸按照顺序T、A、C和G添加,一般希望的是设计标签序列,从而正的残基继之以负的残基。因而,在这个实例中,如果标签序列以“A”残基开始,从而在测序反应中掺入的核苷酸是T,标签序列中的第二个残基将是使得不会掺入A的核苷酸。此外,希望的是避免形成标签序列内的同聚物,或通过根据衔接头区域的最后的碱基或融合引物的HLA-特异性区域的第一个碱基创造它们来避免形成同聚物。
融合引物的HLA引发区域(在此也称为HLA结合区域,或HLA杂交区域)是引物的区域,其杂交于感兴趣的HLA序列来扩增期望的外显子(或在某些实施方式中,外显子的区域)。一般地,融合引物的HLA区域杂交于邻近于要扩增的外显子的内含子序列以获得整个外显子序列。优选地选择HLA序列以选择性地扩增感兴趣的HLA外显子,而在某些实施方式中,引物对也可以扩增相关的HLA基因的高度相似的区域。例如,以下的实施例小节中描述的DRB1的外显子2的引物也可以扩增DRB3、DRB4和DRB5基因座。选择引物,从而外显子以足够的特异性被扩增,以容许根据序列的HLA基因型的明确的鉴定。
HLA基因和等位基因的序列是已知的和可通过各种数据库获得的,包括GenBank和其他基因数据库,并已经被公开(参见,例如,Mason and Parham(1998)Tissue Antigens 51:417-66,listing HLA-A,HLA-B,and HLA-C alleles;Marsh et al.(1992)Hum.Immunol.35:1,listing HLA Class II alleles-DRA,DRB,DQA1,DQB1,DPA1,andDPB1)。
PCR引物可以根据本领域已知的原则来设计。引物设计的策略可以在科学文献中找到,例如,Rubin,E.and A.A.Levy,Nucleic AcidsRes,1996.24(18):p.3538-45;和Buck et al.,Biotechniques,1999.27(3):p.528-36。例如,引物的HLA特异性区域一般是长度约20个核苷酸或更长,例如,20到35个核苷酸。考虑的其他参数是G/C含量、避免内部二级结构的设计考虑、以及防止引物二聚体的形成,以及熔解温度(Tm)。
本发明中使用的引物的实例在表1中提供。在表1中,正向引物具有处在5′末端的454测序系统“A”引物序列,然后是四个核苷酸钥匙(TCAG),其一起包含衔接头区域;随后是标识符标签(4核苷酸,除非另作说明);其然后是与标明的HLA基因杂交的区域。反向引物具有处在5′末端的454测序系统“B引物序列,然后是四个核苷酸钥匙“TCAG”,其一起包含衔接头区域,之后是标识符标签区域,之后是HLA-特异性区域。
本发明的方法中使用的引物可以包含表1中所列的引物的HLA杂交区域。在其他实施方式中,这样的引物可以包含基本上相同于表1中所列HLA杂交区域的序列的部分。因而,例如,本发明的引物可以包含表1中所列的引物的HLA杂交区域的至少10、15或20个或更多个连续核苷酸。
要HLA基因分型的每个受试者的HLA扩增可以单独地进行。来自单独的受试者的扩增子然后被集中用于随后的乳剂PCR和序列分析。
用于扩增感兴趣的HLA扩增子的模板核酸一般来自分离自要基因分型的受试者的基因组DNA。在当前的方法中,超过一个受试者在并行的反应中被HLA基因分型。在本发明中,至少12个受试者,一般至少16、20、24、30、36或48个受试者被HLA基因分型。
HLA扩增子可以使用任何类型的扩增反应获得。在本发明中,多重扩增子一般通过使用此处描述的引物对的PCR来产生。一般希望的是使用具有低差错率的聚合酶,例如,高保真度Taq聚合酶(RocheDiagnostics)。
PCR条件可以被优化来确定从受试者获得HLA扩增子的适合的条件。每个HLA扩增子可以在独立的PCR反应中单独地扩增。在某些实施方式中,受试者的HLA扩增子可以在一个或更多个多重反应中获得,所述多重反应包含引物对来扩增个体的扩增子。
乳剂PCR
HLA扩增子附着到珠子上并经历乳剂PCR。乳剂PCR是本领域已知的(参见,例如,WO/2004/069849、WO2005/073410、美国专利申请公开NO.20050130173、WO/2007/086935和WO/2008/076842)。在乳剂PCR中,通过将要扩增的模板,在本发明中为HLA扩增子,附着到固相支持物上,优选的以一般球形珠子形式的固相支持物上,来进行扩增。
通过经由衔接头区域将扩增子与附着于珠子的引物退火,将HLA扩增子附着到珠子上。因而,珠子连接到大量的、在衔接头部分与HLA扩增子互补的单一的引物种类上。珠子悬浮在水性的反应混合物中,然后包封在油包水乳剂中。乳剂由不连续的水相微滴组成,所述水相微滴例如,直径约60到200μm,被热稳定的油相包围。添加油,形成乳滴,从而平均起来乳剂仅包含一个目标核酸和一个珠子。优选地,每个微滴含有扩增反应溶液(即,核酸扩增所必需的试剂,例如,聚合酶、盐和合适的引物,例如与衔接头区域相应的引物)。
在本发明中,乳剂PCR一般用两种珠子的群体进行,因为HLA扩增子在两个方向上测序。在一种珠子群体中,在反向引物上存在的与衔接头序列相应的第一引物附着到珠子上。在第二种群体中,在正向引物上存在的与衔接头序列相应的第二引物附着到珠子上。因而,在乳剂扩增反应中使用的引物一般具有衔接头区域的序列,没有额外的序列如“钥匙”序列。乳剂扩增反应一般不对称地进行。例如,PCR引物可以以8∶1或16∶1的比例(即,8或16个一种引物比1个第二种引物)存在来进行不对称PCR。
在乳剂扩增之后,具有单链的HLA扩增子模板的珠子被分离,例如,通过在乳剂PCR期间存在于扩增引物上的部分例如生物素,使用DNA测序技术对模板测序,所述DNA测序技术基于通过焦磷酸盐的释放和同时的酶学核苷酸降解的碱基掺入的检测(例如,在美国专利Nos.6,274,320、6,258,568和6,210,891中描述的)。
克隆的扩增子利用测序引物(例如,引物A或引物B),并添加经历聚合酶反应的四种不同的dNTPs或ddNTPs来测序。在每个dNTP或ddNTP添加到引物延伸产物时,焦磷酸盐分子被释放。焦磷酸盐释放可以酶学地检测,例如,通过萤光素酶-萤光素反应中光线的产生。另外,核苷酸降解酶,例如,三磷酸腺苷双磷酸酶(apyrase)可以在反应期间存在,以降解非掺入的核苷酸(参见,例如,美国专利No.6258568)。在其他实施方式中,反应可以在存在测序引物、聚合酶、核苷酸降解酶、脱氧核苷酸三磷酸盐和包含ATP硫酸化酶和萤光素酶的焦磷酸盐检测系统的情况下进行(参见,例如,美国专利NO.6258568)。
一旦对个体DNA分子的序列获得了测序数据,明确的外显子序列可以通过将这些序列文件与两种HLA等位基因的HLA序列数据库比较来确定。GSFLX系统(454 Life Sciences)实现的阅读长度(平均=250bp)容许每个外显子的这种测定的足够的重叠。例如,通过Conexio Genomics所开发的软件,可以进行基于外显子序列数据文件的每个基因座处基因型的指定。软件的重要的方面是滤出通过引物与目标序列一起被共同扩增出的相关的序列阅读(假基因和其他不希望的HLA基因)的能力。
试剂盒
在此描述的组合物和试剂可以被包装到试剂盒中。本发明的试剂盒一般包含在此描述的、适合于扩增HLA等位基因中的感兴趣的区域的多种引物对。引物对包含正向引物和反向引物,正向引物包含衔接头区域、个体识别标签和HLA杂交区域;反向引物包含衔接头区域、个体识别标签和HLA杂交区域。本发明的试剂盒常常包含引物对来扩增扩增子,用于确定多个受试者的对于至少HLA-A、HLA-B和DRB1的基因型。通常,本发明的试剂盒包含足够的引物对来测定多个个体,例如12个或更多个体的HLA-A、HLA-B、HLA-C、DRB1、DQA1、DQB1、DPA1和DPB1基因的基因型。
在某些实施方式中,试剂盒可以另外包含一种或更多种珠子的群体,所述珠子具有与可用于乳剂PCR中的衔接头区域相应的、附着的引物。在某些实施方式中,试剂盒可以包含一个或更多个反应区室,所述反应区室包含按医师的判断所选定的适合于进行反应的试剂。例如,在某些实施方式中,试剂盒可以包含一个或更多个反应区室,所述反应区室包含一种或更多种测序试剂。
在试剂盒中包括的各种成分一般容纳在独立的容器中,然而,在某些实施方式中,一种或更多种成分可以存在于同一容器中。另外,试剂盒可以包含此处描述的组合物和试剂的任何组合。在某些实施方式中,试剂盒可以包含其他试剂,所述试剂对于进行所公开的方法是必需的或可选的。这样的试剂包括但不限于,缓冲液、对照多核苷酸,等等。
在本申请中,单数的使用包含了复数,除非另外特别指出了。在此使用的小节标题仅用于组织的目的,无论如何不被看作是限制所描述的主题。虽然结合各种实施例描述了当前的教导,不意味着当前的教导限于这样的实施方式。
实施例
多重焦磷酸测序
通过向PCR引物中掺入分子ID(MID)标签,方便了单次454运行中多个样品的多个HLA基因座的分析。表1显示了具有衔接头序列(用于珠子捕获)和4-碱基MID标签的454HLA-特异性融合引物的序列。提供了给出5-碱基MID标签的其他序列。
在初步的实验中,分析了具有已知的HLA基因型(表2)的24个细胞系。在随后的实验中,分析了48份样品。
对HLA-A、B和C基因座的外显子2、3和4,DRB1、DPB1、DPA1、DQA1的外显子2,以及DQB1的外显子2和3,设计了十五种引物对。对于每个目标序列设计了具有十二种不同MID标签的引物,总共180种(15×12)。DRB1的外显子2的引物也扩增DRB3、DRB4和DRB5基因座,它们是在特定的DRB1单元型上存在的基因。在各种样品的扩增之后,通过BioAnalyzer分析来定量PCR产物,稀释到合适的浓度,集中用于乳剂PCR。分别利用2个或4个picotitre平板区域,实现了24和48个个体的焦磷酸测序运行。所有扩增子的阅读长度的分布在附图2中示出。平均长度是250bp。这个长度对于正向和反向序列阅读的重叠是足够的,容许序列明确地指定为每种外显子,最终,指定为每种等位基因。每个个体的每个外显子的阅读的数目在附图3中示出。
基因分型软件
为了方便根据这些复杂的序列数据文件的基因型指定,开发了软件程序(Conexio Genomics),其将来自每个外显子的正向和反向序列阅读结果与HLA序列数据库比较。数据库还含有HLA假基因和相关的基因的序列,容许滤出从假基因产生的、或从非经典的HLA I类基因(例如,HLA-E、F、G和H)产生的序列。
根据探针杂交HLA分型和Sanger测序,已知HLA型的二十四个细胞系衍生的DNA样品在所有8个基因座处测序(HLA-A、-B、-C、-DRB1、-DQA1、-DQB1、DPA1、DPB1)。还鉴定了通过DRB引物对产生的扩增子中的DRB3、DRB4和DRB5的外显子2序列。随后,48份样品(24份细胞系DNA和24份提取自血液样品的DNA)的运行在同一基因座处测序,根据序列数据通过Conexio ATF软件产生基因型指定。软件的基因型认定和早先测定的HLA型的一致性是99.4%。
嵌合混合物的分析(罕有变体检测)
在典型的GSFLX运行中产生的序列阅读的非常高的数量(n=300-350K)使得检测样品中存在的罕有变体序列成为可能。为了估计检测这种序列的敏感性,我们制备了按照各种比例(1/1,1/10,1/100,1/1000)的、来自两份HLA纯合子样品的HLA-A和HLA-B的外显子2和3以及DRB1的外显子2的PCR产物的混合物。1/00的混合物中存在的罕有变体可以可再现地检测。
某些个体的血液是嵌合的,在儿童的循环中以极低水平存在残余的母体细胞,或在母亲的循环中维持的罕有的胎儿细胞(ref.)。SCID患者常常以极低的水平保留了母体细胞。当这样的患者是造血干细胞移植的接受者时,表征这种潜在的嵌合性的水平是临床上重要的。为了模拟SCIDS情况,其中母体细胞可能存在于儿童中,我们制备了两种杂合的样品的混合物,其以各种比例共有等位基因。在这个实验中,可以检测到罕有的变体。
还分析作为HST移植的接受者的两位SCIDS患者,以及他们的双亲。在每种情况下,可以检测到非传播的母体等位基因的存在。
克隆性测序,从个体的扩增的DNA分子、随后从HLA外显子产生的扩增子的分析容许明确的外显子序列测定,并且,通过将这些序列文件与HLA序列数据库比较,容许两种HLA等位基因的测定。GSFLX系统(454 Life Sciences)实现的阅读长度(平均=250bp)容许每个外显子的这种测定的足够的重叠。在本实施例中,通过ConexioGenomics所开发的软件(ATF),可以进行基于外显子序列数据文件的每个基因座处基因型的指定。软件的重要的方面是滤出通过引物与目标序列一起被共同扩增出的相关的序列阅读(假基因和其他不希望的HLA基因)的能力。软件还滤出非常罕有的序列阅读,其可能是由来自基因组DNA的目标序列的起始PCR扩增中的误差、乳剂PCR中的误差、或焦磷酸测序误差产生的。焦磷酸测序误差的一个充分记载的类别是在同聚物段的长度测定上。例如,我们观察到,当大多数序列阅读含有-Gs的正确运行时,罕有的序列阅读含有Gs的运行。
单次GSFLX运行的成本是相当大的。为了使得这种系统对于高分辨率临床HLA分型是低成本的,在单次运行中在多个基因座处分析多个样品。如这些实施例中描述的,picotitre平板的MID标签和多个区域的使用使得在8个基因座处运行24份或48份分析的样品成为可能。
并行地产生了非常大数量的序列阅读,这容许了在多个基因座处多个个体的这种多重分析。还提供了检测罕有的变体序列的能力。在来自两个不同的基因组DNA样品的PCR产物的混合物中,以1/100存在的HLA外显子序列被可靠地检出。相关的但是不需要的序列、以及含有误差的罕有的序列也被滤出。(大多数HLA等位基因相互不同在于多个多态性,而含有误差的序列一般与正确的序列不同仅一个核苷酸。)
尽管已经为了理解的清楚性的目的通过例示和举例详细描述了前述发明,根据本发明的教导,对于本领域普通技术人员明显的是,可对其作出某些改变和修饰而不偏离所附权利要求的精神或范围。
本说明书中引用的所有出版物,专利,登录号,和专利申请通过援引并入本文,如同每个单独的出版物或专利申请被特别地和单独地指示通过援引并入一样。
表2