用于评估免疫组库的方法.pdf

上传人:zhu****_FC 文档编号:8663512 上传时间:2020-10-31 格式:PDF 页数:125 大小:8.46MB
返回 下载 相关 举报
摘要
申请专利号:

CN201480020810.1

申请日:

20140211

公开号:

CN105164277A

公开日:

20151216

当前法律状态:

有效性:

审查中

法律详情:

IPC分类号:

C12Q1/68

主分类号:

C12Q1/68

申请人:

CB生物技术公司

发明人:

王春林,韩建

地址:

美国阿拉巴马州

优先权:

61/763,451

专利代理机构:

北京安信方达知识产权代理有限公司

代理人:

陈建芳;阎娬斌

PDF下载: PDF下载
内容摘要

本文公开了用于扩增来自T细胞群和B细胞群的RNA并且使用所扩增的RNA产物来评估正常或异常免疫响应与例如自身免疫疾病、癌症、糖尿病或心脏病的疾病的发生之间的可能相关性的方法。

权利要求书

1.一种用于评估免疫响应细胞群的改变并且将那些改变与特定疾病相关联的方法,所述方法包括以下步骤:(a)从至少一个人或动物受试者分离白细胞亚群;(b)从所述细胞亚群分离RNA;(c)在第一扩增反应中使用RT-PCR利用嵌套引物扩增所述RNA以产生扩增子,所述嵌套引物的至少一部分包含额外核苷酸以将针对公共引物的结合位点并入所得扩增子中;(d)将所述第一扩增反应的所述扩增子与所述第一扩增反应的一种或多种未使用的引物分离;(e)通过在第二扩增反应中添加公共引物来扩增所述第一扩增反应的具有至少一个针对公共引物的结合位点的所述扩增子;和(f)对所述第二扩增反应的所述扩增子测序以识别所述细胞亚群中的抗体和/或受体重排。 2.根据权利要求1所述的方法,其中所述第二扩增反应的产物为包含互补性决定区3(CDR3)的多核苷酸。 3.根据权利要求1所述的方法,其中所述分离白细胞亚群的步骤通过流式细胞术进行。 4.根据权利要求1所述的方法,其中所述白细胞亚群包含T细胞。 5.根据权利要求4所述的方法,其中所述T细胞选自由初始T细胞、成熟T细胞和记忆T细胞组成的组。 6.根据权利要求1所述的方法,其中所述白细胞亚群包含B细胞。 7.根据权利要求6所述的方法,其中所述B细胞选自由初始B细胞、成熟B细胞和记忆B细胞组成的组。 8.根据权利要求1所述的方法,其中所述细胞亚群中的所述重排选自由B细胞免疫球蛋白重链(IgH)、B细胞κ、B细胞λ轻链、T细胞受体β、T细胞γ和T细胞δ的重排组成的组。 9.根据权利要求1所述的方法,其进一步包括以下步骤:(g)将针对已施用疫苗的个体群识别的重排与针对未施用所述疫苗的个体群识别的重排相比较;和(h)评估所述疫苗在产生免疫响应中的效能。 10.根据权利要求1所述的方法,其进一步包括以下步骤:(g)将针对正常个体群识别的重排与针对已诊断患有疾病的个体群识别的重排相比较;(h)确定在特定重排或重排集合与所述疾病之间是否存在相关性。 11.一种用于分析半定量序列信息以为人或动物提供一个或多个免疫状态报告的方法,所述方法包括以下步骤:(a)识别在受试者免疫谱与来自存储于数据库中的疾病库的累积免疫谱之间共有的一个或多个独特CDR3序列;(b)对对应于那些共有的独特CDR3序列的受试者的被检测出序列的总数求和;(c)计算所述受试者免疫谱中的代表在所述受试者免疫谱与所述疾病库之间共有的那些独特CDR3的被检测出序列的总数的百分数以产生一个或多个初始共有指数;(d)从存储于数据库中的公共库随机选择序列以形成子库,所述子库所包含的独特CDR3序列的数量约等于所述疾病库中的独特CDR3序列的数量;(e)识别在所述受试者免疫谱与所述子库之间共有的一个或多个独特CDR3序列;(f)对对应于那些共有的CDR3序列的被检测出序列的总数求和,并且计算所述受试者免疫谱中的在所述受试者免疫谱与所述子库之间共有的被检测出序列的总数的百分数以产生抽样共有指数;(g)将步骤(d)到(f)重复至少1000次或更多次;和(h)将P值评估为所述抽样共有指数大于或等于在患者免疫谱与疾病库之间的所述初始共有指数的次数的分数。 12.一种用于研发个人免疫组库的数据库的方法,所述方法包括以下步骤:(a)扩增和测序来自一个或多个个体的白细胞亚群的一种或多种RNA;(b)将序列输入到数据库以提供可以存储于计算机、服务器或其它电子存储器件上的数据;(c)输入个体的对应于所述一种或多种RNA的序列的识别信息和特征作为也可以存储于计算机、服务器或其它电子存储器件上的数据,和(d)评估一个或多个个体的步骤(b)和步骤(e)的所述数据,以确定在所述一种或多种RNA的序列与所述个体的对应于所述一种或多种序列的一个或多个特征之间是否存在相关性。 13.根据权利要求12所述的方法,其中所述识别信息选自由以下组成的组:患者识别号、包含患者的HLA类型的代码、包含可能已作出的一个或多个临床诊断的疾病代码、包含样品的日期的“分期代码”、包含从其扩增和测序所述RNA的细胞亚群的类型的细胞类型代码、和包含针对所述样品识别的所述序列的一个或多个序列代码。 14.根据权利要求12所述的方法,其中所述白细胞亚群包含T细胞。 15.根据权利要求14所述的方法,其中所述T细胞选自由初始T细胞、成熟T细胞和记忆T细胞组成的组。 16.根据权利要求12所述的方法,其中所述白细胞亚群包含B细胞。 17.根据权利要求16所述的方法,其中所述B细胞选自由初始B细胞、成熟B细胞和记忆B细胞组成的组。

说明书

序列表

本申请含有以ASCII格式电子提交且以引用方式整体并入本文中的 序列表。所述ASCII拷贝创建于2014年2月5日,命名为 15892-0005_SL.txt并且大小为93,776个字节。

相关申请的交叉引用

本申请是名称为“MethodforEvaluatinganImmunorepertoire”且在 2013年2月11日提交的美国临时申请号61/763,341的继续申请并且要求 所述美国临时申请的优先权,所述美国临时申请以引用方式并入本文中。

技术领域

本发明涉及识别细胞群中的T细胞受体抗体的方法和使用所述信息测 量患者的免疫状态并且预测所述患者可能患哪种疾病的概率的方法。

背景技术

多年来,科学家已知道某些疾病与特定的基因或基因突变相关。然而, 遗传原因只解释了在人中诊断的一部分疾病。许多疾病似乎以某种方式与 免疫系统对传染因素和环境因素的响应相关,但免疫系统如何在疾病(例 如癌症、阿尔茨海默氏病(Alzheimer’sdisease)、肋软骨炎、纤维肌痛、狼 疮和其它疾病)中起作用仍然在被确定中。

人基因组包含总数为567到588个的IG(免疫球蛋白)基因和TR(T 细胞受体)基因(339到354个IG和228到234个TR)/单倍体基因组,所 述基因位于7个主要基因座中。它们包含405到418个V基因、32个D 基因、105到109个J基因和25到29个C基因。功能IG基因和TR基 因的数量是每个单倍体基因组321到353个。它们包含187到216个V 基因、28个D基因、86到88个J基因和20到21个C基因 (http://imgt.cines.fr)。通过这些基因的重排,估计可生成2.5×107种可能的 抗体或T细胞受体。

目前为止,已将少量疾病与身体对共同抗原(Prinz,J.等人,Eur.J. Immunol.(1999)29(10):3360-3368,“SelectionofConservedTCRVDJ RearrangementsinChronicPsoriaticPlaquesIndicatesaCommonAntigenin PsoriasisVulgaris)和/或对特定VDJ重排(Tamaru,J.等人,Blood(1994)84(3): 708-715,“Hodgkin’sDiseasewithaB-cellPhenotypeOftenShowsaVDJ RearrangementandSomaticMutationsintheVHGenes)的反应相关联起来。 需要用于评估人免疫响应细胞的改变并且将那些改变与特定疾病相关联 的更好方法。

发明内容

本发明涉及用于评估免疫响应细胞群的改变并且将那些改变与特定 疾病相关联的方法。在本发明的一个方面,所述方法包括以下步骤:(a) 从至少一个人或动物受试者分离白细胞亚群,(b)从该细胞亚群分离RNA, (c)在第一扩增反应中使用RT-PCR利用嵌套引物扩增RNA以产生扩增子, 嵌套引物的至少一部分包含额外核苷酸以将针对公共引物(communal primer)的结合位点并入所得扩增子中,(d)将第一扩增反应的扩增子与第 一扩增反应的一种或多种未使用的引物分离,(e)通过在第二扩增反应中 添加公共引物来扩增第一扩增反应的具有至少一个针对公共引物的结合 位点的扩增子,和(f)对第二扩增反应的扩增子测序以识别细胞亚群中的抗 体和/或受体重排。在一个实施方案中,亚群可包括全血群或另一混合群 样品。

在一个实施方案中,可通过流式细胞术进行分离白细胞亚群的步骤, 以分离初始B细胞、成熟B细胞、记忆B细胞、初始T细胞、成熟T细 胞和记忆T细胞。在所述方法的多个实施方案中,细胞亚群中的重组是B 细胞免疫球蛋白重链(IgH)、κ轻链和/或λ轻链(IgK、IgL)、T细胞受体α、 β、γ、δ的重排。在另一实施方案中,

在本发明的另一方面,所述方法可任选地包括另一步骤,所述另一步 骤包括(g):将针对已施用疫苗的个体群识别的重排与针对未施用疫苗的 个体识别的重排相比较,以评估疫苗在产生免疫响应中的效能。

所述方法还可任选地包括另一步骤(g):将针对正常个体群识别的重 排与针对已被诊断患有疾病的个体群识别的重排相比较,以确定在特定重 排或重排集合与疾病之间是否存在相关性。

在多个方面,所述方法可产生对包含互补性决定区3(CDR3)的多核 苷酸的半定量扩增,所述区域是由T细胞或B细胞内的基因重排引起的, 并且引起抗体和/或T细胞受体对特定抗原的亲和性和特异性。半定量扩 增提供的方法不只是检测特定CDR3序列的存在,并且还确定已产生用 于产生那些CDR3序列的必需重组事件的细胞的相对丰度。

因此,本发明的一个方面涉及用于分析半定量序列信息以为人或动物 提供一个或多个免疫状态报告的方法。用于产生免疫状态报告的方法包括 以下步骤:(a)识别在受试者免疫谱与来自存储于数据库中的疾病库的累积 免疫谱之间共有的一个或多个独特的CDR3序列,对对应于那些共有的独 特CDR3序列的受试者的所检测出序列的总数求和,并且计算受试者免疫 谱中代表那些在受试者免疫谱与疾病库之间共有的独特CDR3的所检测出 序列总数的百分数,以产生一个或多个初始共有指数;(b)从存储于数据库 中的公共库随机选择序列以形成子库,所述子库所包含的序列数量约等于 疾病库中独特CDR3序列的数量,识别在受试者免疫谱与子库之间共有的 一个或多个独特的CDR3序列,对对应于那些共有的CDR3序列的被检测 出序列的总数求和,并且计算受试者免疫谱中在受试者免疫谱与子库之间 共有的所检测出序列总数的百分数,以产生抽样共有指数;(c)将步骤(b) 重复至少1000次或更多次;和(d)将P值评估为抽样共有指数大于或等于 患者的免疫谱与疾病库之间的初始共有指数的次数的分数。

附图说明

参考以下附图可以更好地理解本公开。附图中的元件未必是相互成比 例的,而重点在于清楚地图解说明本公开的原理。此外,在所有的这几幅 视图中,同样的附图标记指定相应的部分。

图1a和图1b是图解说明通过本发明方法使用本文公开的引物获得的 扩增产物的存在的凝胶的照片。

图2a和图2b是代表在患有疾病的个体与通常健康的个体的免疫谱之 间所观察到的多样性的差异的卡通图,其中每一实心圆圈代表一个独特 CDR3序列,并且圆圈的大小代表在免疫谱中发现独特CDR3序列的次数。

图3是图解说明用于生成公共库的方法的图表。

图4是图解说明用于生成疾病库的方法的图表。

图5图解说明通过以下获得的结果:将患者免疫谱与疾病库相比较, 计算患者免疫谱中的在所述两者之间共有的每一独特CDR3的百分数, 并且将那些百分数相加以产生总和或共有指数。

图6图解说明通过以下获得的结果:将患者免疫谱与公共库的子集相 比较,计算在所述两者之间共有的每一独特CDR3的百分数,并且将在 患者免疫谱中的那些百分数相加以产生总和或共有指数。

图7是图解说明本发明方法的图形,其中曲线下面积代表针对公共库 的子集(子库)获得的总共有指数,估计P值,并且垂直线(DL1、DL2等)代 表用于比较个体的免疫谱与一个或多个疾病库的共有指数。

具体实施方式

本发明人已研发出用于从大量细胞评估抗体和T细胞受体重排的方 法,所述方法可用于比较在个体群中识别的重排,以确定在特定重排或重 排集合与疾病或疾病的某些症状之间是否存在相关性。所述方法还可用于 建立一个或多个个体响应传染因素和/或环境因素的免疫响应史,以及用 于评估疫苗的效能。

本发明涉及用于评估免疫响应细胞群的改变并且将那些改变与特定 疾病相关联的方法。在本发明的一个方面,所述方法包括以下步骤:(a) 从至少一个人或动物受试者分离白细胞亚群,(b)从该细胞亚群分离RNA, (c)在第一扩增反应中使用RT-PCR利用嵌套引物扩增RNA以产生扩增子, 嵌套引物的至少一部分包含额外核苷酸以将针对公共引物的结合位点并 入所得扩增子中,(d)将第一扩增反应的扩增子与第一扩增反应的一种或 多种未使用的引物分离,(e)通过在第二扩增反应中添加公共引物来扩增 第一扩增反应的具有至少一个针对公共引物的结合位点的扩增子,和(f) 对第二扩增反应的扩增子测序以识别细胞亚群中的抗体和/或受体重排。 在一个实施方案中,该亚群可包括全血群或另一混合群样品。

在一个实施方案中,从患者取出外周血液样品,并且可通过流式细胞 术进行分离白细胞亚群的步骤,以分离初始B细胞、成熟B细胞、记忆 B细胞、初始T细胞、成熟T细胞和记忆T细胞。在所述方法的多个实 施方案中,细胞亚群中的重组是B细胞免疫球蛋白重链(IgH)、κ轻链和/ 或λ轻链(IgK、IgL)、T细胞受体β、γ或δ的重排。

在本发明的第二方面,所述方法可包括另一步骤(g):将针对正常个 体群识别的重排与针对已被诊断患有疾病的个体群识别的重排相比较,以 确定在特定重排或重排集合与该疾病之间是否存在相关性。

在本发明的另一方面,所述方法可包括另一步骤,所述另一步骤包括 (g):将针对已施用疫苗的个体群识别的重排与针对未施用疫苗的个体群 识别的重排相比较,以评估疫苗在产生免疫响应中的效能。

在一些实施方案中,可省略将第一扩增反应的扩增子与第一扩增反应 的一种或多种未使用的引物分离的步骤,并且可在同一反应管中进行这两 次扩增反应。

本发明人先前研发了称为tem-PCR的PCR方法,所述方法已描述于 公开号WO2005/038039中,所述公开的公开内容以引用方式整体并入本 文中。最近,本发明人已研发出称为arm-PCR的方法,所述方法描述于 美国临时专利申请号61/042,259中,所述申请的公开内容以引用方式整 体并入本文中。还描述了用于检测样品中的靶标多核苷酸的装置,所述装 置包括:用于热循环以利用嵌套引物扩增一个或多个靶标多核苷酸以产生 扩增子的第一扩增室,嵌套引物的至少一部分包含额外核苷酸以将针对公 共引物的结合位点并入所得扩增子中;用于将第一扩增反应的扩增子与第 一扩增反应的一种或多种未使用的引物分离的构件;和用于热循环以通过 在第二扩增反应中添加公共引物来扩增在第一扩增反应期间产生的一个 或多个扩增子的第二扩增室,第一扩增反应的扩增子具有至少一个针对至 少一种公共引物的结合位点。

还描述了PCR芯片,其包含第一PCR室,所述室流体连接到废液储 器和第二PCR室两者,该废液储器和第二PCR室各自另外包含至少一个 电极,所述电极包含用于分离从第一PCR室产生的扩增子的构件。第二 PCR室流体连接到杂交和检测室,杂交和检测室包含微球体或珠粒,所 述珠粒被布置使得珠粒的物理位置指示借助芯片分析的样品中存在特定 靶标多核苷酸。

tem-PCR方法,尤其是arm-PCR方法,提供了在一次反应中对多个 多核苷酸的半定量扩增。另外,arm-PCR提供额外灵敏度。两者都能够 在一次反应中扩增多个多核苷酸,这有益于本发明方法,这是因为(例如) 多种T细胞和B细胞的组库(repertoire)是如此之大。在扩增反应中添 加公共引物的结合位点,和随后使用公共引物扩增靶标分子得到定量或半 定量结果,这使得可确定患者血液样品内包含多种重排的细胞的相对量。 由于识别抗原引起的克隆增殖产生较大的识别所述抗原的细胞群,并且通 过细胞相对数量评估所述细胞提供用于确定抗原暴露是否影响产生抗体 的B细胞或具有受体的T细胞的增殖的方法。这有助于评估是否可能存 在于(例如)已被诊断患有具体疾病的个体中较为普遍的具体细胞群,并且 尤其可有助于评估疫苗是否在已给予疫苗的个体中达成期望的免疫响应。

存在几种市售的高通量测序技术,例如RocheLifeSciences的454测 序。在454测序方法中,454A和454B引物在PCR期间连接到PCR产物 上或在PCR反应后连接在PCR产物上。当结合tem-PCR或arm-PCR进 行时,454A和454B引物可在扩增反应中用作公共引物。将PCR产物(通 常是不同序列的混合物)稀释到约200个拷贝/μl。在“乳液PCR”反应中,(半 固体凝胶样环境)在微珠的表面上通过引物(454A或454B)扩增被稀释的 PCR产物。因为PCR模板非常稀,通常只有一个珠粒毗邻一个模板,并 且其被局限于半固体环境中,扩增只在珠粒上和珠粒周围发生。然后洗脱 珠粒,并将其置于具有专门设计的孔的板上。每一孔只可容纳一个珠粒。 然后,将试剂添加到各孔中以进行焦磷酸测序。可使用光纤检测器读取每 一孔的测序反应,并通过计算机平行收集数据。一种所述高通量反应可生 成多达6000万个读段(read)(6000万个珠粒)并且每一读段可生成约300bp 序列。

本发明的一个方面涉及“个人免疫组库”或免疫谱的数据库的研发,使 得每一个体可建立基线并且在几年时间内追踪对抗原(已知和未知抗原) 的免疫响应的发展。如果这一信息是自大量个体收集的,那么所述信息可 提供将产生有价值信息的流行病学数据库,特别是在例如癌症和心脏病的 那些疾病的发生方面,所述疾病被认为通常是由暴露于病毒或其它传染源 或被转化细胞引起的,所述病毒或其它传染源或被转化细胞中的许多还未 得到识别。本发明方法的一个尤其重要的用途涉及对儿童进行评估以确定 传染疾病、环境因子或疫苗是否可能是自闭症的病因。例如,许多人已经 提出,疫苗施用可引发自闭症的发生。然而,许多人也将潜在相关性归因 于疫苗中的药剂例如硫柳汞的使用,并且研究已证明硫柳汞似乎不是所述 疾病的致病剂。仍存在如下推测:混合疫苗的研发与自闭症病例数的增加 相关,然而,收集用于评估多个抗原的潜在因果关系的数据是极其困难的。 本发明方法简化了所述过程并且可提供关键信息以更好地了解自闭症和 其它疾病,在所述疾病中不同个体的免疫响应可以对暴露于试剂或试剂组 的一些个体中疾病的差异发展、而其它类似暴露的个体不发生所述疾病提 供解释。

由感染引发的免疫谱不平衡可导致许多疾病,包括癌症、白血病、神 经疾病(阿尔茨海默氏病、多发性硬化症、帕金森氏病(Parkinson’s)、自闭 症等)、自身免疫疾病和代谢疾病。这些疾病可称为免疫谱疾病。可能存 在两种免疫谱疾病形式。(1)“功能缺失”形式,和(2)“功能获得”形式。在“功 能缺失”形式中,人对疾病易感是因为他/她的受限制的和/或有限的免疫谱 缺少产生最有效的和必需的IG和TR的细胞。在“功能获得”形式中,人 对疾病易感是因为他/她的免疫谱获得了产生在正常情况下不应存在的IG 和TR的细胞。在“功能缺失”(LOF)免疫谱疾病中,个体不具有适当的功 能性B细胞或T细胞以对抗疾病。他/她的HLA分型决定了那些细胞在 免疫细胞成熟过程的早期期间被消除,所述细胞通常被消除的原因是其与 他/她的自身蛋白强烈地反应。

本发明的一个方面还提供包括以下的方法:(a)扩增来自一个或多个 个体的T细胞和/或B细胞的一种或多种RNA并对其测序,(b)将序列输 入到数据库中以提供可以存储在计算机、服务器或其它电子存储器件上的 数据,(c)输入个体的对应于所述一种或多种RNA的序列的识别信息和特 征作为也可存储在计算机、服务器或其它电子存储器件上的数据,和(d) 评估针对一个或多个个体的步骤(b)和步骤(e)的数据,以确定在所述一种 或多种RNA的序列与所述个体的对应于所述序列的一个或多个特征之间 是否存在相关性。识别信息可包括(例如)患者识别号、包含患者HLA类 型的代码、包含可能已作出的一个或多个临床诊断的疾病代码、包含样品 日期的“分期代码”、包含从其扩增和测序所述RNA的细胞亚群的类型的 细胞类型代码、和包含针对所述样品识别的序列的一个或多个序列代码。

所描述方法包括新颖引物设计,所述设计不只允许扩增整个免疫组库, 而且还允许以高度多重方式且半定量地进行扩增。多重扩增要求只需要少 量PCR或RT-PCR反应。例如,所有IG均可在一次反应中扩增,或可针 对IgH、IgL或IgK将所述反应分为两次或三次反应。类似地,T细胞受 体(TR)可只在一次反应中扩增,或可在几次反应中扩增,包括TRA、TRB、 TRD和TRG。半定量扩增意味着多重反应中的所有靶标均将独立地被扩 增,使得对扩增产物的终点分析将反映靶标中初始的内部比。

在多个方面,所述方法可产生对包含互补性决定区(CDR)的多核苷酸 的半定量扩增,所述区域是由T细胞或B细胞内的基因重排引起的,且 引起抗体和/或T细胞受体对特定抗原的亲和性和特异性。半定量扩增提 供的方法不只是检测特定CDR3序列的存在,而且还确定已产生必需重 组事件以产生那些CDR3序列的细胞的相对数量。

因此,本发明的一个方面涉及用于分析半定量序列信息以为人或动物 提供一个或多个免疫状态报告的方法。用于产生免疫状态报告的方法包括 以下步骤:(a)识别在受试者免疫谱与存储于数据库中的疾病库之间共有 的一个或多个独特CDR3序列,对那些共有的CDR3序列的总数求和, 并且计算受试者免疫谱中在受试者免疫谱与疾病库之间共有的序列的总 数的百分数,以产生一个或多个初始共有指数;(b)从存储于数据库中的 公共库随机选择序列以形成子库,所述子库所包含的序列数量约等于疾病 库中独特序列的数量,识别在受试者免疫谱与子库之间共有的一个或多个 独特CDR3序列,对那些共有的CDR3序列的总数求和,并且计算受试 者免疫谱中在受试者免疫谱与子库之间共有的序列的总数的百分数,以产 生抽样共有指数;(c)将步骤(b)重复至少1000次或更多次;和(d)将P值评 估为抽样共有指数大于或等于在患者免疫谱与疾病库之间的初始共有指 数的次数的分数。

本发明人已发现,患有某些疾病(例如,癌症、自身免疫疾病等)的个体 的免疫谱的特征可能在于一个或多个免疫细胞群缺乏多样性。图1是图解 说明可在(例如)存在于癌症患者(图1a)与健康患者(图1b)的血液样品中的T 细胞的独特类型和数量之间观察到的差异的卡通图,其中每一圆圈代表一 个独特类型的T细胞,所述差异由经扩增和测序的T细胞受体的互补性决 定区(例如CDR3)的重组cDNA以及通过PCR扩增和测序确定共有相同 CDR3序列的细胞的相对数量所表示。如图1a所指示,可能存在较少的具 有不同特异性的独特细胞,但是具有某特异性的细胞数目较大,如通过 CDR3序列所表示。图1b图解说明具有更多不同细胞的正常谱,但是共有 相同CDR3序列的每一细胞类型的数量更少。

来自人或动物的血液或组织样品内每一独特CDR3表达细胞的列表和 所表示的此类细胞的数量可构成人或动物的免疫谱。将一组人(例如包含健 康个体和患有多种不同疾病的个体的组)的免疫谱编撰在一起可提供代表 在正常群中发现的多样性类型的“公共库”(图2)。类似地,将已在临床上被 诊断患有具体疾病的一组个体的免疫谱编撰在一起可提供代表缺乏多样性 的、所增殖的细胞群的特定CDR3等的“疾病库”(图3)。可将这些免疫谱存 储于(例如)可通过计算机访问互联网获得的数据库中,使得可在本发明方法 中使用所述信息来分析患者的免疫状态。

可针对个体患者产生包含独特CDR3表达细胞(“独特CDR3”,那些共 有独特CDR3序列的细胞)的列表和存在于来自个体的血液或组织样品中的 每一独特CDR3的数量的免疫谱。将患者的免疫谱与已被诊断患有具体疾 病的一组患者的组合免疫谱(疾病库,其存储于数据库中)相比较。这可针对 一系列疾病库进行并且显示于图4中。

公共库可能存在数以百万的可能组合,大多数那些个体的免疫系统相 对于已被诊断患有特定疾病的一组个体的免疫系统通常展现出增加的多样 性。因此,本发明人确定通过从公共库中的独特CDR3的列表和其数量随 机抽样/选择来制备子库的步骤将有利于对本发明方法进行准确评价和比 较。通过CDR3片段的独特肽序列代表的独特CDR3的数量应约等于在疾 病库中识别的独特CDR3的数量或从超过一个疾病库计算的平均值。产生 显著数量的子库例如1000个或更多个子库(通过从公共库随机抽样产生)增 加了多种独特CDR3的存在,并且产生对于将个体患者的免疫谱识别并表 征为正常(“健康”)或以存在与具体疾病相关的细胞的类型和数量为特征在 统计学上显著有效的结果。

在本发明方法中,患者提供包含(例如)血液或组织的临床样品,从所述 样品半定量扩增独特CDR3并对其进行测序。这为所有独特CDR3提供了 每一CDR3的标识和相对丰度。可将这一信息输入到获取含有至少一个公 共库和一个或多个疾病库的数据库的程序中。用于数据输入和/或分析的软 件可通过互联网访问数据库获取,或可位于单独的个人计算机上,利用互 联网访问数据库中的序列信息。获得在个体免疫谱与多个库和子库之间的 比较,并生成结果,如图4和图5中大体图示,如果检测到特定CDR3序 列,那么将被检测到的那些独特CDR3序列的数量计数,并且确定所述特 定独特CDR3是否存在于个体免疫谱和特定库二者中(也就是,在个体与库 之间“共有”所述特定独特CDR3)。将表示被确定为共有的那些CDR3的数 量的百分数加在一起,以产生包含总数包含个体免疫谱中在个体免疫谱与 特定库之间共有的CDR3的分数的总和(也就是,“共有指数”)。根据针对子 库获得的结果,将P值计算为随机百分数将大于或等于针对具体疾病库记 录的百分数的机率,并且当抽样共有指数超过具体库的初始共有指数的次 数的分数小于(例如)0.01时记录显著结果。如果所述共有指数代表个体免 疫谱与疾病库之间的关系,那么所述个体可被告知所述个体/患者患有通过 特定疾病库代表的疾病的概率。如果针对所有疾病库计算的P值大于0.01, 那么该个体的报告可指示免疫谱看起来正常并且还未检测出疾病状态。

由于序列数据被编撰在一起并被存储于多个个体群的一个或多个数据 库中,其另外可将某些共有指数与代表具有对某些疾病的预调 (pre-condition)或诱因的群的库相关联。免疫系统具有主动性和反应性, 并且免疫谱中所反映的免疫系统的改变可提供存在诱因、预调或甚至已建 立疾病的第一个(并且有时候为唯一的)信号。本发明人已利用所述方法证明 了可通过确定患者与已建立疾病库之间的共有指数来检测某些类型的癌症、 炎性肠病和某些病毒感染,所述疾病库是通过使用ARM-PCR方法对CDR3 测序以产生代表所存在CDR3的免疫组库的子集获得的。

当将过滤器应用到序列数据时,结果甚至更加可靠。例如,本发明人 已研发出用于序列数据的“SMART”过滤器,所述程序有助于生成显著更加 可靠的结果。这在实施例中予以进一步描述。

通过进一步解释,以下实施例可说明本发明方法。可在施用任何疫苗 前自儿童取得血液样品,每一儿童的那些血液样品用于建立“基线”,可相 对于所述基线评估未来样品。对于每一儿童,可利用未来样品确定是否已 暴露于已使已知与疾病相关的细胞群增殖的因子,并且这可用作未来发生 疾病的风险的“标记物”。然后,如此识别的个体可以被更密切地监测使得 可以进行早期检测,并且可在疾病过程的较早期提供任何可用的治疗选择。

通过提供另一示例,可在施用任何疫苗之前从儿童取得血液样品,来 自每一儿童的那些血液样品建立“基线”,相对于所述基线可评估未来样品。 对于研究中的每一儿童并且对于整个儿童群,可将那些基线与在施用疫苗 后使用靶标特异性引物扩增抗体和T细胞受体的T细胞和B细胞的RNA 测序的结果相比较。所述比较可进一步涉及评估关于症状、所诊断疾病和 针对每一个体与相应抗体和T细胞受体序列相关的其它信息的数据。如果 在疫苗的施用与具体疾病的发生之间存在关系,那么展现所述疾病的症状 的个体还可共有相应抗体或T细胞受体,例如,或相应抗体或T细胞受体 的集合。

本发明方法可以尤其用于识别患有(例如)自身免疫疾病的个体间的共 同性,并且可以提供流行病学数据,所述数据将更好地描述传染因素和环 境因素与疾病(例如心脏病、动脉粥样硬化、糖尿病和癌症)间的相关性,进 而提供指示存在疾病或倾向于发生疾病的“生物标记物”。

所述方法还可用于研发被动免疫疗法。例如,在暴露于传染源后,某 些产生抗体的B细胞和/或T细胞得以增殖。本发明方法使得能够识别(例 如)保护性抗体,并且那些抗体可用于在需要被动免疫疗法的情况中提供此 类疗法。

本发明方法还可提供实现靶向去除具有不合意重排的细胞的能力,所 述方法提供可识别此类细胞重排的方式。

本发明人已识别并研发出供本发明方法使用的靶标特异性引物。T细 胞特异性引物显示于表1中,并且抗体特异性引物显示于表2中。本发明 的另一实施方案是如下方法:使用表1或表2引物的任何一种或其组合来 扩增血液样品的RNA,更具体地,来识别细胞群内的抗体、T细胞受体和 HLA分子。

可按照本发明人先前所描述(Han等人,2006.Simultaneous AmplificationandIdentificationof25HumanPapillomavirusTypeswith TemplexTechnology.J.Clin.Micro.44(11)4157-4162)的扩增方法使用 Arm-PCR或tem-PCR扩增编码免疫球蛋白超家族分子的基因。在tem-PCR 反应中,基因特异性嵌套引物被设计成在初始PCR循环期间富集靶标。此 后,使用通用“超级”引物扩增所有靶标。引物被命名为Fo(正向外侧)、Fi(正 向内侧)、Ri(反向内侧)、Ro(反向外侧)、FS(正向超级引物)和RS(反向超 级引物),其中超级引物对于各个分子是共用的,这是由于在靶标特异性引 物末端处添加了那些引物的结合位点。基因特异性引物(Fo、Fi、Ri和Ro) 以极低的浓度使用。在tem-PCR过程的三个主要阶段中的每一者中涉及不 同的引物。首先,在“富集”阶段,给予低浓度基因特异性引物以足够时间 来发现模板。对于每一意欲的靶标,取决于使用哪种引物,可生成四种可 能的产物:Fo/Ro、Fi/Ro、Fi/Ri和Fo/Ri。通常将富集阶段进行10个循环。 在第二阶段或“加标签”阶段,使退火温度升高到72℃,并且只有长度为40 个核苷酸的内侧引物(Fi和Ri)将起作用。在这一加标签阶段的10个循环后, 所有PCR产物都被通用超级引物序列“加标签”。然后,在第三“扩增”阶段, 高浓度超级引物有效地起作用以扩增所有靶标并在所述过程期间用生物素 标记PCR产物。特异性探针可以与Luminex色彩涂覆的珠粒共价连接。

为了扩增编码免疫球蛋白超家族分子的基因,本发明人基于公共领域 中的序列信息设计了嵌套引物。为了研究B细胞和T细胞VDJ重排,本发 明人设计了用于扩增重排和表达的RNA的引物。通常,从V基因设计一 对嵌套正向引物并且从J基因或C基因设计反向嵌套引物集合。平均扩增 子大小为250bp到350bp。例如,对于IgHV基因,存在123个基因,它 们可分成7个不同家族,并且将本发明引物设计成家族特异性的。然而, 如果对扩增的cDNA序列测序,那么存在足够的序列多样性,从而容许相 同家族内的基因中的进一步分化。对于MHC基因座,意在扩增基因组DNA。

实施例

共有指数的计算

假定S是受试者的免疫谱(IP),所述免疫谱被表示为N个独特CDR3序列 CDR31、CDR32、...CDR3n,每一CDR3具有其自身频率s1、s2、...sn。

D是疾病库,其是一定数量的具有M个独特CDR3的患者免疫谱的总和。 疾病库中的所有患者都被诊断患有相同疾病。

P是公共库,其是大量对照的免疫谱的总和。

共有指数被定义为sx、sy、...sz的总和,其中在受试者的免疫谱与库中 共有CDR3x、CDR3y、...CDR3z。应注意,sx、sy、...sz是受试者的免疫谱 中的CDR3的频率而非库中的CDR3的频率。

假定在公共库(P)中比在疾病库(D)中总是存在更多的独特CDR3,随机 选择公共库中的M个独特CDR3并将其用于产生子库P1,并根据上式计算 受试者与子库间的共有指数(SIp1)。将抽样程序重复1000次或更多次,并且 计算1000个或更多个SIpx。

以相同方式计算受试者与疾病库间的共有指数SId。P值被定义为所有 SI(SIp1、SIp2、...SIpx、SId(应注意SId包括在内)的分数,其等于或大于SId。 应注意,当对公共库中的CDR3抽样时,存在于x个对照的免疫谱中的CDR3 有x次机会被抽样。

T细胞或B细胞重排位点的扩增

使用1×TE将所有寡核苷酸重悬。将除454A和454B外的所有寡核苷酸 重悬到100pmol/μL的浓度。将454A和454B重悬到1000pmol/μL的浓度。 454A和454B与此前描述的公共引物在功能上是相同的,将不同序列用于后 续高通量测序程序。

制备三种不同的引物混合物。αδ引物混合物包括82种引物(所有均为 TRAV-C+TRDV-C),βγ引物混合物包括79种引物(所有均为TRBVC和 TRGV-C),并且B细胞引物混合物包括总共70种引物。Fo、Fi和Ri引物的浓 度为1pmol/μL。Ro引物的浓度为5pmol/μL。454A和454B的浓度为30 pmol/μL。

三种不同的RNA样品从ALLCELLS(www.allcells.com)订购。所有样品 均被稀释到4ng/uL的最终浓度。所订购的样品为:

细胞类型: 来源: ALL-PB-MNC 患有急性淋巴母细胞白血病的患者 NPB-Pan T细胞 正常T细胞 NPB-B细胞 正常B细胞

使用Qiagen一步式RT-PCR试剂盒进行RT-PCR。每一样品含有以下:

10μLQiagen缓冲液

2μLDNTP’s

2μl酶

23.5μLdH2O

10μL适当引物混合物

2.5μL适当模板(总共10ngRNA)

使用以下循环条件操作样品:

50℃30分钟

95℃15分钟

94℃30秒

15个如下循环

55℃1分钟

72℃1分钟

94℃15秒

6个如下循环

70℃1分钟30秒

94℃15秒

30个如下循环

55℃15秒

72℃15秒

72℃3分钟

4℃保持

图1a中所示的置于凝胶中的样品的顺序为:(1)分子梯度(500bp为最 大,以20bp的幅度(step)降低,图1a中的中间明亮条带为200bp);(2)α +δ引物混合物和10ngPanT细胞模板;(3)β+γ引物混合物和10ngPan T细胞模板;(4)B细胞引物混合物和10ngB细胞模板;(5)B细胞引物混 合物和10ngALL细胞模板;(6)α+δ引物混合物和10ngALL细胞模板; (7)β+γ引物混合物和10ngALL细胞模板;8.α+δ引物混合物空白;(9)β +γ引物混合物空白;(10)B细胞引物混合物空白;(11)电泳缓冲液空白。 这些样品在预浇注的SDS10%凝胶上使用DNA非变性电泳缓冲液进行电泳。

初始实验显示从包括模板的PCR反应生成拖尾条带。拖尾条带指示 生成了大小不同的PCR产物,所述产物代表不同VDJ重排的混合物。存 在一些来自B细胞反应的背景扩增。要求对所述引物混合物进行进一步改 善以清洁反应。

为了确定PCR产物是否真正地包括不同的VDJ重排,必需分离单一 克隆并对其进行测序。代替使用常规的克隆程序,本发明人使用了不同的 策略。1∶1000稀释由αδ混合物和βγ混合物生成的PCR产物(图1a中的 2泳道和3泳道),并且将2μl等分试样用作以下反应中的PCR模板。然 后,代替使用靶向整个组库的引物混合物,使用一对特定的Fi和Ri引物 (各5pmol)来仅扩增一种特定的PCR产物。使用以下循环条件来扩增样 品:

95℃5分钟

30个如下循环

94℃30秒

72℃1分钟

72℃3分钟

4℃保持

使用QiagenPCR试剂盒来扩增产物。用于PCR的MasterMix含有以 下:

每次反应 Master Mix×12 10×PCR缓冲液 5μL 60μL dNTP 1μL 12μL HotStartTaq Plus 0.25μL 3μL H2O 39.75μL 477μL

图1b中的凝胶照片显示以下反应的PCR产物:(1)分子梯度;(2) TRAV1Fi+TRACRi和αδPanTPCR产物;(3)TRAV2Fi+TRACRi和αδPan TPCR产物;(4)TRAV3Fi+TRACRi和αδPanTPCR产物;(5) TRAV4Fi+TRACRi和αδPanTPCR产物;(6)TRAV5Fi+TRACRi和具有αδ PanTPCR产物;(7)TRAV1Fi+TRACRi和αδPanTPCR产物;(8) TRAV2Fi+TRACRi和αδPanTPCR产物;(9)TRAV3Fi+TRACRi和αδPan TPCR产物;(10)TRAV4Fi+TRACRi和αδPanTPCR产物;(11) TRAV5Fi+TRACRi和αδPanTPCR产物;(12)PCR空白。作为Fi列出的 引物是“正向内侧”引物,并且作为Fo列出的引物是“正向外侧”引物,并且 Ri和Ro分别指示“反向内侧”引物和“反向外侧”引物。

如通过图1b所图解说明,每一反应均生成了单一PCR产物。不同的 反应生成了大小不同的条带。这种PCR克隆方法出于两个主要原因是成功 的--(1)这一反应中使用的PCR模板是先前反应的稀释的PCR产物(1∶1000), 所述先前反应使用引物混合物来扩增所有可能的VDJ重排(例如,使用包 括总计82种引物的引物混合物来扩增T细胞受体α和δ基因),和(2)在 这一“克隆”实验期间,每一反应中仅使用一对靶向特定V基因的PCR引 物。凝胶纯化并测序一些这些产物。以下是从上文所描述的方案获得的示 例序列。在每种情况下,均获得了单个克隆,并且识别了与Fi引物相匹 配的特定的T细胞受体V基因。

TRAV1模板+作为测序引物的454A:

NNNNNNNNNNCNTANTCGGTCTAAGGGTACNGNTACCTCCTTTTGAAGGAGCT CCAGATGAAAGACTCTGCCTCTTACCTCTGTGCTGTGAGAGATANCAACNATCA CTTAATCTTGGGCGCTGGGAGCAGACTAATTATAATGCCAGATATCCACAACCC TGACCCTGCCGCGTACCAGCTGAAAGACTATGAACAGGATGGGGAGGCAGNAG NAGNAG(SEQIDNO.1)

TRAV1模板+作为测序引物的454A:

NNNNNNNNNNGNANGNNCAGGGTTCTGGATATTTGGTTTNACAATTAGCTTGGT CCCTGCTCCAAAGATTAATTTGTAGTTGCTATCCCTCACAGCACAGAGGTAAGA GGAAGAGTATTTCTTCTGGAGCTCCTTCAACAGGAGGAAACTGTACCCTTTATA CCTACTAAGGAATGAAGA(SEQIDNO.2)

TRAV2模板+作为测序引物的454A:

NNNNNNNNNNNNTNNCGGTTCTCTTNNTCGCTGCTCATCCTCCAGGTGCGGGA GGCAGATGCTGCTGTTTACTACTGTGCTGTGNANNANGGCANNGACAACAACCT CNTCTTTGGTGGAGGNACCCTACTNNTGGTTATNCCNAATANCCANAACCCTGA CCCTGCCGAGNAGCAGCANAAAAACTNNNAGGGGGGTGGAGAAGNANNNNN (SEQIDNO.3)

TRAV3模板+作为测序引物的454A:

NNNNNNNNNNNNNNGGNNNGGNAGCTATGGCTTTGAAGCTGAATTTAACAAGA GCCAAACCTCCTTCCACCTGAAGAAACCATCTGCCCTTGTGAGCGACTCCGCTT TGTACTTCTGTGCTGTGAGAGACATCAACGCTGCCGGCAACAACCTAACTTTTG GAGGAAGAACCATGGTGCTAGTTAAACCAAATATCCATAACCCTGACGCTGCCG TGTACCAGCTGAAAGACTCTGAGGGGGCTGGAGAGGNAGGNG(SEQIDNO.4)

TRAV4模板+作为测序引物的454A:

NNNNNANNGGNNNNNGTTTATCCCTGCCGACAGAAAGTCCAGCACTCTGAGCC TGCCCCGGGTTTCCCTGAGCGACACTGCTGTGTACTACTGCCTCGTGGGTGAC CGGTCTGGAAACAGCGATGAAATTTTCATCTTAGGAAGAAGAACGCTTCTAGTC ATCCANCCCAACATCCACAACCCTGCCGCGGAGNAGCACCAGAAAAAAGATGA TGAGGGGGANGNAGNAGNANNNN(SEQIDNO.5)

TRAV5模板+作为测序引物的454A:

NNNNNNNNNNNNNNNNTCNCTGNTCTATTGAATAAAAAGGATAAACATCTGTCT CTGCGCATTGCAGACACCCAGACTGGGGACTCAGCTATCTACTTCTGTGCAGA GAGCCCCGGTGGCGGCAGCAACTTCTTCTTTGGTGGAGGAGCANTACTACTAG TCGTTCTACATANCCACAACCATGATNCCGCCGAGTACNTGCTGAAAAAATATG ATGAGGATGGAGAAGAAGNAGCATNAN(SEQIDNO.6)

TRBV19Fi模板+作为测序引物的454A:

NNNNNNNNCTGAGGGTANNCGTCTCTCGGGAGAAGAAGGAATCCTTTCCTCTC ACTGTGACATCGGCCCAAAAGAACCCGACAGCTTTCTATCTCTGTGCCAGTAGT ATGGGGGGGGGGGCCTACAATGAGNACGGCGGCGGGGGAGGGACNNTGCTC GTCGTGGAGGAGGACATGAAGGTCTTGCCCGCNNCNGAGGAAGNTGNANANG AACCATAAAAATGCGCTGGCTGAANNN(SEQIDNO.7)

TRBV20Fi模板+作为测序引物的454A:

NNNNNNNNNNNGCTCNNNNNNCNCATACGAGCAAGGCGTCGAGAAGGACAAG TTTCTCACAACCATGCAAGCCTGACCTTGTCCACTCTGACAGTGACCAGTGCCC ATCCTGAAGACAGCAGCTTCTACATCTGCAGTGCTAGAGGGGGGGGGGGGGA CGACTACTACTACTTCGGCGGGGGGGGCATGCTGATCGTGGAGGAGGAGGAC ATGNAGCTCCTCCCCGCCGCCGAGGTTGTTGTGTNTNNANCATCATACTGNTG GTGGAGNAGNAGNAGCN(SEQIDNO.8)

TRBV21Fi模板+作为测序引物的454A:

NNNNNNNNNNNNNNNGNNNNNNNNNNNTACTTTCNGAATGAAGAACTTATTCA GAAAGCAGAAATAATCAATGAGCGATTTTTAGCCCAATGCTCCAAAAACTCATCC TGTACCTTGGAGTTCCAGTCCACGGAGTCAGGGGACACAGCACTGTATTTCTGT GCCAGCAGCA(SEQIDNO.9)

TRBV23Fi模板+作为测序引物的454A:

NNNGNNNNNNNANNGGANANGCACAAGAAGCGATTCTCATCTCAATGCCCCAA GAACGCACCCTGCAGCCTGGCAATCCTGTCCTCAGAACCGGGAGACACGGCAC TGTATCTCTGCGCCAGCAGTCAATCGGGGGGGGGGGGGAGGGCCGTCCGCAG CGGGGGGGGGGGGGGCCGGGGGACGGTCCCAAAGAGAAAGAAAACCTGCCC CCCGCGCTCGGGCGGTGTGATTGAGCGAAACAGACAGGAAGGNAAGNAAAAAA NNNNANCNNCNCTCNN(SEQIDNO.10)

TRBV24Fi模板+作为测序引物的454A:

NNNNNNNNGNNANNNTCTGATGGANACAGTGTCTCTCGACAGGCACAGGCTAA ATTCTCCCTGTCCCTAGAGTCTGCCATCCCCAACCAGACAGCTCTTTACTTCTGT GCCACCAGTGANGCGGGGGGCGGGGACCACTACTTCGGGGGGGGGAGGCGG ACCAGGGTGCTGGTCGACGAGAAAAAGGAGCTCCCCCCCGCCGCCGCTGTGG TTGTTGCTTCATAATAATCAGGNNGGNGAGGNAGNAGNAANN(SEQIDNO.11)

为研究人工产物对TCRβ转录组的总体组库分析的影响,本发明人使 用化学合成的TCRβCDR3模板进行了对照实验。为此,本发明人化学合 成了四种独特的克隆,克隆纯化每一克隆,并且制备这四种构建体的不同 混合物作为扩增子拯救多重(ARM)-PCR的模板。使两种不同的反应混合物 经受两种独立的ARM-PCR反应,并且使用Illimuna从两端以 100bp的长度对汇集的PCR产物测序。本发明人首先利用修改的 Needleman-Wunsch运算法通过重叠比对将双末端读段结合在一起,然后将 合并序列映射到种系V、D和J参考序列。

在未清除的情况下,本发明人从模板混合物I获得总共5,729,613个序 列,所述序列可被映射到TCRβV、D和J片段。令人惊讶地,序列读段据 称代表了总共36,439种独特的CDR3变体。因此,考虑到模板混合物中只 存在四种独特的CDR3变体,那么实际上所有被识别的CDR3变体必定都 是非真实的。对于第二模板混合物获得了类似结果,其中识别出总共 9,131,681个VDJ映射的序列,这模仿了50,354种独特TCRβCDR3变体的 存在。本发明人的独立测序实验显示,只有少数独特的CDR3模板变体可 产生远远超过真正模板多样性的人工组库多样性,因此本发明人着手消除 这些人工产物。

通常认为3’端Illumina测序读段的品质较差。在组库测序的情况下, 这是令人烦恼的,因为需要将PCR引物定位得距高变V(D)J接点足够得远, 以避免由于引物-模板错配引起的副效应。因此,感兴趣的CDR3片段通常 被“移向”更接近测序读段的3’端——具有增加的测序错误率的区域。值得 关注的另一技术问题是观察到测序错误是背景特异性的并且因此是链特异 性的。因此,假定正向读段中的测序错误与相应反向读段中的测序错误相 一致的机率极小是现实的。

考虑到这一点,本发明人设计了基于技术提供对完整TCR CDR3区段进行双链测序的双末端策略。在这种方法中,正向和反向测序 引物分别位于构架区3处和TCRJ区或C区的5’端处。考虑到Illumina序 列读段的平均长度(当前100-150bp),这一设计使得能够对界定CDR3区段 的两个链进行完整测序。在第二步骤中,然后分析正向和反向读段的序列 错配,并且使用新研发的双末端过滤运算法消除展现两个链的非一致性的 CDR3序列。

将这一测序错误过滤器应用到针对模板混合物I获得的5,729,613个 CDR3序列,本发明人识别出总共2,751,131个(48%)在其相反链上含有相 冲突的序列信息的CDR3序列。丢弃这些序列使得消除了35,455种(97.2%) 独特的人工CDR3变体。与这一致的是,双末端过滤器去除来自模板混合 物II的4,308,020个(47%)CDR3序列,使得消除了49,063种(97.4%)人工 CDR3变体。分别有总共973种和1271种独特的CDR3变体通过了所述过 滤器。这些结果指示双末端测序和过滤将非真实的独特CDR3序列的总数 减少了几乎两个数量级。

在测序错误过滤器后的非真实CDR3变体的频率分布的详细分析揭示, 在两种混合物中,所有人工产物中的约50%为单拷贝序列。这些人工CDR3 中的约10%展示>100个拷贝数并且占所有人工CDR3变体的>80%。鉴于 可变TCR基因不经历体细胞超变异,本发明人研发了参考运算法,所述算 法可识别并去除相对于所映射的种系V、D和J参考序列展示核苷酸错配 的CDR3序列读段,这是由于这些读段必定是在PCR扩增或测序水平上生 成的人工产物。

将这一过滤运算法应用到模板混合物I的“被双末端过滤的”序列,去 除了总共29,804个序列,所述序列对应于609种独特CDR3变体。对于模 板混合物II,识别出54,516个人工序列(831种独特CDR3变体)。因此,使 用参考序列过滤器减少了60%的非真实的独特CDR3序列。参考过滤器对 V-J和D-J接点无效,因为无法映射在体细胞重组期间随机添加到这些区域 中的核苷酸。因此,本发明人在计算模拟实验后进行了PCR过滤器以更好 地了解四个变量:初始模板数量、每一循环的复制效率、循环数量(n)和DNA 聚合酶错误率(μ)对总端点错误率的影响。相反,本发明人注意到PCR聚合 酶错误率对积累误差的数量具有显著效应。

在本发明人的对照测序实验中,使用Taq聚合酶在第一反应和第二反 应中以15个循环和45个循环进行PCR扩增。为更真实地模拟ARM-PCR 反应期间的错误积累,将PCR效率设置成对于前25个循环每个循环降低 5%并且对于剩余循环每个循环降低10%。对于每一新的PCR反应,将PCR 效率重新设置为1.0。此外,本发明人容许第二位置处的变异。公开的Taq 酶的置换错误率表示为错误/bp/循环,其范围是0.023×10-4到2.1×10-4。在 模拟实验中,将置换错误率设置为2.7×10-5,并且将插入缺失(indel)错误率 设置为1.0×10-6。已知Taq聚合酶在模板的同聚区中具有更高的插入和缺 失(indel)突变率。对于同聚区,这一区域的任一位置中的indel突变生成相 同模式。因此,将同聚区中的indel错误率设置为n×μ,其中n为同聚区 的长度并且μ为1.0×10-6。

由于初始模板数量和PCR效率对端点错误率的影响较小,因此在多重 PCR反应中将从模拟实验估计的相同端点错误率应用到具有不同初始数量 和不同复制效率的分子应当是安全的。对于每一类别,根据经验将截止错 误率(μ)设置为第9999个10000分位数点处的错误率。对于具有频率NA和 NB(NA>>NB)的在不到三个位置有差异的两个类似CDR3序列A和B, 如果NA*μ≥NB,其中μ是相应的截止错误率,那么CDR3序列B将被 排除。将这一过滤运算法应用到模板混合物I的“被参考过滤的”序列,去 除了总共22,369个序列,所述序列对应于281种独特CDR3变体。对于模 板混合物II,识别出39,920个人工序列(348种独特CDR3变体)(表1)。因 此,使用PCR扩增错误过滤器可使非真实的独特CDR3序列进一步减少约 80%。

在已通过上述过滤器的序列的汇集中,本发明人识别出几种高丰度 CDR3变体,所述变体与其最类似的输入模板序列在多个位置处不同。由 于根据模拟实验在CDR3片段的多个位置处出现PCR置换和/或indel突变 是极其罕见的,因此那些CDR3变体必定是由其它来源的人工产物引起。 有趣的是,本发明人注意到这些序列中的一些包含具有两种独特输入模板 的片段并且展现清晰断点,这将所述序列识别为嵌合体。嵌合序列是由PCR 期间的不完全引物延伸或模板切换引起的PCR人工产物并且形成镶嵌样结 构。鉴于这一出乎意料的PCR人工产物,本发明人研发出计算的“镶嵌过 滤器”。使用这一过滤运算法,本发明人在模板混合物I和II中分别识别出 总共17个和15个嵌合序列。值得注意的是,这些CDR3嵌合体中的一些 展示>1000的序列拷贝数,指示本发明人的用于过滤器的运算法能够识别 出高丰度嵌合CDR3序列。

应用过滤运算法可消除99.8%的通过对仅四种确定的TCRCDR3模板 进行高通量测序生成的非真实的独特CDR3序列。分别只有62个和73个 人工CDR3序列通过所有过滤器。在这些序列中,两个丰度最高的CDR3 序列在两个混合实验中是相同的。它们最可能代表由于恰好位于断点处的 单一核苷酸置换而逃脱过滤的嵌合人工产物。在剩余的错误CDR3中,分 别有85%(n=53)和75%(n=55)是单一读段。为消除这种少部分的人工产物, 本发明人提出对TCR免疫组库的高严格度数据分析应包括去除单拷贝 CDR3读段的另一过滤器(频率阈值过滤器)。

表1

表2

用于评估免疫组库的方法.pdf_第1页
第1页 / 共125页
用于评估免疫组库的方法.pdf_第2页
第2页 / 共125页
用于评估免疫组库的方法.pdf_第3页
第3页 / 共125页
点击查看更多>>
资源描述

《用于评估免疫组库的方法.pdf》由会员分享,可在线阅读,更多相关《用于评估免疫组库的方法.pdf(125页珍藏版)》请在专利查询网上搜索。

本文公开了用于扩增来自T细胞群和B细胞群的RNA并且使用所扩增的RNA产物来评估正常或异常免疫响应与例如自身免疫疾病、癌症、糖尿病或心脏病的疾病的发生之间的可能相关性的方法。。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 化学;冶金 > 生物化学;啤酒;烈性酒;果汁酒;醋;微生物学;酶学;突变或遗传工程


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1