相关申请数据
本申请要求于2015年10月8日提交的美国临时申请号62/239,239号的优先权,其通过引用纳入本文用于所有目的。
背景技术
经由序列特异性核酸酶的基因组编辑是已知的。基因组中核酸酶介导的双链DNA(dsDNA)断裂可以通过两种主要机制修复:非同源性末端连接(NHEJ)或同源定相修复(HDR),所述NHEJ常常导致导入非特异性的插入和缺失(插入缺失),所述HDR纳入同源性链作为修复模板。参见参考文献4,通过引用其全文纳入本文。当序列特异性核酸酶与包含所需突变的同源供体DNA构建体一起递送时,基因靶向效率相较于仅仅只有供体构建体的情况增强了1000倍。
已经研发了替代性方法来使基因组修饰的过程加速,该方法通过直接将位点特异性核酸酶的DNA或mRNA注入一个细胞胚胎以在不同物种的特定基因座生成DNA双链断裂(DSB)。然后,通过这些位点特异性核酸酶诱导的DSB可以通过易错非同源性末端连接(NHEJ)被修复,获得在切割位点携带缺失或插入的突变小鼠和大鼠。如果用与侧接DSB的末端具有同源性的供体质粒共同注入,那么高保真同源性重组可以产生具有靶向整合的动物。因为这些方法需要针对各靶基因对锌指核酸酶(ZNF)或转录激活物样效应物核酸酶(TALEN)进行复杂设计,并且因为靶向的效率可能会显著变化,所以至今尚未报道多重基因靶向。
因此,需要用于生产遗传修饰的细胞以生成动物(如猪)的改进方法,以用作器官移植潜在的器官来源。
发明内容
本文描述了成簇且规律间隔的短回文重复序列(CRISPR)和CRISPR相关(Cas)蛋白(CRISPR/Cas)系统的应用,以实现细胞中多重核酸序列的高效且同时靶向。
本公开的方面涉及细胞(例如,干细胞、体细胞、生殖细胞、受精卵)中的基因组DNA修饰,如DNA的多重修饰,其中使用一个或多个向导RNA(核糖核酸)来将由所述细胞表达的具有核酸酶活性的酶(如具有核酶活性的DNA结合蛋白)导向至DNA(脱氧核糖核酸)上的靶位置,其中所述酶切割DNA,并且外源性供体核酸(诸如通过同源性重组)插入该DNA中。本公开的方面包括细胞中DNA修饰的循环和重复步骤以产生在这样的细胞内具有多重DNA修饰的细胞。修饰可以包括外源性供体核酸的插入。修饰可以包括内源性核酸的缺失。
通过向细胞进行导入的单一步骤(如通过共转染),可以对多个核酸序列进行调节(例如,使其失活),其中所述细胞表达酶,和编码多个RNA的核酸,其中所述RNA被,并且其中多个RNA中的每一个将所述酶导向至DNA的特定位点,所述酶切割DNA。根据该方面,细胞中DNA的许多改变或修饰是在但单个循环中产生的。
根据一个方面,表达所述酶的细胞已经被遗传改变以表达所述酶,如通过向该细胞导入编码该酶并且可以使其通过该细胞表达的核酸。以此方式,本公开的方面包括循环这样步骤:向表达所述酶的细胞中导入RNA,向该细胞中导入外源性供体核酸,使该RNA表达,形成RNA、所述酶和DNA的共定位复合物,并且通过该酶对DNA进行酶切。本文还提供了供体核酸向DNA中的插入。上述步骤的循环或重复导致细胞在多个基因座处的多重遗传修饰,即,具有多个遗传修饰的细胞。
根据某些方面,本发明范围内的DNA结合蛋白或酶包括与向导RNA形成复合物的蛋白质,并且向导RNA将复合物导向到双链DNA序列,其中所述复合物结合至该DNA序列。根据一个方面,酶可以是RNA引导的DNA结合蛋白,如II型CRISPR系统的RNA引导的DNA结合蛋白,其结合DNA并且通过RNA引导。根据一个方面,RNA引导的DNA结合蛋白是Cas9蛋白。
本发明的这一方面可被称为RNA和DNA结合蛋白向或与双链DNA的共定位。以此方式,DNA结合蛋白引导的RNA复合物可以用于切割双链DNA的多个位点,从而产生具有多个遗传修饰的细胞,所述遗传修饰如对基因的一个或多个(例如,全部)拷贝的破坏。
根据某些方面,提供了一种在表达这样酶的细胞中对靶DNA产生多个改变的方法,所述酶与和靶DNA互补的RNA形成共定位复合物并且以位点特异性的方式切割靶DNA,所述方法包括(a)向该细胞导入第一外来核酸,其编码与靶DNA互补的一个或多个RNA并且将所述酶引导至靶DNA,其中一个或多个RNA和所述酶是针对靶DNA的共定位复合物的成员,其中一个或多个RNA和所述酶共定位至靶DNA,所述酶切割靶DNA以在细胞中产生改变的DNA,并且重复步骤(a)数次以产生所述细胞中的DNA的多个改变。
在一些方面,使细胞中一个或多个靶核酸序列的表达失活的方法包括,向细胞导入一个或多个核糖核酸(RNA)序列和编码Cas蛋白的核酸序列,所述RNA序列包括与一个或多个靶核酸序列中各靶核酸序列的全部或部分互补的部分;并且,将该细胞维持在这样的条件下,Cas蛋白在该条件下表达,并且所述Cas蛋白结合该细胞中一个或多个靶核酸序列并使该一个或多个靶核酸序列失活。
在其他方面,调节细胞中一个或多个靶核酸序列的方法包括,向该细胞导入这样的核酸序列,其编码与该细胞中靶核酸序列的全部或部分互补的RNA;向该细胞中导入这样的核酸序列,其编码与该RNA相互作用并且以位点特异性的方式切割该靶核酸序列的酶;并且将该细胞维持在这样的条件下,在所述条件下所述RNA结合互补靶核酸序列,形成复合物,并且其中该酶结合该复合物上的结合位点,并且调节一个或多个靶核酸序列。
在本文所述的方法中,导入步骤可以包括用一个或多个RNA序列以及编码Cas蛋白的核酸序列转染细胞。
在一些实施方式中,将一个或多个RNA序列、编码Cas蛋白的核酸序列、或其组合导入细胞的基因组中。
在一些实施方式中,Cas蛋白的表达是诱导型的。
在本文所述的方法中,本文的细胞来自胚胎。细胞可以是干细胞、受精卵、或生殖细胞。在细胞是干细胞的实施方式中,干细胞是胚胎干细胞或多能干细胞。在其它实施方案中,细胞是体细胞。在细胞是体细胞的实施方式中,体细胞是真核细胞或原核细胞。真核细胞可以是动物细胞,如来自猪、小鼠、大鼠、兔、狗、马、牛、非人灵长类动物、人。
一个或多个靶核酸序列可以包括猪内源性逆转录病毒(PERV)基因。例如,PERV基因可以包括pol基因。
本文所述方法可以灭活、调节或影响pol基因的一个或多个拷贝。在一些实施方式中,细胞中pol基因的全部拷贝失活。
在一些实施方式中,Cas蛋白是Cas9。
在一些实施方式中,一个或多个RNA序列可以是约10-约1000个核苷酸。例如,一个或多个RNA序列可以是约15-约1000个核苷酸。
在一些方面,工程改造的细胞包括一个或多个内源性病毒基因;以及一个或多个外源性核酸序列,所述外源性核酸序列包含与该一个或多个内源性病毒基因的一个或多个靶核酸序列的全部或部分互补的部分;其中,细胞的一个或多个内源性病毒基因中的每一个都被调节。
在另一方面,工程改造的细胞包括多个内源性逆转录病毒基因;以及一个或多个外源性核酸序列,所述外源性核酸序列包含与该多个内源性逆转录病毒基因的一个或多个靶核酸序列的全部或部分互补的部分;其中,细胞的多个内源性病毒基因中的每一个都被调节。
本文所述的工程改造的细胞可以包括猪内源性逆转录病毒(PERV)基因。例如,PERV基因可以包括pol基因。
在一些方面,pol基因的调节使pol基因的一个或多个拷贝被灭活。例如,细胞中pol基因的全部或基本全部拷贝被灭活。
根据一个方面,该RNA在约10至约1000个核苷酸之间。根据一个方面,该RNA在约20至约100个核苷酸之间。
根据一个方面,一个或多个RNA是向导RNA。根据一个方面,一个或多个RNA是tracrRNA-crRNA融合体。
根据一个方面,DNA是基因组DNA、线粒体DNA、病毒DNA、或外源性DNA。
附图简要说明
图1A-1C显示了这样的CRISPR-Cas9gRNA,其被设计成特异性地靶向PK15细胞中PERV的62个拷贝中的pol基因。(A)系谱树表示存在于猪基因组中的内源性逆转录病毒。PERV以蓝色强调。(B)经由微滴数字PCR在PK15细胞中进行PERV拷贝数确认。使用ACTB、GAPDH和EB2三个独立的参照基因预测pol元件的拷贝数为62。N=3,平均值+/-SEM。(C)两个CRISPR-Cas9gRNA被设计成靶向PERV pol基因的催化区域。PERV基因结构的示意图下示出两个gRNA靶向序列。其PAM序列以红色强调。(SEQ ID NO:27-28)
图2A-2B显示了克隆PK15细胞,经Cas9处理后,其中PREV pol基因的全部拷贝失活。(A)17天Cas9诱导后,在单细胞衍生的PK15克隆之中观测pol靶向效率的双峰分布。45/50展现出<16%的靶向效率;5/50克隆展现出>93%的靶向效率。(B)CRISPR-Cas9处理后,位于PERV pol基因座的PK15单倍型。以红色表示PERV pol序列中的插入缺失事件。紫色阴影指示内源性PERV。
图3A-3D显示了:(A)与PK15细胞共培养5天和7天(分别是293G5D和393G7D)后,对HEK-293-GFP细胞基因组中PERV pol、gag和env DNA的检测。猪GGTA1引物组用于检测纯化的人细胞的猪细胞污染。(B)衍生自与野生型PK15细胞共培养的群体的1000 293G细胞中PERV元件数量的qPCR定量,使用特异性引物组。(N=3,平均值+/-SEM)(C)具有高水平PERV pol修饰的PK15克隆15、20、29和38,以及最低限度修饰的克隆40和41中PERV元件数量的qPCR定量。(N=3,平均值+/-SEM)(D)对来自各种数量的HEK 293-GFP细胞(0.1、1、10和100)的基因组DNA上PERV pol进行PCR的结果,所述HEK 293-GFP细胞分离自之前用高度修饰的PK15克隆20和最低限度修饰的克隆40培养的群体。PCR反应的完整组参见图S18-21。
图4(S1)显示了PERV pol共有序列和gRNA设计。
图5(S2)是靶向PERV的CRISPR/Cas9构建体的示意图。
图6(S3)显示了Cas9-gRNA活性的测量值。
图7(S4)显示了DOX浓度的优化以诱导Cas9表达,用于PERV靶向。
图8(S5)显示了Piggybac-Cas9/gRNA PERV靶向效率的时间顺序测量结果。
图9(S6)显示了慢病毒-Cas9/2gRNA PERV靶向效率的时间顺序测量结果。
图10(S7)显示了PERV靶向效率和插入缺失模式的桑格测序验证。(SEQ ID NO:29)
图11(S8)显示了重复的基因编辑实验。
图12A-B(S9)显示了单细胞的PERV pol靶向效率。
图13(S10)显示了PERV单倍型的种系发生。
图14(S11)显示了pol基因破坏的分布。
图15A-15B(S12)显示了高度和低度修饰的PK15克隆的核型分析。
图16(S13)显示了PK15克隆核型分析的汇总。
图17(S14)显示了核型术语。
图18(S15)显示了PERV逆转录酶活性的检测。
图19(S16)显示了检测PERV向人细胞传播的实验设计。
图20A-20C(S17)通过FACS显示了对纯化的HEK293-GFP细胞的质量控制。
图21A-21D(S18)显示了使用猪GGTA1引物检测HEK293细胞中的猪细胞污染。
图22A-22D(S19)显示了使用PERV pol引物检测HEK293细胞中的PERV DNA元件。
图23A-23D(S20)显示了使用PERV env引物检测HEK293细胞中的PERV DNA元件。
图24A-24D(S21)显示了使用PERV gag引物检测HEK293细胞中的PERV DNA元件。
图25A-25B(S22)显示了高度和低度修饰的克隆中Cas9/2gRNA表达水平。
图26(S23)显示了高度和低度修饰的PK15克隆的主成分分析。
图27A-27B(S24)显示了基因集富集分析。
图28(S25)显示了插入缺失组成分析,以及高度修饰的克隆间的比较。
图29A-29D(S26)显示了对于导致活性PERV元件的Cas9消除的DNA修复过程的马尔可夫模型(Markov model)分析。
图30(S27)显示了使用全基因组测序(WGS)的脱靶分析。
具体实施方式
本发明的方面涉及CRISPR/Cas9的应用,用于核酸工程改造。本文所述的是用于产生携带多重突变基因的动物(例如,猪)的高效技术的研发。具体而言,成簇且规律间隔的短回文重复序列(CRISPR)以及CRISPR相关基因(Cas基因),本文称为CRISPR/Cas系统,已经被改编成高效基因靶向技术,例如,用于多重基因组编辑。本文证明了CRISPR/Cas介导的基因编辑允许以高效率使猪肾脏上皮细胞系(例如,PK15)中猪内源性逆转录病毒(PERV)pol基因的62个拷贝同时失活。将Cas9mRNA和靶向PERV的向导RNA(gRNA)共注入或转染进入细胞产生PERV向人细胞转移的高于1000倍的减少,其中两个基因均产生双等位基因突变,效率高达100%。本文显示CRISPR/Cas系统允许一步生成具有PERV的全部拷贝失活的细胞。在某些实施方式中,本文所述方法生成具有1、2、3、4、5或更多个基因失活的细胞和动物(例如,猪),其效率在20%和100%之间,例如,至少20%、30%、40%、50%、60%、70%、80%、85%、90%、95%或更多,例如,高达96%、97%、98%、99%或更高。
实施例
实施例1.猪内源性逆转录病毒(PERV)的基因组范围失活
移植器官的短缺是治疗器官衰竭的主要障碍。尽管认为猪器官是有前景的,但是其应用受到关于猪内源性逆转录病毒(PERV)向人传播的担忧。因此,对猪肾脏上皮细胞系(PK15)中所有PERV的进行清除。首先将PK15PERV拷贝数确定为62。使用CRISPR-Cas9,PERV pol基因的全部62个拷贝被破坏,并且使用我们的工程改造的细胞显示向人细胞的PERV转播降低了>1000倍。本研究显示,CRISPR-Cas9的多重能力(multiplexability)可高达62,并且证明了使PERV失活从而用于猪向人异种移植临床应用的可能性。
猪基因组包含来自PERV元件的数个到数十个拷贝。不同于其它动物传染的病原体,PERV无法通过生物安全级的(biosecure)繁育二消除。用于降低PERV传播至人的风险的先前策略包括小干扰RNA(RNAi)、疫苗、以及使用锌指核酸酶和TAL效应物核酸酶的PERV清除,但是这些策略的成效有限。因此,CRISPR-Cas9RNA引导的核酸酶系统的成功使用可以用于使PERV pol基因的全部拷贝失活,并且使人细胞的PERV感染性产生1000倍的降低。
为了设计特异性靶向PERV的Cas9向导RNA(gRNA),对猪中公众可及的PERV和其它内源性逆转录病毒的序列(方法)进行分析。鉴定了PERV元件的独特进化枝(图1A),并且使用微滴数字PCR确定PK15细胞中有62个PERV拷贝(图1B)。设计了两个Cas9向导RNA(gRNA),其靶向PERV上pol基因的高度保守的催化中心(图1C、图S1)。pol基因产物用作逆转录酶(RT),因此是病毒复制和感染所需的。经测定,这些gRNA靶向所有PERV,但是不靶向其它内源性逆转录病毒或猪基因组中其它序列(方法)。
当瞬时转染Cas9和gRNA时,初始实验显示无效的PERV编辑(图S2)。因此,使用PiggyBac转座子系统来将多四环素诱导型Cas9和两个gDNA递送到PK15细胞的基因组中(图S2-3)。Cas9的持续诱导导致PERV的增强的靶向频率(图S5),其中在第17天观测到37%的最大靶向频率(每基因组约23个PERV拷贝)(图S5)。多四环素的较高浓度或延长的孵育都没有增强靶向效率(图S4、5),这可能是因为由CRISPR-Cas9所致的非特异性DNA损伤的毒性。当使用慢病毒构建体递送Cas9时,观测到相似的趋势(图S6)。对展现出最大PERV靶向效率的细胞系进行基因分型。观测到位于两个gRNA靶位点的中心的455个不同的插入和缺失(插入缺失)事件(图2B)。插入缺失大小在1至148bp的范围内;80%的插入缺失是小缺失(<9bp)。用桑格测序验证初步深度测序结果(图S7)。
使用流式细胞术对来自具有高PERV靶向效率的PK15细胞的单细胞进行分选,并且经由深度测序对获得的克隆的pol基因座进行基因分型。观测到可重复的双峰(图2A、S8-9)分布,其中约10%的克隆展现出高水平的PERV破坏(97%-100%),而余下的克隆展现出低水平的编辑(<10%)。在这些克隆的基因组中检测个体插入缺失事件(图2B、图S10-11)。对于高度编辑的克隆(克隆20,100%;克隆15,100%;克隆29,100%;克隆38,97.37%),观测到各克隆中只有16-20个独特的插入缺失模式(图2B、S11)。此外,相比克隆之间,各克隆内具有程度高得多的插入缺失重复(图S25),这表明了这样一种基因转化机制,其中先前突变的PERV拷贝被用作模板以修复通过Cas9切割的野生型PERV(图2B、图S25)。PERV清除期间DNA修复的数学建模(图S26)以及表达数据的分析(图S22-24)支持这一假设,并且表明,高度编辑的克隆衍生自其中Cas9和gRNA高度表达的细胞。
其后,检测因多重基因组编辑所致而出现的未预期的基因组重排。个体修饰的克隆的核型分析(图S12-S14)指示没有可观察得到的基因组重排。检测了对于各意图gRNA靶标具有至多2bp错配的11个独立基因组基因座,并且没有观测到非特异性突变(图S27)。这表明,我们的基于多重Cas9的基因组工程改造策略并不引起严重的基因组不稳定性。
最终,检测了猪基因组中PERV pol的全部拷贝的破坏,其可清除从猪向人细胞的PERV体外传播。高度修饰的PK克隆的细胞培养上清液中并未观测到RT活性的检测结果,这表明修饰的细胞仅产生最少量的PERV颗粒。直接检测WT和高度修饰的PK15细胞与HEK 293细胞的共培养的PERV DNA向人细胞的传播。在共培养PK15WT和HEK 293细胞5天和7天后(图S16-17),检测HEK293细胞中的PERV pol、gag和env序列(图3A)。PERV感染的预计频率是将近1000PERV/100人细胞(图3B)。然而,具有>97%PERV pol靶向的PK15克隆展现了PERV感染的高达1000倍降低,与背景水平相似(图3C)。用HEK293细胞的连续稀释物的PCR扩增验证了这些结果,所述HEK293细胞具有与PK15克隆的接触史(图3D、S18-21)。在分离自与最低限度修饰的克隆40共培养的群体的单个HEK293细胞中持续检测到PERV,但是无法在来自与高度修饰的克隆20共培养的群体的100个人细胞中明显地检测到PERV。因此,工程改造的PK15细胞的PERV感染性已经被降低高达1000倍。
总之,成功地靶向PK15细胞中PERV pol的62个拷贝,并且证明了PERV向人细胞体外传播的显著降低。尽管未证明向人的体内PERV传播,但是PERV仍然被认为是危险的,而我们的策略可以完全将其消除。因为不存在猪胚胎干细胞,该系统将需要在原代猪细胞中概括,并且利用体细胞核移植法克隆到动物中。此外,实现了在无显著基因组重排的情况下在单个猪细胞中进行62个基因座的同时Cas9靶向。据我们所知,之前报道的待同时编辑的基因组位点的最大数量是6个。因此,我们的方法开拓了编辑具有生物学意义的其它重复区域的可能性。
实施例2.方法
PERV拷贝数量定量:根据生产商说明使用微滴数字PCRTM PCR(ddPCRTM)定量PERV的拷贝数量(伯乐公司(Bio-Rad))。简言之,将来自培养的细胞的基因组DNA(DNeasy血液与组织试剂盒,凯杰公司(Qiagen))纯化,用MseI(10U)在37℃持续1小时消化50ng基因组DNA,并且制备ddPCR反应物,使用10μl 2X主混合物,1μl的18μM靶引物和5μM靶探针(VIC),1μl的18μM参照引物和5μM参照探针(FAM),5ng消化的DNA,以及补至20μl总体积的水。引物的序列和探针信息可参见扩展数据表1。
方法
表1——用于ddPCR试验的引物
CRISPR-Cas9gRNA设计:使用MUSCLE进行存在于猪基因组中245个内源性逆转录病毒的多重序列比对。建立序列的谱系树,并且鉴定包括PERV的进化枝(参见图1a)。使用R文库DECIPHER设计特异性gRNA,其靶向所有PERV,但是不靶向其它内源性逆转录病毒序列。
细胞培养:PK15维持在补充有10%胎牛血清(英杰公司(Invitrogen))和1%盘尼西林/链霉素(Pen/Strep,英杰公司)的杜尔伯科改良伊格尔培养基(DMEM,英杰公司)高葡萄糖中。所有细胞都在37℃、5%CO2下维持在潮湿培养箱中。
PiggyBac-Cas9/2gRNA构建和细胞系建立:PiggyBac-Cas9/2gRNA构建体衍生自先前报道于Wang等(2)的质粒。简言之,合成编码U6-gRNA1-U6-gRNA2的DNA片段(Genewiz公司),并且将其纳入PiggBac-Cas9构建体。为了建立具有PiggyBac-Cas9/2gRNA整合的PK15细胞系,使用Lipofectamine 2000(英杰公司)用4μg PiggyBac-Cas9/2gRNA质粒和1μg超级PiggyBac转座酶质粒(系统生物学公司(System Biosciences))转染5·105PK15细胞。为了针对携带整合的构建体的细胞进行富集,将2μg/mL嘌呤霉素添加到转染的细胞。根据阴性对照,向野生型PK15细胞施用嘌呤霉素,确定选择在3天内完成。其后将PK15-PiggyBac细胞系用2μg/mL嘌呤霉素维持。施用2μg/ml多四环素以诱导Cas9表达。
慢病毒-Cas9/2gRNA构建和细胞系建立:慢病毒-Cas9/2gRNA构建体衍生自先前报道于(3)的质粒。合成编码U6-gRNA1-U6-gRNA2的DNA片段(Genewiz公司),并且将其纳入慢病毒-Cas9-V2。为了生成携带慢病毒-Cas9/2gRNA的慢病毒,使用Lipofectamine 2000用3μg慢病毒-Cas9-gRNA和12μg ViraPower慢病毒包装混合物(英杰公司)转染约5·106 293FT HEK细胞。转染后72小时收集慢病毒颗粒,并且使用慢病毒-X GoStix(宝日医生物技术(Takara Clonetech))测量病毒滴度。转导了约105慢病毒颗粒至约1·106PK15细胞,并且通过嘌呤霉素进行选择以在转导后5天富集转导的细胞。其后将PK15-Lenti细胞系用2μg/mL嘌呤霉素维持。
定殖的和单个PK15细胞的基因分型:使用TrypLE(英杰公司)分解PK15培养物,并且使用活力染料ToPro-3(英杰公司)以1–2·105细胞/ml的浓度重悬于PK15培养基。使用BD FACSAria II SORP UV(BD生物科学(BD Biosciences))在无菌条件下以100mm的喷嘴(nozzle)单细胞分选活PK15细胞。使用SSC-H相对SSC-W和FSC-H相对FSC-W双粘体辨别门控(doublet discrimination gate)以及严谨‘0/32/16单细胞’的分选掩罩(sorting mask)以保证每孔分选一个并仅一个细胞。细胞分选于96孔平板中,其中各孔包含100μl PK15培养基。分选后,平板以70g离心3分钟。分选7天后看到集落形成,并且在FACS后两周进行基因分型实验。
为了在无克隆扩增的情况下对单个PK15细胞进行基因分型,根据之前报道的单细胞基因分型方案(4),由分选的单细胞直接扩增PERV基因座。简言之,分选之前,所有的塑料和非生物缓冲液进行30分钟紫外线辐射处理。将单细胞分选至96孔的PCR板,其中各孔具有0.5μl 10X KAPA快速提取缓冲液(KAPA生物系统公司(KAPA Biosystems))、1μl的1U/μl KAPA快速提取酶和4.6μl水。将裂解反应物在75℃孵育15分钟,并且使反应物在95℃保持5分钟而失活。然后将所有的反应物添加至25μl PCR反应物中,其包含12.5μl 2X KAPA 2G快速(KAPA生物系统公司)、100nM PERV亿明达引物(方法表2)和7.5μl水。反应物在95℃孵育3分钟,然后进行25个循环的95℃、10秒;65℃、20秒和72℃、20秒。为了添加亿明达序列衔接子,将5μl的反应产物添加到20μl的PCR混合物,其包含12.5ml的2KAPA高保真热启动Readymix(KAPA生物系统公司)、携带亿明达序列启动子的100nM引物和7μl水。反应物在95℃孵育5分钟,然后进行15-25个循环的98℃、20秒;65℃、20秒和72℃、20秒。在EX 2%凝胶(英杰公司)上检测PCR产物,然后从凝胶回收300-400bp产物。然后将这些产物以基本相同的量混合,纯化(QIAquick凝胶提取试剂盒),并且用MiSeq个体测序器(亿明达公司(Illumina))测序。分析深度测序数据并且使用CRISPR-GA(5)确定PERV编辑效率。
表2.用于PERV pol基因分型的引物
靶向效率估计:建立定制管线以估计PERV失活的效率。简言之,经由亿明达下一代测序法,使用PE250或PE300对pol基因进行扩增和测序。首先,使用PEAR(6)组合两个重叠的读数,并且使用BLAT映射至参照区域。映射后,将读数分组成这样的集合,其包含单倍体(参见扩展数据图7)和插入缺失类型的特异性组合。去除代表低于映射读数总数的0.5%的读数集合。最终,解析映射输出以如Güell等(5)中所述判定不同的插入和缺失。
RNA-seq分析:由UCSC基因组浏览数据库(Genome Brower Database)获得susScr3猪基因组和Ensembl转录本。使用STAR软件(7)将RNA-Seq读数映射至参照基因组,并且使用BEDTools(8)对转录本的RPKM进行定量。在R中使用DESeq2套件(package)(9)进行差异表达分析,并且通过GSEA软件(10)进行基因集富集分析,其中基因集定义获自该软件的网站。
逆转录酶(RT)试验:为了检测PK15细胞以及修饰的PK克隆(4个高度修饰的和1个低度修饰的克隆)的RT活性,将5·105细胞铺板于T75cm2培养瓶,并且在接种后4天收集上清液。使用0.45μM Millex-HV注射器式滤器(EMD密理博公司(EMD Millipore Corporation))过滤培养基,并且使用Amicon Ultra-15离心过滤单元(EMD密理博公司)以4000g将过滤的上清液浓缩30分钟。浓缩的上清液以50,000超速离心60分钟。小心地移除上清液,收集病毒沉淀,并用20μl的10%NP40在37℃裂解60分钟。
使用Omniscript RT试剂盒(凯杰公司)进行RT反应。反应的总体积是20μl,其包含1□RT缓冲液,0.5mM dNTP,0.5μM流感病毒反向引物(5’CTGCATGACCAGGGTTTATG 3’)(SEQ ID NO:14),100单位的RnaseOUT(生命技术公司(Life Technologies),英杰公司),100单位的SuperRnase抑制剂(生命技术公司),5μl的样品裂解物和40ng的IDT-合成的流感病毒RNA模板,其在5’端和3’端均对RNA酶耐受。RNA模板序列是5’rA*rA*rC*rA*rU*rGrGrArArCrCrUrUrUrGrGrCrCrCrUrGrUrUrCrArUrUrUrUrArGrArArArUrCrArArGrUrCrArArGrArUrArCrGrCrArGrArArGrArGrUrArGrArCrArUrArArArCrCrCrUrGrGrUrCrArUrGrCrArGrArCrCrU*rC*rA*rG*rU*rG 3’(*磷酸二酯键)(SEQ ID NO:15)。RT反应完成后,通过PCR,使用流感病毒正向引物(5’ACCTTTGGCCCTGTTCATTT 3’)(SEQ ID NO:16)和流感病毒反向引物(序列如上示出)检测RT产物。扩增子预期的大小是72bp。
感染性试验
HEK293-GFP细胞系建立:慢病毒-GFP构建体衍生自质粒pLVX-IRES-ZsGreen1(克隆泰克实验室公司(Clontech).目录号632187;PT4064-5)。为了生成携带慢病毒-GFP的慢病毒,使用Lipofectamine 2000(英杰公司)用3μg pVX-ZsGreen质粒和12μg ViraPower慢病毒包装混合物(英杰公司)转染约5·106 293FT HEK细胞,转染后72小时收集慢病毒颗粒,并且使用慢病毒-X GoStix(宝日医生物技术)测量病毒滴度。转染了约105慢病毒颗粒至约1·106PK15细胞,并且通过嘌呤霉素进行选择以在转导后5天富集转导的细胞。其后将293-GFP-Lenti细胞系用0.5μg/mL嘌呤霉素维持。
PK15WT对HEK293-GFP的感染性测试:1·105细胞的慢病毒-GFP-293FT HEK细胞和1·105PK15WT细胞在6孔板内共同培养。平行地,2·105PK15 WT细胞在另一孔中培养作为对照。嘌呤霉素选择试验通过添加5μg/ml的抗生素7天进行。当对照孔中没有活细胞且实验孔中约100%GFP阳性细胞时,将该时间点确定为嘌呤霉素选择完成以纯化慢病毒-GFP-293FT人细胞的时间点。在不同的时间段收集来自293FT HEK/PK15WT共培养物的细胞。使用DNeasy血液与组织试剂盒(凯杰公司),由培养的293-GFP WT细胞、PK15 WT细胞和共培养的细胞提取基因组DNA。使用Qubit 2.0荧光计(英杰公司)测量基因组DNA浓度,并且将3ng各样品用作PCR的DNA模板。总计,将1μL基因组DNA添加到25μL的PCR混合物,所述PCR混合物包含12.5μL 2X KAPA高保真热启动Readymix(KAPA生物系统公司)和100μM如方法表3中所列的引物。反应物在95℃孵育5分钟,然后进行35个循环的98℃、20秒;65℃、20秒和72℃、20秒。在EX 2%凝胶(英杰公司)上观察PCR产物,然后观测300-400bp的条带。
表3——显示感染性试验中所用引物的表格
HEK293-GFP细胞中感染的PERV拷贝数量的定量:进行qPCR以对HEK293-GFP细胞中PERV拷贝数量进行定量。将不同量的PK15WT细胞基因组DNA用作用于qPCR反应的模板。反应使用KAPA SYBR FAST qPCR通用主混合物(KAPA生物系统公司)以三个重复的方式进行。将PERV pol、env、gag引物、人ACTB和猪GGTA1引物(方法表3)添加至1μM的最终浓度。在95℃孵育反应物3分钟(酶活化),然后进行50个循环的95℃、5秒(变性);60℃、60秒(退火/延伸)。用定量周期(Cq)将基因组DNA的量的对数线性化。pol、gag、env引物用于检验PERV的存在。猪GGTA1引物用于控制感染后人细胞中潜在的猪基因组污染物。所有实验都重复三次进行。
修饰的PK15克隆对HEK293-GFP的感染性试验:1·105细胞的HEK293-GFP细胞和1·105细胞的高度修饰的(15、20、29、38)克隆和低度修饰的克隆(40、41)在6孔板中共培养7天。为了分离HEK293-GFP细胞以检测PERV元件,对GFP阳性细胞进行两次分选以纯化人细胞群。
为了定量不同克隆对HEK293-GFP细胞的PERV感染性,对分选后的连续稀释的HEK293-GFP细胞进行qPCR试验和PCR试验。对于qPCR试验,由两次分选的HEK293-GFP细胞中提取基因组DNA(DNeasy血液与组织试剂盒,凯杰公司)。使用Qubit 2.0荧光计(英杰公司)测量基因组DNA浓度。总计,分别使用PERV pol、env、gag和猪GGTA引物(扩展数据表2),将3ng的基因组DNA添加到20μL的KAPA SYBR FAST qPCR反应物(KAPA生物系统公司)。qPCR过程如上所述进行。对于连续稀释试验,将纯化的HEK293-GFP细胞分选(1细胞/孔、10细胞/孔、100细胞/孔、1000细胞/孔)至96孔PCR平板中,用于直接基因组DNA提取和PCR反应。简言之,将细胞分选至20μL裂解反应物,其包括2μL的10X KAPA快速提取缓冲液、0.4μL的1U/μl KAPA快速提取酶和17.6μL的PCR级水(KAPA生物系统公司)。然后将反应物在55℃孵育10分钟(裂解),然后在95℃下保持5分钟(酶失活)。随后,制备PCR主混合物。总计,分别使用1μM PERV pol、env、gag和猪GGTA引物(扩展数据表2),将2μL的基因组DNA裂解物添加到4个不同的25μL的KAPA高保真热启动反应物(KAPA生物系统公司)中。在95℃孵育反应物3分钟(最初变性),然后进行35个循环的95℃、15秒(变性);60℃、15秒(退火),72℃、15秒/kb,然后75℃、1分钟/kb(最终延伸)(KAPA生物系统公司)。PCR产物在96孔E-琼脂糖凝胶,安全DNA凝胶(英杰公司)上观察。
CRISPR-Cas9脱靶分析:针对PK15(未处理的细胞系)和克隆20(高度编辑的克隆)获得全基因组测序(WGS)数据。为了研究Cas9/2gRNA的潜在脱靶作用,在参照序列(Sus Scrofa 10.2)中寻找这样的位点,其与被两个gRNA靶向的20bp序列仅有1或2bp的不同。鉴定出11个这样的位点,并且将它们连同其200bp的邻近区域一同提取(图S1)。使用BLAT以将WGS读数映射至提取的参照序列,并且寻找应脱靶作用所致出现在克隆20中的潜在的插入缺失模式。每个基因座获得7-8X的平均覆盖。排除与参照序列具有<50bp匹配的读数。在映射至具有多个比对块(alignment block)(其可指示存在插入缺失)的参照序列的读数的情况下,其比对块包含<20bp匹配的读数被参照序列排除。检测剩余的映射读数后,在克隆20中未检测到任何脱靶插入缺失模式。这里的另一项挑战是针对脱靶的全面搜索,Sus Scrofa基因组仍然是既不完整也不完全组装的,这限制了进行全基因组分析的能力。
累积的PERV失活中DNA修复过程相互作用的数学模型:在该研究中,PERV元件通过这样的突变失活,所述突变由响应通过Cas9所产生的dsDNA切割的DNA修复过程所产生。通常应理解的是,dsDNA切割可以通过非同源末端连接(NHEJ)或同源修复(HR)修复,以及尽管在具有合适同源臂的模板存在的情况下HR可以在切割位点产生DNA模板序列的准确拷贝,但是NHEJ可产生突变(特别是插入缺失)并且常常被认为是“易错的”。然而,同样有证据证明NHEJ还可以高度准确地修复dsDNA切割(11,12),并且通过NHEJ的突变相较于完美修复的相对比率尚未被精确度量过。特别是当诸如Cas9的高效靶向的核酸酶表达延长的时间时,通过NHEJ或HR对于切割位点的完美修复将会再生能够被再次切割的靶位点。一个合理的假设是,完美修复和再次切割的过程将会重复出现,直到产生破坏核酸酶识别靶位点的能力的突变。为了研究这些修复形式在PERV清除过程期间可能一起作用的方式,以马尔可夫法(Markov process)对其相互作用进行建模。具体地,假设:
●细胞中存在核酸酶靶标的N个相同的拷贝。
●只有野生型靶标被识别和切割,并且一次只切割和修复一个靶标。
●DNA修复为如下之一:
○通过NHEJ完美恢复靶位点(概率n)
○NHEJ导致突变产生,其融除(ablate)靶标识别(概率m)
○通过HR使用细胞中其它N-1靶序列中任意一个进行的修复(概率h)
因此,n+m+h=1。
马尔可夫模型计算概率分布其中,是在切割c处存在i个靶融除(target-ablating)突变的概率,其中,c=0,1,2…。假设初始条件P(0)=(1,0,…,0),即,所有靶标以野生型开始。N+1-×-N+1转换矩阵M即为:
M(N,N)=1 对于i=N
M(i,j)=0 对于所有其它0≤i,j≤N
最后,p(c+1)=p(c)M 对于c=0,1,2,…。
M的公式假设了上述命题ii,并且以数学用语表述,不论野生型位点处的切割是通过NHEJ还是通过HR使用野生型模板的另一拷贝进行完美修复,细胞中突变位点的数量保持不变(M(i,i)公式),但是如果切割是通过诱变的NHEJ或通过HR使用先前突变的位点进行修复,则其增加1(M(i,i+1)公式)。
该模型整合了对实际生物学的两个明显简化:(i)假设靶标识别是二进制的–要么核酸酶识别靶标,要么其不识别靶标。这相当于假设,仍然支持靶标识别的小突变不显著改变野生型切割速率,因此可以与野生型位点有效地合在一起。(ii)假设使用突变的对比野生型模板的HR修复是等同效力的。可以对模型进行修饰以处理这些简化,但是此处不考虑。同样值得注意的是,形式上,就上述假设ii而言,如果条件的c到达某个值,那么马尔可夫法实际上应该停止,因为在此时没有剩余的野生型位点供于切割,然而不同的是,在数学上发生的是仍然继续的切割,但是模型保持在固定状态。最终,模型将突变计数分布有效地表示为自变量c(切割的数量)的函数,而不是时间的函数。尽管可以假设时间随着c的增加而单调增加,但没有关于DNA修复或PERV位点清除的时率进行预测。
为了通过马尔可夫模型分析PERV清除,将N始终设置为62。然而,因为未知完美修复相较于诱变NHEJ修复的相对效率(如上问所指出),并且因为诱变NHEJ修复相较于HR修复的相对比率可因细胞状态和类型而有很大差异,计算覆盖针对n、m和h的所有可能参数值的完整二维空间(一共2500个参数组合)的离散网格的突变计数分布。模型以MatLab(Mathworks公司,沃特汉姆市)脚本以及以使用文库马尔可夫链的R脚本实施(分别以modelMarkov.m、modelMarkov.R作为补充文件可得)。
除了经由马尔可夫模型计算针对特定参数值的突变计数分布以外,MatLab脚本在一系列的K切割中进行NHEJ和HR修复过程的随机模拟,这使得总突变数量相较于区别NHEJ事件的二元分布得以被估计,图27B-C示出。R脚本用于估计系统在如上所述的n、m和h组合的网格上最有可能的状态。K随着计算变化。如图S27所示,模型的不变结果是突变计数的单峰分布,其平均值随c趋向于N突变处的固定,并且在图S27B.C中,K被设置成高到足以显示固定的值。为了计算系统在n、m和h网格上最有可能的状态,K被设置成50、100、200或500,并且针对各参数组合进行100个模拟。
数据存储
将具有PERV元件基因分型数据的Illumina Miseq数据以提交参照号PRJEB11222上传至由欧洲生物信息学研究所运行的欧洲核苷酸存档库(European Nucleotide Archive(ENA))。
附录A提供了关于本教导各方面的其它信息,通过引用其全部内容纳入本文。
DNA序列表还包括第一个内源性逆转录病毒元件的基因组序列,它们提取自猪基因组序列和公共序列数据集。(SEQ ID NO:30-280)。
本文引用的所有专利、公开申请和参考文献的全部教导都通过引用全文纳入本文。
虽然参照实施方式对本发明进行了具体展示和描述,但本领域技术人员应理解,可在不背离所附权利要求所包含的本发明范围的情况下对形式和细节作出各种改变。