癌症的突变标签.pdf

摘要
申请专利号：	CN201780027340.5	申请日：	20170428
公开号：	CN109219666A	公开日：	20190115
当前法律状态：		有效性：	审查中
法律详情：
IPC分类号：	C12Q1/6886,G16B20/50	主分类号：	C12Q1/6886,G16B20/50
申请人：	基因组研究有限公司
发明人：	S·尼克-扎因,M·斯特拉顿,H·戴维斯,D·格洛德齐艾克
地址：	英国剑桥郡
优先权：	GB201607629A,EP2017060289W
专利代理机构：	上海一平知识产权代理有限公司	代理人：	华珊;徐迅
PDF下载：	PDF下载

内容摘要

本发明涉及癌症患者中许多突变标签的鉴定。所述突变标签包括新的碱基置换标签和重排标签。通过560例乳腺癌的全基因组测序以及将新的和现有的数学方法应用于那些癌症中发现的碱基置换和重排来鉴定标签。

权利要求书

1.一种预测患有癌症的患者是否可能对PARP抑制剂或铂类药物有反应的方法，其特征在于，所述方法包括：确定来自所述患者的DNA样品中是否存在一个或多个重排标签1、3和/或5，其中重排标签1、3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在，其中如果样品中存在所述重排标签之一，则患者可能对PARP抑制剂或铂类药物有反应。 2.一种选择癌症患者用PARP抑制剂或铂类药物治疗的方法，其特征在于，所述方法包括：鉴定来自所述患者的DNA样品中是否存在一个或多个重排标签1、3和/或5，其中重排标签1、3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在；和如果样品中存在所述重排标签之一，则选择该患者用PARP抑制剂或铂类药物治疗。 3.PARP抑制剂或铂类药物用于患者癌症的治疗方法所述癌症具有一个或多个重排标签1、3和/或5，其中重排标签1、3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在。 4.一种治疗患者癌症的方法，所述癌症被确定为具有一个或多个重排标签1、3和/或5，其中重排标签1、3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在，所述方法包括步骤：向所述患者施用PARP抑制剂或铂类药物。 5.一种PARP抑制剂或铂类药物用于患者癌症的治疗方法其特征在于，所述方法包括：(i)确定来自患者的DNA样品中是否存在一个或多个重排标签1、3和/或5，其中重排标签1、3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在；和(ii)如果所述样品中存在所述重排标签之一，则向患者施用PARP抑制剂或铂类药物。 6.一种确定来自患者的DNA样品中重排标签1至6中任何一个的存在的方法，其特征在于，所述重排标签在表1中定义，如果重排目录中被确定为与特定重排标签相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述特定重排标签的存在。 7.如权利要求1、2、4或6中任一项所述的方法，其特征在于，确定样品中存在或不存在重排标签的步骤包括以下步骤：对所述样品中的体细胞突变进行编目以产生该样品的重排目录，所述重排目录将样品中鉴定的重排突变分类为多个类别；和通过计算所述目录中的重排突变与重排突变标签之间的余弦相似性，确定已知重排标签对所述重排目录的贡献。 8.如权利要求7所述的方法，其特征在于，所述方法还包括以下步骤：在所述确定步骤之前，筛选所述目录中的突变，以去除以下一种或多种：残留的种系突变、拷贝数多态性和已知的测序假象。 9.如权利要求8所述的方法，其特征在于，所述筛选使用已知种系多态性的列表。 10.如权利要求8所述的方法，其特征在于，所述筛选使用通过与DNA样品相同的过程测序与正常人组织不匹配的BAM文件，并去除至少两个所述BAM文件中的至少两个良好映射读数中存在的任何体细胞突变。 11.如权利要求7-10中任一项所述的方法，其特征在于，重排突变的分类包括将突变鉴定为成簇或非成簇。 12.如权利要求11中所述的方法，其特征在于，如果突变的重排断点的平均密度为个体患者样品的全基因组平均重排密度的至少10倍，则可以将突变鉴定为成簇。 13.如权利要求7-12中任一项所述的方法，其特征在于，所述重排突变的分类包括将突变鉴定为以下之一：串联重复、缺失、倒位或易位。 14.如权利要求13所述的方法，其特征在于，所述重排突变的分类包括根据大小将鉴定为串联重复、缺失或倒位的突变分组。 15.如权利要求7-14中任一项所述的方法，其特征在于，所述方法还包括步骤：确定与第i个已知突变标签相关的重排目录中的重排数量E，其与在该样品的目录和之间的余弦相似性成比例:其中，其中，和是同等大小的向量，其中非负分量分别是已知重排标签和重排目录，q是所述多个已知突变标签中的标签数，并且其中Ei进一步受到和要求的限制。 16.如权利要求15所述的方法,其特征在于,所述确定重排数量的方法还进一步包括步骤：通过将与目录较不相关的标签中的一个或多个重排重新分配给与目录更相关的标签，筛选确定要分配给各标签的重排的数量。 17.如权利要求16所述的方法，其特征在于，所述筛选步骤使用贪婪算法来迭代地找到另一种分配重排到标签的方法，其改进或不改变目录和重建目录之间的余弦相似性，其中是通过移动突变从标签i到标签j得到的向量的形式，其中，在每次迭代中，估测标签之间所有可能的移动的影响，当所有这些可能的重新分配对余弦相似性产生负面影响时，筛选步骤终止。 18.一种检测DNA样品中突变标签26或突变标签30的方法，其中突变标签26和30在表2中定义，所述方法包括以下步骤：对所述样品中的体细胞突变进行编目以产生所述样品的突变目录；通过确定多个所述已知突变标签中每一个的标量因子确定包括突变标签26或突变标签30的已知突变标签对所述突变目录的贡献，其中所述突变标签一起最小化一函数，该函数表示所述目录中的突变与由所述标量因子缩放的所述多个已知突变标签的组合所预期的突变之间的差异；和如果对应于突变标签26或突变标签30的标量因子超过预定阈值，则将所述样品分别鉴定为包含相应的突变标签26或突变标签30。 19.如权利要求18所述的方法,其特征在于,所述方法还包括以下步骤：在所述确定步骤之前，筛选所述目录中的突变，以去除残留的种系突变或已知的测序假象或两者。 20.如权利要求19所述的方法，其特征在于，所述筛选使用已知种系多态性的列表。 21.如权利要求19或20所述的方法，其特征在于，所述筛选使用通过与DNA样品相同的过程测序与正常人组织不匹配的BAM文件，并去除至少两个所述BAM文件中的至少两个良好映射读数中存在的任何体细胞突变。 22.如权利要求18-21任一项所述的方法，其特征在于，所述方法还包括步骤：选择所述多个已知突变标签作为所有已知突变标签的子集。 23.如权利要求22所述的方法，其特征在于，基于关于DNA样品的生物学知识或突变标签或两者来选择突变标签的子集。 24.如权利要求18-23任一项所述的方法，其特征在于，所述确定步骤可以确定最小化Frobenius范数的标量Ei：其中，和是同等大小的向量，其中非负分量分别是共有突变标签和突变目录，q是所述多个已知突变标签中的标签数，并且其中Ei进一步受到和要求的限制。

说明书

发明领域

本发明涉及癌症患者中许多突变标签的鉴定。所述突变标签包括新的碱基置换标签和重排标签。这些突变标签可用于表征癌症并用于治疗的鉴定。本发明还涉及一种用于检测这些标签的方法。

发明背景

体细胞突变存在于人体的所有细胞中并且在整个生命中发生。它们是多个突变过程的结果，包括DNA复制机制的内在轻微失真、暴露到外源或内源性诱变剂、DNA的酶法修饰和缺陷性DNA修复。不同的突变过程产生突变类型的独特组合，称为“突变标签(Mutational Signatures)”。

在过去几年中，大规模分析揭示了人类癌症类型范围中的许多突变标签。

癌症的突变理论提出，DNA序列的变化，称为“驱动(driver)”突变，赋予细胞增殖优势，导致肿瘤克隆的生长[1]。一些驱动突变在种系中遗传，但在癌症患者的一生中大多数出现在体细胞中，同时还有许多与癌症发展无关的“过客(passenger)”突变[1]。多个突变过程，包括暴露到内源性和外源性诱变剂、异常DNA编辑、复制错误和缺陷性DNA维持，都是造成这些突变的原因[10,12,13]。

在过去的五十年中，几波技术推动了癌症基因组突变的表征。核型分析显示重排的染色体和拷贝数改变。随后，杂合性分析的丢失、癌症来源的DNA与微阵列的杂交和其他方法提供了对拷贝数变化的更高分辨率的见解[14-18]。最近，DNA测序已经能够对突变类型的完整库进行系统表征，包括碱基置换、小插入/缺失、重排和拷贝数变化[19-23]，从而对突变的癌症基因和人类癌症中的突变过程产生实质性的见解。

产生体细胞突变的突变过程在癌症基因组上印记了特定的突变模式，称为标签[10,28,30]。以前应用数学方法[28]提取突变标签揭示了乳腺癌中的五个碱基置换标签：标签1、2、3、8和13[5,10]。

BRCA1和/或BRCA2中种系失活突变导致早发性乳腺癌[1,2]、卵巢癌[2,3]和胰腺癌[4]的风险增加，而这两个基因的体细胞突变和BRCA1启动子过度甲基化也与这些癌症类型的发展有关[5,6]。BRCA1和BRCA2参与无差错同源介导的双链断裂修复[7]。因此，BRCA1和BRCA2缺陷的癌症由于非同源末端连接机制的易错修复而显示出大量的重排和插入缺失，其承担双链断裂修复的责任[8,9]。

而缺陷性双链断裂修复增加了细胞的突变负担，从而增加了获得导致肿瘤性转化的体细胞突变的机会，当暴露于诸如铂类抗肿瘤药物时，它还使细胞更容易受到细胞周期停滞和随后的细胞凋亡的影响[10,11]。这种易感性已经成功地用于开发靶向和毒性小的治疗策略，用于治疗携带BRCA1和/或BRCA2突变的乳腺癌、卵巢癌和胰腺癌，特别是聚(ADP-核糖)聚合酶(PARP)抑制剂[10,11]。这些治疗引起大量DNA双链断裂，迫使BRCA1和BRCA2功能缺陷的肿瘤细胞发生凋亡，因为它们缺乏有效修复双链断裂的能力。相比之下，正常细胞基本上不受影响，因为它们的修复机构没有受到损害。

发明内容

本发明人已经分析了560例乳腺癌的全基因组序列，以促进对产生体细胞突变的突变过程的理解。已知的突变标签分析[28]揭示了7个新的碱基置换标签(除了已知存在的5个之外)。其中，五个先前已在其他癌症类型中检测到(标签5、6、17、18和20)，而其中两个是完全新的(标签26和30)。

类似的数学原理扩展到基因组重排，并且在560例乳腺癌中鉴定出六个全新的“重排标签”(表征特定重排突变的标签)。

因此，本发明的第一方面提供了检测DNA样品中重排标签1至6中任何一个或多个的存在的方法。

本文所述的结果表明重排标签3与BRCA1突变或启动子高甲基化密切相关，因此表现出这种标签的癌症可能受益于铂疗法或PARP抑制剂。

本文所述的结果表明重排标签1通常与TP53突变的三阴性乳腺癌相关，显示出高同源重组缺陷(HRD)指数。因此，表现出这种标签的癌症也可能受益于铂疗法或PARP抑制剂。

本文所述的结果表明重排标签5与BRCA1突变或启动子高甲基化和BRCA2突变的存在密切相关。因此，表现出这种标签的癌症也可能受益于铂疗法或PARP抑制剂。

因此，本发明的另一方面提供了一种预测患有癌症的患者是否可能对PARP抑制剂或铂类药物有反应的方法，所述方法包括：确定来自所述患者的DNA样品中是否存在一个或多个重排标签1、3和/或5，其中重排标签1、3和5在表1中定义，如果重排目录中被确定为与所述重排标签之一相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在，其中如果样品中存在所述重排标签之一，则患者可能对PARP抑制剂或铂类药物有反应。

在这方面，并且在涉及确定重排标签存在的本发明的所有其他方面中，可以以多种方式选择预定阈值。特别地，可以根据内容和期望的结果确定性来设置用于该确定的不同阈值。

在一些实施方案中，所述阈值是重排的绝对数量，所述重排来自DNA样品的重排目录，并被确定为与特定的重排标签相关联。如果超过该数量，则可以确定DNA样品中存在特定的重排标签。

重排标签通常相对于彼此是“相加的”(即肿瘤可能受与多于一个标签相关的潜在突变过程的影响，并且如果是这种情况，来自该肿瘤的样品通常显示更高的重排总数(是与每个潜在过程相关的单独重排的总和)，但随着重排的比例分布在存在的标签上)。因此，在确定特定标签的存在或不存在时，注意力可以集中在与样品中特定标签相关联的重排的绝对数量(可以通过以下在本发明的其他方面中描述的方法计算)。在样品中存在多个标签的情况下，这样的阈值通常更好。

在这些实施例中，如果至少5个并且优选地至少10)提供有用信息的重排与其相关联，则可以确定标签存在。

在其他实施例中，阈值将样本中检测到的重排总数(可以设置以确保分析具有代表性)和与特定标签相关的重排的比例结合(再次，通过以下在本发明的其他方面中描述的方法确定)。

例如，确定标签存在的要求可以是存在至少20个、优选地至少40个、更优选地至少50个提供有用信息的重排，并且如果至少10％、优选至少20％、更优选至少30％比例的重排与其相关，则可以认为存在该标签。样品中存在的重排数量越高，用于检测特定标签的比例阈值可能越低。

可以根据样本中发现的其他标签(构成了重排的重要部分)的数量调整比例阈值(例如，如果4个标签各存在20-25％的重排，那么可以确定所有4个标签均存在，而不是根本没有标签)，即使在本实施例中确定的阈值是30％。

上述阈值基于从测序至30-40倍深度的基因组获得的数据。如果数据是从在较低覆盖度下测序的基因组获得，则总体上检测到的重排数可能较低，并且需要相应地调整阈值。

在本方面以及涉及确定重排标签1、3或5中任何一个的存在的本发明其他方面，所使用的阈值可以组合应用于所有这些标签，也可以单独应用于各标签。

本发明的另一方面，提供了一种选择癌症患者用PARP抑制剂或铂类药物治疗的方法，所述方法包括：鉴定来自所述患者的DNA样品中是否存在一个或多个重排标签1、3和/或5，其中重排标签1、3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在；和如果样品中存在所述重排标签之一，则选择该患者用PARP抑制剂或铂类药物治疗。

在另一方面，本发明提供了PARP抑制剂或铂类药物用于患者癌症的治疗方法，所述癌症具有一个或多个重排标签1、3和/或5，其中重排标签1、3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在。

在另一方面，本发明提供了一种治疗患者癌症的方法，所述癌症被确定为具有一个或多个重排标签1、3和/或5，其中重排标签1、3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在，所述方法包括步骤：向所述患者施用PARP抑制剂或铂类药物。

在另一方面，本发明提供了PARP抑制剂或铂类药物用于患者癌症的治疗方法，所述方法包括：

(i)确定来自所述患者的DNA样品中是否存在一个或多个重排标签1、3和/或5，其中重排标签1、3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在；和

(ii)如果所述样品中存在所述重排标签之一，则向患者施用PARP抑制剂或铂类药物。

上述方面的方法应解释为包括在DNA样品中单独存在重排标签1、3或5中的任何一个，以及存在这些标签的任何组合。

本文所述的结果表明重排标签2存在于大多数癌症中，但特别富集在具有平和的拷贝数谱的雌激素受体(ER)阳性癌症。ER阳性的乳腺癌可能对激素治疗(例如他莫昔芬)有响应，因此特别富含重排标签2的乳腺癌可能对激素治疗有响应，例如，用他莫昔芬治疗。

在特定实例中，癌症是乳腺癌、卵巢癌或胰腺癌。

本发明的另一方面，提供了一种确定来自患者的DNA样品中重排标签1至6中任何一个的存在的方法，其中所述重排标签在表1中定义，如果重排目录中被确定为与特定重排标签相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述特定重排标签的存在。

在本发明的任何上述方面和实施例中，确定或鉴定任何重排标签的存在或不存在的步骤可以如在与本申请同日提交的共同未决申请(申请号PCT/EP2017/060279)中所述，其内容通过引用并入本文。更具体地，确定或鉴定重排标签的存在或不存在的步骤可包括：通过计算所述目录中的重排突变与已知的重排突变标签之间的余弦相似性，确定已知重排标签对DNA样品重排目录的贡献。

优选地，所述方法还包括以下步骤：在所述确定步骤之前，筛选所述目录中的突变，以去除残留的种系结构变异或已知的测序假象(artefacts)或两者。这种筛选可以非常有利于从所述目录中去除已知由体细胞突变以外的机制产生，并且因此可能遮盖或模糊重排标签的贡献或者导致假阳性结果的重排。

例如，所述筛选可以使用已知种系重排或拷贝数多态性的列表，并在确定重排标签的贡献之前去除目录中那些多态性导致的体细胞突变。

作为另一个例子，所述筛选可以使用通过与DNA样品相同的过程测序与正常人组织不匹配的BAM文件，并去除至少两个所述BAM文件中的至少两个良好映射读数(mapping reads)中存在的任何体细胞突变。这种方法可以去除由用于获得样品的测序技术产生的假象。

重排突变的分类可以包括将突变鉴定为成簇(clustered)或非成簇(non-clustered)。这可以通过分段常数拟合(“PCF”)算法来确定，该算法是序列数据的分段方法。在特定实施方案中，如果片段内的重排断点的平均密度是大于个体患者样品的全基因组平均重排密度的某个因子，则可以将重排鉴定为成簇。例如，所述因子可以是至少8倍，优选至少9倍，并且在特定实施例中是10倍。重排间距离是从一个重排断点到参照基因组中紧接在该重排断点之前的另一个重排断点的距离。这种测量是已知的。

重排突变的分类可以包括将重排鉴定为以下之一：串联重复、缺失、倒位或易位。这种重排突变的分类是已知的。

所述重排突变的分类可以进一步包括通过大小将鉴定为串联重复、缺失或倒位的突变分组。例如，可以通过重排中的碱基数将突变分组为多个大小组。优选地，大小组是以对数为基础的，例如1-10kb、10-100kb、100kb-1Mb、1Mb-10Mb和大于10Mb。易位不能按大小分类。

在特定的实施方案中，在每个DNA样品中，与第i个突变标签相关的重排数量Ei被确定为与该样品的目录和之间的余弦相似性成比例:

其中，

其中，和是同等大小的向量，其中非负分量(nonnegative components)分别是已知的重排标签和突变目录，q是所述多个已知重排标签中的标签数。

所述方法可以进一步包括步骤：通过将一个或多个重排从与目录较不相关的标签中重新分配给与目录更相关的标签，筛选确定要分配给各标签的重排的数量。这种筛选可以用于将重排从仅具有与其相关联的少量重排的标签(并且因此可能不存在)重新分配到具有与其相关联的更多重排的标签。这可以减少分配过程中的“噪音”。

在一个实施例中，筛选步骤使用贪婪算法来迭代地找到另一种分配重排到标签的方法，其改进或不改变目录和重建目录之间的余弦相似性，其中是通过移动突变从标签i到标签j得到的向量的形式(version)，其中，在每次迭代中，估测标签之间所有可能的移动的影响，当所有这些可能的重新分配对余弦相似性产生负面影响时，筛选步骤终止。

在另一方面，本发明提供了检测DNA样品中突变标签26或突变标签30的方法，其中突变标签26和30在表2中定义，所述方法包括以下步骤：对所述样品中的体细胞突变进行编目以产生所述样品的突变目录；通过确定多个所述已知突变标签中每一个的标量因子(scalar factors)确定已知突变标签(包括突变标签26或突变标签30)对所述突变目录的贡献，其中所述突变标签一起最小化一函数，该函数表示所述目录中的突变与由所述标量因子缩放的(scaled)所述多个已知突变标签的组合中所预期的突变之间的差异；和如果对应于突变标签26或突变标签30的标量因子超过预定阈值，则将所述样品分别鉴定为包含相应的突变标签26或突变标签30。

优选地，本方面所述方法还包括以下步骤：在所述确定步骤之前，筛选所述目录中的突变，以去除残留的种系突变或已知的测序假象或两者。这种筛选可以非常有利于从所述目录中去除已知由体细胞突变以外的机制产生，并且因此可能遮盖或模糊突变标签的贡献或者导致假阳性结果的突变。

例如，所述筛选可以使用已知种系多态性的列表，并在确定突变标签的贡献之前去除目录中那些多态性导致的体细胞突变。

作为另一个例子，所述筛选可以使用通过与DNA样品相同的过程测序与正常人组织不匹配的BAM文件，并去除至少两个所述BAM文件中的至少两个良好映射读数中存在的任何体细胞突变。所述方法可以去除由用于获得样品的测序技术产生的假象。

所述方法还可以包括步骤：选择所述多个已知突变标签作为所有已知突变标签的子集。通过选择子集，例如，基于关于样品的先前知识，减少有助于突变目录的可能标签的数量，这可能增加确定步骤的准确性。

例如，可以基于关于DNA样品的生物学知识或突变标签或两者，来选择突变标签的子集。因此，可能立即显而易见的是，由于DNA样品的特征和特定的突变标签，某些DNA样品可能不会由特定的突变标签产生。在以下实施例中更详细地描述了其他可能性。

在特定实施例中，所述确定步骤可以确定最小化Frobenius范数的标量Ei：

其中，和是同等大小的向量，其中非负分量分别是共有突变标签和突变目录，q是所述多个已知突变标签中的标签数，并且其中Ei进一步受到和的要求的限制。

附图和表的简要说明

图1汇总了发明人研究的560个乳腺癌基因组群。

图2是显示七个主要亚组的图，其显示出与其他基因组、组织学或基因表达特征的不同关联，以及从数据中提取的六个重排标签。

图3是所研究的基因组群的进一步汇总；

图4显示了群中鉴定的碱基置换标签；

图5显示了群中鉴定的重排标签；

图6显示了基于所鉴定的重排标签，成簇的临床相关性；

图7显示断点特征，其中“钝(blunt)”左边的柱形是非模板序列，标记为“钝”的柱形是钝端连接，“钝”右边的柱形是微同源；和

图8是显示出根据本发明的实施方式确定重排标签的存在的方法中的概要步骤的流程图。

表1显示了许多重排标签的定量定义；和

表2显示了碱基置换标签26和30的定量定义。

具体实施方式

本发明基于以下发现：癌症患者子集具有特定的突变或重排标签。所述重排标签在下面更详细地定义，并在表1中定量地列出。所述突变(或“碱基置换”)标签在表2中定量列出。

如下面进一步确认的，一些重排标签(标签1、3和5)与通过同源重组和/或缺乏BRCA1/2缺陷的双链断裂修复失败相关，因此，具有一种或多种这些重排标签的癌症患者可能受益于铂疗法或用PARP抑制剂治疗。

因此，本发明尤其涉及一种预测癌症患者是否可能对PARP抑制剂或铂类药物有响应的方法，或涉及一种基于来自所述患者的DNA样品中一个或多个重排标签1、3或5的存在或不存在，选择癌症患者用PARP抑制剂或铂类药物治疗的方法。

应注意，如本文所使用，短语“一个或多个重排标签1、3或5的存在”尤其包括这些标签中的任何一个的存在，以及这些标签的任何组合的存在。特别地，它包括所有三个这些标签的存在，即使由于所有这些标签的存在，DNA样品中被确定与这些标签中任何一个相关联的重排比例低于被认为适合于达到确定存在特定标签的比例。

患者优选是人类患者。

具有重排标签1、3和/或5的癌症患者可能通过同源重组DNA双链修复失败，并且易受引起双链断裂的药物的影响，例如，PARP抑制剂或铂类药物。

聚ADP核糖聚合酶(PARP1)是一种对修复单链断裂(也称为“缺口”)很重要的蛋白质。如果这些缺口在DNA复制之前仍未修复，则复制本身可导致形成大量双链断裂。抑制PARP1的药物会导致大量双链断裂。在不能通过无差错同源重组修复双链DNA断裂的肿瘤中，PARP1的抑制导致不能修复这些双链断裂并导致肿瘤细胞死亡。用于本发明的PARP抑制剂优选是PARP1抑制剂。PARP抑制剂的实例包括：依尼帕尼(Iniparib)、他拉唑帕尼(Talazoparib)、奥拉帕尼(Olaparib)、芦卡帕尼(Rucaparib)和维利帕尼(Veliparib)。

铂类抗肿瘤药物是用于治疗癌症的化学治疗剂。它们是铂的配位络合物，其引起DNA作为单加合物交联、链间交联、链内交联或DNA蛋白交联。它们主要作用于相邻的鸟嘌呤N-7位，形成1,2链内交联。所得的交联抑制癌细胞中的DNA修复和/或DNA合成。一些常用的铂类抗肿瘤药物包括：顺铂、卡铂、奥沙利铂(oxaliplatin)、赛特铂(satraplatin)、吡铂、奈达铂、三铂(Triplatin)和利波铂(Lipoplatin)。

确定来自患者的DNA样品中重排标签1、3和/或5的存在或不存在。优选地，这些是全基因组样品，并且可以通过全基因组测序确定重排标签的存在或不存在。所述DNA样品可以是全外显子组样品，并且可以通过全外显子组测序确定重排标签的存在或不存在。外显子组测序是一种测序基因组中所有蛋白质编码基因(称为外显子组)的技术。它包括首先仅选择编码蛋白质的DNA子集(称为外显子)，然后使用任何高通量DNA测序技术对该DNA进行测序。有180,000个外显子，约占人类基因组的1％，或约3千万个碱基对。

所述DNA样品优选来自患者的肿瘤和正常组织，例如，来自患者的血液样品和通过活组织检查获得的肿瘤组织。通过将其基因组序列与正常组织之一进行比较，标准地检测肿瘤样品中的体细胞突变。

本发明还涉及在具有一个或多个重排标签1、3和/或5的患者中用PARP抑制剂或铂类药物治疗癌症。

例如，所述PARP抑制剂或铂类药物可用于患者癌症的治疗方法，所述癌症具有一个或多个重排标签1、3和/或5。在治疗之前，所述方法可以包括步骤：确定在来自所述患者的DNA样品中是否存在这些重排标签中的一个或多个。优选地，这些是全基因组样品，并且可以通过全基因组测序确定重排标签的存在或不存在。所述DNA样品可以是全外显子组样品，并且可以通过全外显子组测序确定重排标签的存在或不存在。

所述治疗方法还包括步骤：将PARP抑制剂或铂类药物施用于具有一个或多个重排标签1、3和/或5的癌症患者。可以使用任何合适的施用途径。

待治疗的患者优选是人类患者。

本发明还涉及检测来自受试者的DNA样品中重排标签1-6或突变标签26和30中任何一个的方法。所述方法适用于任何受试者，包括患有乳腺癌、卵巢癌、胰腺癌或胃癌的受试者。这些方法的进一步细节如下。

鉴定与癌症相关的重排标签

对来自每个个体(556名女性和4名男性)的560个乳腺癌和非肿瘤组织的全基因组进行测序(图1A)。检测到3,479,652个体细胞碱基置换，371,993个小插入缺失和77,695个重排，各个样品之间的数量差异很大(图1B)。从病例子集获得转录组序列、microRNA表达、基于阵列的拷贝数和DNA甲基化数据。

为了能够研究重排突变过程的标签，采用了重排分类，包括32个子类。

在许多癌症基因组中，大量重排区域性成簇，例如在基因扩增区域中。因此，重排首先被分类为以成簇或分散的形式，进一步细分为缺失、倒位和串联重复，然后根据重排区段的大小。两组中的最终类别是染色体间易位。

应用用于碱基置换标签[5,10,28]的数学框架提取了六个重排标签。基于各乳腺癌中每个标签的重排比例的无监督层次成簇产生了七个主要亚组，其显示出与其他基因组、组织学或基因表达特征的不同关联，如图2所示。

重排标签1(所有重排的9％)和重排标签3(18％重排)主要的特征是串联重复。与重排标签1相关的串联重复大多数>100kb，而与重排标签3相关的串联重复<10kb。超过95％的重排标签3串联重复集中在15％的癌症中(图2，簇D)，其中许多具有数百种此类重排。具有BRCA1突变或启动子高甲基化的几乎所有癌症(91％)都在该组中，该组富含基底样、三阴性癌和高同源重组缺陷(HRD)指数的拷贝数分类[31-33]。因此，BRCA1而非BRCA2的失活可能是重排标签3小串联重复突变体表型的原因。

因此，重排标签3的存在或不存在，特别地但非排他地，与重排标签1和5的存在或不存在相比，可以用于区分具有BRCA1而非BRCA2失活的癌症。

在仅8.5％的乳腺癌中发现超过35％的重排标签1串联重复，有些病例有数百例(图2，簇F)。这种大串联重复突变体表型的原因尚不清楚。相对晚期诊断，表现出它的癌症通常是TP53突变的三阴性乳腺癌，显示碱基置换标签3富集和高同源重组缺陷(HRD)指数(图2)，但没有BRCA1/2突变或BRCA1启动子高甲基化。

重排标签1和3串联重复通常均匀地分布在基因组上。然而，有9个位置在乳腺癌中发现串联重复的重现，并且在个别病例中经常显示多个嵌套的串联重复。这些可能是特定于这些串联重复突变过程的突变热点，尽管我们不能排除它们代表驱动事件的可能性。

重排标签5(占14％重排)的特征是缺失<100kb。它与BRCA1突变或启动子高甲基化(图2，簇D)、BRCA2突变(图2，簇G)和重排标签1大串联重复(图2，簇F)的存在密切相关。

重排标签2(占22％重排)的特征是非成簇缺失(>100kb)、倒位和染色体间易位，在大多数癌症中存在，但特别富集在具有平和拷贝数谱的ER阳性癌症中(图2，簇E，GISTIC簇3)。重排标签4(占重排的18％)的特征是成簇的染色体间易位，而重排标签6(重排的19％)的特征是成簇的倒位和缺失(图2，簇A、B和C)。

在大多数重排中发现了末端连接修复的替代方法特有的重叠微同源的短片段(1-5bp)[10,24]。重排标签2、4和6的特征是微同源在1bp处的峰，而与同源重组DNA修复缺陷相关的重排标签1、3和5在2bp处显示峰(图8)。因此，不同的末端连接机制可以用不同的重排过程操作。一部分乳腺癌显示重排标签5缺失，其中较长(>10bp)微观同源性涉及来自短散布核元件(SINE)的序列，最常见的是AluS(63％)和AluY(15％)家族重复序列(图8)。非模板化序列的长片段(超过10bp)在成簇重排中特别丰富。

方法

样品选择

从560个乳腺癌和正常组织(外周血淋巴细胞、邻近正常乳房组织或皮肤)中提取DNA。对样品进行病理学检查，并且仅被评估为由>70％肿瘤细胞组成的样品被包括在本研究中。

大规模平行测序和比对

构建短插入片段500bp基因组文库，制备流动池(flowcell)并根据依诺米那(Illumina)文库方法产生测序簇[34]。根据依诺米那基因组分析仪操作手册，在依诺米那GAIIx，Hiseq 2000或Hiseq 2500基因组分析仪上进行108碱基/100碱基(基因组)双端(paired-end)测序。肿瘤样品的平均序列覆盖率为40.4倍，正常样品的平均序列覆盖率为30.2倍。

使用Burrows-Wheeler对准器，BWA(v0.5.9)[35]将短插入片段的双端读长(paired-end reads)与参照人类基因组(GRCh37)比对。

处理基因组数据

CaVEMan(癌症变异通过期望最大化：http://cancerit.github.io/CaVEMan/)用于调用(call)体细胞置换(somatic substitutions)。在NCBI37基因组构建中使用改良的Pindel 2.0版(http://cancerit.github.io/cgpPindel/)调用肿瘤和正常基因组中的插入缺失[36]。

使用定制算法BRASS(BReakpoint AnalySiS)(https://github.com/cancerit/BRASS)通过不一致映射双端读长(mapping paired-end reads)来发现结构变异。接下来，可能跨越断点的不一致映射读数对，以及对附近的正确配对读长的选择，针对每个感兴趣的区域进行分组。使用Velvet de novo汇编程序[37]，在每个区域内局部组装读长，以产生每个区域的连续共有序列。重排，由重排衍生物读长表示以及相应的非重排等位基因，可以从Velvet组件的de Bruijn图(从(短)读长序列的从头组装中使用的数学方法)中的五个顶点的特定模式中立即识别。在与参照基因组比对后，从中得到连接序列(junction sequence)(例如微同源或非模板化序列)的精确坐标和特征，就像它们是分开读长(reads)一样。

注释符合ENSEMBL第58版。

根据Affymetrix方案，使用Affymetrix SNP6.0平台进行单核苷酸多态性(SNP)阵列杂交。使用ASCAT(v2.1.1)进行肿瘤的等位基因特异性拷贝数分析，以产生肿瘤细胞的整合等位基因特异性拷贝数谱[38]。ASCAT也直接应用于NGS数据，具有高度可比的结果。

对12.5％的乳腺癌进行取样以验证置换、插入缺失和/或重排，以评估突变调用的阳性预测值。

突变标签分析

突变标签分析按照以下三步流程进行：(i)基于体细胞置换及其邻近序列区间(context)分层从头提取，(ii)使用从乳腺癌基因组提取的突变标签更新共有标签集，和(iii)评估每个乳腺癌样品中每个更新的共有标签的贡献。这三个步骤将在下一节中详细讨论。

分层从头提取突变标签

使用维康基金桑格研究院(Wellcome Trust Sanger Institute)突变标签框架的分层版本分析了560个乳腺癌全基因组的突变目录的突变标签[28]。简而言之，所有突变数据都被转换成矩阵，M由96个特征组成，包括每种突变类型(C>A，C>G，C>T，T>A，T>C和T>G)的突变计数；对于所有样品，使用每种可能的5’(C，A，G和T)和3’(C，A，G和T)区间，所有置换均由突变的Watson-Crick碱基对的嘧啶表示。在转换之后，先前改进的算法以分层方式应用于包含K个突变类型和G个样本的矩阵M。该算法破译最小的突变标签集，最佳地解释每种突变类型的比例，然后估测每个标签在样本中的贡献。更具体地，该算法利用众所周知的盲源分离技术，称为非负矩阵分解(NMF)。NMF通过最小化Frobenius范数同时保持非负性来鉴定突变标签的矩阵P和这些标签的暴露(exposures)的矩阵E：

破译突变标签的方法包括用模拟数据评估和限制列表，可以在[29]中找到。该框架以分层方式应用，以增加其发现少数样品中存在的突变标签以及表现出低突变负荷的突变标签的能力。更具体地，在应用于包含560个样品的原矩阵M之后，我们评估了用提取的突变标签解释560个乳腺癌中每一个的突变模式的准确性。通过提取的突变标签很好地解释的所有样品被移除，并且框架应用于M的剩余的子矩阵。重复该过程直到提取过程不显示任何新的突变标签。总体而言，该方法在560例乳腺癌中提取了有效的12个独特的突变标签。

更新共有突变标签集

将12个分层提取的乳腺癌标签与共有突变标签的普查进行比较[28]。12个标签中的11个与之前鉴定的突变模式非常相似。这11个标签的模式根据乳腺癌数据中每个标签所贡献的突变数量加权，用于更新共识突变标签集，如之前在[28]中所做的那样。12个提取的标签中1个是新的，并且目前是乳腺癌的独特特征。这个新标签是共有标签30(http://cancer.sanger.ac.uk/cosmic/signatures)。

评估共有突变标签在560例乳腺癌中的贡献

在乳腺癌中发现的共有突变标签的完整概要包括：标签1、2、3、5、6、8、13、17、18、20、26和30。通过将它们重新引入到每个样品中来评估560例乳腺癌基因组中所有这些标签的存在。更具体地说，更新的共有突变标签集用于最小化每个样品的约束线性函数：

这里，代表具有96个分量的向量(对应于具有六个体细胞置换及其邻近测序区间的共有突变标签)，并且Exposurei是反映该标签贡献的突变数量的非负标量。N等于12，它反映了可以在单个乳腺癌样品中找到的所有可能标签的数量。从样品中排除了没有贡献大量(或比例)突变或没有显著改善样本的原始突变模式与突变标签产生的突变模式之间的相关性的突变标签。该过程减少了过度拟合数据，并且只允许每个样本中仅存在必要的突变标签。

重排标签

成簇与非成簇重排

本发明人试图使用分段常数拟合(PCF)方法将作为局灶性灾变事件或焦点驱动扩增子发生的重排与全基因组重排诱变分开。对于每个样品，每个重排的两个断点都被单独考虑，并且所有断点都按染色体位置排序。计算重排间距，所述重排间距定义为从一个重排断点到参照基因组中紧接在其之前的重排断点之间的碱基对数。成簇重排的推定区域被鉴定为具有平均重排间距，该平均重排间距比个体样品的全基因组平均值大至少10倍。使用的PCF参数为γ＝25和kmin＝10。成簇区域中涉及的所有断点的相应伙伴断点(partner breakpoint)可能在相同的机械瞬间(mechanistic instant)出现，因此即使位于远端染色体位点，也被认为参与成簇。

分类-类型和大小

在两类重排(成簇和非成簇)中，重排被细分为缺失、倒位和串联重复，然后根据重排区段的大小进一步细分(1-10kb、10kb-100kb、100kb-1Mb、1Mb-10Mb、超过10Mb)。两组中的最终类别是染色体间易位。

通过NNMF重排标签

该分类在544个乳腺癌基因组中产生了32个不同类别的结构变异的矩阵。使用先前开发的方法对该矩阵进行分解，通过寻找能够最好地解释数据而不过度拟合数据的最佳突变标签数量，来破译突变标签[28]。

根据本发明以下列出的实施方案的方法，确定来自单个患者的DNA样品中存在或不存在重排标签或碱基置换标签。优选地，这些是全基因组样品，并且可以通过全基因组测序确定突变标签的存在或不存在。所述DNA样品可以是全外显子组样品，并且可以通过全外显子组测序确定突变标签的存在或不存在。外显子组测序是一种测序基因组中所有蛋白质编码基因(称为外显子组)的技术。它包括首先仅选择编码蛋白质的DNA子集(称为外显子)，然后使用任何高通量DNA测序技术对该DNA进行测序。有180,000个外显子，约占人类基因组的1％，或约3千万个碱基对。

所述DNA样品优选来自患者的肿瘤和正常组织，例如，来自患者的血液样品和通过活组织检查获得的乳腺肿瘤组织。通过将其基因组序列与正常组织之一进行比较，标准地检测肿瘤样品中的体细胞突变。

检测单个患者中重排标签的方法

在本发明的实施方案中，进行来自单个患者的DNA中重排标签的检测。在这些实施方案中，该检测通过计算机执行的方法或工具进行，所述计算机执行的方法或工具检查通过核酸材料的高覆盖度或低通测序产生的体细胞突变列表，所述核酸材料来自新鲜冷冻衍生的DNA，循环肿瘤DNA或福尔马林固定的石蜡包埋(FFPE)DNA，其代表来自患者的疑似或已知肿瘤。该方法的步骤在图1中示意性地说明。

这些实施方案的体细胞突变列表可以以各种不同的形式提供(包括VCF，BEDPE,文本等)，但至少需要包含以下信息：基因组组装版本、较低的断点染色体、较低的断点坐标、较高的断点染色体、较高的断点坐标，和重排类别(倒位、串联重复、缺失、易位)或较低和较高断点的链信息以能够定位重排断点，以便正确地对它们进行分类。

从广义上讲，在载入来自DNA样品的体细胞突变列表(S101)后，该工具首先筛除掉任何已知的种系和/或人工体细胞突变(S102)，然后产生样品的重排目录，再根据下面描述的分类对重排进行分类(S103)，然后评估已知共有重排突变标签对该样本的贡献(S104)，并最终确定在样品中有效的重排过程的标签集及其各自的贡献(S105)。

默认情况下，共有重排标签的模式如表1所示，但是这些突变标签模式也可以是用户提供的，并且该方法不限于已知的标签，并且可以容易地应用于将来发现的新标签或修改标签。

筛选初始数据

在分析数据之前，对体细胞重排的输入值列表进行了广泛筛选以去除任何残留的种系突变以及技术特异性测序假象。

使用来自dbSNP的种系突变的完整列表[25]，1000个基因组项目[26]，NHLBI GO外显子组测序项目[27]和69个完整基因组学小组(http://www.completegenomics.com/public-data/69-Genomes/)从报告的体细胞突变列表中筛选出种系重排或拷贝数多态性。

通过使用包含至少100个正常全基因组的与正常人组织不匹配的BAM文件组，技术特异性测序假象(与文库标记或测序化学相关)和参照基因组中由错误或偏差引起的图谱相关假象被筛除掉了。剩余的体细胞突变用于构建检查的样品的突变目录。

生成样品的突变目录

剩余(即筛选后的)体细胞重排的列表用于生成样品的重排突变目录。

(1)成簇与非成簇

应用于突变的第一个分类是它们是否成簇(紧密分组)。

为了区分患者癌症基因组中成簇或靠近的重排集合与在整个基因组中分布或分散的其他重排，通过基于PCF的算法解析数据。PCF(分段恒定拟合)算法是一种序列数据分段的方法。

在应用PCF之前，对重排数据执行一些步骤。

与具有单个基因组坐标以表示其位置的置换或插入缺失不同，重排具有两个坐标或“断点”，其识别通过大结构突变事件成簇在一起的两个远距离的基因座。

首先，每个重排的两个断点都是独立处理的。然后根据每个样品中的参照基因组坐标对断点进行分类。针对每个断点计算突变间距(IMD)，所述突变间距定义为从一个重排断点到参照基因组中紧接在其之前的重排断点的碱基对的数量。然后将计算的IMD反馈到PCF算法。

为了从“非成簇”重排中识别“成簇”重排区域，需要一组重排以具有比个体患者样品的整个基因组平均重排密度大至少10倍的重排断点的平均密度。另外，规定了伽马参数(分割平滑度的度量)，γ＝25，并且要求在每个区域中存在最少10个断点，然后才能将其分类为重排簇。在生物学上，成簇区域中涉及的任何重排的相应伙伴断点可能在相同的机械瞬间出现，因此即使根据参照基因组位于远端基因组位点，也可以认为其参与成簇。

因此，重排首先被分类为“成簇的”或“非成簇的”。

(2)类型和大小

在成簇和非成簇类别中，然后根据提供给主要重排类别的信息对重排进行分类：

-串联重复

-缺失

-倒位

-易位

然后可以将串联重复、删除和倒位分类为以下5个大小组，其中重排的大小是通过从较高断点坐标减去较低断点坐标获得的。

-1-10kb

-10-100kb

-100kb-1Mb

-1Mb-10Mb

->10Mb

易位是例外，不能按大小分类。

总之，存在16个亚群的成簇重排和16个亚群的非成簇重排，因此共有32个类别。这些列于表1中。

然后可以将该分类的结果反馈到潜在变量分析，例如NNMF，以获得描述每个重排标签的32个元素的非负向量。

评估在检查样本的重排目录中归因于突变标签的体细胞突变的数量

通过评估与样品中所有有效突变过程的标签共有模式相关的突变数量来计算所有突变标签的贡献。下面列出了使用非负矩阵因子分解(NNMF)评估这个的方法，尽管同样可以使用诸如EMU或分层Dirichlet处理(HDP)的替代方法。

更具体地，所有共有重排标签被检查为包含s向量的P集合，

其中每个向量是反映共有重排标签的离散概率密度函数。对于当前已知的重排标签，这些向量在表1的各列中列出。这里,s指已知共有重排标签的数量(当前为6)，每个向量的32个非负分量对应于这些共有重排标签的不同重排类型(即，成簇/非成簇，类型和大小)。

所有共有重排标签的贡献是针对所检查样品的突变目录而独立评估的。评估算法包括计算每个标签和检查样本之间的余弦相似性。对于一组向量S1..q,q≤s,，余弦相似度由下式给出：

与第i个突变标签相关的重排数量Ei与余弦相似度成正比

其中，和是同等大小的向量，其中非负分量分别是已知的重排标签和突变目录，q是所述多个已知重排标签中的标签数。

在上面的等式中，和代表具有32个非负分量的向量(对应于成簇/非成簇特征以及重排的类型和大小)，分别反映了共有突变标签和所检查样品的突变目录。因此,同时此外，两个向量都具有来自共有突变标签(即，)的已知数值或从产生样品的原始突变目录(即)的已知数值。相反，Ei对应于未知标量，反映了突变目录中标签所贡献的重排数量。

上述等式在参数Ei方面受到普遍约束。更具体地，由样品中的重排标签贡献的体细胞重排的数量必须是非负的，并且它不得超过该样品中体细胞突变的总数。此外，样本中所有标签所贡献的突变必须等于该样本的体细胞突变的总数。这些约束可以在数学上表示为和

当没有先前的生物学知识可用时，整个标签Q集合用于确定Ei，并且筛选步骤用于将突变从最不相关的标签移动到最佳解释所考虑的样本的标签(标签高度相关)。给定目录并给出两个标签i和j(i≠j且i,j＝1,…,Q)之间所有||QQ||可能的移动，筛选步骤使用贪婪算法迭代地选择移动，改进或不改变目录和重构目录之间的余弦相似性。(是向量的形式,其通过突变从标签i移动到标签j获得)。当标签之间的所有移动对余弦相似性具有负面影响时，筛选步骤终止。

因此，筛选步骤可以减少DNA样品中的“噪音”，这可能最初导致少量重排归因于实际上不存在的标签。筛选允许将这种重排重新分配给更普遍的标签。

然后可以确定样品是否表现出已知的重排标签中的一个或多个重排标签，其来自从样本中存在的和与特定标签相关联的重排数量中。可以根据上下文和结果的期望确定来设置用于该确定的不同阈值。通常，所述阈值将样本中检测到的重排总数(以确保分析具有代表性)和与通过上述方法确定的特定标签相关的重排比例结合。

例如，对于从测序至30-40倍深度的基因组获得的数据，检测的要求可以是存在至少20个，优选地至少50个，更优选地至少100个重排，并且如果至少10％，优选至少20％，更优选至少30％重排比例与其相关，则可以认为存在该标签。如下所示，可以根据样本中发现的其他标签(构成了重排的重要部分)的数量调整比例阈值(例如，如果4个标签各存在25％的重排，那么可以确定所有4个均存在，而不是根本没有标签，即使检测的通常要求设置为高于25％)。

重排标签通常相对于彼此是“相加的”(即肿瘤可能受与多个标签相关的潜在突变过程的影响，并且如果是这种情况，来自该肿瘤的样品通常显示更高的重排总数(是与每个潜在过程相关的单独重排的总和)，但随着重排的比例分布在存在的标签上)。因此，在确定特定标签的存在或不存在时，注意力可以集中在与样品中特定标签相关联的重排的绝对数量(按上述方法计算)。这种检测的可变要求可以更好地解决存在多个标签的情况。根据这种方法，如果至少10个(并且优选地至少20个)提供有用信息的重排与其相关联，则可以确定标签存在。

单个基因组中碱基置换标签的检测方法

在本发明的实施方案中，进行单个患者的DNA中突变标签的检测。在这些实施方案中，该检测通过计算机执行的方法或工具进行，所述方法或工具检查来自疑似癌症患者的DNA样品的靶向全外显子组或全基因组测序产生的体细胞突变的列表。该方法的步骤在图3中示意性地说明。

这些实施方案的体细胞突变列表可以以各种不同的形式提供(包括VCF，MAF等)，但至少需要包含每个体细胞突变的以下信息：基因组组装版本、染色体名称、染色体上的起始位置、染色体上的最终位置、参照碱基、突变碱基。

从广义上讲，在载入来自DNA样品的体细胞突变列表(S101)后，该工具首先筛除掉任何已知的种系和/或人工体细胞突变(S102)，然后基于单碱基突变产生样本的突变目录(S103)，评估已知共有突变标签对该样本的贡献(S104)，并最终确定在样本中有效的突变过程的标签集及其各自的贡献(S105)。

默认情况下，共有突变标签的模式取自共有突变标签的普查网站(http://cancer.sanger.ac.uk/cosmic/signatures)，但是这些突变标签模式也可以是用户提供的，并且该方法不限于已知的标签，并且可以容易地应用于将来发现的新标签或修改标签。

筛选初始数据

在分析数据之前，对体细胞突变的输入值列表进行了广泛筛选以去除任何残留的种系突变以及技术特异性测序假象。

使用来自dbSNP的种系突变的完整列表(22)，1000个基因组项目(23)，NHLBI GO外显子组测序项目(24)和69个完整基因组学小组(http://www.completegenomics.com/public-data/69-Genomes/)从报告的体细胞突变列表中筛选出种系多态性。

通过使用包含300个正常全基因组和570个正常全外显子组的与正常人组织不匹配的BAM文件组筛选出技术特异性测序假象。去除在至少两个普通BAM文件中的至少两个良好映射读数中存在的任何体细胞突变。剩余的体细胞突变用于构建检查的样品的突变目录。

在该方法的特定实施例中，上述筛选由Perl编写的脚本执行。

生成样品的突变目录

剩余(即筛选后的)体细胞突变的列表用于生成样品的突变目录。该突变目录包括六种类型的体细胞置换(C：G>A：T，C：G>G：C，C：G>T：A，T：A>A：T，T：A>C：G，和T：A>G：C)以及体细胞突变的紧接着5’和3’的碱基，产生96种可能的突变类型(6种类型的置换×4种类型的5’碱基×4种类型的3’碱基)。

因此，利用其基因组位置及其邻近的5’和3’碱基检查每个体细胞突变。基于突变的嘧啶碱基计算体细胞突变的数量及其三核苷酸区间。

例如，对于人类基因组构建GRCh37，a G：C>A：位于第134147737位的第9号染色体上的T突变将记录在CpCpT>CpTpT(突变的碱基下划线和嘧啶区间中)。这些数字在筛选后留下的所有体细胞突变中聚集，它们构成了检查样品的突变目录。

在该方法的特定实施例中，使用Perl编写并使用ENSEMBL Core API的脚本用于进行如上所述的突变目录的生成。

总之，突变目录的生成将经过筛选的体细胞突变列表转换为非负向量其中

评估在检查样本的突变目录中归因于突变标签的体细胞突变的数量

通过评估与样品中所有有效突变过程的标签共有模式相关的突变数量来计算所有突变标签的贡献。

更具体地，所有共有突变标签被检查为包含s向量的P集合，

其中每个向量是反映共识突变标签的离散概率密度函数(举例来说，标签3的向量将如表3的“概率”栏中所述)。这里,s指已知共有突变标签的数量，每个向量的96个非负分量对应于这些共有突变标签的突变类型(即，体细胞置换及其邻近测序区间)的数量。

所有共有突变标签的贡献是针对所检查样品的突变目录而独立评估的。估测算法包括找到一组向量S1..q,q≤s,的约束线性函数的Frobenius范数的最小值(参见下面的约束条件)，其属于子集Q，其中(P是迄今为止提到的包含所有已知共有突变标签的集合)：

该子集Q是基于先前的生物学知识确定的。该生物学知识建立在共有突变标签的已知特征或所检查样本的知识上。

原则上，网站上提供了关于共有突变标签的一般生物学知识以及发现它们的癌症类型：http://cancer.sanger.ac.uk/cosmic/signatures.例如，对于任何神经母细胞瘤样本，Q仅包含共有标签1、5和18，因为(目前)这些是在神经母细胞瘤中有效的突变过程的唯一已知标签(参见http://cancer.sanger.ac.uk/cosmic/signatures)。

在方程(1)中，和代表具有96个非负分量的向量(对应于六个体细胞置换及其邻近测序区间)，分别反映了共有突变标签和所检查样品的突变目录。因此同时此外，两个向量都具有来自普查网站的共有标签(即，)的已知数值或从产生样品的原始突变目录(即)的已知数值。相反，Ei对应于未知标量，反映了突变目录中标签所贡献的突变数量。

方程(1)的最小化是在几个具有生物学意义的线性约束下进行的。基于先前鉴定的共有突变标签的生物学特征来约束检查Q集合中的向量集合。这可以通过将生物条件编码到最小化过程中来计算完成。

例如，共有标签6在单/多核苷酸重复中引起高水平的小插入和/或缺失(插入缺失)。因此，当检查样品的突变目录仅具有少数这样的插入时，该突变标签将被排除在Q集合之外。

类似地，存在与其他类型的插入缺失、转录链偏向、二核苷酸突变、超突变体表型等相关的特征。并且仅当所讨论的样本展示这些特征中的一个或多个时，这些标签才包括在Q集合中。与突变标签相关的特征列表可以在共有突变标签的普查网站上找到(http://cancer.sanger.ac.uk/cosmic/signatures)。

请注意，当缺乏任何先前的生物学知识时，用完整的共有突变标签P分析。

除了对该Q集合具有生物学意义的约束之外，方程(1)在参数Ei方面受到普遍约束。更具体地，由样品中的突变标签贡献的体细胞突变的数量必须是非负的，并且它不得超过该样品中体细胞突变的总数。此外，样本中所有标签所贡献的突变必须等于该样本的体细胞突变的总数。这些约束可以在数学上表示为和

在数值上，最小化方程(1)可以被检查为找到有限约束非线性多变量函数的最小值。使用顺序二次规划算法或内点算法可以有效地最小化该函数。在该方法的实施例中，约束最小化模块使用来自优化工具箱的fmincon函数在MATLAB中实现。

最小化程序导致为每个检查的共有突变标签分配许多体细胞突变。通过将它们除以样品的测序兆碱基数，可以将这些数量的体细胞突变转化为每个测序的兆碱基的许多体细胞突变。每个测序兆碱基的贡献小于或等于0.01个突变的标签被认为不存在于样本中，每个测序兆碱基的贡献高于0.01突变但每个测序的兆碱基小于或等于0.10个突变的标签被认为在样品中少量存在，每个测序兆碱基的贡献高于0.10个突变但每个测序的兆碱基小于或等于0.35个突变的标签被认为存在于样本中，每个测序的兆碱基的贡献高于0.35突变的标签被认为在样品中大量存在。

除了所描述的结构组件和用户交互之外，上述实施例的系统和方法可以在计算机系统(特别是计算机硬件或计算机软件)中实现。

术语“计算机系统”包括用于实现系统或执行根据上述实施例的方法的硬件、软件和数据存储设备。例如，计算机系统可以包括中央处理单元(CPU)，输入装置，输出装置和数据存储器。优选地，所述计算机系统具有显示屏以提供视觉输出显示(例如，在业务过程的设计中)。所述数据存储器可以包括RAM、磁盘驱动器或其他计算机可读介质。所述计算机系统可以包括通过网络连接并且能够通过该网络彼此通信的多个计算设备。

上述实施例的方法可以作为计算机程序或作为计算机程序产品或携带计算机程序的计算机可读介质提供，当在计算机上运行时，执行上述方法。

术语“计算机可读介质”包括但不限于可以由计算机或计算机系统直接读取和访问的任何非暂时性介质或介质。所述介质可以包括但不限于：磁存储介质，例如软盘、硬盘存储介质和磁带；光存储介质，例如光盘或CD-ROM；电子存储介质。例如存储器，包括RAM、ROM和闪存；以及上述的混合物和组合，例如磁/光存储介质。

上述实施例的方法可以作为计算机程序或作为计算机程序产品或携带计算机程序的计算机可读介质提供，当在计算机上运行时，执行上述方法。

术语“计算机可读介质”包括但不限于任何可以由计算机或计算机系统直接读取和访问的非暂时性介质或介质。所述介质可以包括但不限于：磁存储介质，例如软盘、硬盘存储介质和磁带；光存储介质，例如光盘或CD-ROM；电子存储介质。例如存储器，包括RAM、ROM和闪存；以及上述的混合物和组合，例如磁/光存储介质。

参考文献

1 Ford,D.等人，乳腺癌家系中BRCA1和BRCA2基因的遗传异质性和外显率分析“Genetic heterogeneity and penetrance analysis of the BRCA1 and BRCA2genes in breast cancer families”，乳腺癌联合协会，美国人类遗传学杂志(American journal of human genetics)62,676-689(1998).

2 King,M.C.,Marks,J.H.,Mandell,J.B.和纽约乳腺癌研究,G.由于BRCA1和BRCA2的遗传突变导致乳腺癌和卵巢癌风险“Breast and ovarian cancer risks due to inherited mutations in BRCA1and BRCA2”，科学(Science)302,643-646,doi:10.1126/science.1088759(2003).

3 Risch,H.A.等人，在一系列649名卵巢癌女性人群中，种系BRCA1和BRCA2突变的患病率和外显率“Prevalence and penetrance of germline BRCA1and BRCA2mutations in a population series of 649women with ovarian cancer”，美国人类遗传学杂志68,700-710,doi:10.1086/318787(2001).

4 Greer,J.B.和Whitcomb,D.C.BRCA1和BRCA2突变在胰腺癌中的作用“Role of BRCA1and BRCA2mutations in pancreatic cancer”，Gut 56,601-605,doi:10.1136/gut.2006.101220(2007).

5 Alexandrov,L.B.等人，人类癌症中突变过程的标签“Signatures of mutational processes in human cancer”，自然(Nature)500,415-421,doi:10.1038/nature12477(2013).来自摘要的REF 24

6 Waddell,N.等人，全基因组重新定义胰腺癌的突变蓝图“Whole genomes redefine the mutational landscape of pancreatic cancer”，自然518,495-501,doi:10.1038/nature14169(2015).

7 Merajver,S.D.等人，散发性卵巢肿瘤中BRCA1基因的体细胞突变“Somatic mutations in the BRCA1gene in sporadic ovarian tumours”，自然遗传学(Nature genetics)9,439-443,doi:10.1038/ng0495-439(1995).

8 Miki,Y.,Katagiri,T.,Kasumi,F.,Yoshimoto,T.和Nakamura,Y.原发性乳腺癌中BRCA2基因的突变分析“Mutation analysis in the BRCA2gene in primary breast cancers”，自然遗传学13,245-247,doi:10.1038/ng0696-245(1996).

9 Jackson,S.P.检测和修复DNA双链断裂“Sensing and repairing DNA double-strand breaks”，癌变(Carcinogenesis)23,687-696(2002).

10 Nik-Zainal,S.等人，模拟21种乳腺癌基因组的突变过程“Mutational processes molding the genomes of 21breast cancers”，细胞(Cell)149,979-993,doi:10.1016/j.cell.2012.04.024(2012).

11 Walsh,T.等人，乳腺癌高危家族中BRCA1、BRCA2、CHEK2和TP53的突变谱“Spectrum of mutations in BRCA1,BRCA2,CHEK2,and TP53in fami lies at high risk of breast cancer”.Jama 295,1379-1388,doi:10.1001/jama.295.12.1379(2006).

12 Stratton,M.R.,Campbel l,P.J.和Futreal,P.A.癌症基因组“The cancer genome”，自然458,719-724,doi:10.1038/nature07943(2009).

13 Nik-Zainal,S.等人，21例乳腺癌的生活史“The life history of 21breast cancers”，细胞149,994-1007,doi:10.1016/j.cell.2012.04.023(2012).

14 Hicks,J.等人，新的基因组重排模式及其与乳腺癌存活的关系“Novel patterns of genome rearrangement and their association with survival in breast cancer”，基因组研究(Genome research)16,1465-1479,doi:10.1101/gr.5460106(2006).

15 Bergamaschi,A.等人，细胞外基质标签鉴定具有不同临床结果的乳腺癌亚组“Extracellular matrix signature identifies breast cancer subgroups with different clinical outcome”，病理学杂志(The Journal of pathology)214,357-367,doi:10.1002/path.2278(2008).

16 Ching,H.C.,Naidu,R.,Seong,M.K.,Har,Y.C.和Taib,N.A.使用高密度SNP阵列综合分析原发性乳腺癌的拷贝数和杂合性缺失“Integrated analysis of copy number and loss of heterozygosity in primary breast carcinomas using high-density SNP array”，国际肿瘤学杂志(International journal of oncology)39,621-633,doi:10.3892/ijo.2011.1081(2011).

17 Fang,M.等人，通过单核苷酸多态性阵列比较基因组杂交分析鉴定雌激素受体(ER)阳性和ER阴性人乳腺癌的基因组差异“Genomic differences between estrogen receptor(ER)-positive and ER-negative human breast carcinoma identified by single nucleotide polymorphism array comparative genome hybridization analysis”，癌症(Cancer)117,2024-2034,doi:10.1002/cncr.25770(2011).

18 Curtis,C.等人，2000个乳腺肿瘤的基因组和转录组学结构揭示了新的亚组“The genomic and transcriptomic architecture of 2,000breast tumours reveals novel subgroups”，自然486,346-352,doi:10.1038/nature10983(2012).

19 Pleasance,E.D.等人，来自人类癌症基因组的体细胞突变的综合目录“A comprehensive catalogue of somatic mutations from a human cancer genome”，自然463,191-196,doi:10.1038/nature08658(2010).

20 Pleasance,E.D.等人，具有烟草暴露复杂标签的小细胞肺癌基因组“A small-cell lung cancer genome with complex signatures of tobacco exposure”，自然463,184-190,doi:10.1038/nature08629(2010).

21 Banerji,S.等人，乳腺癌亚型中突变和易位的序列分析“Sequence analysis of mutations and translocations across breast cancer subtypes”，自然486,405-409,doi:10.1038/nature11154(2012).

22 Ellis,M.J.等人，全基因组分析告知乳腺癌对芳香酶抑制的响应“Whole-genome analysis informs breast cancer response to aromatase inhibition”，自然486,353-360,doi:10.1038/nature11143(2012).

23 Shah,S.P.等人，原发性三阴性乳腺癌的克隆和突变进化谱“The clonal and mutational evolution spectrum of primary triple-negative breast cancers”，自然486,395-399,doi:10.1038/nature10933(2012).

24 Stephens,P.J.等人，癌症基因蓝图和乳腺癌的突变过程“The landscape of cancer genes and mutational processes in breast cancer”，自然486,400-404,doi:10.1038/nature11017(2012).

25 West,J.A.等人，长非编码RNA NEAT1和MALAT1结合活性染色质位点“The long noncoding RNAs NEAT1and MALAT1bind active chromatin sites”，分子细胞(Molecular cell)55,791-802,doi:10.1016/j.molcel.2014.07.012(2014).

26 Huang,F.W.等人，人类黑色素瘤中高度复发的TERT启动子突变“Highly recurrent TERT promoter mutations in human melanoma”，科学339,957-959,doi:10.1126/science.1229259(2013).

27 Vinagre,J.等人，人类癌症中TERT启动子突变的频率“Frequency of TERT promoter mutations in human cancers”，自然通讯4,2185,doi:10.1038/ncomms3185(2013).

28 Alexandrov,L.B.,Nik-Zainal,S.,Wedge,D.C.,Campbell,P.J.和Stratton,M.R.解读人类癌症中手术突变过程的标签“Deciphering标签s of mutational processes operative in human cancer”，细胞报道(Cell reports)3,246-259,doi:10.1016/j.celrep.2012.12.008(2013).

29 Kalyana-Sundaram,S.等人，与复发性扩增子相关的基因融合代表乳腺癌中一类过客突变“Gene fusions associated with recurrent amplicons represent a class of passenger aberrations in breast cancer”，肿瘤(Neoplasia)14,702-708(2012).

30 Helleday,T.,Eshtad,S.和Nik-Zainal,S.人类癌症中突变标签的机制“Mechanisms underlying mutational signatures in human cancers”，自然综述.遗传学(Nature reviews.Genetics)15,585-598,doi:10.1038/nrg3729(2014).

31 Birkbak,N.J.等人，端粒等位基因失衡表明缺陷DNA修复和对DNA损伤剂的敏感性“Telomeric allelic imbalance indicates defective DNA repair and sensitivity to DNA-damaging agents”，癌症发现(Cancer discovery)2,366-375,doi:10.1158/2159-8290.CD-11-0206(2012).

32 Abkevich,V.等人，基因组杂合性缺失模式预测上皮性卵巢癌中的同源重组修复缺陷“Patterns of genomic loss of heterozygosity predict homologous recombination repair defects in epithel ial ovarian cancer”，英国癌症杂志(British journal of cancer)107,1776-1782,doi:10.1038/bjc.2012.451(2012).

33 Popova,T.等人，倍性和大规模基因组不稳定性一致地鉴定具有BRCA1/2失活的基底样乳腺癌“Ploidy and large-scale genomic instabil ity consistently identify basal-l ike breast carcinomas with BRCA1/2inactivation”,癌症研究(Cancer research)72,5454-5462,doi:10.1158/0008-5472.CAN-12-1470(2012).

34 Kozarewa,I.等人，无扩增的依诺米那测序文库制备有助于改进(G+C)-偏向的基因组的映射和集合“Amplification-free Il lumina sequencing-library preparation facilitates improved mapping and assembly of(G+C)-biased genomes”，自然方法(Nature methods)6,291-295,doi:10.1038/nmeth.1311(2009).

35 Li,H.和Durbin,R.使用Burrows-Wheeler变换进行快速准确的短读长对齐“Fast and accurate short read alignment with Burrows-Wheeler transform”，生物信息学(Bioinformatics)25,1754-1760,doi:10.1093/bioinformatics/btp324(2009).

36 Ye,K.,Schulz,M.H.,Long,Q.,Apweiler,R.和Ning,Z.Pindel:一种用于检测来自双端短读长的大缺失和中等大小插入的断点的模式增长方法“Pindel:a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads”，生物信息学25,2865-2871,doi:10.1093/bioinformatics/btp394(2009).

37 Zerbino,D.R.和Birney,E.Velvet：使用de Bruijn图的从头短读长集合的算法“Velvet:algorithms for de novo short read assembly using de Bruijn graphs”，基因组研究18,821-829,doi:10.1101/gr.074492.107(2008).

38 Van Loo,P.等人，肿瘤的等位基因特异性拷贝数分析“Allele-specific copy number analysis of tumors”，美国国家科学院院刊(Proceedings of the National Academy of Sciences of the United States of America)107,16910-16915,doi:10.1073/pnas.1009843107(2010).

所有上述参考文献在此引入作为参考。

表1

表2

资源描述

《癌症的突变标签.pdf》由会员分享，可在线阅读，更多相关《癌症的突变标签.pdf（43页珍藏版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201780027340.5 (22)申请日 2017.04.28 (30)优先权数据 1607629.1 2016.05.01 GB (85)PCT国际申请进入国家阶段日 2018.11.01 (86)PCT国际申请的申请数据 PCT/EP2017/060289 2017.04.28 (87)PCT国际申请的公布数据 WO2017/191073 EN 2017.11.09 (71)申请人基因组研究有限公司地址英国剑桥郡 (72)发明人 S尼克-扎因M斯特拉顿 H戴维斯D格。

2、洛德齐艾克 (74)专利代理机构上海一平知识产权代理有限公司 31266 代理人华珊徐迅 (51)Int.Cl. C12Q 1/6886(2018.01) G16B 20/50(2019.01) (54)发明名称癌症的突变标签 (57)摘要本发明涉及癌症患者中许多突变标签的鉴定。所述突变标签包括新的碱基置换标签和重排标签。通过560例乳腺癌的全基因组测序以及将新的和现有的数学方法应用于那些癌症中发现的碱基置换和重排来鉴定标签。权利要求书3页说明书26页附图13页 CN 109219666 A 2019.01.15 CN 109219666 A 1.一种预测患有癌症的。

3、患者是否可能对PARP抑制剂或铂类药物有反应的方法，其特征在于，所述方法包括：确定来自所述患者的DNA样品中是否存在一个或多个重排标签1、 3和/ 或5，其中重排标签1、 3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在，其中如果样品中存在所述重排标签之一，则患者可能对PARP抑制剂或铂类药物有反应。 2.一种选择癌症患者用PARP抑制剂或铂类药物治疗的方法，其特征在于，所述方法包括：鉴定来自所述患者的DNA样品中是否存在一个或多个重排标签1、 3和/或5，。

4、其中重排标签1、 3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在；和如果样品中存在所述重排标签之一，则选择该患者用PARP抑制剂或铂类药物治疗。 3.PARP抑制剂或铂类药物用于患者癌症的治疗方法所述癌症具有一个或多个重排标签1、 3和/或5，其中重排标签1、 3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在。 4.一种治疗患者癌症的方法，所述癌症被确定为具有。

5、一个或多个重排标签1、 3和/或5，其中重排标签1、 3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在，所述方法包括步骤：向所述患者施用PARP抑制剂或铂类药物。 5.一种PARP抑制剂或铂类药物用于患者癌症的治疗方法其特征在于，所述方法包括： (i)确定来自患者的DNA样品中是否存在一个或多个重排标签1、 3和/或5，其中重排标签1、 3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品。

6、显示所述重排标签的存在；和 (ii)如果所述样品中存在所述重排标签之一，则向患者施用PARP抑制剂或铂类药物。 6.一种确定来自患者的DNA样品中重排标签1至6中任何一个的存在的方法，其特征在于，所述重排标签在表1中定义，如果重排目录中被确定为与特定重排标签相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述特定重排标签的存在。 7.如权利要求1、 2、 4或6中任一项所述的方法，其特征在于，确定样品中存在或不存在重排标签的步骤包括以下步骤：对所述样品中的体细胞突变进行编目以产生该样品的重排目录，所述重排目录将样品中鉴定的重排突变分类为多个类别；和通过。

7、计算所述目录中的重排突变与重排突变标签之间的余弦相似性，确定已知重排标签对所述重排目录的贡献。 8.如权利要求7所述的方法，其特征在于，所述方法还包括以下步骤：在所述确定步骤之前，筛选所述目录中的突变，以去除以下一种或多种：残留的种系突变、拷贝数多态性和已知的测序假象。 9.如权利要求8所述的方法，其特征在于，所述筛选使用已知种系多态性的列表。 10.如权利要求8所述的方法，其特征在于，所述筛选使用通过与DNA样品相同的过程测序与正常人组织不匹配的BAM文件，并去除至少两个所述BAM文件中的至少两个良好映射读权利要求书 1/3 页 2 CN 10921966。

8、6 A 2 数中存在的任何体细胞突变。 11.如权利要求7-10中任一项所述的方法，其特征在于，重排突变的分类包括将突变鉴定为成簇或非成簇。 12.如权利要求11中所述的方法，其特征在于，如果突变的重排断点的平均密度为个体患者样品的全基因组平均重排密度的至少10倍，则可以将突变鉴定为成簇。 13.如权利要求7-12中任一项所述的方法，其特征在于，所述重排突变的分类包括将突变鉴定为以下之一：串联重复、缺失、倒位或易位。 14.如权利要求13所述的方法，其特征在于，所述重排突变的分类包括根据大小将鉴定为串联重复、缺失或倒位的突变分组。 15.如权利要求7-14中任。

9、一项所述的方法，其特征在于，所述方法还包括步骤：确定与第i个已知突变标签相关的重排目录中的重排数量Ei，其与在该样品的目录和之间的余弦相似性成比例: 其中，其中，和是同等大小的向量，其中非负分量分别是已知重排标签和重排目录， q是所述多个已知突变标签中的标签数，并且其中Ei进一步受到和要求的限制。 16.如权利要求15所述的方法,其特征在于,所述确定重排数量的方法还进一步包括步骤：通过将与目录较不相关的标签中的一个或多个重排重新分配给与目录更相关的标签，筛选确定要分配给各标签的重排的数量。 17.如权利要求16所述的方法，其特征在于，所述筛选步骤使用贪婪算法来。

10、迭代地找到另一种分配重排到标签的方法，其改进或不改变目录和重建目录之间的余弦相似性，其中是通过移动突变从标签i到标签j得到的向量的形式，其中，在每次迭代中，估测标签之间所有可能的移动的影响，当所有这些可能的重新分配对余弦相似性产生负面影响时，筛选步骤终止。 18.一种检测DNA样品中突变标签26或突变标签30的方法，其中突变标签26和30在表2 中定义，所述方法包括以下步骤：对所述样品中的体细胞突变进行编目以产生所述样品的突变目录；通过确定多个所述已知突变标签中每一个的标量因子确定包括突变标签26或突变标签30的已知突变标签对所述突变目录的贡献，其中所述突。

11、变标签一起最小化一函数，该函数表示所述目录中的突变与由所述标量因子缩放的所述多个已知突变标签的组合所预期的突变之间的差异；和如果对应于突变标签26或突变标签30的标量因子超过预定阈权利要求书 2/3 页 3 CN 109219666 A 3 值，则将所述样品分别鉴定为包含相应的突变标签26或突变标签30。 19.如权利要求18所述的方法,其特征在于,所述方法还包括以下步骤：在所述确定步骤之前，筛选所述目录中的突变，以去除残留的种系突变或已知的测序假象或两者。 20.如权利要求19所述的方法，其特征在于，所述筛选使用已知种系多态性的列表。 21.如权利要求19或20所述的方。

12、法，其特征在于，所述筛选使用通过与DNA样品相同的过程测序与正常人组织不匹配的BAM文件，并去除至少两个所述BAM文件中的至少两个良好映射读数中存在的任何体细胞突变。 22.如权利要求18-21任一项所述的方法，其特征在于，所述方法还包括步骤：选择所述多个已知突变标签作为所有已知突变标签的子集。 23.如权利要求22所述的方法，其特征在于，基于关于DNA样品的生物学知识或突变标签或两者来选择突变标签的子集。 24.如权利要求18-23任一项所述的方法，其特征在于，所述确定步骤可以确定最小化 Frobenius范数的标量Ei：其中，和是同等大小的向量，其中非负分。

13、量分别是共有突变标签和突变目录， q是所述多个已知突变标签中的标签数，并且其中Ei进一步受到和要求的限制。权利要求书 3/3 页 4 CN 109219666 A 4 癌症的突变标签发明领域 0001 本发明涉及癌症患者中许多突变标签的鉴定。所述突变标签包括新的碱基置换标签和重排标签。这些突变标签可用于表征癌症并用于治疗的鉴定。本发明还涉及一种用于检测这些标签的方法。 0002 发明背景 0003 体细胞突变存在于人体的所有细胞中并且在整个生命中发生。它们是多个突变过程的结果，包括DNA复制机制的内在轻微失真、暴露到外源或内源性诱变剂、 DNA的酶法修饰和缺陷性D。

14、NA修复。不同的突变过程产生突变类型的独特组合，称为 “突变标签(Mutational Signatures)” 。 0004 在过去几年中，大规模分析揭示了人类癌症类型范围中的许多突变标签。 0005 癌症的突变理论提出， DNA序列的变化，称为 “驱动(driver)” 突变，赋予细胞增殖优势，导致肿瘤克隆的生长1。一些驱动突变在种系中遗传，但在癌症患者的一生中大多数出现在体细胞中，同时还有许多与癌症发展无关的 “过客(passenger)” 突变1。多个突变过程，包括暴露到内源性和外源性诱变剂、异常DNA编辑、复制错误和缺陷性DNA维持，都是造成这些突。

15、变的原因10,12,13。 0006 在过去的五十年中，几波技术推动了癌症基因组突变的表征。核型分析显示重排的染色体和拷贝数改变。随后，杂合性分析的丢失、癌症来源的DNA与微阵列的杂交和其他方法提供了对拷贝数变化的更高分辨率的见解14-18。最近， DNA测序已经能够对突变类型的完整库进行系统表征，包括碱基置换、小插入/缺失、重排和拷贝数变化19-23，从而对突变的癌症基因和人类癌症中的突变过程产生实质性的见解。 0007 产生体细胞突变的突变过程在癌症基因组上印记了特定的突变模式，称为标签 10,28,30。以前应用数学方法28提取突变标签揭示了乳腺癌中的五个。

16、碱基置换标签：标签1、 2、 3、 8和135,10。 0008 BRCA1和/或BRCA2中种系失活突变导致早发性乳腺癌1,2、卵巢癌2,3和胰腺癌4的风险增加，而这两个基因的体细胞突变和BRCA1启动子过度甲基化也与这些癌症类型的发展有关5,6。 BRCA1和BRCA2参与无差错同源介导的双链断裂修复7。因此， BRCA1 和BRCA2缺陷的癌症由于非同源末端连接机制的易错修复而显示出大量的重排和插入缺失，其承担双链断裂修复的责任8,9。 0009 而缺陷性双链断裂修复增加了细胞的突变负担，从而增加了获得导致肿瘤性转化的体细胞突变的机会，当暴露于诸如铂类抗肿瘤药物时，。

17、它还使细胞更容易受到细胞周期停滞和随后的细胞凋亡的影响10,11。这种易感性已经成功地用于开发靶向和毒性小的治疗策略，用于治疗携带BRCA1和/或BRCA2突变的乳腺癌、卵巢癌和胰腺癌，特别是聚(ADP- 核糖)聚合酶(PARP)抑制剂10,11。这些治疗引起大量DNA双链断裂，迫使BRCA1和BRCA2功能缺陷的肿瘤细胞发生凋亡，因为它们缺乏有效修复双链断裂的能力。相比之下，正常细胞基本上不受影响，因为它们的修复机构没有受到损害。说明书 1/26 页 5 CN 109219666 A 5 发明内容 0010 本发明人已经分析了560例乳腺癌的全基因组序列，以。

18、促进对产生体细胞突变的突变过程的理解。已知的突变标签分析28揭示了7个新的碱基置换标签(除了已知存在的 5个之外)。其中，五个先前已在其他癌症类型中检测到(标签5、 6、 17、 18和20)，而其中两个是完全新的(标签26和30)。 0011 类似的数学原理扩展到基因组重排，并且在560例乳腺癌中鉴定出六个全新的 “重排标签” (表征特定重排突变的标签)。 0012 因此，本发明的第一方面提供了检测DNA样品中重排标签1至6中任何一个或多个的存在的方法。 0013 本文所述的结果表明重排标签3与BRCA1突变或启动子高甲基化密切相关，因此表现出这种标签的癌症可能受益于。

19、铂疗法或PARP抑制剂。 0014 本文所述的结果表明重排标签1通常与TP53突变的三阴性乳腺癌相关，显示出高同源重组缺陷(HRD)指数。因此，表现出这种标签的癌症也可能受益于铂疗法或PARP抑制剂。 0015 本文所述的结果表明重排标签5与BRCA1突变或启动子高甲基化和BRCA2突变的存在密切相关。因此，表现出这种标签的癌症也可能受益于铂疗法或PARP抑制剂。 0016 因此，本发明的另一方面提供了一种预测患有癌症的患者是否可能对PARP抑制剂或铂类药物有反应的方法，所述方法包括：确定来自所述患者的DNA样品中是否存在一个或多个重排标签1、 3和/或5，其中重排。

20、标签1、 3和5在表1中定义，如果重排目录中被确定为与所述重排标签之一相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在，其中如果样品中存在所述重排标签之一，则患者可能对PARP抑制剂或铂类药物有反应。 0017 在这方面，并且在涉及确定重排标签存在的本发明的所有其他方面中，可以以多种方式选择预定阈值。特别地，可以根据内容和期望的结果确定性来设置用于该确定的不同阈值。 0018 在一些实施方案中，所述阈值是重排的绝对数量，所述重排来自DNA样品的重排目录，并被确定为与特定的重排标签相关联。如果超过该数量，则可以确定DNA样品中存在。

21、特定的重排标签。 0019 重排标签通常相对于彼此是 “相加的” (即肿瘤可能受与多于一个标签相关的潜在突变过程的影响，并且如果是这种情况，来自该肿瘤的样品通常显示更高的重排总数(是与每个潜在过程相关的单独重排的总和)，但随着重排的比例分布在存在的标签上)。因此，在确定特定标签的存在或不存在时，注意力可以集中在与样品中特定标签相关联的重排的绝对数量(可以通过以下在本发明的其他方面中描述的方法计算)。在样品中存在多个标签的情况下，这样的阈值通常更好。 0020 在这些实施例中，如果至少5个并且优选地至少10)提供有用信息的重排与其相关联，则可以确定标签存在。 0。

22、021 在其他实施例中，阈值将样本中检测到的重排总数(可以设置以确保分析具有代表性)和与特定标签相关的重排的比例结合(再次，通过以下在本发明的其他方面中描述的方法确定)。说明书 2/26 页 6 CN 109219666 A 6 0022 例如，确定标签存在的要求可以是存在至少20个、优选地至少40个、更优选地至少 50个提供有用信息的重排，并且如果至少10、优选至少20、更优选至少30比例的重排与其相关，则可以认为存在该标签。样品中存在的重排数量越高，用于检测特定标签的比例阈值可能越低。 0023 可以根据样本中发现的其他标签(构成了重排的重要部分)的数量调整。

23、比例阈值 (例如，如果4个标签各存在20-25的重排，那么可以确定所有4个标签均存在，而不是根本没有标签)，即使在本实施例中确定的阈值是30。 0024 上述阈值基于从测序至30-40倍深度的基因组获得的数据。如果数据是从在较低覆盖度下测序的基因组获得，则总体上检测到的重排数可能较低，并且需要相应地调整阈值。 0025 在本方面以及涉及确定重排标签1、 3或5中任何一个的存在的本发明其他方面，所使用的阈值可以组合应用于所有这些标签，也可以单独应用于各标签。 0026 本发明的另一方面，提供了一种选择癌症患者用PARP抑制剂或铂类药物治疗的方法，所述方法包括：鉴。

24、定来自所述患者的DNA样品中是否存在一个或多个重排标签1、 3和/或 5，其中重排标签1、 3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在；和如果样品中存在所述重排标签之一，则选择该患者用PARP抑制剂或铂类药物治疗。 0027 在另一方面，本发明提供了PARP抑制剂或铂类药物用于患者癌症的治疗方法，所述癌症具有一个或多个重排标签1、 3和/或5，其中重排标签1、 3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比。

25、例超过预定阈值，则认为DNA样品显示所述重排标签的存在。 0028 在另一方面，本发明提供了一种治疗患者癌症的方法，所述癌症被确定为具有一个或多个重排标签1、 3和/或5，其中重排标签1、 3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在，所述方法包括步骤：向所述患者施用PARP抑制剂或铂类药物。 0029 在另一方面，本发明提供了PARP抑制剂或铂类药物用于患者癌症的治疗方法，所述方法包括： 0030 (i)确定来自所述患者的DNA样品中是否存在一个或多个重。

26、排标签1、 3和/或5，其中重排标签1、 3和5在表1中定义，如果重排目录中被确定为与一个或多个所述重排标签各个或组合相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述重排标签的存在；和 0031 (ii)如果所述样品中存在所述重排标签之一，则向患者施用PARP抑制剂或铂类药物。 0032 上述方面的方法应解释为包括在DNA样品中单独存在重排标签1、 3或5中的任何一个，以及存在这些标签的任何组合。 0033 本文所述的结果表明重排标签2存在于大多数癌症中，但特别富集在具有平和的拷贝数谱的雌激素受体(ER)阳性癌症。 ER阳性的乳腺癌可能对激素治疗(例如他。

27、莫昔芬)有说明书 3/26 页 7 CN 109219666 A 7 响应，因此特别富含重排标签2的乳腺癌可能对激素治疗有响应，例如，用他莫昔芬治疗。 0034 在特定实例中，癌症是乳腺癌、卵巢癌或胰腺癌。 0035 本发明的另一方面，提供了一种确定来自患者的DNA样品中重排标签1至6中任何一个的存在的方法，其中所述重排标签在表1中定义，如果重排目录中被确定为与特定重排标签相关联的重排的数量或比例超过预定阈值，则认为DNA样品显示所述特定重排标签的存在。 0036 在本发明的任何上述方面和实施例中，确定或鉴定任何重排标签的存在或不存在的步骤可以如在与本申请同日提交。

28、的共同未决申请(申请号PCT/EP2017/060279)中所述，其内容通过引用并入本文。更具体地，确定或鉴定重排标签的存在或不存在的步骤可包括：通过计算所述目录中的重排突变与已知的重排突变标签之间的余弦相似性，确定已知重排标签对DNA样品重排目录的贡献。 0037 优选地，所述方法还包括以下步骤：在所述确定步骤之前，筛选所述目录中的突变，以去除残留的种系结构变异或已知的测序假象(artefacts)或两者。这种筛选可以非常有利于从所述目录中去除已知由体细胞突变以外的机制产生，并且因此可能遮盖或模糊重排标签的贡献或者导致假阳性结果的重排。 0038 例如，所述筛。

29、选可以使用已知种系重排或拷贝数多态性的列表，并在确定重排标签的贡献之前去除目录中那些多态性导致的体细胞突变。 0039 作为另一个例子，所述筛选可以使用通过与DNA样品相同的过程测序与正常人组织不匹配的BAM文件，并去除至少两个所述BAM文件中的至少两个良好映射读数(mapping reads)中存在的任何体细胞突变。这种方法可以去除由用于获得样品的测序技术产生的假象。 0040 重排突变的分类可以包括将突变鉴定为成簇(clustered)或非成簇(non- clustered)。这可以通过分段常数拟合( “PCF” )算法来确定，该算法是序列数据的分段方法。在特定实施方。

30、案中，如果片段内的重排断点的平均密度是大于个体患者样品的全基因组平均重排密度的某个因子，则可以将重排鉴定为成簇。例如，所述因子可以是至少8倍，优选至少9倍，并且在特定实施例中是10倍。重排间距离是从一个重排断点到参照基因组中紧接在该重排断点之前的另一个重排断点的距离。这种测量是已知的。 0041 重排突变的分类可以包括将重排鉴定为以下之一：串联重复、缺失、倒位或易位。这种重排突变的分类是已知的。 0042 所述重排突变的分类可以进一步包括通过大小将鉴定为串联重复、缺失或倒位的突变分组。例如，可以通过重排中的碱基数将突变分组为多个大小组。优选地，大小组是。

31、以对数为基础的，例如1-10kb、 10-100kb、 100kb-1Mb、 1Mb-10Mb和大于10Mb。易位不能按大小分类。 0043在特定的实施方案中，在每个DNA样品中，与第i个突变标签相关的重排数量Ei被确定为与该样品的目录和之间的余弦相似性成比例: 0044 0045 其中，说明书 4/26 页 8 CN 109219666 A 8 0046 0047其中，和是同等大小的向量，其中非负分量(nonnegative components)分别是已知的重排标签和突变目录， q是所述多个已知重排标签中的标签数。 0048 所述方法可以进一步包括步骤：通过将一个或。

32、多个重排从与目录较不相关的标签中重新分配给与目录更相关的标签，筛选确定要分配给各标签的重排的数量。这种筛选可以用于将重排从仅具有与其相关联的少量重排的标签(并且因此可能不存在)重新分配到具有与其相关联的更多重排的标签。这可以减少分配过程中的 “噪音” 。 0049 在一个实施例中，筛选步骤使用贪婪算法来迭代地找到另一种分配重排到标签的方法，其改进或不改变目录和重建目录之间的余弦相似性，其中是通过移动突变从标签i到标签j得到的向量的形式(version)，其中，在每次迭代中，估测标签之间所有可能的移动的影响，当所有这些可能的重新分配对余弦相似性产生负面影响时，筛。

33、选步骤终止。 0050 在另一方面，本发明提供了检测DNA样品中突变标签26或突变标签30的方法，其中突变标签26和30在表2中定义，所述方法包括以下步骤：对所述样品中的体细胞突变进行编目以产生所述样品的突变目录；通过确定多个所述已知突变标签中每一个的标量因子 (scalar factors)确定已知突变标签(包括突变标签26或突变标签30)对所述突变目录的贡献，其中所述突变标签一起最小化一函数，该函数表示所述目录中的突变与由所述标量因子缩放的(scaled)所述多个已知突变标签的组合中所预期的突变之间的差异；和如果对应于突变标签26或突变标签30的标量因子超过预定阈。

34、值，则将所述样品分别鉴定为包含相应的突变标签26或突变标签30。 0051 优选地，本方面所述方法还包括以下步骤：在所述确定步骤之前，筛选所述目录中的突变，以去除残留的种系突变或已知的测序假象或两者。这种筛选可以非常有利于从所述目录中去除已知由体细胞突变以外的机制产生，并且因此可能遮盖或模糊突变标签的贡献或者导致假阳性结果的突变。 0052 例如，所述筛选可以使用已知种系多态性的列表，并在确定突变标签的贡献之前去除目录中那些多态性导致的体细胞突变。 0053 作为另一个例子，所述筛选可以使用通过与DNA样品相同的过程测序与正常人组织不匹配的BAM文件，并去除至。

35、少两个所述BAM文件中的至少两个良好映射读数中存在的任何体细胞突变。所述方法可以去除由用于获得样品的测序技术产生的假象。 0054 所述方法还可以包括步骤：选择所述多个已知突变标签作为所有已知突变标签的子集。通过选择子集，例如，基于关于样品的先前知识，减少有助于突变目录的可能标签的数量，这可能增加确定步骤的准确性。 0055 例如，可以基于关于DNA样品的生物学知识或突变标签或两者，来选择突变标签的子集。因此，可能立即显而易见的是，由于DNA样品的特征和特定的突变标签，某些DNA样品可能不会由特定的突变标签产生。在以下实施例中更详细地描述了其他可能性。 0。

36、056 在特定实施例中，所述确定步骤可以确定最小化Frobenius范数的标量Ei：说明书 5/26 页 9 CN 109219666 A 9 0057 0058其中，和是同等大小的向量，其中非负分量分别是共有突变标签和突变目录， q是所述多个已知突变标签中的标签数，并且其中Ei进一步受到和的要求的限制。 0059 附图和表的简要说明 0060 图1汇总了发明人研究的560个乳腺癌基因组群。 0061 图2是显示七个主要亚组的图，其显示出与其他基因组、组织学或基因表达特征的不同关联，以及从数据中提取的六个重排标签。 0062 图3是所研究的基因组群的进一步汇总； 0063。

37、图4显示了群中鉴定的碱基置换标签； 0064 图5显示了群中鉴定的重排标签； 0065 图6显示了基于所鉴定的重排标签，成簇的临床相关性； 0066 图7显示断点特征，其中 “钝(blunt)” 左边的柱形是非模板序列，标记为 “钝” 的柱形是钝端连接，“钝” 右边的柱形是微同源；和 0067 图8是显示出根据本发明的实施方式确定重排标签的存在的方法中的概要步骤的流程图。 0068 表1显示了许多重排标签的定量定义；和 0069 表2显示了碱基置换标签26和30的定量定义。具体实施方式 0070 本发明基于以下发现：癌症患者子集具有特定的突变或重排标签。所述重排标签在下。

38、面更详细地定义，并在表1中定量地列出。所述突变(或 “碱基置换” )标签在表2中定量列出。 0071 如下面进一步确认的，一些重排标签(标签1、 3和5)与通过同源重组和/或缺乏 BRCA1/2缺陷的双链断裂修复失败相关，因此，具有一种或多种这些重排标签的癌症患者可能受益于铂疗法或用PARP抑制剂治疗。 0072 因此，本发明尤其涉及一种预测癌症患者是否可能对PARP抑制剂或铂类药物有响应的方法，或涉及一种基于来自所述患者的DNA样品中一个或多个重排标签1、 3或5的存在或不存在，选择癌症患者用PARP抑制剂或铂类药物治疗的方法。 0073 应注意，如本文所使用，短。

39、语 “一个或多个重排标签1、 3或5的存在” 尤其包括这些标签中的任何一个的存在，以及这些标签的任何组合的存在。特别地，它包括所有三个这些标签的存在，即使由于所有这些标签的存在， DNA样品中被确定与这些标签中任何一个相关联的重排比例低于被认为适合于达到确定存在特定标签的比例。 0074 患者优选是人类患者。 0075 具有重排标签1、 3和/或5的癌症患者可能通过同源重组DNA双链修复失败，并且易说明书 6/26 页 10 CN 109219666 A 10 受引起双链断裂的药物的影响，例如， PARP抑制剂或铂类药物。 0076 聚ADP核糖聚合酶(PARP1)是一种对。

40、修复单链断裂(也称为 “缺口” )很重要的蛋白质。如果这些缺口在DNA复制之前仍未修复，则复制本身可导致形成大量双链断裂。抑制 PARP1的药物会导致大量双链断裂。在不能通过无差错同源重组修复双链DNA断裂的肿瘤中， PARP1的抑制导致不能修复这些双链断裂并导致肿瘤细胞死亡。用于本发明的PARP抑制剂优选是PARP1抑制剂。 PARP抑制剂的实例包括：依尼帕尼(Iniparib)、他拉唑帕尼 (Talazoparib)、奥拉帕尼(Olaparib)、芦卡帕尼(Rucaparib)和维利帕尼(Veliparib)。 0077 铂类抗肿瘤药物是用于治疗癌症的化学治疗剂。。

41、它们是铂的配位络合物，其引起 DNA作为单加合物交联、链间交联、链内交联或DNA蛋白交联。它们主要作用于相邻的鸟嘌呤 N-7位，形成1,2链内交联。所得的交联抑制癌细胞中的DNA修复和/或DNA合成。一些常用的铂类抗肿瘤药物包括：顺铂、卡铂、奥沙利铂(oxaliplatin)、赛特铂(satraplatin)、吡铂、奈达铂、三铂(Triplatin)和利波铂(Lipoplatin)。 0078 确定来自患者的DNA样品中重排标签1、 3和/或5的存在或不存在。优选地，这些是全基因组样品，并且可以通过全基因组测序确定重排标签的存在或不存在。所述DNA样品可。

42、以是全外显子组样品，并且可以通过全外显子组测序确定重排标签的存在或不存在。外显子组测序是一种测序基因组中所有蛋白质编码基因(称为外显子组)的技术。它包括首先仅选择编码蛋白质的DNA子集(称为外显子)，然后使用任何高通量DNA测序技术对该DNA进行测序。有180,000个外显子，约占人类基因组的1，或约3千万个碱基对。 0079 所述DNA样品优选来自患者的肿瘤和正常组织，例如，来自患者的血液样品和通过活组织检查获得的肿瘤组织。通过将其基因组序列与正常组织之一进行比较，标准地检测肿瘤样品中的体细胞突变。 0080 本发明还涉及在具有一个或多个重排标签1、 3和/。

43、或5的患者中用PARP抑制剂或铂类药物治疗癌症。 0081 例如，所述PARP抑制剂或铂类药物可用于患者癌症的治疗方法，所述癌症具有一个或多个重排标签1、 3和/或5。在治疗之前，所述方法可以包括步骤：确定在来自所述患者的DNA样品中是否存在这些重排标签中的一个或多个。优选地，这些是全基因组样品，并且可以通过全基因组测序确定重排标签的存在或不存在。所述DNA样品可以是全外显子组样品，并且可以通过全外显子组测序确定重排标签的存在或不存在。 0082 所述DNA样品优选来自患者的肿瘤和正常组织，例如，来自患者的血液样品和通过活组织检查获得的肿瘤组织。通过将其基。

44、因组序列与正常组织之一进行比较，标准地检测肿瘤样品中的体细胞突变。 0083 所述治疗方法还包括步骤：将PARP抑制剂或铂类药物施用于具有一个或多个重排标签1、 3和/或5的癌症患者。可以使用任何合适的施用途径。 0084 待治疗的患者优选是人类患者。 0085 本发明还涉及检测来自受试者的DNA样品中重排标签1-6或突变标签26和30中任何一个的方法。所述方法适用于任何受试者，包括患有乳腺癌、卵巢癌、胰腺癌或胃癌的受试者。这些方法的进一步细节如下。 0086 鉴定与癌症相关的重排标签 0087 对来自每个个体(556名女性和4名男性)的560个乳腺癌和非肿瘤组织的全基。

45、因组说明书 7/26 页 11 CN 109219666 A 11 进行测序(图1A)。检测到3,479,652个体细胞碱基置换， 371,993个小插入缺失和77,695个重排，各个样品之间的数量差异很大(图1B)。从病例子集获得转录组序列、 microRNA表达、基于阵列的拷贝数和DNA甲基化数据。 0088 为了能够研究重排突变过程的标签，采用了重排分类，包括32个子类。 0089 在许多癌症基因组中，大量重排区域性成簇，例如在基因扩增区域中。因此，重排首先被分类为以成簇或分散的形式，进一步细分为缺失、倒位和串联重复，然后根据重排区段的大小。两组中的最。

46、终类别是染色体间易位。 0090 应用用于碱基置换标签5,10,28的数学框架提取了六个重排标签。基于各乳腺癌中每个标签的重排比例的无监督层次成簇产生了七个主要亚组，其显示出与其他基因组、组织学或基因表达特征的不同关联，如图2所示。 0091 重排标签1(所有重排的9)和重排标签3(18重排)主要的特征是串联重复。与重排标签1相关的串联重复大多数100kb，而与重排标签3相关的串联重复10kb。超过95 的重排标签3串联重复集中在15的癌症中(图2，簇D)，其中许多具有数百种此类重排。具有BRCA1突变或启动子高甲基化的几乎所有癌症(91)都在该组中，该组富含基底。

47、样、三阴性癌和高同源重组缺陷(HRD)指数的拷贝数分类31-33。因此， BRCA1而非BRCA2的失活可能是重排标签3小串联重复突变体表型的原因。 0092 因此，重排标签3的存在或不存在，特别地但非排他地，与重排标签1和5的存在或不存在相比，可以用于区分具有BRCA1而非BRCA2失活的癌症。 0093 在仅8.5的乳腺癌中发现超过35的重排标签1串联重复，有些病例有数百例 (图2，簇F)。这种大串联重复突变体表型的原因尚不清楚。相对晚期诊断，表现出它的癌症通常是TP53突变的三阴性乳腺癌，显示碱基置换标签3富集和高同源重组缺陷(HRD)指数 (图2)，但。

48、没有BRCA1/2突变或BRCA1启动子高甲基化。 0094 重排标签1和3串联重复通常均匀地分布在基因组上。然而，有9个位置在乳腺癌中发现串联重复的重现，并且在个别病例中经常显示多个嵌套的串联重复。这些可能是特定于这些串联重复突变过程的突变热点，尽管我们不能排除它们代表驱动事件的可能性。 0095 重排标签5(占14重排)的特征是缺失100kb)、倒位和染色体间易位，在大多数癌症中存在，但特别富集在具有平和拷贝数谱的ER阳性癌症中(图2，簇E， GISTIC簇 3)。重排标签4(占重排的18)的特征是成簇的染色体间易位，而重排标签6(重排的19) 的特征是成簇的倒。

49、位和缺失(图2，簇A、 B和C)。 0097 在大多数重排中发现了末端连接修复的替代方法特有的重叠微同源的短片段(1- 5bp)10,24。重排标签2、 4和6的特征是微同源在1bp处的峰，而与同源重组DNA修复缺陷相关的重排标签1、 3和5在2bp处显示峰(图8)。因此，不同的末端连接机制可以用不同的重排过程操作。一部分乳腺癌显示重排标签5缺失，其中较长(10bp)微观同源性涉及来自短散布核元件(SINE)的序列，最常见的是AluS(63)和AluY(15)家族重复序列(图8)。非模板化序列的长片段(超过10bp)在成簇重排中特别丰富。 0098 方法 0099 样品选择说明书 8/26 页 12 CN 109219666 A 12 0100 从560个乳腺癌和正常组织(外周血淋巴细胞、邻近正常乳房组织或皮肤)中提取 DNA。对样品进行病理学检查，并且仅被评估为由70肿瘤细胞组成的样品被包括在本研究中。 0101 大规模平行测序和比对 0102 构建短插入片段500bp基因组文库，制备流动池(flowcell)并根据依诺米那 (Illumina)文库方法产生测序簇34。根据依诺米那基因组分析仪操作手册，在依诺米那 GAIIx， Hiseq 2000或Hiseq 2500基因组分析仪上进行108碱基/。

展开阅读全文