用于乳腺癌紊乱分析的方法.pdf

上传人:00062****4422 文档编号:869990 上传时间:2018-03-16 格式:PDF 页数:19 大小:1MB
返回 下载 相关 举报
摘要
申请专利号:

CN200880107404.3

申请日:

2008.09.16

公开号:

CN101861398A

公开日:

2010.10.13

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):C12Q 1/68申请公布日:20101013|||实质审查的生效IPC(主分类):C12Q 1/68申请日:20080916|||公开

IPC分类号:

C12Q1/68

主分类号:

C12Q1/68

申请人:

皇家飞利浦电子股份有限公司; 冷泉港实验室

发明人:

S·卡马拉卡兰; R·卢西托; J·B·希克斯; X·赵; J·肯达尔

地址:

荷兰艾恩德霍芬

优先权:

2007.09.17 US 60/972843

专利代理机构:

中国专利代理(香港)有限公司 72001

代理人:

谢建云;谭祐祥

PDF下载: PDF下载
内容摘要

用于乳腺癌紊乱分析的方法,包含确定在从根据SEQ ID NO.1至10和/或SEQ ID NO.50至SEQ ID NO.60的序列群组中选择的序列中的一种或多种CpG二核苷酸的基因组甲基化状态。可选地,附加地执行下述步骤:将来自甲基化状态测试的一种或多种结果输入到从诊断多变量模型获得的分类器中,计算关于该样本是来自正常组织还是乳腺癌组织的可能性,和/或计算用于预测置信度的关联p值。

权利要求书

1: 一种用于乳腺癌紊乱分析的方法, 包含确定在从根据 SEQ IDNO.1 至 10 和 / 或 SEQ ID NO.50 至 SEQ ID NO.60 的序列群组中选择的序列中的一种或多种 CpG 二核苷酸的基因 组甲基化状态。
2: 根据权利要求 1 所述的方法, 其中该分析是探测对象中的乳腺癌以及其中执行下述 步骤, a. 提供来自待分析对象的样本 b. 确定在从根据 SEQ ID NO.1 至 10 和 / 或 SEQ ID NO.50 至 SEQID NO.60 的序列群组 中选择的序列中的一种或多种 CpG 二核苷酸的甲基化状态。
3: 根据权利要求 1 或 2 所述的方法, 其中附加地执行下述步骤, a. 将来自甲基化状态测试的一种或多种结果输入到从诊断多变量模型获得的分类器 中, b. 计算关于该样本是来自正常组织还是乳腺癌组织的可能性, 和 / 或, c. 计算用于预测置信度的关联 p 值。
4: 根据权利要求 1 至 3 所述的方法, 其中为根据 SEQ ID NO.1 至 10 和 / 或 SEQ ID NO.50 至 SEQ ID NO.60 的至少四个序列确定甲基化状态。
5: 根据权利要求 1 至 4 所述的方法, 其中附加地为根据 SEQ IDNO.11 至 49 和 / 或 61 至 100 的一个或多个序列确定甲基化状态。
6: 根据权利要求 1 至 5 所述的方法, 其中为根据 SEQ ID NO.1 至 100 的至少二十个序 列确定甲基化状态。
7: 根据权利要求 1 至 6 所述的方法, 其中为根据 SEQ ID NO.1 至 SEQ ID NO.10 以及 SEQ ID NO.50 至 SEQ ID NO.60 的序列确定甲基化状态。
8: 根据权利要求 1 至 7 所述的方法, 其中甲基化状态借助从下述群组选择的一种或多 种方法来确定, a. 重亚硫酸盐排序 b. 焦磷酸排序 c. 甲基化敏感单链构象分析 (MS-SSCA) d. 高分辨率熔解分析 (HRM) e. 甲基化敏感单核苷酸引物延伸 (MS-SnuPE) f. 碱基特异分裂 /MALDI-TOF g. 甲基化特异 PCR(MSP) h. 微阵列基方法, 和 i.msp I 分裂。
9: 根据权利要求 1 至 8 任意一项所述的方法, 其中待分析的样本是来自从诸如下述 的组织群组选择的组织类型 : 来自待分析组织的组织切片、 阴道组织、 舌头、 胰腺、 肝、 脾、 卵 巢、 肌肉、 关节组织、 神经组织、 胃肠道组织、 肿瘤组织、 体液、 血液、 血清、 唾液和尿。
10: 根据权利要求 2 至 9 所述的方法, 其中探测原发癌症。
11: 根据权利要求 1 至 10 所述的方法, 其中所获得的甲基化模式用于预测对乳腺癌治 疗的医疗响应。
12: 包含核酸的成份或阵列, 该核酸具有与根据 SEQ ID NO.1 至 100 的至少 10 种序列 2 是相同的序列, 其中该成份或阵列包含不多于 100 种的不同核酸分子。
13: 根据权利要求 12 所述的成份或阵列, 包含累计 p 值小于 0.001, 优选地小于 0.0001 的至少 5 种序列。

说明书


用于乳腺癌紊乱分析的方法

    技术领域 本发明属于生物学和化学领域, 更具体而言属于分子生物学和人类遗传学领域。 本发明涉及识别人类 DNA 中的甲基化位, 特别是某些规定序列中的甲基化位的领域, 该甲 基化位在被甲基化时指示乳腺癌。
     背景技术 在全世界, 乳腺癌是癌症死亡的第五位最常见起因 ( 在肺癌、 胃癌、 肝癌和结肠癌 之后 )。在 2005 年, 乳腺癌在全世界导致 502,000 例死亡 ( 癌症死亡的 7%; 全部死亡的几 乎 1% )。在全世界的妇女中, 乳腺癌是最常见的癌症且是癌症死亡的最常见起因。
     在美国, 乳腺癌是癌症死亡的第三位最常见起因 ( 在肺癌和结肠癌之后 )。 在 2007 年, 乳腺癌在美国预期引起 40,910 例死亡 ( 癌症死亡的 7% ; 全部死亡的几乎 2% )。在美 国的妇女中, 乳腺癌是最常见的癌症且是癌症死亡的第二位最常见起因 ( 在肺癌之后 )。 美 国的妇女一生中有 1/8 的机会患上侵入性乳腺癌以及 1/33 的机会患上致其死亡的乳腺癌。
     乳腺癌是通过对外科手术移除的乳房组织的病理 ( 微观 ) 检查来诊断。许多过程 可以在病因性治疗之前获得用于组织学或细胞学检查的组织或细胞。 这些过程包含细针抽 吸、 乳头抽吸、 乳管灌洗、 芯针切片以及局部手术切除切片。这些诊断步骤在与射线成像组 合时经常精确地将乳腺病变诊断为癌症。有时候, 诸如细针抽吸的手术前过程可能不会提 供足够组织以进行诊断, 或者会完全错过癌症。成像测试有时用于检测转移且包含胸部 X 射线、 骨扫描、 CT、 MRI 和 PET 扫描。尽管成像研究在确定转移性疾病的存在方面是有用的, 但是成像研究不是在诊断癌症且本身不诊断癌症。仅切片样品的微观评价可提供癌症诊 断。Ca 15.3( 糖类抗原 15.3, 上皮粘蛋白 ) 是在血液中确定的肿瘤标志物 (marker), 其可 以用于追随病因性治疗之后疾病活性随时间的变化。 血液肿瘤标志物测试不为筛查乳腺癌 而常规地进行, 且对于此目的具有不良的表现特性。
     因此, 具有快速、 可靠且可以理想地由未受训练人员进行的用于分析乳腺癌紊乱 的方法将是有益的。这种方法理想地不需要由受训练医师进行分析。
     发明内容 本发明教导了一种用于分析乳腺癌紊乱的方法, 其包含确定从在 SEQ ID NO.1 至 100 的群组中选择的序列中的一种或多种 CpG 二核苷酸的基因组甲基化状态和 / 或确定特 别是根据 SEQ ID NO.1 至 10 和 / 或 SEQ ID NO.50 至 SEQ ID NO.60 的序列中的一种或多 种 CpG 二核苷酸的基因组甲基化状态。
     感兴趣区域在表 1A 和表 1B 中指定 (″开始″和″结束″ )。
     CpG 岛是 DNA 骨架中存在彼此相邻 ( 即, 通过磷酸二酯键联接 ) 的大量胞嘧啶和鸟 嘌呤的区域。它们是在哺乳动物基因的启动子 (promoter) 约 40%附近 ( 在人类启动子中 约 70% )。CpG 记号中的″ p″是指胞嘧啶和鸟嘌呤之间的磷酸二酯键。
     CpG 岛的长度典型地为 300 至 3000 个碱基对。这些区域是由等于或大于统计学
     预期的 CpG 二核苷酸含量 ( ≈ 6% ) 来表征, 而基因组的其余部分具有低得多的 CpG 频率 ( ≈ 1% ), 此现象称为 CG 抑制。与基因的编码区域中的 CpG 位不同, 在大多数情形中, 如果 基因被表达, 则启动子的 CpG 岛中的 CpG 位是未甲基化的。这种观察导致这样的推测, 即, 基因的启动子中 CpG 位的甲基化会阻碍基因的表达。甲基化对于压印连同组织蛋白修正是 至关重要的。CpG 岛的通常的正式定义是这样的区域, 该区域具有至少 200 个 bp( 碱基对 ) 和具有大于 50%的 GC 百分比以及具有大于 0.6 的观察 / 预期 CpG 比率。
     这里, CpG 二核苷酸为在活体中, 特别是在人类中发现的处于甲基化和未甲基化状 态的 CpG 二核苷酸。
     本发明涉及一种方法, 其中原发 (primary) 癌症使用此处公开的一种或多种序列 的甲基化模式来探测, 且其中所获得的甲基化模式还用于预测对于乳腺癌治疗的医疗响 应。
     这里, 对象理解成是所有的人、 患者、 动物, 无论它们是否呈现病理变化。 在本发明 的含义中, 从细胞、 组织、 器官、 有机体或类似物收集的任何样本可以是待诊断患者的样本。 在根据本发明的优选实施例中, 患者是人。 在本发明的另一优选实施例中, 患者为被怀疑具 有选自下述群组的疾病的人 : 原发乳腺癌、 继发 (secondary) 乳腺癌、 表面上皮间质肿瘤, 性索间质肿瘤、 生殖细胞肿瘤。
     该方法是例如通过使得能够改进识别和区分乳腺细胞增生紊乱的子类和到所述 紊乱的基因倾向而用于对乳腺细胞增生紊乱的改进的诊断、 治疗和监测。本发明较现有技 术的改进在于, 它使得能够对乳腺细胞增生紊乱进行非常具体的分类, 由此允许对患者的 改进的和信息充足的治疗。
     这里, 所要求保护的序列还涵盖与所指定序列是反向互补 (reverse complement) 的序列。 附图说明
     图 1 示出用于确定基因组的差异化甲基化区域的方法。这在示例中更详细地概述。 图 2 示出群聚样本 ( 列 ) 对比甲基化基因座 ( 行 )。 甲基化识别标志 (signature) 可以在肿瘤 ( 顶部条左侧 ) 和正常组织 ( 顶部条右侧 ) 之间进行区分。
     图 3 示出用于构建本发明及其突出特征的方法的群聚。来自患者的样本被收集且 其特定序列甲基化由任一优选实施例来确定。 随后结果被馈送到诸如支持向量机之类的分 类器, 该分类器提供肿瘤样本或正常样本的分类并提供 p 值。
     具体实施方式
     发明人令人吃惊地发现, 一小部分的 DNA 序列可用于分析乳腺癌紊乱。这是通过 确定此处公开的序列或者其反向互补序列中一种或多种 CpG 二核苷酸的基因组甲基化状 态来完成的。识别了适合于这种分析的总共 900 个序列。结果证明 100 个序列尤其适合。
     基于仅 10 个序列, 例如来自表 1A 或 1B 的前十个特征 (p 值 0.000.1), 即可达到 94%的分类精度 ( 关于给定样品是否来自乳腺肿瘤这一问题的正确预测总数对比所进行 的预测总数, 49/52)。对于肿瘤探测的灵敏度为 92.5% (37/40), 对于肿瘤探测的特异性(specificity) = 100% )。将特征大小增大到 50, 给出了 96%的分类率 (50/52 被准确地 分类 )。
     序列可以在如在下表 1A 中可看到的基因中找到。
     表 1A
     SEQ ID ID NO. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ID173583 ID135122 ID59231 ID135160 ID123222 ID41349 ID146518 ID66687 ID11596 ID112724 ID56406 ID11658 ID114005 ID41387 ID130737 ID27050 ID98568 ID160851 ID9698 ID35001 chr8 chr4 chr15 chr4 chr22 chr12 chr5 chr16 chr1 chr20 chr15 chr1 chr20 chr12 chr3 chr11 chr19 chr7 chr1 chr11 125810238 9040795 87711410 9459627 43445548 105476974 140703634 65169983 146066973 22514937 50874380 146486000 39198472 105851242 138963266 3819507 63407518 35070796 92126308 124134059 125810819 9041453 87711904 9459776 43445907 105477298 140703867 65170374 146067308 22515431 50874668 146486341 39198934 105851742 138963653 3820119 63407732 35071213 92126790 124134403 0.0000217 0.000058 0.0000000747 0.0000000115 0.000000192 0.000000362 0.000000443 0.000000574 0.000000872 0.0000012 0.00000131 0.00000157 0.00000162 0.00000276 0.0000029 0.00000306 0.00000467 0.0000062 0.00000624 0.0000129 MTSS1 DUB3 hsa-mir-9-3 DRD5 PRR5 RFX4 PCDHGA3 AY862139 AK123662 FOXA2 ONECUT1 AK123662 PLCG1 MGC17943 SOX14 RHOG ZNF274 TBX20 BRDT AY189281 染色体 开始 结束 p值 基因名称6101861398 A CN 101861399SEQ ID ID NO. 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 ID188098 ID41218 ID4450 ID97179 ID137603 ID77777 ID146531 ID76724 ID135120 ID135121 ID71929 ID11593 ID120446 ID146484 ID103546 ID161220 ID11654 ID146595 ID173389 ID160133 ID118279 ID68965 ID16024 chrX chr12 chr1 chr19 chr4 chr17 chr5 chr17 chr4 chr4 chr17 chr1 chr22 chr5 chr2 chr7 chr1 chr5 chr8 chr7 chr21 chr16 chr1 染色体 开始说明结束书p值 基因名称4/13 页113641444 103034912 23416592 56695742 89285337 55854004 140715120 44159203 9006410 9017069 7695823 146066575 20546877 140601695 86334450 43853299 146485690 140777723 121206506 26919212 42946007 86694584 224770811113641884 103035336 23417362 56696075 89285745 55854719 140715429 44159574 9006713 9017727 7696284 146066841 20547317 140601937 86334476 43853383 146485868 140778009 121207025 26919376 42946287 86695293 2247711500.0000135 0.0000139 0.0000151 0.0000166 0.0000208 0.0000242 0.0000303 0.0000679 0.0000874 0.0000911 0.000130076 0.000154186 0.0001669 0.000192752 0.000264959 0.00030013 0.000310651 0.000318226 0.000396103 0.000432818 0.000498108 0.000498402 0.000548832BC028688 NFYB HNRPR SIGLEC12 PKD2 LOC124773 PCDHGB2 PRAC DUB3 AY509884 LOC92162 AK123662 MAPK1 PCDHB15 MRPL35 DBNL AK123662 PCDHGA11 COL14A1 HOXA2 PDE9A AK126852 BC0439167101861398 A CN 101861399SEQ ID ID NO. 44 45 46 47 48 49 50 ID91933 ID146581 ID61023 ID146570 ID171504 ID168737 ID12521 chr19 chr5 chr16 chr5 chr8 chr8 chr1 染色体 开始说明结束书p值 基因名称5/13 页18831977 140768066 954593 140757958 65454257 9798186 15320336918832267 140768556 954879 140758452 65455748 9798550 1532036710.000607126 0.000680057 0.000792141 0.000996446 0.000953039 0.000137444 0.000101994AK125797 PCDHGA10 AK127296 PCDHGA9 hsa-mir-124a-2 hsa-mir-124a-1 hsa-mir-9-1
     序列可以在如表 1B 中可看到的基因间区域中找到。 表 1B ID ID33426 ID90896 ID29499 ID169777 ID109204 ID103749 ID99161 ID45297 ID166666 ID167174 染色体 chr11 chr19 chr11 chr8 chr2 chr2 chr2 chr13 chr7 chr7 开始 89160048 15148984 49026728 24827761 220021958 91295935 2812784 27400198 149354316 152884159 结束 89160322 15149357 49027002 24828171 220022344 91296161 2813304 27400742 149354562 152884405 p值 1.14E-10 1.14E-10 4.06E-10 6.48E-10 8.65E-10 1.82E-09 1.82E-09 3.38E-09 6.06E-09 6.96E-09SEQ ID NO. 51 52 53 54 55 56 57 58 59 608101861398 A CN 101861399说ID ID34211 ID152478 ID24712 ID49246 ID34960 ID112713 ID54570 ID89508 ID13622 ID1820 ID29015 ID91861 ID77745 ID98238 ID76689 ID76692 ID59231 ID124608 ID10950 ID159953 染色体 chr11 chr6 chr10 chr14 chr11 chr20 chr15 chr19 chr1 chr1 chr11 chr19 chr17 chr19 chr17 chr17 chr15 chr3 chr1 chr7明书结束 113989682 42253868 130382412 28324758 123816128 22506681 24796140 9470021 177614509 3672910 45137024 18622478 55571965 61847055 44074967 44075400 87711904 6878499 116868706 24097911 p值6/13 页SEQ ID NO. 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80开始 113989177 42253517 130382122 28324500 123811259 22506327 24795835 9469673 177614171 3672455 45136542 18622132 55571595 61846590 44074514 44075076 87711410 6878205 116868496 240975089.11E-09 9.63E-09 9.63E-09 1.30E-08 1.34E-08 1.59E-08 2.70E-08 2.98E-08 3.10E-08 3.10E-08 3.10E-08 3.46E-08 4.18E-08 4.44E-08 4.50E-08 6.20E-08 7.47E-08 8.97E-08 9.58E-08 9.58E-089101861398 A CN 101861399说ID ID115475 ID126115 ID71392 ID105601 ID168382 ID147288 ID137304 ID179567 ID3487 ID92361 ID177598 ID3846 ID35773 ID117488 ID89802 ID64615 ID168612 ID16187 ID73339 ID18029 染色体 chr20 chr3 chr17 chr2 chr8 chr5 chr4 chr9 chr1 chr19 chr9 chr1 chr12 chr21 chr19 chr16 chr8 chr1 chr17 chr10明书结束 58537548 38714730 6057605 121341916 1983256 158457100 81467150 101579476 16606778 34426104 66276499 18995319 125386 33327930 10451249 29703873 7917432 225850586 21161232 11463043 p值7/13 页SEQ ID NO. 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
     开始 58536847 38714269 6057091 121341432 1982797 158456751 81466911 101579069 16606704 34425570 66276397 18994906 125067 33327565 10450948 29702807 7917174 225850241 21160807 114622061.23E-07 1.92E-07 2.51E-07 2.61E-07 2.61E-07 2.69E-07 3.30E-07 3.92E-07 4.25E-07 4.25E-07 4.45E-07 5.42E-07 5.88E-07 7.29E-07 8.72E-07 8.92E-07 9.20E-07 9.73E-07 1.13E-06 1.53E-06形成本发明的基础的基因优选地用于形成″基因面板 (genepanel)″, 即, 包含本 发明的具体基因序列和 / 或它们各自的提供信息的甲基化位的集合。基因面板的形成允许 对乳腺癌特定方面的快速和特定分析。如本发明中描述和采用的基因面板 ( 多个 ) 可以以 具有令人吃惊的高效率地用于对乳腺细胞增生紊乱的诊断、 治疗和监测且也用于对到乳腺 细胞增生紊乱的倾向的分析, 然而特别是用于乳腺肿瘤的探测。
     此外, 与单一基因诊断和探测工具相比, 使用来自多种基因阵列的多个 CpG 位允 许相对高程度的灵敏度和特异性。
     本发明涉及一种用于分析乳腺癌紊乱的方法, 其包含确定从根据 SEQ ID NO.1 至 SEQ ID NO.10 和 / 或 SEQ ID NO.50 至 SEQ ID NO.60 的序列群组中选择的序列中的一种或 多种 CpG 二核苷酸的基因组甲基化状态。
     在一个实施例中, 优选的是, 确定根据 SEQ ID NO.1 至 100 的一种或多种序列 的甲基化状态, 其中该序列具有如此处所确定的 p 值, 如表 1A 或 1B 所指定, 该 p 值小于 1E-4(0.0001)。
     在根据本发明的方法的一个实施例中, 该分析是对对象中的乳腺癌的探测, 且其 中执行下述步骤 : (a) 提供来自待分析对象的样本, (b) 确定从根据 SEQ ID NO.1 至 SEQ ID NO.10 和 / 或 SEQ ID NO.50 至 SEQ ID NO.60 的序列群组中选择的序列中的一种或多种 CpG 二核苷酸的甲基化状态。
     CpG 岛的甲基化状态是乳腺癌的指示。 然而优选地, 针对每个 CpG 确定甲基化状态 且确定差异化甲基化模式, 这是因为不一定所有的 CpG 岛都需要被甲基化。
     可选地, 附加地执行下述步骤 : (a) 将来自甲基化状态测试的一种或多种结果输 入到从诊断多变量模型获得的分类器中, (b) 计算有关该样本是来自正常组织还是乳腺癌 组织的可能性, 和 / 或 (c) 计算用于预测置信度 (confidence in the prediction) 的关联 p 值。
     例如, 我们使用支持向量机分类器, 用于基于来自患者的预定义组织组来 “学习” 肿瘤或正常样本的重要特征。该算法现在输出分类器 ( 其中变量为来自所使用特征组的甲 基化比率的方程 )。来自新患者样本的甲基化比率随后被放到此分类器中。结果可以是 1 或 0。与边际平面的距离用于提供 p 值。
     优选的是, 为根据 SEQ ID NO.1 至 10 和 / 或 SEQ ID NO.50 至 SEQ ID NO.60 的序 列中的至少四个确定甲基化状态。
     优选的是, 附加地为根据 SEQ ID NO.11 至 49 和 / 或 61 至 100 的序列中的一个或 多个确定甲基化状态。
     在一个实施例中, 为根据 SEQ ID NO.1 至 SEQ ID NO.100 的序列的至少十个序列、 二十个序列、 三十个序列、 四十个序列或者多于四十个序列确定甲基化状态。尤其优选的 是, 为根据 SEQ ID NO.1 至 SEQ ID NO.100 的所有序列确定甲基化状态。
     在一个实施例中, 为根据 SEQ ID NO.1 至 SEQ ID NO.10 和 SEQID NO.50 至 SEQ ID NO.60 的序列确定甲基化状态。原则上, 本发明还涉及确定根据 SEQ ID NO.1 至 SEQ ID NO.100 的序列的仅其中一个的甲基化状态。
     有许多种方法用于确定 DNA 分子的甲基化状态。优选的是, 甲基化状态借助从下
     述群组选择的方法的一种或多种来确定 : 重亚硫酸盐排序、 焦磷酸排序、 甲基化敏感单链构 象分析 (MS-SSCA)、 高分辨率熔解分析 (HRM)、 甲基化敏感单核苷酸引物延伸 (MS-SnuPE)、 碱基特异性分裂 (cleavage)/MALDI-TOF、 甲基化特异性 PCR(MSP)、 微阵列基方法、 msp I 分裂。探测 5- 甲基胞嘧啶的另外已知方法的概述可以从下述综述性文章搜集到 : Rein, T., DePamphilis, M.L., Zorbas, H., Nucleic Acids Res.1998, 26, 2255。另外的方法在 US2006/0292564A1 中公开。
     在优选实施例中, 甲基化状态通过下述来确定 : mspI 分裂、 衔接体 (adaptor) 的连 接 (ligation)、 McrBC 消化、 PCR 扩增、 标记 (labeling) 及随后杂化。
     优选的是, 待分析的样本是来自从诸如下述的组织群组选择的组织类型 : 来自待 分析组织的组织切片、 阴道组织、 舌头、 胰腺、 肝、 脾、 卵巢、 肌肉、 关节组织、 神经组织、 胃肠 道组织、 肿瘤组织、 体液、 血液、 血清、 唾液和尿。
     在优选实施例中, 探测原发癌症。
     在根据本发明的方法的一个实施例中, 所获得的甲基化模式用于预测对乳腺癌治 疗的医疗响应。
     本发明涉及探针, 诸如位于上 CpG 位区域内的寡核苷酸。根据本发明的寡聚物通 常在所谓的″组″中使用, 该组含有用于 SEQ IDNO.1 至 SEQ ID NO.100 内的每个 CpG 二核 苷酸, 或者至少用于 10 个、 优选地 20 个、 更优选地 30 个、 最优选地多于 50 个所述序列的至 少一个寡核苷酸。本发明还涉及位于 CpG 位的区域内的寡核苷酸的反向互补。 要用于这种分析的探针基于下述标准的一种或多种来定义。(1) 探针序列仅 在人类基因组中出现一次 ; (2)C/G 核 苷 酸 的 探 针 密 度 介 于 30 % 和 70 % ; (3) 杂 化 的 熔 解 特 性 和 其 它 标 准 是 根 据 Mei R et al.Proc.Natl.Acad.Sci.USA, 2003, Sept.30 ; 100(20).11237-42。
     在非常优选实施例中, 所述涉及一组寡核苷酸, 该组寡核苷酸针对根据 SEQ ID NO.1 至 10 和 / 或 SEQ ID NO : 50 至 60, 或者 SEQ IDNO.50 至 60 的序列是特异的。根据本 发明的寡核苷酸可以针对序列在人体内出现时是特异的, 或者可以是针对已经经过重亚硫 酸盐处理的序列是特异的。这种探针长度介于 10 和 80 个核苷酸, 更优选地长度介于 15 和 40 个核苷酸。
     在根据本发明的寡核苷酸组的情形中, 优选的是, 至少一个寡核苷酸结合 (bind) 到固相。另外优选的是, 一个组的所有寡核苷酸都结合到固相。
     本发明另外涉及通过分析所述序列或者所述序列的经过处理的版本 ( 根据 SEQ ID NO.1 至 SEQ ID NO.100 以及与其互补的序列 ) 而用于探测基因组 DNA 的胞嘧啶甲基化状态 的具有至少 10 个探针 ( 寡核苷酸和 / 或 PNA- 寡聚物 ) 的组。
     这些探针使得能够对乳腺细胞增生紊乱进行改进的探测、 诊断、 治疗和监测。
     该组寡核苷酸还可以用于通过分析根据 SEQ ID NO.1 至 SEQ IDNO.100 之一的所 述序列或者所述序列的经过处理的版本来探测单核苷酸多态性 (SNP)。
     根据本发明, 优选的是, 通过本发明而可得到的不同寡核苷酸和 / 或 PNA- 寡聚物 序列的布置 ( 所谓的″阵列″ ) 按照其类似地结合到固相的方式存在。
     不同寡核苷酸寡聚物 - 和 / 或 PNA- 寡聚物序列的这一阵列的特征可以在于, 其以 矩形或六角形晶格的形式布置在该固相上。该固相表面优选地由硅、 玻璃、 聚苯乙烯、 铝、
     钢、 铁、 铜、 镍、 银或金组成。 然而, 硝化纤维以及塑料, 诸如可以以丸形式存在或者也可以作 为树脂基体存在的尼龙, 是合适的备选。
     因此, 本发明的另一主题是一种用于制造固定到载体材料的阵列的方法, 该阵列 用于对乳腺细胞增生紊乱的改进的探测、 诊断、 治疗和监测和 / 或对到乳腺细胞增生紊乱 的倾向的探测。在所述方法中, 根据本发明的至少一种寡核苷酸耦合到固相。用于借助固 相化学和光不稳定保护基团来制造这种阵列的方法例如根据美国专利 NO.5,744,305 而是 已知的。 本发明的另一主题涉及用于对乳腺细胞增生紊乱的改进的探测、 诊断、 治疗以及监 测的 DNA 芯片。此外, 该 DNA 芯片使得能够探测到乳腺细胞增生紊乱的倾向。
     DNA 芯片含有至少一种根据本发明的核酸和 / 或寡核苷酸。DNA 芯片例如在美国 专利 NO.5,837,832 中是已知的。
     本发明还涉及一种包含核酸的成份 (composition) 或阵列, 该核酸具有与根据 SEQ ID NO.1 至 100 的序列的至少 10 个是相同的序列, 其中该成份或阵列包含不多于 100 种的不同核酸分子。
     本发明涉及一种成份或阵列, 其包含累计 p 值小于 0.001, 优选地小于 0.0001 的至 少 5 种序列。
     再者, 本发明的一个主题是一种试剂盒 (kit), 该试剂盒可由例如含有重亚硫酸盐 的试剂、 含有至少两种寡核苷酸的引物寡核苷酸组所组成, 在每一种情形中, 该至少两种寡 核苷酸的序列与 SEQ ID NO.1 至 SEQ ID NO.100 中指定的碱基序列的至少 15 个碱基长的区 段 (segment) 对应或互补。优选的是, 该引物用于 SEQ ID NO.1 至 10 和 / 或 SEQ ID NO.50 至 SEQ ID NO.60。
     示例
     样本
     患 者 样 本 从 挪 威 奥 斯 陆 的 Norwegian Radium Hospital 和 National Cancer Institute 的 Cooperative Human Tissue Network(CHTN) 获得, 且患者同意是是按法律规 定而获得的。
     CPG 岛
     注释的 CpG 岛从 UCSC 基因组浏览器获得。 这些岛使用已出版的 Gardiner-Garden 定 义 (Gardiner-Garden, M.and M.Frommer(1987). ″ CpG islands in vertebrate genomes.″ J Mol Biol 196(2) : 261-82) 来预测, 该定义涉及下述标准 : 长度≥ 200bp, % GC ≥ 50%, 观察 / 预期 CpG ≥ 0.6。在基因组中存在 200bp 至 2000bp 范围内~ 26219 个 CpG 岛。这些岛被 Msp I 限制性碎裂所良好地覆盖。
     阵 列 是 由 Nimblegen Systems Inc 使 用 390K 格 式 根 据 下 述 规 格 来 制 造。 来 自 人 类 基 因 组 版 本 33(hg17) 的 CpG 岛 注 释 被 用 于 设 计 50mer( 碱 基 ) 的 瓦 片 阵 列。 50mer 在岛序列坐标的任一侧上被偏移以使岛均匀地分布。390K 格式具有 367,658 个 可 用 的 特 征, 这 些 特 征 并 不 匹 配 具 有 50mer 瓦 片 的 所 有 岛。 因 此 我 们 基 于 大 小 对 将 被 表 示 的 岛 进 行 截 止, 仅 大 小 为 200b 至 2000b 的 CpG 岛 被 测 定。 控 制 探 针 设 计 成 表 示 背 景 信 号。 样 本 制 备 : 表 示 (representation) 在 先 前 已 经 予 以 描 述 (Lucito, R., J.Healy 等 (2003). ″ Representational oligonucleotidemicroarray analysis : a high-resolution method to detect genome copynumber variation ″ Genome Res13(10) : 2299-305.), 其变化如下。所使用的主要限制性核酸内切酶为 MspI。在消化之后, 下述联接体 (linker) 被连接 (MspI24mer 和 MSPI12mer)。12mer 不被磷酸化且不连接。在 连接之后, 该材料用苯酚氯仿清洁、 析出、 离心以及再悬浮 (re-suspend)。 该材料分为两半, 一半由核酸内切酶 McrBC 消化以及另一半被模拟消化。 每个样本对使用少至四个 250μl 试 管来扩增该表示, 每个试管进行 100ul 体积反应。 循环条件为 95℃ 1 分钟、 72℃ 3 分钟, 进行 15 个循环, 随后在 72℃延伸 10 分钟。 当完成时, 用于每一对的试管的内容被冷却。 表示通过 苯酚 : 氯仿提取来清洁、 析出、 再悬浮, 且确定浓度。 DNA 如所述用较小变化来标记 (Lucito, R., J.Healy 等 (2003). ″ Representational oligonucleotide microarrayanalysis : a high-resolution method to detect genome copy numbervariation ″ Genome Res 13(10) : 2291-305.)。 简单地说, 将 2ug 的 DNA 模板放置 ( 溶解在 pH 8 的 TE 中 ) 在 0.2mL PCR 试管中。 添加 5μl 的随机九聚体 (Sigma Genosys), 用 dH2O 补足到 25μL, 并混合。 试管放 置在四分体 (Tetrad) 中以 100℃放置 5 分钟, 随后在冰上放置 5 分钟。 向此试管中添加 5μl 的 NEB Buffer2, 5μL 的 dNTP(0.6nm dCTP、 1.2nm dATP、 dTTP、 dGTP), 来自 GE Healthcare 的 5μl 的标记 (Cy3-dCTP 或 Cy5-dCTP), 2μl 的 NEB Klenow 碎片 (fragment) 以及 2μldH2O。 杂化和清洗的过程遵从先前报导 (Lucito, R., J.Healy 等 (2003). ″ Representational oligonucleotide microarray analysis : ahigh-resolution method to detect genome copy number variation″ Genome Res 13(10) : 2291-305), 不同之处为用于杂化的炉温 提高到 50℃。使用被设定在像素大小为 5μm 的 Axon GenePix 4000B 扫描器来扫描阵列。 GenePix Pro 4.0 软件用于对阵列的强度定量。阵列数据被引入 S-PLUS 供进一步分析。
     数据分析
     微 阵 列 图 像 在 GenePix 4000B 扫 描 器 上 被 扫 描, 且 数 据 使 用 Nimblescan 软 件 (Nimblegen Systems Inc) 来提取。对于每个探针, McrBc 和控制经处理样本的比率 (GeoMeanRatio) 的几何平均值针对每个实验及其相关染料交换进行计算。数据集中所 有样本的 GeoMeanRatio 随后使用分位数归一化方法 (Bolstad, B.M., R.A.Irizarry 等 (2003).″ A comparison of normalization methods for highdensity oligonucleotide array data based on variance and bias″ Bioinformatics 19(2) : 185-93) 来归一化。 每个实验的归一化比率随后使用中位数平滑模型折叠 (collapsed) 以得到用于每个 MspI 碎片中的所有探针的一个值。折叠的数据随后用于进一步分析。
     方差分析用于识别最显著 (significant) 的岛。为了确定肿瘤和正常样本之间的 甲基化中最为一致地发生的变化, 我们使用 t 测试 (t-test) 方法。在针对多次测试校正之 后使用 0.001 的 p 值截止 (FalseDiscovery Rate, Benjamini and Hotchberg(Benjamini 1995)), 我们得到表现差异化甲基化的 916 个 MspI 碎片的列表, 其是基于与基因的关联而 从这些 916 个碎片导出的。
     受监督的学习 : 我们使用受监督的机器学习分类器来识别用于将肿瘤样本与正常 样本区分开所需要的多个特征。公开可得的支持向量机 (SVM) 库 (LibSVM Ver 2.8) 用于 使用省去一个 (leave one out) 的方法 (Lin, C.-C.C.a.C.-J.(2001).LIBSVM : a library for support vectormachine) 来获得分类精度。 用于分类的甲基化特征先使用 t 测试而单 独在训练数据中选择。SVM 随后使用径向基函数 (RBF) 内核在前 (top)10、 50 和 100 个特征 上进行训练。对于 N 个样本, t 测试针对 (N-1) 个样本进行, 以识别甲基化比率具有显著差异的 碎片。对于乳房数据集, 这针对所有 52 个乳房样本进行 52 次, 使得在 t 测试计算期间每个 样本被省去一次。来自 (N-1) 个样本的前 10 个碎片特征的甲基化比率随后用于训练 SVM 且来自一个未受训练样本的比率用于测试。 基于仅仅 10 个特征, 我们可以得到 94%的分类 精度 ( 正确预测总数 / 预测总数, 49/52)。对于肿瘤探测的灵敏度为 92.5% (37/40), 对于 肿瘤探测的特异性= 100% )。将特征大小增大到 50, 得到 96%的分类率 (50/52 被正确地 分类 )。令人感兴趣的是, 在此分析中被分类为正常的两个肿瘤样本在基因表达和 ROMA 分 析中均最接近正常。
     甲基化位的探测
     在优选实施例中, 该方法包含下述步骤 : 在该方法的第一步骤中, 基因组 DNA 样本 必须与诸如细胞系、 组织或者血液样本的源隔离。提取可通过对于本领域技术人员而言是 标准的手段来进行, 这些手段包含使用洗涤剂裂解 (lysate)、 发音 (sonification) 以及用 玻璃珠涡旋。一旦已经提取了核酸, 则在分析中使用基因组双链 DNA。
     在优选实施例中, DNA 可以在该方法的下一步骤之前被分裂, 这可以是通过现有技 术中标准的任何手段, 具体地但不限于使用限制性核酸内切酶来进行。
     在该方法的第二步骤中, 基因组 DNA 样本按照下述方式来处理, 即, 在 5′ - 位置未 甲基化的胞嘧啶碱基被转换成尿嘧啶、 胸腺嘧啶、 或者就杂化行为而言与胞嘧啶不相似的 另一碱基。这在下文中将被理解为′预处理′。
     如上所述的基因组 DNA 的处理优选地使用重亚硫酸盐 ( 亚硫酸盐、 偏重亚硫酸盐 (disulfite)) 以及随后的碱水解来实施, 该碱水解导致非甲基化的胞嘧啶核苷碱基转换成 尿嘧啶或者就碱基变化 (vairine) 行为而言与胞嘧啶不同的另一碱基。如果重亚硫酸盐溶 液用于该反应, 则加成反应发生在非甲基化的胞嘧啶碱基处。 再者, 变性试剂或溶剂以及自 由基拦截体必须存在。随后的碱水解则引起非甲基化的胞嘧啶核苷碱基转换成尿嘧啶。经 转换的 DNA 随后用于甲基化胞嘧啶的探测。
     扩增碎片。由于统计学和实际考虑, 优选地扩增具有长度为 100-2000 个碱基对的 多于十个的不同碎片。 若干 DNA 区段的扩增可以在一个相同的反应容器中同时实施。 通常, 扩增是借助聚合酶链式反应 (PCR) 来实施。这些引物的设计对于本领域技术人员而言是显 而易见的。这些应包含至少两种寡核苷酸, 其序列均与附录中所指出的碱基序列 (SEQ ID NO.1 至 SEQ ID NO.100) 的至少 15 个碱基对长的区段是反向互补的或者是相同的。 所述引 物寡核苷酸优选特征在于, 它们不含有任何 CpG 二核苷酸。在该方法的尤为优选的实施例 中, 所述引物寡核苷酸的序列设计为选择性地退火到和扩增仅感兴趣的乳腺细胞特异 DNA, 由此最小化背景或不相干 DNA 的扩增。在本发明的上下文中, 背景 DNA 意指不具有相关组 织特异甲基化模式的基因组 DNA, 这种情况下, 该相关组织为健康以及患病的乳腺细胞。
     根据本发明, 优选的是, 至少一个引物寡核苷酸在扩增期间结合到固相。 不同的寡 核苷酸和 / 或 PNA- 寡聚物序列可以以矩形或六角形晶格的形式布置在平面固相上, 该固相 表面优选地由硅、 玻璃、 聚苯乙烯、 铝、 钢、 铁、 铜、 镍、 银或金组成, 诸如硝化纤维或塑料的其 它材料也同样可以被使用。借助扩增获得的碎片可携带直接或间接可探测的标记。优选的 是形式为这样的标记 : 荧光标记、 放射性核素、 或者具有在质谱仪中可以被探测到的典型质 量的可分开的分子碎片, 优选地所制作的碎片具有单个正或负净电荷以在质谱仪中具有更好的可探测性。该探测可以借助基质辅助激光解吸电离质谱 (MALDI) 或者使用电子喷雾质 谱 (ESI) 来实施或可视化。
     在下一步骤中, 分析核酸扩增子从而在处理之前确定基因组 DNA 的甲基化状态。
     核酸的后处理分析可以使用备选方法来实施。用于经过处理的核酸的甲基化状 态特异分析的若干种方法是已知的, 其它备选方法对于本领域技术人员而言将是显而易见 的。
     使用本领域中已知的若干种方法, 该分析可以在该方法的扩增步骤期间实施。在 一个这种实施例中, 包含 SEQ ID NO.1 至 SEQ ID NO.100 的核酸内的预选定 CpG 位置的甲 基化状态可以使用甲基化特异引物寡核苷酸来探测。 此技术已经在美国专利 NO.6,265,171 中予以描述。

用于乳腺癌紊乱分析的方法.pdf_第1页
第1页 / 共19页
用于乳腺癌紊乱分析的方法.pdf_第2页
第2页 / 共19页
用于乳腺癌紊乱分析的方法.pdf_第3页
第3页 / 共19页
点击查看更多>>
资源描述

《用于乳腺癌紊乱分析的方法.pdf》由会员分享,可在线阅读,更多相关《用于乳腺癌紊乱分析的方法.pdf(19页珍藏版)》请在专利查询网上搜索。

用于乳腺癌紊乱分析的方法,包含确定在从根据SEQIDNO.1至10和/或SEQIDNO.50至SEQIDNO.60的序列群组中选择的序列中的一种或多种CpG二核苷酸的基因组甲基化状态。可选地,附加地执行下述步骤:将来自甲基化状态测试的一种或多种结果输入到从诊断多变量模型获得的分类器中,计算关于该样本是来自正常组织还是乳腺癌组织的可能性,和/或计算用于预测置信度的关联p值。。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 化学;冶金 > 生物化学;啤酒;烈性酒;果汁酒;醋;微生物学;酶学;突变或遗传工程


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1