大肠癌标志物及其应用.pdf

上传人:伱** 文档编号:8844116 上传时间:2021-01-07 格式:PDF 页数:20 大小:2.29MB
返回 下载 相关 举报
摘要
申请专利号:

CN201510640546.8

申请日:

20150930

公开号:

CN105132518A

公开日:

20151209

当前法律状态:

有效性:

有效

法律详情:

IPC分类号:

C12Q1/04,C12Q1/68,C12Q1/02,G06F19/22,C12R1/145,C12R1/01

主分类号:

C12Q1/04,C12Q1/68,C12Q1/02,G06F19/22,C12R1/145,C12R1/01

申请人:

上海锐翌生物科技有限公司

发明人:

仲文迪,刘婉辉,郑智俊

地址:

200050 上海市长宁区宣化路300号华宁国际广场南塔27楼

优先权:

CN201510640546A

专利代理机构:

北京清亦华知识产权代理事务所(普通合伙)

代理人:

李志东

PDF下载: PDF下载
内容摘要

本发明公开了一种大肠癌标志物,包括以下微生物:罕见小球菌属Subdoligranulum_4_3_54A2FAA和多形杆状菌Bacteroides。本发明还公开一种利用大肠癌标志物确定个体状态的方法及装置。相较于健康个体群体,所称的大肠癌标志物在大肠癌患者群体中显著富集,能够作为健康群体和大肠癌患者群体的区分标志。

权利要求书

1.一种大肠癌标志物,其特征在于,所述标志物包括以下微生物:罕见小球菌属Subdoligranulum_4_3_54A2FAA和多形杆状菌Bacteroides;任选的,所述标志物还包括霍氏肠杆菌Eubacterium_hallii_DSM_3353;任选的,所述标志物还包括梭菌Clostridium_SS2_1;任选的,所述标志物还包括瘤胃球菌属Ruminococcus_5_1_39BFAA;任选的,所述标志物还包括梭菌Clostridium_SS2_1。 2.权利要求1的大肠癌标志物在制备治疗大肠癌的药物和/或在制备功能性食品中的用途。 3.一种利用权利要求1的大肠癌标志物确定个体的状态的方法,其特征在于,包括:(1)确定所述个体的粪便样本中的所述大肠癌标志物中的各种微生物的丰度;(2)分别将(1)中确定的大肠癌标志物中的各种微生物的丰度与其在对照组中的丰度进行比较,依据获得的比较结果确定所述个体的状态,所述对照组包括一组健康个体的粪便样本和一组大肠癌患者的粪便样本组成,所述状态包括患有大肠癌状态和不患有大肠癌状态。 4.权利要求3的方法,其特征在于,(1)包括:获得所述个体的粪便样本中的核酸序列的测序数据,所述测序数据包括多个读段;组装所述读段,获得基因集,所述基因集包括多个组装片段,所述基因集中的组装片段为非冗余序列;确定所述大肠癌标志物中的各种微生物包含的组装片段;依据所述测序数据,分别确定所述基因集中的各个组装片段的丰度,其中包括,分别确定所述大肠癌标志物中的各种微生物包含的组装片段的丰度;分别依据所述确定的组装片段的丰度,确定所述大肠癌标志物中的各种微生物的丰度。 5.权利要求4的方法,其特征在于,所述确定大肠癌标志物中的各种微生物包含的组装片段,包括:将所述基因集中的组装片段分别与所述各种微生物的参考序列进行比对,确定与一种微生物的参考序列的相似性大于或者等于90%的组装片段来自该种微生物。 6.权利要求4的方法,其特征在于,所述依据测序数据,分别确定所述基因集中的各个组装片段的丰度,包括:分别将所述测序数据中的读段比对到所述各个组装片段上,基于获得的比对结果,利用以下公式确定组装片段的丰度:组装片段G的丰度Ab(G)=Ab(U)+Ab(M),其中,Ab(U)=U/l,U为唯一比对上组装片段G的读段数目,l为组装片段G的长度,M为非唯一比对上该组装片段G的读段的数目,i表示非唯一比对上该组装片段G的读段的编号,Co为非唯一比对上组装片段G的读段M的丰度系数,N为非唯一比对上该组装片段G的读段比对上的组装片段的总数目,j为非唯一比对上该组装片段G的读段比对上的组装片段的编号,U为唯一比对上组装片段j的读段数目。 7.权利要求4的方法,其特征在于,微生物的丰度为该种微生物包含的所有组装片段的丰度的中位数或者平均数。 8.权利要求3的方法,其特征在于,(2)包括:当(1)中确定的大肠癌标志物中的各种微生物的丰度都落入预定区间时,确定所述个体的状态为患有大肠癌,所述预定区间是通过比较相同微生物在对照组中的健康个体的粪便样本中的丰度和在对照组中的大肠癌患者的粪便样本中的丰度的差异而确定的。 9.权利要求8的方法,其特征在于,所述大肠癌标志物中的罕见小球菌属Subdoligranulum_4_3_54A2FAA的预定区间为3.24E-07~1.82E-06,所述大肠癌标志物中的多形杆状菌Bacteroides的预定区间为2.06E-06~3.21E-06,当所述大肠癌标志物中的微生物包括霍氏肠杆菌Eubacterium_hallii_DSM_3353,所述霍氏肠杆菌Eubacterium_hallii_DSM_3353的预定区间为2.24E-07~6.18E-07,当所述大肠癌标志物中的微生物包括梭菌Clostridium_SS2_1,所述梭菌Clostridium_SS2_1的预定区间为5.28E-07~1.57E-06,当所述大肠癌标志物中的微生物包括瘤胃球菌属Ruminococcus_5_1_39BFAA,所述瘤胃球菌属Ruminococcus_5_1_39BFAA的预定区间为1.34E-06~3.46E-06,当所述大肠癌标志物中的微生物包括凸腹真杆菌Eubacterium_ventriosum_ATCC_27560,所述凸腹真杆菌Eubacterium_ventriosum_ATCC_27560的预定区间为1.42E-07~4.50E-07。 10.一种利用权利要求1的大肠癌标志物确定个体的状态的装置,其特征在于,包括:数据输入单元,用于输入数据;数据输出单元,用于输出数据;处理器,用于执行可执行程序,执行所述可执行程序包括完成权利要求3-9任一方法;存储单元,与所述数据输入单元、所述数据输出单元和所述处理器相连,用于存储数据,其中包括所述可执行程序。 11.一种利用权利要求1的大肠癌标志物对多个个体进行分类的方法,其特征在于,包括:分别利用权利要求3-9任一方法确定各个个体的状态;依据获得的各个个体的状态对所述各个个体进行分类。 12.一种治疗大肠癌的药物,其特征在于,所述药物促使权利要求1的大肠癌标志物中的罕见小球菌属Subdoligranulum_4_3_54A2FAA和多形杆状菌Bacteroides的丰度降低,以及任选的,所述药物促使所述大肠癌标志物中的其它微生物的丰度增加。 13.一种生产或筛选权利要求12的药物的方法,其特征在于,包括筛选促使权利要求1的大肠癌标志物中的罕见小球菌属Subdoligranulum_4_3_54A2FAA和多形杆状菌Bacteroides的丰度降低的物质作为所述药物的步骤,以及任选的,所述方法包括筛选所述大肠癌标志物中的其它微生物的丰度增加的物质作为所述药物的步骤。

说明书

技术领域

本发明涉及生物标志物领域,具体的,本发明涉及大肠癌生物标志物及其应用,更具 体的,本发明涉及一种大肠癌标志物、大肠癌标志物的用途、一种利用大肠癌标志物确定 个体的状态的方法、一种利用大肠癌标志物确定个体的状态的装置、一种利用大肠癌标志 物对多个个体进行分类的方法、一种治疗大肠癌的药物以及一种制备治疗大肠癌药物的方 法。

背景技术

大肠癌(ColorectalCancer,CRC)是源自结肠或直肠(为大肠的一部分)的癌症,因 为细胞不正常的生长,可能侵犯或转移至身体其他部位。大肠癌患者经常出现粪便中带血、 排便习惯改变、体重减轻、以及疲倦感等症状。大肠癌为第三常见癌症,约占10%。在2012 年,美国有140万例新诊断的大肠直肠癌,且造成69.4万人死亡。大肠直肠癌在发达国家 较为常见,占全世界总案例数的65%。而在女性较男性少见。近几年,我国结直肠癌的发 病率呈明显上升趋势。据统计,2002年,我国结肠癌的发病率仅为7%,预计到2015年, 这个数字将变成13%,发病率翻了近一番。与西方人相比,我国直肠癌比结肠癌发病率高, 约1.5∶1;青年人(<30岁)患者比例较高,约占15%。

75~95%的大肠癌发病人群没有或少见遗传因素;其他危险因素包括年龄增大、男性、 高脂肪摄入量、酒精或红肉、超重、吸烟和缺乏体育锻炼;大约10%的病例与缺乏运动有 关(WatsonAJetal2010;CunninghamDetal2010)。饮酒的危害在超过每天一杯后逐步提 升。

肠道微生物对于肠道上皮细胞起到重要作用,包括形成微生物屏障防止病原菌定植、 执行免疫调节及代谢功能。有研究表明肠道菌群失衡会通过不同形式导致大肠癌的发生, 病原微生物会通过激活识别受体、吸附、分泌肠毒素或侵入等方式引起肠道炎症反应。肠 道微生物数量、结构及稳定性的改变,尤其是菌群的失衡会改变正常的生理功能从而引发 肠道疾病,包括大肠癌。

大肠癌诊断包主要有三类:X线检查;乙状结肠镜和纤维结肠镜检查以及癌胚抗原(cea) 试验;癌胚抗原(cea)试验对早期病例的诊断价值不大;而肠镜检查虽然准确性高,但很多 高危人群因为不愿接受痛苦的肠镜而拒绝1-2年的定期筛查。有研究通过检测血液内Mir-92 因子的含量,可检测验血者是否有大肠癌,但健康人士的错误检测率达到30%。随着人体 基因组测序完成及高通量测序技术的高速发展,基因筛查成为结肠癌诊断的方向。基因筛 查对发现结肠癌潜在人群很有优势,但发现基因缺损后1-2年仍需接受肠镜诊断。结肠癌 在早期并无明显症状,目前缺乏有效的无创大肠癌早期诊断方法。

发明内容

本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种商业选择。

依据本发明的第一方面,本发明提供一种大肠癌标志物,所述大肠癌标志物包括以下 微生物:罕见小球菌属Subdoligranulum_4_3_54A2FAA和多形杆状菌Bacteroides。

上述本发明一方面提供的大肠癌标志物是发明人通过对大量大肠癌个体和大量健康对 照个体的粪便样本中的微生物的丰度的差异比较分析、以及验证,而确定下来的,明确了 肠道微生物中大肠癌相关的微生物标志物。利用所称的大肠癌标志物,能够确定个体处于 患有大肠癌状态的概率或者处于健康状态的概率,能够用于非侵入性的早期发现或辅助检 测大肠癌。

依据本发明的第二方面,本发明提供上述大肠癌标志物在制备治疗大肠癌的药物和/或 在制备功能性食品中的用途。

上述大肠癌标志物是发明人通过差异比较分析各种肠道微生物在大肠癌疾病组和健康 组的粪便样本中的丰度,以及经过大量已知状态的粪便样本的验证,而确定下来的。相较 于在健康个体组的粪便样本中,所称大肠癌标志物在大肠癌患者组中的粪便样本中显著富 集,所称显著富集是指与在健康个体组中的丰度相比,上述大肠癌标志物所包含的各种微 生物在大肠癌个体组中的丰度均具有统计意义地高于或者明显地、实质性地高于在健康个 体组中的丰度。能够使其丰度降低的物质能够用于治疗大肠癌或者益于大肠癌患者服用, 能够使其丰度降低的物质不限于治疗大肠癌的药物和有益肠道菌群平衡的功能性食品,上 述本发明一方面提供的大肠癌标志物能够用于制备治疗大肠癌的药物和/或用于制备益于 平衡肠道菌群的功能性食品、保健药等。

依据本发明的第三方面,本发明提供一种利用上述大肠癌标志物确定个体的状态的方 法,该方法包括:(1)确定所述个体的粪便样本中的所述大肠癌标志物中的各种微生物的 丰度;(2)分别将(1)中确定的大肠癌标志物中的各种微生物的丰度与其在对照组中的丰 度进行比较,依据获得的比较结果确定所述个体的状态,所述对照组包括一组健康个体的 粪便样本和一组大肠癌患者的粪便样本组成,所述状态包括患有大肠癌状态和不患有大肠 癌状态。所称大肠癌标志物是发明人通过差异比较分析各种肠道微生物在大肠癌疾病组和 健康组的粪便样本中的丰度,以及经过大量已知状态的粪便样本的验证,而确定下来的。

上述本发明这一方面的方法基于检测个体的粪便样本中的大肠癌标志物中的各种微生 物的丰度,分别将检测确定的各种微生物的丰度与其在对照组中丰度进行比较,依据获得 的比较结果能够确定个体为大肠癌个体或者为健康个体的概率。为早期发现大肠癌提供一 种非侵入性的辅助检测方法。

上述本发明的这一方面的利用大肠癌标志物确定个体的状态的方法的全部或部分步 骤,可以利用包含可拆分的相应单元功能模块的装置/系统来施行,或者将方法程序化、存 储于机器可读介质,利用机器运行该可读介质来实现。

依据本发明的第四方面,本发明提供一种利用上述本发明一方面的大肠癌标志物确定 个体的状态的装置,该装置用以实施本发明一方面的利用大肠癌标志物确定个体的状态的 方法的全部或部分步骤,该装置包括:数据输入单元,用于输入数据;数据输出单元,用 于输出数据;处理器,用于执行可执行程序,执行所述可执行程序包括完成上述本发明一 方面的确定个体的状态的方法;存储单元,与所述数据输入单元、所述数据输出单元和所 述处理器相连,用于存储数据,其中包括所述可执行程序。上述对本发明一方面的利用大 肠癌标志物确定个体的状态的方法的技术特征和优点的描述,同样适用本发明这一方面的 装置,在此不再赘述。

依据本发明的第五方面,本发明提供一种利用上述本发明一方面的大肠癌标志物对多 个个体进行分类的方法,该方法包括:分别利用上述本发明一方面的确定个体的状态的方 法确定各个个体的状态;依据获得的各个个体的状态的差异对所述多个个体进行分类。该 方法能够依据个体的状态的不同区分开多个个体或者区分开多个未知的粪便样本,便于归 类、标记管理。另外,上述对本发明一方面的利用大肠癌标志物确定个体的状态的方法的 技术特征和优点的描述,同样适用本发明这一方面的装置,在此不再赘述。

依据本发明的第六方面,本发明提供一种治疗大肠癌的药物,所述药物促使上述本发 明一方面的大肠癌标志物中的罕见小球菌属Subdoligranulum_4_3_54A2FAA和多形杆状菌 Bacteroides的丰度降低。所称大肠癌标志物是发明人通过差异分析各种肠道微生物在大肠 癌疾病组和健康组的粪便样本中的丰度,以及经过大量已知状态的粪便样本的验证,而确 定下来的。相较于在健康个体组,所称大肠癌标志物在大肠癌患者组中显著富集,所称显 著富集是指与在健康个体组中的丰度相比,上述大肠癌标志物所包含的各种微生物在大肠 癌患者组中的丰度均具有统计意义地高于或者明显地、实质性地高于在健康个体组中的丰 度。能够使其丰度降低的物质能够用于治疗大肠癌或者益于大肠癌患者服用,能够使其丰 度降低的物质可以作为治疗大肠癌的药物。

利用本发明这一方面的药物或者功能性食品,合理有效地应用确定的大肠癌微生物标 志物,扶持肠道有益菌的生长和/或抑制肠道潜在致病菌,可以阻止肠道屏障的缺损,改善 并恢复肠道微生态结构,对于辅助降低血内毒素水平和/或减轻大肠癌的临床症状具有重要 意义。

依据本发明的第七方面,本发明提供一种制备或筛选上述本发明一方面的治疗大肠癌 的药物的方法,该方法包括制备或者筛选能够促使上述本发明一方面的大肠癌标志物中的 罕见小球菌属Subdoligranulum_4_3_54A2FAA和多形杆状菌Bacteroides的丰度降低的物质 作为所述药物的步骤。

利用本发明这一方面的生产或筛选治疗大肠癌的药物的方法,通过合理有效地应用确 定的大肠癌生物标志物进行筛选,能够获得能扶持肠道有益菌的生长和/或抑制肠道潜在致 病菌的药物,可以阻止肠道屏障的缺损,改善并恢复肠道微生态结构,对于辅助降低血内 毒素水平和/或减轻大肠癌的临床症状具有重要意义。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明 显和容易理解,其中:

图1是本发明的实施例中的筛选鉴定大肠癌标志物的试验分析流程示意图。

图2是本发明的实施例中的聚类结果示意图。

图3是本发明的实施例中的大肠癌标志物验证结果的示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中,自始至终相 同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图 描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。需要说明 的,本文中所使用的术语“第一”或者“第二”等仅为方便描述,不能理解为指示或暗示 相对重要性,也不能理解为之间有先后顺序关系。

在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。在本文中,除 非另有明确的规定和限定,术语“相连”、“连接”等术语应做广义理解,例如,可以是固 定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以 是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。

生物学标志物是从生物学介质中可以检测到的细胞、生物化学或分子改变。生物学介 质包括各种体液、组织、细胞、粪便、头发、呼气等。

所称的某种微生物的丰度指在某一微生物群体中该种微生物的丰富程度,例如在肠道 微生物群体中该种微生物的丰富程度,可表示为该种微生物在该群体中的含量。

根据本发明的一个实施方式提供的一种大肠癌生物标志物,检测该生物标志物的变化 可以确定个体患有大肠癌的概率。所述大肠癌标志物包括以下微生物:罕见小球菌属 Subdoligranulum_4_3_54A2FAA和多形杆状菌Bacteroides。

所称的大肠癌标志物是发明人通过对大量大肠癌个体和大量健康对照个体的粪便样本 中的微生物的丰度进行差异比较分析、以及验证,而确定下来的,明确了肠道微生物中大 肠癌相关的微生物标志物。相较于在健康个体组,罕见小球菌属 Subdoligranulum_4_3_54A2FAA和多形杆状菌Bacteroides中的任一种或者组合在大肠癌患 者组中显著富集,所称显著富集是指与在健康个体组中的丰度相比,上述两种微生物中的 任一种或者组合在大肠癌患者组中的丰度均具有统计意义地高于或者明显地、实质性地高 于在健康个体组中的丰度。

利用所称的大肠癌标志物,能够确定个体处于患有大肠癌状态的概率或者处于健康状 态的概率,能够用于非侵入性的早期发现、辅助检测大肠癌或者平衡肠道菌群等。

根据本发明的实施例,所述标志物还包括霍氏肠杆菌Eubacterium_hallii_DSM_3353、 梭菌Clostridium_SS2_1、瘤胃球菌属Ruminococcus_5_1_39BFAA和梭菌Clostridium_SS2_1 中的一种、两种、三种或者全部四种。这四种微生物是发明人通过差异比较分析各种肠道 微生物在大肠癌疾病组和健康组的粪便样本中的丰度,以及经过大量已知状态的粪便样本 的验证,而确定下来的。相较于在大肠癌组,这四种微生物的任一种或者任意组合在健康 组中显著富集,所称显著富集是指与在大肠癌疾病组中的丰度相比,上述大肠癌标志物所 包含的各种微生物在健康组中的丰度均具有统计意义地高于或者明显地、实质性地高于在 大肠癌组中的丰度。

根据本发明一个实施方式提供的上述大肠癌标志物在制备治疗大肠癌的药物和/或在 制备功能性食品中的用途。所称大肠癌标志物是发明人通过差异比较分析各种肠道微生物 在大肠癌疾病组和健康组的粪便样本中的丰度,以及经过大量已知状态的粪便样本的验证, 而确定下来的。比较在大肠癌组和在健康组中的丰度,所称大肠癌标志物在两个群体中的 丰度具有显著差异,所称显著差异是指所称大肠癌标志物中的各种微生物或组合在两个群 体中的丰度的差异具有统计意义或者具有明显地、实质性地差别。

能够使所称大肠癌标志物中的罕见小球菌属Subdoligranulum_4_3_54A2FAA和多形杆 状菌Bacteroides丰度降低和/或能够使所称大肠癌标志物中的其它种微生物的丰度增加的 物质能够用于治疗大肠癌或者益于肠道炎患者服用,能够使所称大肠癌标志物丰度降低/增 加的物质不限于治疗大肠癌的药物和有益肠道菌群平衡的功能性食品,该实施方式提供的 大肠癌标志物能够用于制备治疗大肠癌的药物和/或用于制备益于平衡肠道菌群的功能性 食品、保健药等。

根据本发明的另一个实施方式提供的一种利用上述任一实施例中的大肠癌标志物确定 个体的状态的方法,该方法包括以下步骤(1)和(2):

(1)确定待测个体中的大肠癌标志物的丰度。

确定待测个体的粪便样本中的大肠癌标志物中的各种微生物的丰度。

根据本发明的实施例,进行以下以完成该步骤:获得所述个体的粪便样本中的核酸序 列的测序数据,所述测序数据包括多个读段;组装所述读段,获得基因集,所述基因集包 括多个组装片段,所述基因集中的组装片段为非冗余序列;确定所述大肠癌标志物中的各 种微生物包含的组装片段;依据所述测序数据,分别确定所述基因集中的各个组装片段的 丰度,其中包括,分别确定所述大肠癌标志物中的各种微生物包含的组装片段的丰度;分 别依据所述确定的组装片段的丰度,确定所述大肠癌标志物中的各种微生物的丰度。

所称的测序数据通过对样本中的核酸序列进行测序得来,测序依据所选的测序平台的 不同,可选择但不限于半导体测序技术平台比如PGM、IonProton、BGISEQ-100平台,边 合成边测序的技术平台比如Illumina公司的Hiseq、Miseq序列平台以及单分子实时测序平 台比如PacBio序列平台。测序方式可以选择单端测序,也可以选择双末端测序,获得的下 机数据是测读出来的片段,称为读段(reads)。

所称的组装可以利用已知序列组装方法或软件进行,例如利用SOAPdenovo、velvet等。

所称的确定大肠癌标志物中的各种微生物包含的组装片段,根据本发明的一个实施例, 是通过将基因集中的组装片段与微生物参考序列进行Blat比对,依据与某种微生物参考序 列的相似程度来判断组装片段是否来自该种微生物。所称参考序列指预先确定的序列,可 以是预先获得的待测样本所属或者所包含的生物类别的任意参考模板,例如,若目标是待 测样本中的微生物,参考序列可选择NCBI数据库中的各种微生物的参考基因组和/或HMP、 MetaHIT项目公开的DACC肠道基因组,进一步地,也可以预先配置包含更多参考序列的 资源库,例如依据待测样本来源的个体的状态、地域等因素选择或是测定组装出更接近的 序列作为参考序列。根据本发明的一个实施例,确定大肠癌标志物中的各种微生物包含的 组装片段包括:将所述基因集中的组装片段分别与所述各种微生物的参考序列进行比对, 确定与一种微生物的参考序列的相似性大于或者等于90%的组装片段来自该种微生物。更 严格地,确定与一种微生物的参考序列的相似性大于或者等于95%的组装片段来自该种微 生物。

根据本发明的一个实施例,所称依据测序数据,分别确定所述基因集中的各个组装片 段的丰度,包括:分别将所述测序数据中的读段比对到所述各个组装片段上,基于获得的 比对结果,利用以下公式确定组装片段的丰度:组装片段G的丰度 Ab(G)=Ab(UG)+Ab(MG),其中,Ab(UG)=UG/lG,UG为唯一比对上组装片段G的读段 数目,lG为组装片段G的长度,MG为非唯一比对上该组装片段G 的读段的数目,i表示非唯一比对上该组装片段G的读段的编号,Coi为非唯一比对上组装 片段G的读段Mi的丰度系数,N为非唯一比对上该组装片段G的读段 比对上的组装片段的总数目,j为非唯一比对上该组装片段G的读段比对上的组装片段的 编号,Uj为唯一比对上组装片段j的读段数目。

比对可以利用已知比对软件进行,例如SOAP、BWA和TeraMap等,在比对过程中, 一般对比对参数进行设置,设置一个或者一对读段(reads)最多允许有s个碱基错配 (mismatch),例如设置s≤2,若reads中有超过s个碱基发生错配,则视为该reads无法比 对到(比对上)该组装片段上。所称的获得的比对结果包含各条读段与各组装片段的比对 情况,包括读段是否能够比对上某一条或某些组装片段、只唯一比对到一条组装片段还是 比对到多条组装片段、比对到组装片段的位置、比对到组装片段的唯一位置还是多个位置 等信息。根据本发明的一个实施例,利用SOAPalign2.21进行比对,设置参数为–r2–m100 –x1000。reads与基因集比对,比对上的可以被分为两部分:a)唯一比对上一条组装片段 的读段,称这些读段为Uniquereads;b)比对上多个组装片段,称这些读段为Multiplereads (M)。对于给定的组装片段G,即基因集中的基因G,其丰度为Ab(G),与Uniquereads 和Multiplereads相关,上述公式中的Ab(U)和Ab(M)分别为该组装片段G的Uniquereads 和Multiplereads的丰度。每个multiplereads,有特有的基因丰度系数Co,假设一条multiple reads比对上N个组装片段,可以利用下列公式计算该条multiplereads的Co: 即对于这类multiplereads,把其所比对上的N个基因(即基因集中的组装 片段)的uniquereads的丰度之和作为分母。

根据本发明的一个实施例,所称的分别依据所述确定的组装片段的丰度,确定所述大 肠癌标志物中的各种微生物的丰度的步骤中,微生物的丰度为该种微生物包含的所有组装 片段的丰度的中位数或者平均数。

(2)丰度比较,以确定个体状态。

分别将(1)中确定的大肠癌标志物中的各种微生物的丰度与其在对照组中的丰度进行 比较,依据获得的比较结果确定所述个体的状态,所述对照组包括一组健康个体的粪便样 本和一组大肠癌患者的粪便样本组成,所述状态包括患有大肠癌状态和不患有大肠癌状态。 所称大肠癌标志物是发明人通过差异比较分析各种肠道微生物在大肠癌疾病组和健康组的 粪便样本中的丰度,以及经过大量已知状态的粪便样本的验证,而确定下来的。

根据本发明的实施例,该步骤(2)包括:当步骤(1)中确定的大肠癌标志物中的各 种微生物的丰度都落入预定区间时,确定所述个体的状态为患有大肠癌。某种微生物的预 定区间是通过比较该种微生物在对照组中的健康个体的粪便样本中的丰度和在对照组中的 大肠癌患者的粪便样本中的丰度的差异而确定的。

根据本发明的一个实施例,大肠癌标志物中的某种微生物在大肠癌患者组中的丰度的 预定置信区间和在健康个体组中的丰度的预定置信区间有交集,则确定该种微生物的预定 区间为二者的差集中的一部分。所称置信区间是指由样本统计量所构造的总体参数的估计 区间。在统计学中,一个概率样本的置信区间(Confidenceinterval)是对这个样本的某个 总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周 围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概 率”。这个概率被称为置信水平。根据本发明的实施例,所称预定置信区间都取95%置信区 间,则所述大肠癌标志物中的罕见小球菌属Subdoligranulum_4_3_54A2FAA的预定区间为 3.24E-07~1.82E-06,所述大肠癌标志物中的多形杆状菌Bacteroides的预定区间为2.06E-06 ~3.21E-06;而当所述大肠癌标志物中的微生物包括霍氏肠杆菌 Eubacterium_hallii_DSM_3353,所述霍氏肠杆菌Eubacterium_hallii_DSM_3353的预定区间 为2.24E-07~6.18E-07,当所述大肠癌标志物中的微生物包括梭菌Clostridium_SS2_1,所述 梭菌Clostridium_SS2_1的预定区间为5.28E-07~1.57E-06,当所述大肠癌标志物中的微生物 包括瘤胃球菌属Ruminococcus_5_1_39BFAA,所述瘤胃球菌属Ruminococcus_5_1_39BFAA 的预定区间为1.34E-06~3.46E-06,当所述大肠癌标志物中的微生物包括凸腹真杆菌 Eubacterium_ventriosum_ATCC_27560,所述凸腹真杆菌 Eubacterium_ventriosum_ATCC_27560的预定区间为1.42E-07~4.50E-07。需要说明的是, 根据目的或要求不同,可能对确定个体状态结果的可信程度有不同的要求,本领域技术人 员可以选择不同的显著性水平(α),即选择不同的可能犯错误的概率,如此,确定的个体 的状态的可信程度为1-α。例如,利用该实施例确定个体处于所确定出的状态95%是可靠的。

该方法基于检测个体的粪便样本中的大肠癌标志物中的各种微生物的丰度,分别将检 测确定的各种微生物的丰度与其在对照组中丰度进行比较,依据获得的比较结果能够确定 个体为大肠癌个体或者为健康个体的概率。为早期发现大肠癌提供一种非侵入性的辅助检 测或者辅助干预治疗的方法。

以上任一实施例中的利用大肠癌标志物确定个体的状态的方法的全部或部分步骤,可 以利用包含可拆分的相应单元功能模块的装置/系统来施行,或者将方法程序化、存储于机 器可读介质,利用机器运行该可读介质来实现。

根据本发明的一个实施方式提供的一种利用上述本发明任一实施例中的大肠癌标志物 确定个体的状态的装置,该装置用以实施上述本发明任一实施例中的利用大肠癌标志物确 定个体的状态的方法的全部或部分步骤,该装置包括:数据输入单元,用于输入数据;数 据输出单元,用于输出数据;处理器,用于执行可执行程序,执行所述可执行程序包括完 成上述本发明人一实施例中的确定个体的状态的方法;存储单元,与所述数据输入单元、 所述数据输出单元和所述处理器相连,用于存储数据,其中包括所述可执行程序。上述对 本发明任一实施例中的利用大肠癌标志物确定个体的状态的方法的技术特征和优点的描 述,同样适用本发明这一方面的装置,在此不再赘述。

根据本发明的另一个实施方式提供的一种利用上述本发明任一实施例的大肠癌标志物 对多个个体进行分类的方法,该方法包括:分别利用上述本发明任一实施例中的确定个体 的状态的方法确定各个个体的状态;依据获得的各个个体的状态对各个个体进行分类。该 方法能够依据个体的状态的不同区分开多个个体或者区分开多个未知的粪便样本,便于归 类、标记管理。另外,上述对本发明任一实施例中的利用大肠癌标志物确定个体的状态的 方法的技术特征和优点的描述,同样适用本发明这一方面的装置,在此不再赘述。

根据本发明的又一个实施方式提供的一种治疗大肠癌的药物,所述药物促使上述本发 明任一实施例中的大肠癌标志物中的罕见小球菌属Subdoligranulum_4_3_54A2FAA和多形 杆状菌Bacteroides的丰度降低,以及任选的,该药物促使所述大肠癌标志物中的其它微生 物的丰度增加。所称大肠癌标志物是发明人通过差异分析各种肠道微生物在大肠癌疾病组 和健康组的粪便样本中的丰度,以及经过大量已知状态的粪便样本的验证,而确定下来的。 比较在大肠癌组和在健康组中的丰度,所称大肠癌标志物在两个群体中的丰度具有显著差 异,所称显著差异是指所称大肠癌标志物中的各种微生物或组合在两个群体中的丰度的差 异具有统计意义或者具有明显地、实质性地差别。能够使大肠癌标志物中的罕见小球菌属 Subdoligranulum_4_3_54A2FAA和多形杆状菌Bacteroides的丰度降低的物质,和/或能够使 大肠癌标志物中的其它微生物丰度增加的物质,均能够用于治疗大肠癌或者益于大肠癌患 者服用,可以作为治疗大肠癌的药物。

利用这一实施方式的药物或者功能性食品,合理有效地应用确定的大肠癌微生物标志 物,扶持肠道有益菌的生长和/或抑制肠道潜在致病菌,可以阻止肠道屏障的缺损,改善并 恢复肠道微生态结构,对于辅助降低血内毒素水平和/或减轻大肠癌的临床症状具有重要意 义。

根据本发明的又一个实施方式,提供一种制备或筛选上述实施方式中的治疗大肠癌的 药物的方法,该方法包括制备或者筛选能够促使上述本发明任一实施例中的大肠癌标志物 中的罕见小球菌属Subdoligranulum_4_3_54A2FAA和多形杆状菌Bacteroides的丰度降低的 物质作为所述药物的步骤;以及任选的,该方法包括制备或者筛选所述大肠癌标志物中的 其它微生物的丰度增加的物质作为所述药物的步骤。

利用本发明这一方面的生产或筛选治疗大肠癌的药物的方法,通过合理有效地应用确 定的大肠癌生物标志物进行筛选,能够获得能扶持肠道有益菌的生长和/或抑制肠道潜在致 病菌的药物,可以阻止肠道屏障的缺损,改善并恢复肠道微生态结构,对于辅助降低血内 毒素水平和/或减轻大肠癌的临床症状具有重要意义。

以下结合具体实施例对本发明的方法和/或装置进行详细的描述。除另有交待,以下实 施例中涉及的未特别交待的试剂、序列(接头、标签和引物)、软件及仪器,都是常规市售 产品或者开源的,例如购买Illumina的转录组文库构建试剂盒。

实施例一

该示例中,发明人从53个大肠癌患者、42个结肠腺瘤患者以及61个健康个体的粪便 样品开展肠道菌群微生物的关联分析研究粪便微生物群落及功能成分特征。总的来说,下 载了上述对照组中各个样本的测序数据总共约1084.87Gb,构建了大肠癌参照基因集。定 量宏基因组分析显示在大量的病人及健康对照组中,14,993个基因呈现显著差异(fdr< 0.05)。大部分的基因可以归类为6个代表细菌物种的基因簇(MetagenomicSpecies,MGS), 其中大肠癌患者组中富集2个MGS,健康组中富集4个MGS。

1、对照组测序数据下载

大肠癌患者、结肠腺瘤患者和健康人粪便样本DNA的测序数据来源自EBI数据库, 数据编号:ERP005534(ZellerGetal.,2014),其中大肠癌患者53例、结肠腺瘤患者42 例和健康人61例,来自法国;大肠癌患者38例,健康人5例,来自德国。数据编号: ERA000116(Qinetal.,2010),其中健康人14例,来自西班牙。每个样本平均产生5Gb高 质量测序结果。

2、大肠癌生物标志物的确定与鉴定

参照图1的实验流程,确定鉴定大肠癌的相关微生物标志物。

2.1测序数据的基本处理

EBI原始数据已经经过质量控制和去宿主处理,但是在数据中存在很多短reads,从EBI 下载数据后,成对过滤原始数据中长度小于60nt的reads。

2.2获得大肠癌微生物组基因集

宏基因组生物标志物主体是基因和相对应的功能,因此需要对测序序列进行组装和基 因预测,去冗余,构建非冗余参考基因集。用SOAPdenovo软件将所有样品的reads组装成 contigs(组装片段)。最终,由总reads数的64.06%产生898万contigs,最小组装片段长度 为500bp。这些contigs总长18.8Gb,N50长度范围为1,253~18,741bp,平均长度为4,773bp。

为了预测这156个样本中每个样本的微生物基因,发明人采用MetaHIT人类肠道基因 组研究中的方法。利用MetaGeneMark程序预测到26,039,803个长度大于100bp的开放阅 读框(ORFs)。预测的ORFs总长为16,095,621,987bp,占contigs总长度的85.61%。通过 去除多余ORFs来建立所称的非冗余参考基因集,即CRC基因集,定义超过95%或者超过 90%匹配的短ORFs是相同ORF。最终的非冗余大肠癌肠道基因集包含6,585,575个ORFs, 平均长度609.70bp。

2.3基因丰度分析

利用SOAPalign2.21将经2.1步骤处理后的成对的paired-endreads比对(匹配)到2.2 中的非冗余参考基因集,比对参数为–r2–m100–x1000。比对上非冗余基因集的reads, 可以被分为两部分:a)Uniquereads(U):reads只与非冗余基因集中的一个基因比对上; 这些reads被定义为uniquereads。b)Multiplereads(M):如果reads比对上非冗余基因集中 的一个以上的基因,定义为multiplereads。

对于给定的基因G,其丰度为Ab(G),与Ureads和Mreads相关,丰度的计算方式如 下:

Ab(S)=Ab(U)+Ab(M)

Ab(U)=U/l

A b ( M ) = ( Σ i = 1 M C o * { M } ) / l , ]]>

Ab(U)和Ab(M)分别为该基因G的uniquereads和multiplereads的丰度,l表示基因G 的长度。每个multiplereads,有特有基因丰度系数Co;假设某一multiplereads比对上N 个基因,按以下方法计算该条multiplereads的Co:

C o = A b ( U ) Σ i = 1 N A b ( U ) , ]]>

即对于multiplereads,发明人把其所比对上的N个genes的uniquereads丰度之和作为 分母。

3、关联分析/筛选大肠癌物种标记物

将所有91个大肠癌患者样品与107个健康人样品(包括27个来自法国的结肠腺瘤较 小的患者)分成实验组与验证组。从两组中各抽取60个作为关联分析的实验组。其余的作 为验证组来验证实验组得到的结果。

为了研究正常人(60例)与大肠癌患者(60例)的肠道宏基因组学的相关性,在合并 后的基因集中做了一个相关性的研究。基于156个样本的基因集鉴定不同丰度的基因,通 过结合BenjaminiHochberg的多重检验的Wilcoxon秩和检验进行检验。使用阈值(fdr<0.05) 发现在健康组和大肠癌组之间的显著差异基因有7,059个。其中3,528个基因在大肠癌病人 中富集,3,531个基因在健康组中富集。

为了筛选大肠癌相关的微生物标记物,根据丰度将上述非冗余参考基因集中的基因进 行分组。一般的,同个个体中同一物种的基因丰度相似,而不同个体的同一物种基因差异 显著,所以同一物种的基因可以通过丰度有效聚类,聚类产生的簇表示宏基因组物种(MGS)。 为了从结构上整体分析大量的宏基因组数据,减少信息量进行分类描述,首先用所有个体 的基因丰度计算不同基因两两斯皮尔曼相关系数,将满足给定阈值的相关基因聚类(第一 次聚类),即将同一物种的基因归为一类,所称的给定阈值设定为rho>0.8,rho为斯皮尔曼 秩相关系数。

为了矫正上面第一次聚类的部分丢失,进行了第二次聚类分类,这次分类利用的是每 个第一聚类获得的簇中的相关性最好的前25个基因丰度的平均值。如果平均值之间的斯皮 尔曼秩相关系数大于0.9,就将这两个组的基因合并。

上面过程用的分别是大肠癌患者3,528个基因以及健康人群3,531个基因。健康人群 3,531个基因中的818个基因第一次聚类8个簇,每个簇包含26-299个基因,第二次聚类 形成4个簇,每个簇包含64-299个基因。大肠癌患者3,528个基因中的218个基因第一次 聚类形成5个簇,每个簇包含33到51个基因,第二次聚类获得2个簇,每个簇包含86到 132个基因,如图2所示。

为了证明一个簇中的基因属于同一基因组,即来自相同物种且与MGS分类注释一致, 利用6006个已知微生物基因组作为参考序列对各簇中的基因进行blat分析,已知微生物基 因组来自第三版的NCBI中的有效参考基因组和HMP、MetaHIT的DACC肠道基因组。一 个簇中,当blat后有大于90%的基因比对到某个基因组上,且各基因比对上的部分占其长 度的90%或以上,且相似度达到95%时,将该簇(MGS)分配到基因组。由此,健康人组 的4个MGS和大肠癌患者组的2个MGS被归类到菌株水平,如表1所示,表中的前四个 为健康组的4个MGS,后两个为大肠癌患者组的两个MGS。标记基因注释验证了聚类质 量,适用于整个MGS中的基因。

表1物种标记物

7,059个显著差异基因部分聚类成6个MGS。其中4个MGS包含健康人的818个基 因,2个MGS包含大肠癌患者的218个基因。健康人组与大肠癌患者组的6个MGS的丰 度存在统计意义上的显著差异,如表2所示,各MGS的丰度为其所包含的所有基因的丰度 的平均值。

从表2可看出,CRC_1、CRC_2和H_4在健康个体组和在大肠癌个体组中的丰度的 95%置信区间有交集,在利用的标志物包含这三者全部或者一部分进行个体状态确定时, 去掉这三种微生物的两组人群中的丰度的95%置信区间的交集部分来获得根据它们的丰度 进行比较判断的预定区间,CRC_1即罕见小球菌属Subdoligranulum_4_3_54A2FAA的预定 区间为3.24E-07~1.82E-06,CRC_2即多形杆状菌Bacteroides的预定区间为2.06E-06~ 3.21E-06;当利用的大肠癌标志物中的微生物包括H_4即凸腹真杆菌 Eubacterium_ventriosum_ATCC_27560,凸腹真杆菌Eubacterium_ventriosum_ATCC_27560 的预定区间为1.42E-07~4.50E-07。而由于其它确定的微生物在两组人群中的丰度的95% 置信区间没有交叉,利用它们进行个体状态判断时,它们的用于丰度比较的预定区间为其 各自的在大肠癌患者组中的丰度的95%置信区间,即当利用的微生物标志物包括霍氏肠杆 菌Eubacterium_hallii_DSM_3353时,霍氏肠杆菌Eubacterium_hallii_DSM_3353的预定区间 为2.24E-07~6.18E-07,当大肠癌标志物中的微生物包括梭菌Clostridium_SS2_1,梭菌 Clostridium_SS2_1的预定区间为5.28E-07~1.57E-06,当大肠癌标志物中的微生物包括瘤胃 球菌属Ruminococcus_5_1_39BFAA,瘤胃球菌属Ruminococcus_5_1_39BFAA的预定区间为 1.34E-06~3.46E-06。

表2

实施例2

为了验证实施例1确定出的物种标记物能够作为大肠癌标志物,利用剩余的47个健康 人及31个大肠癌患者的MGS丰度来验证。其中,基因丰度以及物种(MGS)的丰度的确 定参照上面实施例的步骤进行。

验证结果如图3所示。取显著性水平α=0.05,实施例1确定的4个显著富集在健康人 群中的标志物,在验证组中的健康组和疾病组的丰度的差异具有显著性(P<0.05),如表3 所示。Eubacteriumhallii为霍氏肠杆菌,报道称白蚁肠道霍氏肠杆菌对木质素有分解作用。 Ruminococcus为瘤胃球菌属。Clostridium为梭菌属,Eubacterium为真杆菌属。

取显著性水平α=0.1,实施例1确定的4个显著富集在健康人群中的标志物以及实施例 1确定的显著富集在大肠癌组的两个标记物中的CRC_1,在该验证组中的丰度的差异具有 显著性(P<0.1)。CRC_1,即Subdoligranulum_4_3_54A2FAA,为罕见小球菌属。CRC_2, 即Bacteroides,为多形杆状菌。

表3

MGS Taxonomic assignment P H_1 Eubacterium_hallii_DSM_3353 0.047 H_2 Clostridium 0.00717 H_3 Ruminococcus_5_1_39BFAA 0.00152 H_4 Eubacterium_ventriosum_ATCC_27560 0.0133

实施例3

为了进一步验证实施例1确定出的物种标记物是否能够作为大肠癌标志物,获取54个 大肠癌患者的粪便样本和66个健康个体的粪便样本。粪便样本中的DNA的提取、测序数 据的获得依据购买的市售DNA提取试剂盒的说明书以及所选用的测序平台的建库和上机 说明进行。基因丰度以及物种丰度的确定参照上面实施例进行。

实施例1中的六种微生物标记物在两组人群粪便样本中的丰度的差异均具有统计意义 (P<0.1),具体结果未示出。

实施例4

利用54个粪便样本进行样本来源的个体状态的检测。

参照实施例2或实施例3的方法确定各粪便样本中的CRC_1和CRC_2的丰度,即确定 样本中的罕见小球菌属Subdoligranulum_4_3_54A2FAA和多形杆状菌Bacteroides的丰度, 比较各样本的罕见小球菌属Subdoligranulum_4_3_54A2FAA和多形杆状菌Bacteroides的丰 度是否落入实施例2确定出的疾病组或者健康组的CRC_1和CRC_1的预定区间,判定两物 种的丰度均落入疾病组的对应区间的样本所对应的个体的状态为大肠癌患者,或者判定两 物种的丰度均落入健康组的对应区间的样本所对应的个体的状态为非大肠癌患者。

能对其中的46个样本进行个体状态判断,而且检测结果显示,对46个样本中的40个 样本对应个体的状态的判断,与记录的该样本来源个体的状态一致。

另外,发明人还进一步结合实施例1确定出的另外4种微生物中的任意一种、两种、 三种或者全部四种、三种组合以及四种进行组合,作为标志物对大量大肠癌患者的粪便样 本进行状态验证检测,其中利用该示例的方法能判定出状态的与记录的状态90%以上一致。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具 体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材 料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意 性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点 可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离 本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发 明的范围由权利要求及其等同物限定。

大肠癌标志物及其应用.pdf_第1页
第1页 / 共20页
大肠癌标志物及其应用.pdf_第2页
第2页 / 共20页
大肠癌标志物及其应用.pdf_第3页
第3页 / 共20页
点击查看更多>>
资源描述

《大肠癌标志物及其应用.pdf》由会员分享,可在线阅读,更多相关《大肠癌标志物及其应用.pdf(20页珍藏版)》请在专利查询网上搜索。

本发明公开了一种大肠癌标志物,包括以下微生物:罕见小球菌属Subdoligranulum_4_3_54A2FAA和多形杆状菌Bacteroides。本发明还公开一种利用大肠癌标志物确定个体状态的方法及装置。相较于健康个体群体,所称的大肠癌标志物在大肠癌患者群体中显著富集,能够作为健康群体和大肠癌患者群体的区分标志。。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 >


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1