肝硬化的生物标志物及其应用.pdf

上传人:le****a 文档编号:5171750 上传时间:2018-12-22 格式:PDF 页数:26 大小:952.72KB
返回 下载 相关 举报
摘要
申请专利号:

CN201410333927.7

申请日:

2014.07.15

公开号:

CN104195145A

公开日:

2014.12.10

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):C12N 15/31申请日:20140715|||公开

IPC分类号:

C12N15/31; C12Q1/68; A61K45/00; A61P1/16

主分类号:

C12N15/31

申请人:

浙江大学

发明人:

李兰娟; 秦楠

地址:

310027 浙江省杭州市西湖区浙大路38号

优先权:

专利代理机构:

杭州求是专利事务所有限公司 33200

代理人:

林松海

PDF下载: PDF下载
内容摘要

本发明公开了肝硬化的生物标志物及其应用。从98个肝硬化患者、83个健康对照的粪便样品开展整个肠道菌群微生物的关联分析研究描述粪便微生物群落及功能成分特征。15个基因构成生物标志物作为一个高精确的区分病人的指数。在另外独立群体中对发现进行检验,证实了其准确性,确认了检测菌群和肝硬化之间的关联鲁棒性。生物标志物选自如下一组15种基因中的至少10种。15种基因在肝硬化患者的肠道菌群中得到了富集。治疗肝硬化的药物,促进或者增加所述的基因的数量或者表达。一种生产或筛选药物的方法,所述药物促进或者增加所述的生物标志物的数量或者表达。一种检测肝硬化、监测治疗进程,或者生产、筛选药物的试剂盒,用于检测所述的生物标志物。

权利要求书

权利要求书
1.  一种生物标志物,其特征在于,包括
(a)选自如下一组15种基因中的至少10种:MH0008_gene_7932(SEQ ID NO: 1)、L38_gene_38350 (SEQ ID NO: 2)、NLM003_gene_35418(SEQ ID NO: 3)、H16_gene_75905(SEQ ID NO: 4)、H50_gene_73395(SEQ ID NO: 5)、NLF009_gene_80134(SEQ ID NO: 6)、MH0085_gene_62624(SEQ ID NO: 7)、DOM014_gene_22875(SEQ ID NO: 8)、L106_gene_52730(SEQ ID NO: 9)、H67_gene_32100(SEQ ID NO: 10)、L74_gene_31448(SEQ ID NO: 11)、DOF013_gene_35560(SEQ ID NO: 12)、H55_gene_127852(SEQ ID NO: 13)、NOF008_gene_3070(SEQ ID NO: 14)、DOM016_gene_86198(SEQ ID NO: 15);所述的15种基因在肝硬化患者的肠道菌群中得到了富集;和/或
(b) 所述至少10种基因的同源或者互补序列;和/或
(c) 所述至少10种基因的产物。

2.  根据权利要求1所述的生物标志物,其特征在于,它为所述的15种基因。

3.  一种治疗肝硬化的药物,其特征在于,所述药物促进或者增加如权利要求1中所述的基因的数量或者表达。

4.  一种生产或筛选药物的方法,其特征在于,所述药物促进或者增加如权利要求1中所述的生物标志物的数量或者表达。

5.  根据权利要求4所述的方法,其特征在于,所述的药物治疗或干预前,检测对象肠道菌群中是否富集有如权利要求1或2中所述的生物标志物。

6.  根据权利要求5所述的方法,其特征在于,所述的检测步骤包括:
a、从对象粪便中提取DNA样本;
b、针对DNA样本构建测序文库;
c、对测序文库进行高通量测序,获得测序结果;
d、根据测序结果,确定所述对象的肠道菌群中是否存在所述的生物标志物。

7.  根据权利要求6所述的方法,其特征在于,所述的步骤d中进一步包括:针对肠道菌群中的生物标志物的相对丰度进行检测,通过所得到的相对丰度值与预定的cutoff值进行比较。

8.  一种检测肝硬化、监测治疗进程,或者生产、筛选药物的试剂盒,其特征在于,用于检测如权利要求1中所述的生物标志物。

说明书

说明书肝硬化的生物标志物及其应用
技术领域
本发明涉及基因工程和生物医药领域,具体涉及肝硬化的生物标志物及其应用。
背景技术
肝硬化(Liver cirrhosis)是临床常见的慢性进行性肝病,由一种或多种病因长期或反复作用形成的弥漫性肝损害。肝硬化是许多肝脏疾病的晚期病变,是由病毒性肝炎、酒精中毒、营养障碍、胆汁淤积、血吸虫病、循环障碍等各种原因所致,其特点是肝细胞变性和坏死。早期肝硬化通过及时防治可以逆转或不再进展,而晚期将不可逆转,严重影响患者的生活质量,甚至危及生命。
在中国最常见的病因是病毒性肝炎,主要是乙型病毒性肝炎,其次为丙型肝炎。而自发性腹膜炎、肝腹水、肝肾综合征、肝性脑病、食道静脉曲张、出血、原发性肝癌等这些肝硬化并发症的危害也是有目共睹的。面对现代如此多的治疗手段,却有很大一部分肝硬化患者依旧痛苦不堪,每日仍遭受着肉体上的折磨、心理上的恐惧以及精神上的摧残。
肝硬化患者由于门脉高压,肝脏功能障碍致胆汁分泌异常,解毒能力下降,宿主抵抗力降低等因素,导致肠道屏蔽功能破坏,微生物环境发生改变,肠道菌群失调。然而,与肝硬化进程相关的肠道微生物的系统发育及功能成分的变化还不清楚。尽管有些研究(Garcia et al2004,Wiest et al2012,Bass et al2010)表明肠道微生物的改变在末期肝硬化并发症中起重要作用(如自发细菌腹膜炎及肝性脑病),以及诱导早期肝脏疾病及促进肝损伤作用(如酒精性肝病及非酒精性脂肪肝病),肠道菌群与人肝脏病理之间的明确关联仍未知。有研究(Yi JH et al1999,Paik YH et al2003)表明可能是由于患者肠道细菌过度繁殖并产生内毒素,抑制肠上皮细胞蛋白质合成,小肠微绒毛出现形态学的改变,肠细胞质膜异常,细胞支架组织结构发生改变,肠刷状缘载体位置或细胞骨架上载体锚定点改变,导致氨基酸和碳水化合物在通过空肠刷状缘薄膜的运输过程缺陷,然而其具体机制有待于进一步的研究。
肝硬化及酒精性肝病患者通过16S rRNA测序研究揭示了一个肠道微生物中的类似实质性的改变(Chen Y et al2011,Yan A W.et al2011)。肠道微生物中系统发育机制怎样发生改变尚不清晰。
发明内容
为了克服现有技术的不足,本发明的目的是提供肝硬化的生物标志物(基因标记物)及其应用。
一种生物标志物,
(a)选自如下一组15种基因中的至少10种:MH0008_gene_7932(SEQ ID NO:1)、L38_gene_38350(SEQ ID NO:2)、NLM003_gene_35418(SEQ ID NO:3)、H16_gene_75905(SEQ ID NO:4)、H50_gene_73395(SEQ ID NO:5)、NLF009_gene_80134(SEQ ID NO:6)、MH0085_gene_62624(SEQ ID NO:7)、DOM014_gene_22875(SEQ ID NO:8)、L106_gene_52730(SEQ ID NO:9)、H67_gene_32100(SEQ ID NO:10)、L74_gene_31448(SEQ ID NO:11)、DOF013_gene_35560(SEQ ID NO:12)、H55_gene_127852(SEQ ID NO:13)、NOF008_gene_3070(SEQ ID NO:14)、DOM016_gene_86198(SEQ ID NO:15);所述的15种基因在肝硬化患者的肠道菌群中得到了富集;和/或
(b)所述至少10种基因的同源或者互补序列;和/或
(c)所述至少10种基因的产物。
优选的为所述的15种基因。
一种治疗肝硬化的药物,所述药物促进或者增加所述的基因的数量或者表达。
一种生产或筛选药物的方法,所述药物促进或者增加所述的生物标志物的数量或者表达。
所述的药物治疗或干预前,检测对象肠道菌群中是否富集有所述的生物标志物。
所述的检测步骤包括:
a、从对象粪便中提取DNA样本;
b、针对DNA样本构建测序文库;
c、对测序文库进行高通量测序,获得测序结果;
d、根据测序结果,确定所述对象的肠道菌群中是否存在所述的生物标志物。
所述的步骤d中进一步包括,针对肠道菌群中的生物标志物的相对丰度进行检测,通过所得到的相对丰度值与预定的cutoff值进行比较。
一种检测肝硬化、监测治疗进程,或者生产、筛选药物的试剂盒,用于检测所述的生物标志物。
本发明的有益效果:
根据本发明的肝硬化的基因标记物(生物标志物)可以有效监测肝硬化的易感人群(包括家族遗传和外来因素引起)或者发现早期患者,以及监控肝硬化的治疗效果。另外,该生物标志物可用于生产诊断试剂盒及治疗药物等。
附图说明
图1为实验分析流程图;
图2a、2b分别为LC基因集与T2D,MetaHIT,MetaHIT,HMP基因集的比较结果示意图;
图3为健康组和肝硬化组的生物标志物的PCA分析结果;
图4为标记基因在肝硬化组和T2D组的P值比较结果;
图5为生物标志物的最优数值分析结果。
具体实施方式
本发明的实施第一阶段为发现阶段:98个肝硬化患者及83个健康对照组的肠道微生物成分及功能改变阶段;第二阶段为验证阶段:25个肝硬化患者及31个健康对照组验证第一阶段结果的准确性。
实施例1:样本收集和DNA提取
肝硬化患者来自杭州浙江大学第一附属医院,匹配健康对照组是志愿者,实验共采集了181例粪便样品,98个中国肝硬化患者的粪便样品及83个健康中国人的粪便样品,其中每个个体的新鲜粪便样品分成200mg/份,共5份,立即-80℃冰箱冷冻保存。
98个中国肝硬化患者的粪便样品及83个健康中国人的粪便样品中提取总DNA。苯酚三氯甲烷处理提取DNA方法提取DNA。
实施例2:构建文库及测序
DNA建库按仪器制造商(Illumina)的操作指南进行。对文库进行PE2*100bp测序。Illumina HiSeq2000(Illumina,San Diego,CA)平台对181个样品的文库进行测序。每个样本平均产生4.74Gb(sd.±2.04Gb)高质量测序结果,总计858Gb测序数据量。
参照图1的实验流程,鉴定肝硬化的相关生物标志物,其中,其中省略的步骤或者细节为本领域技术人员所熟知,几个重要步骤介绍如下面几个实施例所述。
实施例3:生物标志物的鉴定
3.1测序数据的基本处理
获得第一期的181个样品的测序数据以后,对其进行过滤,质控按以下标准进行:a)移除大于3个N碱基的reads;b)去除低质量(Q20)的N50reads;c)移除超过10个低质量(Q2)的碱基或指定尾部N碱基数。丢失成对reads的序列被认为是单条reads用于组装。
3.2获得一套肝硬化微生物组基因集
宏基因组生物标志物主体是基因和相对应的功能,因此需要对测序序列进行组装和基因预测,去冗余,构建非冗余参考基因集。用SOAPdenovo软件将所有样品reads组装成contigs。将样本的未组装reads合并进行de novo组装。终由总reads数的61.68%产生440万contigs(最小片段长度为500bp)。这些contigs总长11.1Gb,N50长度范围为1,673~48,822bp,平均长度为8,644bp。
为了预测181个样本的每个样本微生物基因,我们采用MetaHIT人类肠道基因组研究中的方法。MetaGene程序从预测到13,371,697个长度大于100bp的开放阅读框(ORFs)。预测的ORFs总长为9,495,923,532bp,占contigs总长度的90.28%。在ORFs中,1,047,855(54.6%)是完整的基因,869,808(45.4%)是不完整的。通过去除多余ORFs来建立非冗余“LC基因集”,定义为配对后超过95%与90%配对的短ORFs一致。最终的非冗余肝硬化肠道基因集包含2,668,468个ORFs,平均长度750bp,42%的reads可比对到基因库。
将我们的LC基因集与3个其他肠道微生物基因集对比,MetaHIT,HMP和T2D。比对时所有基因预测使用相同的标准。MetaHIT库包含3,452,726个基因,HMP含4,768,112个基因,T2D含2,148,029个基因。四个基因集的有674,131共有基因。LC、MetaHIT、HMP、T2D基因集分别包含794,647、1,429,517、2,620,096、623,570个unique基因。
来自LC、T2D、MetaHIT基因库的基因与非冗余基因集合并,随后进行分析。不包含HMP肠道基因集,因为它包含sanger、454或Illumina16S序列,除了整个宏基因组数据,它由对照组健康人群产生,而非患者。如图2a、2b所示库含5,382,817个基因,其中797,690个为其他三个基因库共有。LC基因集中的基因有63.9%存在于其他一个或两个基因集中,37.1%是unique基因。如图4所示,中国人基因在LC基因集和T2D基因集中存在极大的差异。
3.3生物丰度分析
SOAPalign2.21用于匹配针对冗余基因组的paired-end clean reads,参数为–r2–m200–x1000。Reads与冗余基因组比对,可能被分为两部分:a)Unique reads(U):reads只与一个基因组比对;这些基因被定义为unique reads。b)Multiple reads(M):如果这些基因组来着同一物种,reads与一个以上的基因组比对;我们将这些reads定义为unique reads。如果来着不同物种,我们定义为multiple reads。
对于物种S,如果丰度为Ab(S),可能与U特有reads和M共享reads相关,评估方式如下:
Ab(S)=Ab(U)+Ab(M)
Ab(U)=U/l
Ab(M)=(Σi=1MCo*{M})/l]]>
Ab(U)和Ab(M)分别为unique和multiple的丰度,l表示基因组长度。每个multiple reads,有特异物种系数Co;使我们假设{M}在不同物种中有相关N,然后按以下方法计算CO:
Co=UΣi=1NAb(U)]]>
对于这些reads,我们加N的unique丰度作为标准。
3.4基因丰度分析
当末端基因能对其在同一个基因上计算基因的丰度。如果一个基因上配对末端只有一个read可以对齐,通过检查将先前未对齐的翻译区域或不读取read与组装序列进行匹配。如果为匹配上了将读取的基因数进行验证,如果没有,那么就忽略。
当计算基因的丰度,我们使用生物的丰度分析相同的策略。对于给定的基因G,其丰度为Ab(G),可能与U独有reads和M共享reads相关,评估方式如下:
Ab(S)=Ab(U)+Ab(M)
Ab(U)=U/l
Ab(M)=(Σi=1MCo*{M})/l]]>
Ab(U)和Ab(M)分别为unique和multiple的丰度,l表示基因组长度。每个multiple reads,有特有物种系数Co;使我们假设{M}在不同物种中有相关N,然后按以下方法计算CO:
Co=UΣi=1NAb(U)]]>
对于这些reads,我们加N的unique丰度作为标准。
3.5基因丰度相关性分析
为了研究正常人(83例)与肝硬化患者(98例)的肠道宏基因组学的相关性,我们在合并后的基因集中做了一个相关性的研究。基于181个样本的基因集上鉴定不同丰度的基因,通过结合Benjamini Hochberg的多重检验的Wilcoxon秩和检验进行检验。使用一个非常严格的阈值(fdr<0.0001)发现在健康组和肝硬化组之间的显著差异基因有75245个。采用中位数检验发现其中49830个基因在肝硬化病人中更富集,25415个基因在健康组富集。在这75245个基因基础上做PCA分析,图3显示在健康组和肝硬化组之间有显著差异。
3.6基因标记物的确定
对于181个样本,我们采用模型认知技术来探究肠道菌群的信息是否能鉴定病人的可能性。考虑到计算能力,我们选择富集在肝硬化组的23000个基因作为生物标志物候选群,在健康组选择相同的基因数。在46000个基因中,通过最大相关最小冗余(mRMR)方法结合增量特征研究如图5所示,获得Matthews相关系数值最高的15个最优生物标志物(表1所示)。采用带有核函数的SVM分类器对181个样本和15个生物标志物进行测试,同时采用交叉验证AUC分别达到0.918和0.838。
表115个基因标志物

实施例4生物标志物的预测肝硬化功能分析
在新增的31个健康控制组和25个肝硬化患者样本DNA提取和测序按照实施1、实施例2和实施例3中同样进行操作分析,最后分析样本显示AUC达到0.836,确认了肠道菌群的信息可以应用到准确识别潜在的病人。
为了便于15个最优基因标记物的临床应用,提出区别病人的指标(PDI)概念。群体中 病人的比率的高相关性值给予初步指示用来辨别病人是否有肝硬化。PDI的辨别能力在独立验证小组实验验证。在健康组和病人组的平均PDI指标有显著差别(p<8.18e-05,Wilcoxon秩和检验),从而确定能够利用肠道微生物菌群的信息鉴定肝硬化患者。
利用上述物种标记物来诊断、治疗肝硬化患者,监测治疗进程,或者生产筛选药物,生产检测上述物种标记物的试剂盒以及装置等为本领域技术人员所知悉,皆在本发明的保护范围之内。物种标志物可以选自肝硬化患者富集的物种标记物或者健康人群中富集的物种标记物中的一种或者多种。
                         SEQUENCE LISTING
 
<110>  浙江大学(Zhejiang University)
 
<120>  肝硬化的生物标志物及其应用
 
<160>  15   
 
<170>  PatentIn version 3.5
 
<210>  1
<211>  1194
<212>  DNA
<213>  Klebsiella pneumoniae
 
<400>  1
gtggaaaggt ttgatgccat tgtcgttggc gccggagcgg cgggaatgtt ttgcgcagcg       60
 
caggcgggcc agcttggctg ccgcgtcctg ctgctggata acggcaaaaa gccggggcga      120
 
aaaattctga tgtccggcgg cggccgctgc aactttacca acatgtatgt tgaaccggcg      180
 
gcctatttga gccaaaaccc gcatttttgc aaatctgccc tggcgcgcta cacccagtgg      240
 
gactttatcg agctggtcgg caaatatggc atcgcctggc atgagaagac cctcggccag      300
 
ctgttttgcg atgattcggc ggagcagatc gtcaatctgc tgctcgcgga atgtgaaaag      360
 
ggcggcgtgc agatccgtct gcgcagcgaa atcctcagcg tggagagcga tgaacaaggc      420
 
taccggctac aggtgaacgg cgaaacgctg atgaccaaaa agctggtgat cgcctccggc      480
 
ggtctgtcga tgccggggct cggcgcctcg ccgtttggct ataaagtcgc cgagcagttc      540
 
ggcctgaagg tgctgccgac ccgcgcggga ctggtgccgt ttaccctcca caagccattg      600
 
cttgagcagc tgcaggtcct ctccggcgtg tcggtgccgt cgaccattac cgccgagaac      660
 
ggcactctgt ttcgcgaaaa tctgctgttc acccaccgcg gcctttccgg accggcggtg      720
 
ctgcaaattt ccagctactg gcagcccggc gagttcgtca ccgttaatct gctaccggac      780
 
tgcgatcttg atgacttcct taacgagcag cgcagcgcgc atcccaacca gagcctgaag      840
 
aacaccctgg cgatgcagct gccgaagcgg ctggtggagt gtctgcagca gctggggcag      900
 
atacctgatg tgacgctcaa gcaactgaac gttcgcgatc agcagacgct ggtggagacg      960
 
ttaaccgcct ggcgcgtgca gccgaacggc accgaaggct accggacggc ggaggtgacc     1020
 
ctcggcggcg tggacaccaa cgaactctcg tcgcgtacca tggaggcgcg taaggcgccg     1080
 
ggtctctact ttatcggcga agtgatggac gttaccggct ggctcggggg gtataacttc     1140
 
cagtgggcgt ggtcaagcgc ctgggcctgc gcgcaggcgc tggtggaagg gtaa           1194
 
 
<210>  2
<211>  963
<212>  DNA
<213>  Klebsiella pneumoniae
 
<400>  2
gtgaaagacc atactatccc tttaacgcta atttctatcc ttgctgatgg cgagtttcac       60
 
tctggcgaac agcttggtga gcagttaggc atgagccggg cggcgattaa taagcacatc      120
 
cagaccttac gtgactgggg cgtcgatgtg tttactgtgc cgggcaaggg ttacagcctg      180
 
ccggagccta ttcatctatt agatgagaaa aagatttctc aagagataga ccatggtcga      240
 
gtgacggtcc ttcccgtcat cgactctact aaccagtatt tgctggacag gcttgatgag      300
 
ctgacgtccg gagatgcctg tgtggctgaa tatcagcaag cagggcgagg ccggcgaggc      360
 
agaaaatggt tttcgccctt tggcgcgaat ctctatctct cgatgtactg gcgtctggag      420
 
cagggcccgg cagcggctat tggcctaagc ctggtgatcg gtattgtgat cgctgaagtt      480
 
ctgcagcagc tcggggccga acaggttcgc gtgaaatggc caaacgatat ttacctgcag      540
 
gatcgtaagc tgtcagggat cctcgtggaa ctgacgggga aaacgggcga tgccgcacaa      600
 
atcgtcagcg gcgcgggtat caaccttgtg atgcgtcgcg tggagtctga tgtcgtcaat      660
 
caggggtgga tcagccttca ggaagcgggg gtggtcatcg accgtaacct cctcgccgcg      720
 
cgcctgatta aagagctgcg cctgggactg gagctgttcg agcaggaagg attggctccc      780
 
tatctaccgc gctgggaaaa actggataac tttattcatc gcccggtgaa actgattatc      840
 
ggtgataaag aaatttacgg catttcgcgt ggcattgacg cccagggcgc actattgctg      900
 
gagcaggatg gtgtaataaa agcctgggtg ggtggtgaaa tatcattgcg cagtgcagaa      960
 
taa                                                                    963
 
 
<210>  3
<211>  597
<212>  DNA
<213>  Bacteroides fragilis
 
<400>  3
gttctgatag gacttggcat ttctgccggc ctgctctctc cgaactatgt gttcgctacg       60
 
tctttagaga cttatgagaa ccagtctgta gctgctgttc agcaagcaag gaagattacc      120
 
ggtacactga ccgatgctgt cggtgaacct attattggtg ctactgtttt agaaaaagga      180
 
aacccttcca atggtacgat taccgatatc aatggtaaat tctctctttc ggtccatcct      240
 
aatgctgtga tcagtatttc gtatatagga tacataacac aaaatattaa gataactaat      300
 
caaacctcac tgaaagtggt tatgatggat gatacccagg cgctggaaga agtagtggta      360
 
gtaggttatg gttcgcagaa gaaagcgaat ctgaccggag ccgtatcttc tgtgaaaatg      420
 
gatgaggtac tgggtgaccg tcctattttg aatgcatctg atgctcttca ggagccgtgc      480
 
cgggactgtt tgtatctaat ggaggtaatg ctcccggaac cagcaagtcg ttccagattc      540
 
gtggagccta ttcggtgggt gtcaagaact cggacggttc atacggaaac acattaa         597
 
 
<210>  4
<211>  801
<212>  DNA
<213>  Oscillibacter sp
 
<400>  4
atgaagattt atgtttgtgt caagcaggta cccgatacct ccggcaaggt ggctgtcaat       60
 
cccgatggta ctctgaaccg tgcttccatg cagaccatca ccaaccccga tgatatgaac      120
 
gctgttgagg ccgccctgaa gctgaaggac gccaccggct gcaaggtcac cgttgtcacc      180
 
atgggccccc ctcccgctgc cggtatgctg cgtgagctga tggccatggg cgctgacgag      240
 
ggcgtgctgg tttccgcccg tgagttcggc ggttccgata cctacgctac ctcccagatc      300
 
ctggccgccg ctctgagcac cctgggtgtt gagaaggacg atatcgtgat gtgcggccgt      360
 
caggctatcg atggcgatac cgctcaggtc ggtccccaga tcgctgagaa gctgcacctg      420
 
ccccaggtca cctatgccgc cgacatcaag aaggacggcg acaccatcac tgtccagcgc      480
 
atgctggagg atggctacat gaccatcaag gtccagactc cctgcctgct gacctgcatc      540
 
aaggagctga acaacccccg ctatatgtcc atcggcggca tcctgtctac ctacagcaag      600
 
cccctgacca ctctgggcta tgaggacctg aaggatcatc ccctgatcga cgctaccacc      660
 
atcggcctga agggctctcc caccaacatc ttcaagagct tcacgcctcc tcagaagggc      720
 
gtcggcatga tgctggaggg cgacggtaag gaaacctgcg agaagctggc cggtattctg      780
 
gccgctaagc acatcatcta a                                                801
 
 
<210>  5
<211>  543
<212>  DNA
<213>  Firmicutes bacterium
 
<400>  5
atgatcgaag aaatgctggc atataaccgc gaattcgtcc ggtccaaggg ctatgaaaag       60
 
ttccagacca gtaagttccc agacaagaaa atcgccatcc tcacctgcat ggatacccgt      120
 
ctggtggagt tgctccccgc agcgctgggc atccgcaacg gtgatgtgaa gctgatcaaa      180
 
aacgccggcg gcatgatcac cggccccttt gacagtgccg tgcgcagcct gctggtgggc      240
 
atcatcgagc tgggcgtgga ggaggtcatg gtcatcggcc acacggactg cggcgtagcc      300
 
cacatcaatg ccgacatgat gatccgccac ctgatccagc ggggcgtttc tcaggaccat      360
 
atcgacatga tgcgctactg cggcattgac tttgaggcgt ggctccgagg cttcgactgc      420
 
gtggagaact ccgtggcgga gaccgtggac ctgctgcgca accatcccct tatgcccgcc      480
 
gatgtcacca tccgaggcta cgtcatcaac accgaaaccg gcgagttggc cccgcaggag      540
 
taa                                                                    543
 
 
<210>  6
<211>  249
<212>  DNA
<213>  Bacteroides
 
<400>  6
atgaaccaaa gaaaagaaga agacacaacc gaagccgatt tcatcatccg ctcgtacacc       60
 
aaagccgaac ttgcacagct ttactgcccg ggactcgacc ccgtgctcgc cctgcagaaa      120
 
ctctaccgct ggatgcgtaa aaacaccgcc ctgacacagg cactgtccga tgtcaattac      180
 
aacaaatacc gccacagctt ccttaaacgg gaagtccggc tgatcgtgta ttacctggga      240
 
gaaccttga                                                              249
 
 
<210>  7
<211>  414
<212>  DNA
<213>  Bacteroides
 
<400>  7
atgtcaacct atgcaccttt tgccaaaccg ctctatgtaa tgctgaaacc ggtaggtgcg       60
 
gtatgcaatc tggcatgcga ttattgctat tatctggaga aatccaaact atatagagac      120
 
aaccccaagc atgtgatgag cgaggaactg ctggaaaagt tcatcgagga gtacatcaac      180
 
tcgcagacca tgccccaggt tctgttcacc tggcatggcg gagagacgct gatgcgtccg      240
 
ctctctttct acaaacgtgc catggagctg caaaggaaat atgccaacgg acgcaccata      300
 
gacaactgca tacagaccaa cggcacgttg ctgaccgatg aatggtgccg ggttttcaaa      360
 
gaaaacaact ggctgggtgg gtgtctccat agacgggcct caggagttcc atga            414
 
 
<210>  8
<211>  639
<212>  DNA
<213>  Oscillospiraceae
 
<400>  8
gaggcccagg acccggataa ggatattcag ctttatatca acagccccgg cggctccgtg       60
 
acggacggca tggccatcta cgataccatg cagtacgtca agtgcgacgt gtctaccatc      120
 
tgcgtgggca tggctgcgtc catgggagct ttcctgttgt cctccggcgc caagggtaag      180
 
cggatcgcgc tgcccaacgc cgaaattatg atccaccagc cctccgcagg tacgcagggc      240
 
aaggtcacgg acatggagat cgacgtggag cacttcctgc ggatcaagaa gaacctgaat      300
 
gagatcctgg cgtccaacac cggtaagacc gccgaagagg tcaaggcggc ctccgagcgg      360
 
gaccactgga tgacggctga caggccaagg acttcggtct ggtggataag atcatcactg      420
 
ctaagaagta aaagaggtaa taccatgagt gacgaaggca aaaaggccct gcgctgttcc      480
 
ttctgcggaa agcgggaaca gcaggtccat cgtatgatcc agggccccgg cgtccgcatc      540
 
tgcgacgagt gcgtgcagct ttgcatgagc attctgaacg aggggttcga cggcccggag      600
 
accactccct tggaggacgt ccccgatcag ctgcccacc                             639
 
 
<210>  9
<211>  804
<212>  DNA
<213>  Veillonella parvula
 
<400>  9
atgaggttgt ttaggtatgt gttgttaggt atcgttggtg tttgtagtgt tgtgttgagt       60
 
ggttgttctt tcatttggac gacggagaat ggtgatcctg ctacaccaga ggatattaag      120
 
gctagcgtag agaaagagtt ctcggttgtg catccgaatc ttgttcttca gtcatctgtg      180
 
gtggagaagg agaagccatt ccagcgaaat gtgtatgtgt tttatgatga aagtaatggt      240
 
atttctttta ctacaaattc tgtagtcaag tggccaacat tgccggctcc tggtggcgag      300
 
cgaaaaaatg atgcggattt tgcgtattca caagcgtatt tagttcattt gaatggttcg      360
 
ttagtggaac gtgctaagca gtatggcata cggatggcga cgcacgagga agccttggag      420
 
ttagctaagt ctaaagcgac acgtgtagca ggtactaata agatatctct attcacatat      480
 
gatgagatta tctttgtaga cgaatctgta aagggtggag atattctaac ctttatgaaa      540
 
tctatatata gcctgtataa accgcaagac aacccagcgt tattgcaccc tcgttctgat      600
 
agaagcgtag gattttatta tctaccaaaa ggagaagcgg acaaaacaaa agctaagtat      660
 
ttgatctcct ttcgatttat ggcaaaaaat gattggaaag aaaccatgct aacaggcatt      720
 
ggtagtactg gtaacgacac ttcggctgta gaacgagatt ttgttagcat tttagatcat      780
 
atgatacaac atgcggtgca ttaa                                             804
 
 
<210>  10
<211>  534
<212>  DNA
<213>  Bacteroides fragilis
 
<400>  10
gcagtattaa cggtctgtgt aatgatgata acatcaggaa tcaaggcaca gtataccatg       60
 
gggacaacag gaatgatgaa cattccgacc gccgagatgc aacagacagg taccttcatg      120
 
atcggcggta actatttgcc tgaagaactg aatcctttta aatacaactc cggaaactat      180
 
ttcgtgaaca tcaccttctt ttcattcctg gaattgaatt accgttgcat cttgctgaaa      240
 
agtgactaca tggctaaaaa gcctaaattc aatcagcaag acagatcgtt atctgtaagg      300
 
ctccgcccgc tgaaggaggg taaatactgg ccggcaattg tcattggcag taacgatccg      360
 
ttcaaagata aaggatacaa ttatttcgca tccgtatatg gagtggctac aaaaagtttc      420
 
atgataggcg aacaccggct ggcagcaacc gcaggatatt actatccatt aagtaaagac      480
 
aagtatacct tgcaggacgg catattcggc ggcctcagct atactccctc tttt            534
 
 
<210>  11
<211>  957
<212>  DNA
<213>  Bacteroides massiliensis
 
<400>  11
atgaaaatag ttgttttgga tggttacggg ttaaatcccg gtgatttgtc atggaatggg       60
 
ctggaagcat tgggtgagct gacggtttat gaccgtacag ctcctgatga gtttatggaa      120
 
cgctcttccg gagcggaagt acttataacc aataagacgg tgattactgc ggagaatatg      180
 
gcggcattgc ctgcattaaa atatatcggt gtcttggcta ccggatataa tatagtggat      240
 
atagcggctg ccaaggaacg cggtattatt gtgacgaata tccctgccta cagtactgct      300
 
tctgtggcac agatggtgtt tgcacatctt cttaacatta ctcagcgtgt gggacattat      360
 
gcccatgcca atcggcaggg acgttgggcg gacaattccg atttctgcta ttgggatacc      420
 
gaattgacgg aattggatgg aaagaaaatc ggcattgtag ggttgggaaa tacaggaaaa      480
 
gcaactgcac gcattgcttc tgctttcggg atgaaggtgt gtgcgtatac ttcgaaagta      540
 
cagtctcaat tgcctgaagg aatacaaaaa atggaattgg atgagttgtt ccgtgaatgt      600
 
gatgtggtga gtctgcattg cccgttgact gtagaaacaa aagaattggt caatgcggct      660
 
cgtcttgcca tgatgaaacc tacagctata ttgattaaca ccgggcgcgg tccgttggtg      720
 
aatgaaagag acttggctga tgcactgaat aaggggatga ttgctgccgc cggtctggat      780
 
gttttatgtt ccgaaccacc tgagtacgac aacccgctgc tgacggccaa gaactgcttt      840
 
gtcactcctc atatcgcctg ggcaaccaaa gaagcccgta tacgtttgat ggacattgcg      900
 
gtggagaatc tgaaaggata tatgaaccat gaaatagtaa ataatgtagc gaaatga         957
 
 
<210>  12
<211>  705
<212>  DNA
<213>  Bacteroides
 
<400>  12
atggaagtac aagccaatta catcaagcgt atcgaaatac acggattgtg gcatcggtac       60
 
gatattgcct gggacctgcg tcctgacgtc aatatacttt ccggcatcaa cggagtgggg      120
 
aagaccacta tcctgaaccg ttcggtcaac tatctggaac agacatcggg tgaagtgaag      180
 
agtgacgaga agaacggcgt acacgtctac ttcgacaacc ccgcagccac ctttatcccc      240
 
tatgatgtaa tccgcagcta cgaccgcccc cttatcatgg gcgactttac ggcacgcatg      300
 
gccgatgcca acgtgaagtc ggaactggac tggcagctct atctgctcca gcgccgttat      360
 
ctggactacc aggtgaacat cggcaacaag atgatagagc tgctcagcgg tgacgaagag      420
 
cagcgcagcc tggctccctc cctttccctc cccaagcgga agttccagga tatgattgac      480
 
gagcttttca gctataccca taagacgata gaccgcaaaa gcaacgacat cgttttctat      540
 
cagaacggcg agcgcctgct gccctacaaa ctgtcttcgg gcgagaagca gatgctggtc      600
 
atcctgctga ccgtgctggt gcgtgacgat gaccactgcg tactcttcag gacgagccgg      660
 
aagcctccct gcacatcgaa tggcagcaga agctcatcgg catga                      705
 
 
<210>  13
<211>  147
<212>  DNA
<213>  Faecalibacterium prausnitzii
 
<400>  13
gggcaggctg gacaccggca tcaggattcc actttcacgc atgatgatac cttcctcgct       60
 
ttatattccg tttgggtttc tgctgtttcc tatcataaca taagcgaaga ctattttcca      120
 
caggcaaaaa acgtggtata cttagtt                                          147
 
 
<210>  14
<211>  366
<212>  DNA
<213>  Firmicutes bacterium
 
<400>  14
atgatcacct taaattaccg cgacgcgcgc ccgatctacg agcaggtgtg cgacggactg       60
 
cggcggctga tcgtctccgg cgcgatcgcc gacggggata agctcccctc ggtgcgcgcg      120
 
ctggcgacgc agcttgccat caaccccaat accatccagc gcgcctacaa cgagttggaa      180
 
acgagcggct actgctgctc cgtgcccggc aagggctgct ttgccgtgca cacctaccgc      240
 
gcgcaggacg acgcgcgccg cttatcgctt gagcagcagc tcaaagagct tttgcaggag      300
 
ctgcgcgcca tgggcgtgag cgaagaagac attcaagcat tgtgcaggga gggagaagag      360
 
aaatga                                                                 366
 
 
<210>  15
<211>  546
<212>  DNA
<213>  Bacteroides fragilis
 
<400>  15
atgagaaaga ttaacgaaat tttttatagt ttacagggag aggggtatca tacgggtacc       60
 
cctgctgttt ttatacgttt ctcgggctgt aatctgaaat gtgacttctg tgatacccga      120
 
cacgaagagg gtgaaatgat gacagacgaa gatattgtca atgaaatagg gaagtatccg      180
 
gctgtcatgg tgattcttac cggaggagag ccttctttgt ggattgacga tgcttttata      240
 
gaccttttgc accgtgcagg caagtatgta tgtatcgaaa ccaatggtac gaaacccttg      300
 
cccgttgcta tcgattgggt gacctgctct cccaagcagg gtgtcaattt agctttaaac      360
 
cggatggatg aagttaaagt tgtttacgaa ggacaaaata ttgacgttta tgaacaactt      420
 
cccgccgaac attttttcct tcagccttgt tcttgtaata acaccgcaga aacggtggat      480
 
tgcgtgatgc gacatcctaa atggagactt agcctgcaaa cgcacaaact gataaatatt      540
 
ctatga                                                                 546
 
 

肝硬化的生物标志物及其应用.pdf_第1页
第1页 / 共26页
肝硬化的生物标志物及其应用.pdf_第2页
第2页 / 共26页
肝硬化的生物标志物及其应用.pdf_第3页
第3页 / 共26页
点击查看更多>>
资源描述

《肝硬化的生物标志物及其应用.pdf》由会员分享,可在线阅读,更多相关《肝硬化的生物标志物及其应用.pdf(26页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 104195145 A (43)申请公布日 2014.12.10 CN 104195145 A (21)申请号 201410333927.7 (22)申请日 2014.07.15 C12N 15/31(2006.01) C12Q 1/68(2006.01) A61K 45/00(2006.01) A61P 1/16(2006.01) (71)申请人 浙江大学 地址 310027 浙江省杭州市西湖区浙大路 38 号 (72)发明人 李兰娟 秦楠 (74)专利代理机构 杭州求是专利事务所有限公 司 33200 代理人 林松海 (54) 发明名称 肝硬化的生物标志物及其应用。

2、 (57) 摘要 本发明公开了肝硬化的生物标志物及其应 用。从 98 个肝硬化患者、 83 个健康对照的粪便样 品开展整个肠道菌群微生物的关联分析研究描述 粪便微生物群落及功能成分特征。15 个基因构成 生物标志物作为一个高精确的区分病人的指数。 在另外独立群体中对发现进行检验, 证实了其准 确性, 确认了检测菌群和肝硬化之间的关联鲁棒 性。 生物标志物选自如下一组15种基因中的至少 10种。 15种基因在肝硬化患者的肠道菌群中得到 了富集。 治疗肝硬化的药物, 促进或者增加所述的 基因的数量或者表达。一种生产或筛选药物的方 法, 所述药物促进或者增加所述的生物标志物的 数量或者表达。一种检测。

3、肝硬化、 监测治疗进程, 或者生产、 筛选药物的试剂盒, 用于检测所述的生 物标志物。 (51)Int.Cl. 权利要求书 1 页 说明书 7 页 序列表 12 页 附图 5 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书7页 序列表12页 附图5页 (10)申请公布号 CN 104195145 A CN 104195145 A 1/1 页 2 1. 一种生物标志物, 其特征在于, 包括 (a) 选自如下一组 15 种基因中的至少 10 种 : MH0008_gene_7932 (SEQ ID NO: 1) 、 L38_ gene_38350 (SEQ 。

4、ID NO: 2) 、 NLM003_gene_35418(SEQ ID NO: 3) 、 H16_gene_75905(SEQ ID NO: 4) 、 H50_gene_73395 (SEQ ID NO: 5) 、 NLF009_gene_80134 (SEQ ID NO: 6) 、 MH0085_ gene_62624 (SEQ ID NO: 7) 、 DOM014_gene_22875 (SEQ ID NO: 8) 、 L106_gene_52730 (SEQ ID NO: 9) 、 H67_gene_32100 (SEQ ID NO: 10) 、 L74_gene_31448 (SEQ。

5、 ID NO: 11) 、 DOF013_ gene_35560(SEQ ID NO: 12) 、 H55_gene_127852(SEQ ID NO: 13) 、 NOF008_gene_3070 (SEQ ID NO: 14) 、 DOM016_gene_86198(SEQ ID NO: 15) ; 所述的 15 种基因在肝硬化患者 的肠道菌群中得到了富集 ; 和 / 或 (b) 所述至少 10 种基因的同源或者互补序列 ; 和 / 或 (c) 所述至少 10 种基因的产物。 2. 根据权利要求 1 所述的生物标志物, 其特征在于, 它为所述的 15 种基因。 3. 一种治疗肝硬化的药物,。

6、 其特征在于, 所述药物促进或者增加如权利要求 1 中所述 的基因的数量或者表达。 4. 一种生产或筛选药物的方法, 其特征在于, 所述药物促进或者增加如权利要求 1 中 所述的生物标志物的数量或者表达。 5. 根据权利要求 4 所述的方法, 其特征在于, 所述的药物治疗或干预前, 检测对象肠道 菌群中是否富集有如权利要求 1 或 2 中所述的生物标志物。 6. 根据权利要求 5 所述的方法, 其特征在于, 所述的检测步骤包括 : 、 从对象粪便中提取 DNA 样本 ; 、 针对 DNA 样本构建测序文库 ; 、 对测序文库进行高通量测序, 获得测序结果 ; 、 根据测序结果, 确定所述对象的。

7、肠道菌群中是否存在所述的生物标志物。 7. 根据权利要求所述的方法, 其特征在于, 所述的步骤中进一步包括 : 针对肠道 菌群中的生物标志物的相对丰度进行检测, 通过所得到的相对丰度值与预定的 cutoff 值 进行比较。 8. 一种检测肝硬化、 监测治疗进程, 或者生产、 筛选药物的试剂盒, 其特征在于, 用于检 测如权利要求中所述的生物标志物。 权 利 要 求 书 CN 104195145 A 2 1/7 页 3 肝硬化的生物标志物及其应用 技术领域 0001 本发明涉及基因工程和生物医药领域, 具体涉及肝硬化的生物标志物及其应用。 背景技术 0002 肝硬化 (Liver cirrhos。

8、is) 是临床常见的慢性进行性肝病, 由一种或多种病因长 期或反复作用形成的弥漫性肝损害。 肝硬化是许多肝脏疾病的晚期病变, 是由病毒性肝炎、 酒精中毒、 营养障碍、 胆汁淤积、 血吸虫病、 循环障碍等各种原因所致, 其特点是肝细胞变性 和坏死。 早期肝硬化通过及时防治可以逆转或不再进展, 而晚期将不可逆转, 严重影响患者 的生活质量, 甚至危及生命。 0003 在中国最常见的病因是病毒性肝炎, 主要是乙型病毒性肝炎, 其次为丙型肝炎。 而 自发性腹膜炎、 肝腹水、 肝肾综合征、 肝性脑病、 食道静脉曲张、 出血、 原发性肝癌等这些肝 硬化并发症的危害也是有目共睹的。面对现代如此多的治疗手段,。

9、 却有很大一部分肝硬化 患者依旧痛苦不堪, 每日仍遭受着肉体上的折磨、 心理上的恐惧以及精神上的摧残。 0004 肝硬化患者由于门脉高压, 肝脏功能障碍致胆汁分泌异常, 解毒能力下降, 宿主 抵抗力降低等因素, 导致肠道屏蔽功能破坏, 微生物环境发生改变, 肠道菌群失调。然而, 与肝硬化进程相关的肠道微生物的系统发育及功能成分的变化还不清楚。尽管有些研究 (Garcia et al2004,Wiest et al2012,Bass et al2010) 表明肠道微生物的改变在末期肝 硬化并发症中起重要作用 ( 如自发细菌腹膜炎及肝性脑病 ), 以及诱导早期肝脏疾病及促 进肝损伤作用 ( 如酒精。

10、性肝病及非酒精性脂肪肝病 ), 肠道菌群与人肝脏病理之间的明确 关联仍未知。有研究 (Yi JH et al1999,Paik YH et al2003) 表明可能是由于患者肠道细 菌过度繁殖并产生内毒素 , 抑制肠上皮细胞蛋白质合成 , 小肠微绒毛出现形态学的改变 , 肠细胞质膜异常,细胞支架组织结构发生改变,肠刷状缘载体位置或细胞骨架上载体锚定 点改变 , 导致氨基酸和碳水化合物在通过空肠刷状缘薄膜的运输过程缺陷, 然而其具体机 制有待于进一步的研究。 0005 肝硬化及酒精性肝病患者通过 16S rRNA 测序研究揭示了一个肠道微生物中的类 似实质性的改变(Chen Y et al201。

11、1,Yan A W.et al2011)。 肠道微生物中系统发育机制怎 样发生改变尚不清晰。 发明内容 0006 为了克服现有技术的不足, 本发明的目的是提供肝硬化的生物标志物 ( 基因标记 物 ) 及其应用。 0007 一种生物标志物, 0008 (a) 选自如下一组 15 种基因中的至少 10 种 : MH0008_gene_7932(SEQ ID NO:1)、 L38_gene_38350(SEQ ID NO:2)、 NLM003_gene_35418(SEQ ID NO:3)、 H16_gene_75905(SEQ ID NO:4)、 H50_gene_73395(SEQ ID NO:。

12、5)、 NLF009_gene_80134(SEQ ID NO:6)、 MH0085_ gene_62624(SEQ ID NO:7)、 DOM014_gene_22875(SEQ ID NO:8)、 L106_gene_52730(SEQ 说 明 书 CN 104195145 A 3 2/7 页 4 ID NO:9)、 H67_gene_32100(SEQ ID NO:10)、 L74_gene_31448(SEQ ID NO:11)、 DOF013_ gene_35560(SEQ ID NO:12)、 H55_gene_127852(SEQ ID NO:13)、 NOF008_gene_3。

13、070(SEQ ID NO:14)、 DOM016_gene_86198(SEQ ID NO:15) ; 所述的15种基因在肝硬化患者的肠道菌群中 得到了富集 ; 和 / 或 0009 (b) 所述至少 10 种基因的同源或者互补序列 ; 和 / 或 0010 (c) 所述至少 10 种基因的产物。 0011 优选的为所述的 15 种基因。 0012 一种治疗肝硬化的药物, 所述药物促进或者增加所述的基因的数量或者表达。 0013 一种生产或筛选药物的方法, 所述药物促进或者增加所述的生物标志物的数量或 者表达。 0014 所述的药物治疗或干预前, 检测对象肠道菌群中是否富集有所述的生物标志物。

14、。 0015 所述的检测步骤包括 : 0016 a、 从对象粪便中提取 DNA 样本 ; 0017 b、 针对 DNA 样本构建测序文库 ; 0018 c、 对测序文库进行高通量测序, 获得测序结果 ; 0019 d、 根据测序结果, 确定所述对象的肠道菌群中是否存在所述的生物标志物。 0020 所述的步骤 d 中进一步包括, 针对肠道菌群中的生物标志物的相对丰度进行检 测, 通过所得到的相对丰度值与预定的 cutoff 值进行比较。 0021 一种检测肝硬化、 监测治疗进程, 或者生产、 筛选药物的试剂盒, 用于检测所述的 生物标志物。 0022 本发明的有益效果 : 0023 根据本发明的。

15、肝硬化的基因标记物(生物标志物)可以有效监测肝硬化的易感人 群 ( 包括家族遗传和外来因素引起 ) 或者发现早期患者, 以及监控肝硬化的治疗效果。另 外, 该生物标志物可用于生产诊断试剂盒及治疗药物等。 附图说明 0024 图 1 为实验分析流程图 ; 0025 图 2a、 2b 分别为 LC 基因集与 T2D,MetaHIT, MetaHIT,HMP 基因集的比较结果示意 图 ; 0026 图 3 为健康组和肝硬化组的生物标志物的 PCA 分析结果 ; 0027 图 4 为标记基因在肝硬化组和 T2D 组的 P 值比较结果 ; 0028 图 5 为生物标志物的最优数值分析结果。 具体实施方式。

16、 0029 本发明的实施第一阶段为发现阶段 : 98 个肝硬化患者及 83 个健康对照组的肠道 微生物成分及功能改变阶段 ; 第二阶段为验证阶段 : 25个肝硬化患者及31个健康对照组验 证第一阶段结果的准确性。 0030 实施例 1 : 样本收集和 DNA 提取 0031 肝硬化患者来自杭州浙江大学第一附属医院, 匹配健康对照组是志愿者, 实验共 说 明 书 CN 104195145 A 4 3/7 页 5 采集了 181 例粪便样品, 98 个中国肝硬化患者的粪便样品及 83 个健康中国人的粪便样品, 其中每个个体的新鲜粪便样品分成 200mg/ 份, 共 5 份, 立即 -80冰箱冷冻保。

17、存。 0032 98个中国肝硬化患者的粪便样品及83个健康中国人的粪便样品中提取总DNA。 苯 酚三氯甲烷处理提取 DNA 方法提取 DNA。 0033 实施例 2 : 构建文库及测序 0034 DNA 建库按仪器制造商 (Illumina) 的操作指南进行。对文库进行 PE2*100bp 测 序。Illumina HiSeq2000(Illumina,San Diego,CA) 平台对 181 个样品的文库进行测序。 每个样本平均产生 4.74Gb(sd.2.04Gb) 高质量测序结果, 总计 858Gb 测序数据量。 0035 参照图 1 的实验流程, 鉴定肝硬化的相关生物标志物, 其中,。

18、 其中省略的步骤或者 细节为本领域技术人员所熟知, 几个重要步骤介绍如下面几个实施例所述。 0036 实施例 3 : 生物标志物的鉴定 0037 3.1 测序数据的基本处理 0038 获得第一期的 181 个样品的测序数据以后, 对其进行过滤, 质控按以下标准进行 : a) 移除大于 3 个 N 碱基的 reads ; b) 去除低质量 (Q20) 的 N50reads ; c) 移除超过 10 个低 质量 (Q2) 的碱基或指定尾部 N 碱基数。丢失成对 reads 的序列被认为是单条 reads 用于 组装。 0039 3.2 获得一套肝硬化微生物组基因集 0040 宏基因组生物标志物主体。

19、是基因和相对应的功能, 因此需要对测序序列进行组装 和基因预测, 去冗余, 构建非冗余参考基因集。用 SOAPdenovo 软件将所有样品 reads 组装 成 contigs。将样本的未组装 reads 合并进行 de novo 组装。终由总 reads 数的 61.68 产生 440 万 contigs( 最小片段长度为 500bp)。这些 contigs 总长 11.1Gb, N50 长度范围 为 1,673 48,822bp, 平均长度为 8,644bp。 0041 为了预测 181 个样本的每个样本微生物基因, 我们采用 MetaHIT 人类肠道基因 组研究中的方法。MetaGene。

20、 程序从预测到 13,371,697 个长度大于 100bp 的开放阅读框 (ORFs)。预测的 ORFs 总长为 9,495,923,532bp, 占 contigs 总长度的 90.28。在 ORFs 中, 1,047,855(54.6 ) 是完整的基因, 869,808(45.4 ) 是不完整的。通过去除多余 ORFs 来 建立非冗余 “LC 基因集” , 定义为配对后超过 95与 90配对的短 ORFs 一致。最终的非冗 余肝硬化肠道基因集包含 2,668,468 个 ORFs, 平均长度 750bp, 42的 reads 可比对到基因 库。 0042 将我们的 LC 基因集与 3 个。

21、其他肠道微生物基因集对比, MetaHIT, HMP 和 T2D。比 对时所有基因预测使用相同的标准。MetaHIT 库包含 3,452,726 个基因, HMP 含 4,768,112 个基因 ,T2D 含 2,148,029 个基因。四个基因集的有 674,131 共有基因。LC、 MetaHIT、 HMP、 T2D 基因集分别包含 794,647、 1,429,517、 2,620,096、 623,570 个 unique 基因。 0043 来自 LC、 T2D、 MetaHIT 基因库的基因与非冗余基因集合并, 随后进行分析。不包含 HMP 肠道基因集, 因为它包含 sanger、 。

22、454 或 Illumina16S 序列, 除了整个宏基因组数据, 它 由对照组健康人群产生, 而非患者。如图 2a、 2b 所示库含 5,382,817 个基因, 其中 797,690 个为其他三个基因库共有。LC 基因集中的基因有 63.9存在于其他一个或两个基因集中, 37.1是 unique 基因。如图 4 所示, 中国人基因在 LC 基因集和 T2D 基因集中存在极大的 差异。 说 明 书 CN 104195145 A 5 4/7 页 6 0044 3.3 生物丰度分析 0045 SOAPalign2.21 用 于 匹 配 针 对 冗 余 基 因 组 的 paired-end cle。

23、an reads, 参 数为 r2m200x1000。Reads 与冗余基因组比对, 可能被分为两部分 : a)Unique reads(U) : reads 只与一个基因组比对 ; 这些基因被定义为 unique reads。b)Multiple reads(M) : 如果这些基因组来着同一物种, reads 与一个以上的基因组比对 ; 我们将这些 reads 定义为 unique reads。如果来着不同物种, 我们定义为 multiple reads。 0046 对于物种 S, 如果丰度为 Ab(S), 可能与 U 特有 reads 和 M 共享 reads 相关, 评估方 式如下 : 。

24、0047 Ab(S) Ab(U)+Ab(M) 0048 Ab(U) U/l 0049 0050 Ab(U) 和 Ab(M) 分别为 unique 和 multiple 的丰度, l 表示基因组长度。每个 multiple reads, 有特异物种系数 Co ; 使我们假设 M 在不同物种中有相关 N, 然后按以下 方法计算 CO : 0051 0052 对于这些 reads, 我们加 N 的 unique 丰度作为标准。 0053 3.4 基因丰度分析 0054 当末端基因能对其在同一个基因上计算基因的丰度。 如果一个基因上配对末端只 有一个 read 可以对齐, 通过检查将先前未对齐的翻译区。

25、域或不读取 read 与组装序列进行 匹配。如果为匹配上了将读取的基因数进行验证, 如果没有, 那么就忽略。 0055 当计算基因的丰度, 我们使用生物的丰度分析相同的策略。对于给定的基因 G, 其 丰度为 Ab(G), 可能与 U 独有 reads 和 M 共享 reads 相关, 评估方式如下 : 0056 Ab(S) Ab(U)+Ab(M) 0057 Ab(U) U/l 0058 0059 Ab(U) 和 Ab(M) 分别为 unique 和 multiple 的丰度, l 表示基因组长度。每个 multiple reads, 有特有物种系数 Co ; 使我们假设 M 在不同物种中有相关。

26、 N, 然后按以下 方法计算 CO : 0060 0061 对于这些 reads, 我们加 N 的 unique 丰度作为标准。 0062 3.5 基因丰度相关性分析 0063 为了研究正常人(83例)与肝硬化患者(98例)的肠道宏基因组学的相关性, 我们 在合并后的基因集中做了一个相关性的研究。基于 181 个样本的基因集上鉴定不同丰度的 说 明 书 CN 104195145 A 6 5/7 页 7 基因, 通过结合 Benjamini Hochberg 的多重检验的 Wilcoxon 秩和检验进行检验。使用一 个非常严格的阈值 (fdr 浙江大学 (Zhejiang University)。

27、 肝硬化的生物标志物及其应用 15 PatentIn version 3.5 1 1194 DNA Klebsiella pneumoniae 1 gtggaaaggt ttgatgccat tgtcgttggc gccggagcgg cgggaatgtt ttgcgcagcg 60 caggcgggcc agcttggctg ccgcgtcctg ctgctggata acggcaaaaa gccggggcga 120 aaaattctga tgtccggcgg cggccgctgc aactttacca acatgtatgt tgaaccggcg 180 gcctatttga gccaaa。

28、accc gcatttttgc aaatctgccc tggcgcgcta cacccagtgg 240 gactttatcg agctggtcgg caaatatggc atcgcctggc atgagaagac cctcggccag 300 ctgttttgcg atgattcggc ggagcagatc gtcaatctgc tgctcgcgga atgtgaaaag 360 ggcggcgtgc agatccgtct gcgcagcgaa atcctcagcg tggagagcga tgaacaaggc 420 taccggctac aggtgaacgg cgaaacgctg atga。

29、ccaaaa agctggtgat cgcctccggc 480 ggtctgtcga tgccggggct cggcgcctcg ccgtttggct ataaagtcgc cgagcagttc 540 ggcctgaagg tgctgccgac ccgcgcggga ctggtgccgt ttaccctcca caagccattg 600 cttgagcagc tgcaggtcct ctccggcgtg tcggtgccgt cgaccattac cgccgagaac 660 序 列 表 CN 104195145 A 10 2/12 页 11 ggcactctgt ttcgcgaaaa t。

30、ctgctgttc acccaccgcg gcctttccgg accggcggtg 720 ctgcaaattt ccagctactg gcagcccggc gagttcgtca ccgttaatct gctaccggac 780 tgcgatcttg atgacttcct taacgagcag cgcagcgcgc atcccaacca gagcctgaag 840 aacaccctgg cgatgcagct gccgaagcgg ctggtggagt gtctgcagca gctggggcag 900 atacctgatg tgacgctcaa gcaactgaac gttcgcgatc。

31、 agcagacgct ggtggagacg 960 ttaaccgcct ggcgcgtgca gccgaacggc accgaaggct accggacggc ggaggtgacc 1020 ctcggcggcg tggacaccaa cgaactctcg tcgcgtacca tggaggcgcg taaggcgccg 1080 ggtctctact ttatcggcga agtgatggac gttaccggct ggctcggggg gtataacttc 1140 cagtgggcgt ggtcaagcgc ctgggcctgc gcgcaggcgc tggtggaagg gtaa 。

32、1194 2 963 DNA Klebsiella pneumoniae 2 gtgaaagacc atactatccc tttaacgcta atttctatcc ttgctgatgg cgagtttcac 60 tctggcgaac agcttggtga gcagttaggc atgagccggg cggcgattaa taagcacatc 120 cagaccttac gtgactgggg cgtcgatgtg tttactgtgc cgggcaaggg ttacagcctg 180 ccggagccta ttcatctatt agatgagaaa aagatttctc aagagata。

33、ga ccatggtcga 240 gtgacggtcc ttcccgtcat cgactctact aaccagtatt tgctggacag gcttgatgag 300 ctgacgtccg gagatgcctg tgtggctgaa tatcagcaag cagggcgagg ccggcgaggc 360 agaaaatggt tttcgccctt tggcgcgaat ctctatctct cgatgtactg gcgtctggag 420 序 列 表 CN 104195145 A 11 3/12 页 12 cagggcccgg cagcggctat tggcctaagc ctggt。

34、gatcg gtattgtgat cgctgaagtt 480 ctgcagcagc tcggggccga acaggttcgc gtgaaatggc caaacgatat ttacctgcag 540 gatcgtaagc tgtcagggat cctcgtggaa ctgacgggga aaacgggcga tgccgcacaa 600 atcgtcagcg gcgcgggtat caaccttgtg atgcgtcgcg tggagtctga tgtcgtcaat 660 caggggtgga tcagccttca ggaagcgggg gtggtcatcg accgtaacct cct。

35、cgccgcg 720 cgcctgatta aagagctgcg cctgggactg gagctgttcg agcaggaagg attggctccc 780 tatctaccgc gctgggaaaa actggataac tttattcatc gcccggtgaa actgattatc 840 ggtgataaag aaatttacgg catttcgcgt ggcattgacg cccagggcgc actattgctg 900 gagcaggatg gtgtaataaa agcctgggtg ggtggtgaaa tatcattgcg cagtgcagaa 960 taa 963 。

36、3 597 DNA Bacteroides fragilis 3 gttctgatag gacttggcat ttctgccggc ctgctctctc cgaactatgt gttcgctacg 60 tctttagaga cttatgagaa ccagtctgta gctgctgttc agcaagcaag gaagattacc 120 ggtacactga ccgatgctgt cggtgaacct attattggtg ctactgtttt agaaaaagga 180 aacccttcca atggtacgat taccgatatc aatggtaaat tctctctttc ggt。

37、ccatcct 240 aatgctgtga tcagtatttc gtatatagga tacataacac aaaatattaa gataactaat 300 caaacctcac tgaaagtggt tatgatggat gatacccagg cgctggaaga agtagtggta 360 序 列 表 CN 104195145 A 12 4/12 页 13 gtaggttatg gttcgcagaa gaaagcgaat ctgaccggag ccgtatcttc tgtgaaaatg 420 gatgaggtac tgggtgaccg tcctattttg aatgcatctg 。

38、atgctcttca ggagccgtgc 480 cgggactgtt tgtatctaat ggaggtaatg ctcccggaac cagcaagtcg ttccagattc 540 gtggagccta ttcggtgggt gtcaagaact cggacggttc atacggaaac acattaa 597 4 801 DNA Oscillibacter sp 4 atgaagattt atgtttgtgt caagcaggta cccgatacct ccggcaaggt ggctgtcaat 60 cccgatggta ctctgaaccg tgcttccatg cagacc。

39、atca ccaaccccga tgatatgaac 120 gctgttgagg ccgccctgaa gctgaaggac gccaccggct gcaaggtcac cgttgtcacc 180 atgggccccc ctcccgctgc cggtatgctg cgtgagctga tggccatggg cgctgacgag 240 ggcgtgctgg tttccgcccg tgagttcggc ggttccgata cctacgctac ctcccagatc 300 ctggccgccg ctctgagcac cctgggtgtt gagaaggacg atatcgtgat gtgc。

40、ggccgt 360 caggctatcg atggcgatac cgctcaggtc ggtccccaga tcgctgagaa gctgcacctg 420 ccccaggtca cctatgccgc cgacatcaag aaggacggcg acaccatcac tgtccagcgc 480 atgctggagg atggctacat gaccatcaag gtccagactc cctgcctgct gacctgcatc 540 aaggagctga acaacccccg ctatatgtcc atcggcggca tcctgtctac ctacagcaag 600 cccctgacc。

41、a ctctgggcta tgaggacctg aaggatcatc ccctgatcga cgctaccacc 660 atcggcctga agggctctcc caccaacatc ttcaagagct tcacgcctcc tcagaagggc 720 序 列 表 CN 104195145 A 13 5/12 页 14 gtcggcatga tgctggaggg cgacggtaag gaaacctgcg agaagctggc cggtattctg 780 gccgctaagc acatcatcta a 801 5 543 DNA Firmicutes bacterium 5 atga。

42、tcgaag aaatgctggc atataaccgc gaattcgtcc ggtccaaggg ctatgaaaag 60 ttccagacca gtaagttccc agacaagaaa atcgccatcc tcacctgcat ggatacccgt 120 ctggtggagt tgctccccgc agcgctgggc atccgcaacg gtgatgtgaa gctgatcaaa 180 aacgccggcg gcatgatcac cggccccttt gacagtgccg tgcgcagcct gctggtgggc 240 atcatcgagc tgggcgtgga gga。

43、ggtcatg gtcatcggcc acacggactg cggcgtagcc 300 cacatcaatg ccgacatgat gatccgccac ctgatccagc ggggcgtttc tcaggaccat 360 atcgacatga tgcgctactg cggcattgac tttgaggcgt ggctccgagg cttcgactgc 420 gtggagaact ccgtggcgga gaccgtggac ctgctgcgca accatcccct tatgcccgcc 480 gatgtcacca tccgaggcta cgtcatcaac accgaaaccg g。

44、cgagttggc cccgcaggag 540 taa 543 6 249 DNA Bacteroides 6 atgaaccaaa gaaaagaaga agacacaacc gaagccgatt tcatcatccg ctcgtacacc 60 序 列 表 CN 104195145 A 14 6/12 页 15 aaagccgaac ttgcacagct ttactgcccg ggactcgacc ccgtgctcgc cctgcagaaa 120 ctctaccgct ggatgcgtaa aaacaccgcc ctgacacagg cactgtccga tgtcaattac 180 。

45、aacaaatacc gccacagctt ccttaaacgg gaagtccggc tgatcgtgta ttacctggga 240 gaaccttga 249 7 414 DNA Bacteroides 7 atgtcaacct atgcaccttt tgccaaaccg ctctatgtaa tgctgaaacc ggtaggtgcg 60 gtatgcaatc tggcatgcga ttattgctat tatctggaga aatccaaact atatagagac 120 aaccccaagc atgtgatgag cgaggaactg ctggaaaagt tcatcgagg。

46、a gtacatcaac 180 tcgcagacca tgccccaggt tctgttcacc tggcatggcg gagagacgct gatgcgtccg 240 ctctctttct acaaacgtgc catggagctg caaaggaaat atgccaacgg acgcaccata 300 gacaactgca tacagaccaa cggcacgttg ctgaccgatg aatggtgccg ggttttcaaa 360 gaaaacaact ggctgggtgg gtgtctccat agacgggcct caggagttcc atga 414 8 639 DNA。

47、 Oscillospiraceae 8 gaggcccagg acccggataa ggatattcag ctttatatca acagccccgg cggctccgtg 60 序 列 表 CN 104195145 A 15 7/12 页 16 acggacggca tggccatcta cgataccatg cagtacgtca agtgcgacgt gtctaccatc 120 tgcgtgggca tggctgcgtc catgggagct ttcctgttgt cctccggcgc caagggtaag 180 cggatcgcgc tgcccaacgc cgaaattatg atcc。

48、accagc cctccgcagg tacgcagggc 240 aaggtcacgg acatggagat cgacgtggag cacttcctgc ggatcaagaa gaacctgaat 300 gagatcctgg cgtccaacac cggtaagacc gccgaagagg tcaaggcggc ctccgagcgg 360 gaccactgga tgacggctga caggccaagg acttcggtct ggtggataag atcatcactg 420 ctaagaagta aaagaggtaa taccatgagt gacgaaggca aaaaggccct gcgctgttcc 480 ttctgcggaa agcgggaaca gcaggtccat cgtatgatcc agggccccgg cgtccgcatc 540 tgcgacgagt gcgtgcagct ttgcatgagc attctgaacg a。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 化学;冶金 > 生物化学;啤酒;烈性酒;果汁酒;醋;微生物学;酶学;突变或遗传工程


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1