本发明详述
进行性肌阵挛癫痫(PMEs)是一个不均一的疾病群,其特征为肌阵
挛,癫痫发作进行性神经病学上的衰退包括共济失调和痴呆,Berkovic
等人,New Engl.J.Med.,315:296-305(1986)。Unverricht-Lundborg型
的PME(EPM1)在芬兰和地中海地区是惯常具有血亲关系的常染色体退
化病症,在芬兰它的发病率至少为1∶20,000。遗传连锁分析表明EPM1
的座位在染色体21q22.3上,Malafosse等人,Lancet,339:1080-
1080(1992),并且将也是PME的一个成员的拉福拉病排除出该地区,
Lehesjoki等人,神经学(Neurology),32:1545-1150(1992)。连锁不平
衡分析使之可能将代表区域缩小为300kb,跨距PFKL,D21S25和
D21S154的位点,Lehesjoki等人,人类分子遗传学(Hum.Mol.Genet.),
2:1229-1234(1993);Lehesjoki等人,人类遗传学(Human Genetics),
93:668-674(1994)。
通过连锁不稳定分析将自动免疫的多腺疾病型I(APECED)图谱定
位于染色体21q22.3,Aaltonen,J.等人,自然遗传学(Nature Genet.)8:
83-87(1994)。APECED是一种常染色体退化病症,它会引起各种组合
的甲状腺旁腺体、肾上腺皮层、性腺胰脏β细胞、甲状腺以及胃壁细胞
衰竭。APECED的附带病症包括脱发、白斑、肝炎、慢性粘膜皮肤念珠
菌病、牙釉质和指甲的营养不良及角膜病。APECED通常在儿童时期就
表现出来,但组织的特异病状可在整个成年期出现。APECED座位图谱
定位于D21S49和D21S171的500kb之内。
全前脑病(Holoprosencephaly)的特征是受损伤的胚胎前脑分裂和不
完全的脑中部发痛,后者表现为大范围的脸中部畸形,包括独眼、头部
发育不全的猴头畸胎、颌前骨的发育不全、距离不足以及单个上颌中间
门齿。最常见的相关的染色体异常包括dup(3p)、del(79)、染色体13的
缺失、13三体性、18三体性以及三倍体(Munke,美国医学遗传学杂志
(AM J Med Genet),34:237-245(1989))。其病原学是不均一的,它可
以包括染色体2、3、7、13、18和21的非整倍性。为了将HPE1的
代表区域缩小,通过原位荧光杂交和定量Southern印迹剂量分析法,在
两个HP病人中表现出的特征为21(q22.3)缺失。对于较少的缺失,
D21S25,D21S154,D21S171及D21S44的区域被缺失掉,而D21S42
和D21S49的区域则不。结合这些数据与先前无全前脑病
(holopresencephaly)表型的21q22.3(D21S112-ter)缺失的报告,表明导致
全前脑病(holoprosencephaly)的区域跨度包含PFKL和ITGB2(CD18)的
区域。已发表了四个具染色体21异常的全前脑病(holoprosencephaly)的
病例。Estabrooks等人描述了染色体21(q22.3)的微量缺失(Estabrooks等
人,美国医学遗传学杂志(AM J Med Genet)36:306-309(1990)),推测
该区域是全前脑病(holoprosencephaly)(HPE1)的一个座位。
在本说明书中描述了关于该EPM1-APECED-HPE1代表区域的
BAC(细菌人工染色体)相邻图谱(Contig),(Shizuya等人,美国自然学术
科学进展(Proc.Natl.Acad.Sci),89:8794-8797)的建立以及使用直接
cDNA选择技术从该相邻图谱中分离新基因。
为了分离导致这些疾病的基因,使用Uni-Zap XR(Stratagene,La
Jolla,CA)从一14周21三体性胎脑建立了一个cDNA之库。95%以上
的克隆具有范围为1-4kb(平均2kb)的插入基因。另外,对于21q22.3区
域的BAC(细菌人工染色体)应用了一直接的cDNA选择方法。
将Sau3AI接头连接于从-21三体性胎脑合成的cDNA上。在用
Sau3A进行消化后,将第2对接头连接到cDNA上,该cDNA接着与包
含代表区域的生物系标记的BAC DNA进行杂交。cDNA/BAC DNA杂
交分子被捕捉到涂有磁珠的链霉亲和素上,洗去非特异性的cDNA,然
后将特异性杂交的cDNA洗脱出并随后用PCR进行扩增。经过两次选
择PCR产品进行亚克隆并进行分析。Southern印迹分析表明30个片断
中的21个(70%)生原始BAC所特有的带。用这些片断作为探针,可将
cDNAs 3kb,4kb和5kb)从文库中分离出来,5kb cDNA亚克隆
(EHOC-1)图谱定位于D21S25的邻近区,并且与其它转膜基因表现出同
源性。这些基因的位置图谱定位于全前脑病(holoprosencephaly),EPM1
和APECED所在的共有区域。
对5kb cDNA的DNA序列分析显示一条3570bp的完整的编码序
列,它所揭示的氨基酸序列与其它转膜蛋白包括三钠通道蛋白具有同源
性(SEQ ID No:1-2,图3)。
通过使用包含PFKL,D21S25,D21S154和CD18的序列标记位
点的PCR筛选将5个BAC克隆从总的人基因组DNA BAC文库中分离
出来(Shizuya等人,美国自然学术科学进展(Proc.Natl.Acad.Sci.USA),
89:8794-8797(1992))。具有这些BAC克隆和YAC克隆的HPE1-EPM1-
APECED共有区的物理图谱表示于图1和图2中。BAC-1(230kb)和
BAC-2(210kb)对D21S25是阳性的。BAC-3(170kb)对D21S25和PFKL
是阳性的。对EcoRI消化的BAC DNA的琼脂糖凝胶电泳和Southern印
迹分析表明这三种BAC是相互重叠的。BAC-4与BAC-3是等同的。
BAC-5(100kb)对CD18是阳性的。
直接的cDNA选择作用于横跨共有区的5个BACDNA(其中四个相
互重叠)。对亚克隆DNA的EcoRI消化表明10%的克隆是嵌合的。非嵌
合克隆的插入基因的平均尺寸为400bp。通过使用EcoRI-消化的BAC
DNA Southern印迹分析了40个所选cDNA的非嵌合亚克隆。28个克隆
(70%)在BAC印迹上显现单一信号,6个克隆(15%)显现重复性,另外6
个克隆(15%)在这些印迹上不显示任何信号。使用这些亚克隆的插入基
因DNA作为探针,筛选出21三体性胎脑cDNA文库。三个含Poly(A)+
尾的重叠的cDNA(3kb,4kb5kb)被分离出并被指定为EHOC-1。
这三个重叠的EHOC-1 cDNA亚克隆用于Southern印迹分析,该分
析使用EcoRI-消化的BAC DNA印迹。只有BAC-1显示单一复带信号,
表明这些cDNA源自BAC-1。信号带的同一尺寸表明这些克隆相互重
叠。对EHOC-1 5kb cDNA克隆的完整序列的分析和对3kb和4kb克隆
的部分序列分析表明3kb克隆的全部序列和4kb克隆的部分序列均包含
于5kb克隆中。可是4kb克隆的3′末端不同于5kb克隆的末端,这表
明了EHOC-1 cDNA的剪切变异体的存在。对全部9条人cDNA克隆
(2.7kb-7.2kb)的进一步特征描述中,交替剪切和/或多poly(A)+连接位点
很明显(见图4)。
例如,SEQ ID NO:4包含3′端未翻译的EHOC-1 cDNA的附加
1801个核苷酸,它延伸(以EHOC-1 mRNA/cDNA的某些同型)恰至SEQ
ID No:1的核苷酸5107之后。除了开始于紧邻SEQ ID No:1的核苷酸
5107之后的Poly(A)+连接位点外,另外六个Poly(A)+连接位点得以阐
明。这六个连接位点出现在SEQ ID No:4上相应于核苷酸:10,310,
1149,1155,1798和1801的核苷酸位置上(参见图4,分别为克隆
CDF7,CEH181/cDF4,cEH30,cEH33,cEH38,以及
cEH21/cEH25)。
使用5kb EHOC-1 cDNA插入基因的Northern印迹分析在多个成人
组织上(心脏,大脑,胎盘,肺,肝脏,骨架肌肉,肾脏,胰脏)显示三
个转录本(5.3kb,7.5kb和8kb)。使用来自EHOC-1 5KB cDNA亚克隆
的插人基因作为探针在来自正常人体的淋巴细胞中进行荧光原位杂
交。在染色体21q22.3上可看见离散信号从而证明了座位的存在。
使用人和鼠大脑组织对人和鼠EHOC-1 cDNA克隆的组织原位杂
交分析表明EHOC-1被普遍表达,但突出表现在神经细胞中。海马的配
位基脑回和成年鼠的小脑中的蒲肯野氏细胞都是显示相当高的信号的
组织。由于在EPM1病人中蒲肯野氏细胞的显著丧失,EHOC-1在蒲肯
野氏细胞中的强烈表达增加了该基因作为进行性肌阵挛癫痫病因的代
表性。
5kb cDNA的完整序列显示了3570bp(1190个氨基酸;SEQ ID No:2)
的开放阅读框架。起始密码子ATG位于一个完好的共有序列内,
Kozak,M.,分子生物学杂志(J.Mol.Biol.),196:947-950(1987);
Kizak,M.,核苷酸研究(Nuc.Acid Res.),15:8125-8148(1987)。用
登记于Genbank/EMBL的基因对该开放阅读框架的氨基酸序列的同源
性研究表明该基因产物与包括三种钠通道蛋白(图3)多种转膜蛋白是同
源的。
用一个约5kb的人EHOC-1 cDNA克隆(cDF9)作为探针筛选鼠胎脑
cDNA文库(Stratagene,La Jolla,CA)。两个同源cDNA克隆被分离出并
被标为cM01(3.5kb)和cM06(3.0kb)。cM06克隆已被部分排序并列于
SEQ ID No:6中。SEQ ID No:6列出的229个碱基对序列编码鼠EHOC-
1蛋白的一个片断并且它与SEQ ID No:1的核苷酸1913-2141的人
EHOC-1 cDNA具有75.4%的同源性。
已知人的一些神经紊乱是由钠通道(Ptacek等人,细胞(Cell),67:
1021-1027(1991);Rojas等人,自然(Nature)354:387-389(1991);
McClatchey等人,细胞(Cell),68:769-774(1992);Ptacek等人,神
经元(Neuron),8:891-897(1992)),钙通道(Ptacek等人,细胞(Cell),
II:863-868(1994);Jurkut-Rott等人,人类分子遗传学(Hum.Mo1.
Genet.),3:1415-1419(1994)),以及钾通道(Browne等人,自然遗传学
(Nature Genet),8:136-140(1994))的突变引起的。通过使用BLAST计
算机程序(Altschal,S.J.,等人,分子生物学杂志(J.Mol.Brol.),215:
403-410(1947)),发现在356<->401 a.a.处有一个fibronectin区
(CxV.....YxC)。分析还表明基元(Sxxx(I,L)E)出现在462,670,
708,716,730和1078。进一步在各种蛋白质databases中寻找该基
元,发现它出现三次或更多次的情形非常少。该基元存在于,例如,大
鼠软骨特异蛋白聚糖核蛋白,肌球蛋白,果绳sevenless(4拷贝),果蝇
Prospero(4拷贝),以及果蝇Serendipity(3拷贝)。后三个是发育中的突变
体。Sevenless基因导致胀缺陷,Prospero基因导致轴突路径寻找缺
陷。而Serendipity基因导致细胞构成缺陷。因此,假定轴突路径缺陷与
EHOC-1的表型相关联是合理的。起始于777的区域与多药物抗性基因
和果蝇rutabaga基因具有一些同源性。rutabaga基因与果蝇感知相关。
因此,本发明提供了分离的核酸,该核酸编码一个新的EHOC-1
蛋白,这些核酸来自于人染色体21,特别是在座位q23.2,该座位是引
起PME,HPE1及APECED的突变的位点。由该基因编码的蛋白质具
有多种转膜区。对EHOC-1的约5kb cDNA克隆的分析表明cDF9由多
于23个外显子组成。
术语“核酸”(也称作聚核苷酸)包括RNA以及单链和双链的DNA
和cDNA。如本文所用的,词语“分离的”意指核酸表现一种在自然界
不发生形式的核酸。分离编码EHOC-1多肽的核酸的一种措施是使用本
领域技术人员熟知的方法,用自然的或人工设计的DNA探针去探哺乳
类的基因组文库。从EHOC-1基因得到的DNA探针对于该目的特别有
用。编码EHOC-1多肽的DNA和cDNA分子可用来从人、哺乳类或其
它动物源获得互补基因组的DNA,cDNA和RNA,或者通过筛选cDNA
或基因组文库,用来分离相关cDNA或基因组克隆,所用的方法将在下
面详细描述。核酸的实例有编码EHOC-1多肽的RNA,cDNA或分离
的基因组DNA。这些核酸具有与SEQ ID No:1或SEQ ID No:6所显示
的基本相同的编码序列。本发明还包括不同于SEQ ID No:1或SEQ ID
No:6显示的核酸,而是具有相同的表型,即那些编码一种与SEQ ID No:2
所列的氨基酸序列基本相同的蛋白质的全部或某片断的核酸。
表型相似的核酸也称作“核酸的功能等同物”。如本发明所用的,
短误“核酸的功能等同物”包括的核酸的特征是轻微的或不重要的序列
变化,从而它们与在此公开的核酸以基本相同的方式作用而产生相同的
蛋白质产品。特别是,核酸的功能等同物编码多肽,该多肽与在此公开
的相同或者具有保守氨基酸变化。例如,保守变化包括用一个非极性残
基替换一个非极性残基,或者用一个带同种电荷的残基替换一个类似的
带电残基。这些变化包括那些被熟练技术人员认为基本上不改变蛋白质
三级结构的那些表现。
另外还提供了编码EHOC-1多肽的核酸,根据遗传密码的简并性,
该核酸并不需要在特异杂交条件下与本发明核酸进行杂交。编码本发明
多肽的优选核酸由编码与SEQ ID No:2所列的基本相同的氨基酸序列的
核苷酸组成。可选择地编码本发明多肽的优选核酸在高度严格条件下与
SEQ ID No:1或SEQ ID No:6所列的核酸序列的几乎全部序列,或其大
部分(即,典型地至少15-30个核苷酸)进行杂交。
这里所用的杂交的严性指的是使多核苷酸杂交稳定的条件。如本领
域技术人员所知,杂交的稳定性是钠离子浓度及温度的函数。(参见,
例如,Sambrook等人,分子克隆:实验室手册第二版,(Molecular
Cloning:A Latoratory Manual)2d Ed.(Cold Spring Harbor Laboratory
1989);在此引入作为参考)。
另外也提供了由本发明核酸编码的分离的肽,多肽和/或蛋白质,
该蛋白质是EHOC-1多肽。EHOC-1多肽组成一条长度上约为1190个
氨基酸的蛋白质。编码人EHOC-1多肽的完整的氨基酸序列列于SEQ ID
No:2。另外,SEQ ID No:6列出了编码鼠EHOC-1蛋白片断的一条229
个碱基对的鼠cDNA序列。
如本文所用的,术语“分离的”指的是无细胞成分和/或通常与在
体外环境中的天然物相关的污染物的蛋白质分子。本发明多肽和/或蛋白
包括任何天然的等位变异体,以及其重组形式。EHOC-1多肽可用本领
域技术人员熟知的多种方法进行分离。对于本发明蛋白质的分离和纯化
的可用的方法包括,沉降、凝胶过滤、离子交换、反相和亲和层析。其
它熟知的方法描述于Deutscher等人,蛋白质纯化指导:酶学方法(Guide
to Protein Purification:Methods in Enzymology,Vol.182,Academic
Press,1990),该文献在本文中引作参考。可选择地,本发明分离的多
肽可用所述的熟知的重组方法得到,例如,Sambrook等人,同上,1989
中。
制备本发明多肽的一个实例是在合适的宿主细胞,例如细菌细胞、
酵母细胞、两栖动物细胞(即,卵母细胞)、或者哺乳动物细胞中,使用
本领域熟知的方法表达编码EHOC-1的核酸,并且再次运用熟知的方法
收获所表达的多肽。可将本发明的多肽直接从用表达载体进行转化的细
胞中分离出来,这将在下面详细描述。本发明多肽、生物活性片断以及
功能等同物也能用化学合成的方法进行生产。如这里所用的,“生物活
性片断”指的是SEQ ID No:2中的氨基到序列所代表的多肽的某部分,
它可装配成一个由乙酰胆碱激活的Ca2+可透过的阳离子通道。使用应用
生物系统公司(Applied Biosystems,Inc.Model 430A or 4301A)的430A型
或431A型自动肽合成机(加拿大,福斯特城),利用制造商提供的化学
知识,可以生产合成多肽。
如本文所用的,术语“EHOC-1”指的是自然纯化或重组表达生产
(即,分离的或基本纯)的蛋白质,该蛋白质含有可预示潜在的转膜区的
高度疏水区,它与多种转膜蛋白具有同源性,所述转膜蛋白包括钠通道
蛋白、钙通道蛋白以及钾通道蛋白,这些蛋白包括由原始转录的可选择
剪切产生的、由mRNA编码的变异体,所述转膜蛋白还进一步包含保留
一或多个前述性能的片断。如本文所用的,短语“功能多肽”指的是,
例如,配体的连接引起了EHOC-1蛋白质的转录活化。更特别地,一个
“功能发明多肽”的兴奋剂激活可诱使蛋白质产生信号。
使用以下短语对本发明核酸、多肽或蛋白质进行修饰:“重组表达
/生产”、“分离的”或“基本上纯的”,指的是用这种方式被人工生产
出的,并且从它们的天然体外细胞环境中分离出来的核酸、肽、多肽或
蛋白质。人的这种干涉的结果是本发明的重组核酸、多肽以及蛋白质具
有相应的自然产生的蛋白质所不具备的用途,例如对选择性药物或化合
物的识别。
具有“基本的序列同源性”的序列指的是与本发明核酸具有至少约
75%,优选约80%,更优选约90%的同一性的核苷酸序列;以及与本发
明多肽一般具有至少75%,优选约85%,更优选约95%的同一性的氨基
酸序列。但是,人们还发现,含有少于以上描述的同源性水平的多肽或
核酸也包含在本发明的范围之内,所述多肽或核酸以剪切变异体或被保
守氨基酸取代或被简并密码子取代进行修饰的形态出现。
本发明提供了有效连接于RNA转录的启动子的分离的聚核苷酸,
以及其它调节序列。如本文所用的,短语“有效连接”指的是聚核苷酸
与核苷酸的调节和效应物序列例如起动子,增强子,转录及翻译的中止
位点,以及其它信号序列的功能关系。例如,聚核苷酸和起动子的有效
连接指的是聚核苷酸和起动子之间物理和功能关系,通过一个特异识别
并连接于启动子的聚合酶DNA的转录从起动子开始,这样,启动子引
导RNA从聚核苷酸的转录。
启动子区域包括特异的序列,这些序列足以使RNA聚合酶进行识
别,连接和转录起始。另外,启动子区域还包括调节RNA聚合酶的识
别、连接以及转录起始活性的序列。这些序列可以是顺式作用或应答于
反式作用的因子。根据调节的性质,启动子可以是组成的或被调节的。
启动子的实例有SP6、T4、T7、SV40早期启动子、细胞肥大病毒
(CMV)启动子、鼠乳房肿瘤病毒(MMTV)类固醇-可诱导启动子、莫洛尼
氏鼠白血病毒(MMLV)启动子,等等。
含有启动子以及可以与聚核苷酸有效连接的克隆位点的载体在本
领域已被熟知。这样的载体可以在体内或体外进行RNA的转录,并且
它们可从Stratagene(LA Jolla,CA)和Promega Biotech(Madison,WI)
等处购得。为了优化表达和/或体内转录,有必要移走、加上或改变克隆
的5′端和/或3′端未被翻译部分,从而消除多余的、潜在不适宜选择
翻译起始密码子或其它可能在转录或翻译水平上干涉或降低表达的序
列。可选择地,共有核糖体连接位点可被插人到紧邻启动密码子的5′
端以加速表达。(参见,例如,Kazak,生物化学杂志(J.Biol.Chem.),
266:19867(1991))。同样地,编码同样的氨基酸的可选择密码子,为了加
速转录,可被取代用于编码EHOC-1聚核苷酸的序列从而加速转录(例
如,可优选采纳宿主细胞的密码子可以减少富含G-C区域的存在,等
等)。
另外也提供了包含本发明核酸的载体。载体的实例有病毒,例如棒
状病毒(baculoviruses)和逆病毒,噬菌体,粘粒,质粒以及其它常用于本
领域的重组载体。使用本领域熟知的方法将聚核苷酸插入到载体基因组
内。例如,在适宜的条件下,将插入基因和载体DNA与一限制酶进行
接触,从而在每个分子上产生互补末端使得它们可互相配对,并且在连
接酶的作用下可连接到一起。可选择地,可将合成的核苷酸接头连接到
限制性聚核苷酸的末端。这些合成的接头包含相应于载体DNA中特定
限制位点的核酸序列。另外,含有终端密码子和适宜限制位点的寡核苷
酸可进行连接用于插入载体,所述载体含有,例如,下列部分或全部:
选择性标记基因,例如为了在哺乳动物细胞中选择稳定和瞬间转染子的
新霉素基因;来自高中平转录的人CMV的速发早期基因的增强子/启动
子序列;转录终止和为mRNA稳定性的来自SV40的RNA处理信号;
SV40复制的多形瘤起点和进行适当游离基因复制的ColE1;多变的多
种克隆位点;用于有义和反义RNA的体外转录的T7和SP6 RNA启动
子。其它方法在本领域是熟知的并可采用的。
另外还提供了包含编码EHOC-1多肽的核酸的载体,适宜于在细菌
细胞、酵母细胞、两栖动物细胞(即,卵母细胞),哺乳动物细胞以及
其它动物细胞中表达。另外载体还含有调节因子,这些调节因子对于细
菌、酵母、两栖动物、哺乳动物或动物细胞中的核酸的表达是必需的,
所述细胞相对于编码EHOC-1多肽的核酸进行定位以允许其表达。
本发明所用的,“表达”指的是核酸转录成mRNA并且翻译成肽、
多肽或蛋白质的过程。如果核酸来自基因组DNA,当选择适宜的真核
细胞作为宿主时,表达可以包括mRNA的剪切。表达所需的调节因子包
括连接RNA聚合酶的启动子序列以及为了与核糖体连接的转录起始序
列。例如,细菌表达载体包括启动子如1ac启动子以及用于转录起始的
SD(Shine-Dalgarno)序列和起动密码子AUG(Sambrook等人,同前)。同
样地,真核表达载体包括异源或同源的启动子,所述启动子用于RNA
聚合酶II、下游加A信号、起始密码子AUG、以及用于与核糖体分离
的终止密码子。这些载体可从市场购得,或用本领域熟知的方法所描述
的序列进行装配,例如,以上所述建立常用载体的方法。表达载体对于
生产表达本发明多肽的细胞是有用的。
本发明提供了重组表达EHOC-1多肽的转化的宿主细胞。转化宿主
细胞的一实例是哺乳动物细胞,该细胞包含适于在哺乳动物中表达的质
粒。质粒包含编码EHOC-1多肽的核酸以及表达本发明蛋白必需的调节
元素。许多哺乳动物细胞可用作宿主细胞,包含,例如,鼠成纤维细胞
NIH3T3、CHO细胞、HeLa细胞、Ltk-细胞等。如上所述的表达质粒
通过本领域熟知的方法能用来转染哺乳动物细胞,所述方法如磷酸钙沉
降、DEAE-葡聚糖、电穿孔、微量注射或lipofection。
在真核细胞表面重组表达的EHOC-1多肽包含至少一个EHOC-1
多肽,或可以包含由宿主细胞编码的肽和/或由异源核酸编码的亚基的混
合物。
本发明提供了包含核苷酸序列的核酸探针,所述核苷酸序列能与包
含于编码EHOC-1多肽的核酸中的序列进行特异杂交,此序列例如可以
是包含于SEQ ID No:1或SEQ ID No:6所列的核苷酸序列的编码序列。
所本文所用的,“探针”是具一核苷酸序列的单链DNA或RNA,所述
核苷酸序列包括至少15个列于SEQ ID No:1或SEQ ID No:6序列中的相
邻碱基。建立探针的优选区包括编码序列的5′端和/或3′端、ORF
中的序列、预测编码转膜区的序列、预测编码细胞质环的序列、信号序
列、配体连接位点,等等。cDNA克隆的全部或片断也可用作探测和分
离相关基因的探针。当片断用作探针时,优选地,cDNA序列可来自
cDNA的羧基末端的编码部分,更优选地,cDNA序列可包括cDNA序
列的预测转膜区的编码部分。使用,例如,Kyte和Doolittle的方法,
分子生物学期刊(J.Mol.Biol.),157:105(1982),基于对推断的氨基酸序
列的水疗法分析可预测转膜区域。
在另一实施方案中,EHOC-1基因组DNA被设想用作诊断探针。
例如,已经发现G(鸟嘌呤)向A(腺嘌呤)的转变发生在基因组内显子序
列,该序列在EHOC-1基因中外显子7上游的约22对碱基对处。人们
设想这种G到A的基因组转变在PNE病人中是纯合的。这样,人们设
想在相应于SEQ ID No:5的核苷酸94的基因组核苷酸位置上的突变与
PME疾病有关。SEQ ID No:5的核苷酸117-263基因外区序列对应于
SEQ ID No:1的核苷酸1176-1322。这样,能够探测SEQ ID No:5的核
苷酸94的这种转化的来自SEQ ID No:5的探针被设想用于本发明。
本发明所用的短语“特异杂交”指的是多核苷酸识别核酸序列的能
力,所述核酸是互补的,并通过互补碱基对之间的氢键形成双螺旋的区
段。核酸探针技术对本领域熟练技术人员是熟知的,所述技术人员可清
楚认识到这些探针在长度上可变化很大,并可用可探测试剂,例如放射
性同位素、荧光染料,等等,很容易进行探针的探测。本发明探针对于
探测编码EHOC-1多肽的核酸的存在很有用。例如,探针可用于原位杂
交来对在其中进行本发明基因表达的生物组织进行定位。另外,通过使
用对基因组的或cDNA文库的同源筛选,或者通过本领域技术人员熟知
的扩增技术,与编码EHOC-1多肽的核苷酸序列的核酸互补的合成寡核
苷酸作为探针可用于探测本发明基因、与它们相关的mRNA,或者用于
分离相关基因。
另外也提供了具有一序列的反义寡核苷酸,所述序列能与编码
EHOC-1多肽的mRNA的任何部分特异连接从而防止mRNA的翻译。
反义寡核苷酸可以具有能与编码EHOC-1多肽的cDNA序列的任何部分
特异连接的序列。本发明所用的术语“特异连接”指的是核酸序列的识
别互补核酸序列的能力以及通过互补碱基对之间氢键的形成而形成双
螺旋区段的能力。反义寡核苷酸的一个实例是包含核苷酸的化学类似物
的反义寡核苷酸。
本发明也提供了包含一定量的如上所述的反义寡核苷酸和能够通
过细胞膜的可接受的疏水载体,所述反义寡核苷酸通过透过细胞膜并与
编码EHOC-1多肽的mRNA特异连接阻止翻译而有效降低EHOC-1多肽
的表达。能够透过细胞膜的可接受疏水载体包含与特异选择的细胞类型
的受体相连接的结构,因而所述载体可被选择的细胞类型所吸收。所述
结构可以是已知的结合于细胞型特定受体的蛋白质的某部分。
反义寡核苷酸组合物对于抑制编码本发明多肽的mRNA的翻译很
有用。合成的寡核苷酸,或其它反义化学结构被设计用于与编码EHOC-1
多肽的mRNA连接并抑制mRNA的翻译,从而作为组合物它们抑制组
织样品或受试对象中与EHOC-1相关的基因的表达。
本发明提供了通过利用合成的反义寡核苷酸组合物(此后称作
SAOC)调整EHOC-1多肽的表达水平的方法,所述SAOC抑制编码这些
多肽的mRNA的翻译。构建合成寡核苷酸,或设计用来识别并选择地与
mRNA连接的其它反义化学结构与SEQ ID No:1或SEQ ID No:6所示的
核苷酸序列的某些部位互补。为了通过注射给药于受体,在血液中或在
实验室细胞培养条件下,将SAOC设计为稳定的。SAOC设计为根据
SAOC的物理和化学性能能够透过细胞膜从而进入细胞质,所述性能使
得SAOC能够透过细胞膜,例如,通过设计小的、疏水的SAOC化学结
构,或者根据细胞中的能识别和将SAOC运输到细胞中特定的运输系
统。另外,通过使SAOC成为可被特异的细胞吸收机制识别的靶目标,
SAOC可被设计为仅仅给药于某些选择的细胞群,所述机制只在选择的
细胞群中连接和吸收SAOC。例如,SAOC可被设计为与仅发现于如上
所述某一细胞类型的受体连接。SAOC也被设计为识别或选择性连接
于目标mRNA序列,所述序列对应于SEQ ID No:1或SEQ ID No:6所示
的序列中包含的序列。SAOC设计为通过连接和诱导mRNA的降解使
目标mRNA序列失活,所述mRNA的降解可通过,例如,核糖核酸酶I
消化,或通过干涉翻译调节因子或核糖体抑制mRNA目标序列的翻译,
或包含其它化学结构,例如内剪子序列或者降解或化学修饰目标mRNA
的反应化学基团。当定向作用于mRNA靶时SAOC显示以上性能(见
Cohen等人,尖端技术(TIPS),10:435(1989)以及Weintraub,美国科学
(Sci.American),January(1990),pP.40;两者在此都引作参考)。
本发明还提供了包含可接受的载体和单独或相互结合的任意分离
的、纯化的EHOC-1多肽,其活化片断,或纯化、成熟的蛋白质和其活
化片断的组合物。这些多肽或蛋白质可重组获得,化学合成或从天然原
料纯化得到。本发明所用的术语“可接受的载体”包含任意标准的药物
学上的载体,例如磷酸盐缓冲的盐溶液、水和乳化液例如油/水或水/油
乳化液,以及各种类型的润湿剂。
另外还提供了具有与本发明的EHOC-1多肽特异反应性的抗体。抗
体的活性片断包含在“抗体”的定义中。
可通过本领域已知的方法,利用本发明的多肽、蛋白质或它的某些
部分作为抗原生产本发明的抗体。例如,通过本领域熟知的方法可生产
多克隆和单克隆抗体,所述方法可如Harlow和Lane,抗体:实验室手
册(Antibodies:A laboratory Manual),(Cold Spring Harbor Laboratory 1988)
中所述,在此引入作为参考。本发明多肽可用作免疫原来产生这样的抗
体。可选择地,可制备合成肽(使用市场上可获得的合成剂)并用作免疫
原。可用本领域熟知的方法进行氨基酸序列分析从而确定是否它们编码
相应多肽的疏水或亲水区。变化的抗体例如嵌合的、人化的、CDR-嫁
接的或双功能的抗体也可用本领域熟知的方法进行生产。这些抗体也能
通过所述的杂交瘤、化学合成或重组方法进行生产,所说的方法描述
于,例如,上述的Sambrook等人和Harlow和lane的文献之中。反肽和
反融合的蛋白质抗体都可被利用。(参见,例如,Bahouth等人,药学科
学动向(Trends Pharmacol.Sci.),12:338(1991);Ausubel等人,分子
生物学的流行规则(Current Protocols in Molecular Biology),(John Wiley
and Sam,NY 1989),在此引入作为参考)。
本发明的抗体也可用于分离本发明的多肽。另外,这些抗体在探测
本发明多肽的存在、以及染色体定位和结构及功能区的分析上很有用。
探测EHOC-1多肽在细胞表面的存在的方法包含将该细胞与特异连接于
EHOC-1多肽的抗体进行接触,所述的条件允许抗体与多肽的连接、探
测与细胞相连的抗体的存在,从而探测细胞表面本发明多肽的存在。关
于该多肽的探测,抗体可用于体外诊断或体内显影方法。
对于在样品中对目标多肽进行体外探测有用的免疫的步骤包括利
用可探测抗体的免疫分析。该免疫分析包括,例如,ELISA,Pandex
显微荧光测定分析、凝集作用分析、流动血细胞计数、血清诊断分析和
免疫组织化学染色步骤,所述方法均为本领域熟知的方法。抗体可通过
本领域熟知的各种方法探测。例如,可将一可探测标记直接或间接连接
到抗体上。有用的标记包括,例如,放射性核苷酸、酶、荧光原、色(系)
原以及化学发光标记。
另外,本发明抗体可用于调节活动物体内、人体内、或生化组织或
从中分离的流体内的EHOC-1多肽的活性。因此,含有载体及一定数量
具对EHOC-1多肽特异性的抗体的组合物对于阻断自然发生的配体与本
发明多肽的连接是有效的。引向EHOC-1多肽分子的抗原决定基的单克
隆抗体也可用于该目的,所述EHOC-1多肽分子存在于细胞表面,并且
具有的氨基酸序列与SEQ ID No:2所示的EHOC-1多肽的细胞表面抗原
决定基的氨基酸序列基本相同。
本发明还提供了能够表达编码EHOC-1多肽的核酸的转基因非人
哺乳动物。另外也提供了能够表达编码发生突变的EHOC-1多肽的核酸
的转基因非人哺乳动物,所述多肽已不能表现正常活性,即,不能表达
天然的EHOC-1。本发明也提供了具有染色体组的转基因非人哺乳动
物,该基因组包含与编码EHOC-1多肽的核酸互补的反义核酸,所述
EHOC-1多肽被安置成可被转录成与编码EHOC-1多肽的mRNA互补的
反义mRNA,所述多肽和其杂交从而减少了其翻译。核酸可另外包含可
诱导启动子和/或组织特异性调节因子,从而表达可被诱导,或被限制于
特异的细胞类型。核酸的实例是具有与SEQ ID No:1或SEQ ID No:16
所示的编码序列基本相同的编码序列的DNA或cDNA。非人转基因哺
乳动物的实例是转基因鼠。组织特异性决定因子的实例是金属疏基组氨
酸三甲基内盐(metallothionein)启动子和L7启动子。
通过培育转基因动物可建立阐述EHOC-1多肽的生理和行为规则
的动物模型系统,在这些转基因动物中利用了一些技术改变了EHOC-1
多肽的表达。这些技术的实例包括通过微量注射、反病毒感染或本领域
技术人员熟知的其它方法,将正常的或突变的编码EHOC-1多肽的核酸
插入到适宜受精的胚胎中,从而产生转基因动物。(参见,例如,Hogan
等人,(Manipulating the Mouse Embryo:A Laboratory Manual)对鼠胚胎的
操作:实验室手册,(Cold Spring Harbor Laboratory,1986)。另一种技
术,在转基因动物中具有天然基因座位的突变或正常基因的同源重组,
可用于改变表达的调节或EHOC-1多肽的结构(参见,Capecchi等人,
科学(Science),244:1288(1989);Zimmer等人,自然(Nature),
338:150(1989);在本文引入作为参考)。同源重组技术在本领域是熟
知的。同源重组用重组或突变基因代替天然(内源)基因,从而生产出一
种动物,该动物不能表达天然(内源)的蛋白质组却能表达,例如,能导
致EHOC-1多肽变化的表达的突变蛋白质。相对于同源重组,微量注射
将基因加入到宿主基因组内,而不移走宿主基因。微量注射可生产一种
既能表达内源又能表达外源EHOC-1蛋白质的转基因动物。可诱导启动
子可连接到核酸的编码区从而提供了一种调节转基因表达的方法。组织
特异性调节因子可连接到编码区从而可允许转基因的组织特异性表
达。转基因动物模型系统以于体内筛选化合物进行特异配体的识别很有
用,所述特异配体即兴奋剂或拮抗剂,它们能激活或抑制蛋白质反应。
本发明核酸、寡核苷酸(包括反义的)、含其载体、转化的宿主细胞、
多肽以及它们的组合,以及本发明的抗体,都可用于体外筛选化合物从
而确定某化合物对于本发明多肽的作用是潜在的兴奋剂或是拮抗剂。这
些体外筛选分析提供了关于本发明多肽的功能和活性的信息,这些信息
能有利于对能与一或多种多肽、肽或蛋白质进行特异性相互作用的化合
物的识别和设计。
按照本发明的另一实施方案,提供了识别与EHOC-1多肽连接的化
合物的方法。本发明蛋白质可用于竞争性结合的分析。这样的分析可提
供对大量化合物的快速筛选从而确定哪些化合物,若有的话,能与
EHOC-1蛋白质连接。随后,可对进行连接的蛋白质进行更详细的分析,
从而进一步确定是否这些化合物以对本发明蛋白质的调节器、兴奋剂或
拮抗剂进行作用。
在本发明的另一实施方案中,提供了一种生物分析法用以识别调节
本发明多肽的活性的化合物。按照该方法,将本发明多肽与一“未知”
或试验物质进行接触(当测试拮抗剂的活性时需要报告基因结构的存
在),在与“未知”或试验物质进行接触之后,监测多肽的活性,而那
些引起报告基因结构被表达的物质被识别制作为EHOC-1多肽的功能配
体。
按照本发明另一实施方案,可将重组表达本发明多肽的转化的宿主
细胞与一试验化合物进行接触,并且通过将试验化合物存在是否时
EHOC-1调节的反应(经过报告基因表达)的比较,或将试验细胞或对照
细胞(即,不能表达EHOC-1多肽的细胞)与化合物存在时的反应进行比
较从而评价其调节效果。
本发明中所用的,对本发明多肽的“活性调节”的化合物或信号指
的是这样的化合物或信号,它们能改变EHOC-1多肽的活性从而使得本
发明多肽的活性在该化合物或信号存在与不存在时不同。特别地,这样
的化合物或信号包括兴奋剂或拮抗剂。兴奋剂包括能激活EHOC-1蛋白
质表达的化合物或信号。可选择地,拮抗剂包括干涉EHOC-1蛋白质表
达的化合物或信号。典型地,拮抗剂的效果被看作对兴奋剂诱导的蛋白
质激活的阻抑。拮抗剂包括竞争性和非竞争性拮抗剂。竞争性的拮抗剂
(或竞争性封闭剂)与特异于兴奋剂结合的位点进行作用或相接近。非竞
争性拮抗剂或封闭剂通过与兴奋剂作用位点以外的位点相互作用使得
多肽的作用失效。
如本领域技术人员所知的,识别调节EHOC-1活性的化合物的分析
方法通常需要对一对照物进行比较。一类“对照物”是细胞或培养物,
它们与经化合物处理的试验细胞或试验培养的经过基本相同的处理,其
特征是“对照”细胞或培养物并不作用于化合物。例如,在使用电压钳
电生理步骤的方法中,仅通过改变浸浴细胞的外部溶液,同样的细胞可
在化合物存在或不存在的情况下进行测试。另一类“对照”细胞或培养
物可以是与转染细胞相同的细胞或培养物,除了“对照”细胞或培养物
并不表达天然蛋白质之外。因此,在相同的反应条件下,将转染细胞对
化合物的反应与“对照”细胞或化合物对同样化合物的反应(或无反应)
进行比较。
在本发明的另一实施方案中,可通过将多肽与有效量的至少一种由
上述生物分析法识别出的化合物进行接触,来调节EHOC-1多肽的活
化。
序列表
(1)一般信息:
(i)申请人:朱利R. 科伦伯格
山川和弘
(ii)发明名称:一种新型染色体21基因标记,
组合物及其使用方法
(iii)序列数:6
(2)SEQ ID No:1的信息:
(i)序列特征:
(A)长度:5107对碱基
(B)类型:核酸
(C)链型:双
(D)拓扑学:线性
(ii)分子类型:cDNA
(ix)特征:
(A)名称/关键词:CDS
(B)位置:138..3710
(D)其它信息:/产物=“EHOC-1”
(xi)序列描述:SEQ ID No:1:
GCGGCGCAAC CGGCTCCGGA GCTGCCTGGC GCGGCCGGGC GGGCGGCGCC GCTCAGGCTC 60
GGGCTCCGGC TGGGCCCGGC GCGGCCTCGG GGCTGCCCAT GGGGCGCGGG GGGCCGGGCC 120
GGTGACGCCG GACGCCC ATG GAC GCC TCT GAG GAG CCG CTG CCG CCG GTG 170
Met Asp Ala Ser Glu Glu Pro Leu Pro Pro Val
1 5 10
ATC TAC ACC ATG GAG AAC AAG CCC ATC GTC ACC TGT GCT GGA GAT CAG 218
Ile Tyr Thr Met Glu Asn Lys Pro Ile Val Thr Cys Ala Gly Asp Gln
15 20 25
AAT TTA TTT ACC TCT GTT TAT CCA ACG CTC TCT CAG CAG CTT CCA AGA 266
Asn Leu Phe Thr Ser Val Tyr Pro Thr Leu Ser Gln Gln Leu Pro Arg
30 35 40
GAA CCA ATG GAA TGG AGA AGG TCC TAT GGC CGG GCT CCG AAG ATG ATT 314
Glu Pro Met Glu Trp Arg Arg Ser Tyr Gly Arg Ala Pro Lys Met Ile
45 50 55
CAC CTA GAG TCT AAC TTT GTT CAA TTC AAA GAG GAG CTG CTG CCC AAA 362
His Leu Glu Ser Asn Phe Val Gln Phe Lys Glu Glu Leu Leu Pro Lys
60 65 70 75
GAA GGA AAC AAA GCT CTG CTC ACG TTT CCC TTC CTC CAT ATT TAC TGG 410
Glu Gly Asn Lys Ala Leu Leu Thr Phe Pro Phe Leu His Ile Tyr Trp
80 85 90
ACA GAG TGC TGT GAT ACC GAA GTG TAT AAA GCT ACA GTA AAA GAT GAC 458
Thr Glu Cys Cys Asp Thr Glu Val Tyr Lys Ala Thr Val Lys Asp Asp
95 100 105
CTC ACC AAG TGG CAG AAT GTT CTG AAG GCT CAT AGC TCT GTG GAC TGG 506
Leu Thr Lys Trp Gln Asn Val Leu Lys Ala His Ser Ser Val Asp Trp
110 115 120
TTA ATA GTG ATA GTT GAA AAT GAT GCC AAG AAA AAA AAC AAA ACC AAC 554
Leu Ile Val Ile Val Glu Asn Asp Ala Lys Lys Lys Asn Lys Thr Asn
125 130 135
ATC CTT CCC CGA ACC TCT ATT GTG GAC AAA ATA AGA AAT GAT TTT TGT 602
Ile Leu Pro Arg Thr Ser Ile Val Asp Lys Ile Arg Asn Asp Phe Cys
140 145 150 155
AAT AAA CAG AGT GAC AGG TGT GTT GTG CTC TCC GAC CCC TTG AAG GAC 650
Asn Lys Gln Ser Asp Arg Cys Val Val Leu Ser Asp Pro Leu Lys Asp
160 165 170
TCT TCT CGA ACT CAG GAA TCC TGG AAT GCC TTC CTG ACC AAA CTC AGG 698
Ser Ser Arg Thr Gln Glu Ser Trp Asn Ala Phe Leu Thr Lys Leu Arg
175 180 185
ACA TTG CTT CTT ATG TCT TTT ACC AAA AAC CTA GGC AAG TTT GAG GAT 746
Thr Leu Leu Leu Met Ser Phe Thr Lys Asn Leu Gly Lys Phe Glu Asp
190 195 200
GAC ATG AGA ACC TTG AGG GAG AAG AGG ACT GAG CCA GGC TGG AGC TTT 794
Asp Met Arg Thr Leu Arg Glu Lys Arg Thr Glu Pro Gly Trp Ser Phe
205 210 215
TGT GAA TAT TTC ATG GTT CAG GAG GAG CTT GCC TTT GTT TTC GAG ATG 842
Cys Glu Tyr Phe Met Val Gln Glu Glu Leu Ala Phe Val Phe Glu Met
220 225 230 235
CTG CAG CAG TTC GAG GAC GCC CTG GTG CAG TAC GAC GAA CTG GAC GCC 890
Leu Gln Gln Phe Glu Asp Ala Leu Val Gln Tyr Asp Glu Leu Asp Ala
240 245 250
CTC TTC TCT CAG TAT GTG GTC AAC TTC GGG GCC GGG GAT GGT GCC AAC 938
Leu Phe Ser Gln Tyr Val Val Asn Phe Gly Ala Gly Asp Gly Ala Asn
255 260 265
TGG CTG ACT TTT TTC TGC CAG CCA GTG AAG AGC TGG AAC GGA TTG ATC 986
Trp Leu Thr Phe Phe Cys Gln Pro Val Lys Ser Trp Asn Gly Leu Ile
270 275 280
CTC CGA AAA CCC ATA GAT ATG GAG AAG CGG GAA TCG ATC CAG AGG CGA 1034
Leu Arg Lys Pro Ile Asp Met Glu Lys Arg Glu Ser Ile Gln Arg Arg
285 290 295
GAA GCC ACC CTG TTA GAT CTG CGC AGT TAC CTG TTC TCT CGC CAG TGC 1082
Glu Ala Thr Leu Leu Asp Leu Arg Ser Tyr Leu Phe Ser Arg Gln Cys
300 305 310 315
ACC TTG CTG CTC TTC CTG CAG AGG CCG TGG GAG GTG GCC CAG CGC GCC 1130
Thr Leu Leu Leu Phe Leu Gln Arg Pro Trp Glu Val Ala Gln Arg Ala
320 325 330
CTA GAG CTG CTG CAC AAC TGC GTG CAG GAA CTG AAG CTC TTA GAA GTC 1178
Leu Glu Leu Leu His Asn Cys Val Gln Glu Leu Lys Leu Leu Glu Val
335 340 345
TCT GTC CCA CCT GGT GCT CTG GAC TGC TGG GTG TTT CTG AGC TGT CTG 1226
Ser Val Pro Pro Gly Ala Leu Asp Cys Trp Val Phe Leu Ser Cys Leu
350 355 360
GAG GTG TTG CAG AGG ATA GAA GGC TGC TGT GAC CGG GCA CAG ATC GAC 1274
Glu Val Leu Gln Arg Ile Glu Gly Cys Cys Asp Arg Ala Gln Ile Asp
365 370 375
TCA AAC ATT GCC CAC ACT GTG GGG CTA TGG AGC TAT GCC ACA GAA AAG 1322
Ser Asn Ile Ala His Thr Val Gly Leu Trp Ser Tyr Ala Thr Glu Lys
380 385 390 395
TTA AAG TCC TTG GGC TAT CTA TGT GGA CTT GTG TCA GAG AAA GGA CCT 1370
Leu Lys Ser Leu Gly Tyr Leu Cys Gly Leu Val Ser Glu Lys Gly Pro
400 405 410
AAC TCA GAA GAT CTC AAC AGG ACA GTT GAC CTT TTG GCA GGT TTG GGA 1418
Asn Ser Glu Asp Leu Asn Arg Thr Val Asp Leu Leu Ala Gly Leu Gly
415 420 425
GCT GAG CGA CCA GAA ACA GCC AAC ACA GCT CAG AGT CCT TAT AAG AAA 1466
Ala Glu Arg Pro Glu Thr Ala Asn Thr Ala Gln Ser Pro Tyr Lys Lys
430 435 440
CTG AAA GAA GCA TTA TCG TCA GTG GAA GCT TTT GAA AAA CAC TAC TTA 1514
Leu Lys Glu Ala Leu Ser Ser Val Glu Ala Phe Glu Lys His Tyr Leu
445 450 455
GAT TTG TCC CAT GCC ACC ATT GAA ATG TAT ACA AGC ATT GGG AGG ATT 1562
Asp Leu Ser His Ala Thr Ile Glu Met Tyr Thr Ser Ile Gly Arg Ile
460 465 470 475
CGA TCT GCT AAG TTT GTT GGA AAA GAT CTG GCA GAG TTT TAC ATG AGG 1610
Arg Ser Ala Lys Phe Val Gly Lys Asp Leu Ala Glu Phe Tyr Met Arg
480 485 490
AAA AAG GCT CCA CAA AAG GCA GAA ATC TAT CTT CAA GGA GCA CTG AAA 1658
Lys Lys Ala Pro Gln Lys Ala Glu Ile Tyr Leu Gln Gly Ala Leu Lys
495 500 505
AAC TAC CTG GCT GAG GGC TGG GCA CTC CCC ATC ACA CAC ACA AGG AAG 1706
Asn Tyr Leu Ala Glu Gly Trp Ala Leu Pro Ile Thr His Thr Arg Lys
510 515 520
CAG CTG GCC GAA TGT CAA AAG CAC CTT GGA CAA ATT GAA AAC TAC CTG 1754
Gln Leu Ala Glu Cys Gln Lys His Leu Gly Gln Ile Glu Asn Tyr Leu
525 530 535
CAG ACC AGC AGC CTC TTA GCC AGT GAC CAC CAC CTC ACT GAA GAG GAG 1802
Gln Thr Ser Ser Leu Leu Ala Ser Asp His His Leu Thr Glu Glu Glu
540 545 550 555
CGC AAG CAC TTC TGC CAG GAG ATA CTT GAC TTT GCC AGC CAG CCG TCA 1850
Arg Lys His Phe Cys Gln Glu Ile Leu Asp Phe Ala Ser Gln Pro Ser
560 565 570
GAC AGC CCA GGT CAT AAG ATA GTG CTA CCC ATG CAT TCC TTT GCA CAA 1898
Asp Ser Pro Gly His Lys Ile Val Leu Pro Met His Ser Phe Ala Gln
575 580 585
CTG CGA GAT CTC CAT TTT GAT CCC TCC AAT GCC GTG GTC CAC GTG GGC 1946
Leu Arg Asp Leu His Phe Asp Pro Ser Asn Ala Val Val His Val Gly
590 595 600
GGC GTT TTG TGC GTT GAG ATA ACC ATG TAC AGC CAG ATG CCT GTG CCT 1994
Gly Val Leu Cys Val Glu Ile Thr Met Tyr Ser Gln Met Pro Val Pro
605 610 615
GTT CAC GTG GAG CAG ATT GTG GTC AAT GTC CAC TTC AGC ATT GAG AAA 2042
Val His Val Glu Gln Ile Val Val Asn Val His Phe Ser Ile Glu Lys
620 625 630 635
AAC AGC TAC CGG AAG ACT GCG GAG TGG CTT ACC AAG CAC AAG ACG TCC 2090
Asn Ser Tyr Arg Lys Thr Ala Glu Trp Leu Thr Lys His Lys Thr Ser
640 645 650
AAT GGG ATC ATT AAC TTT CCA CCC GAG ACC GCA CCT TTC CCT GTA TCC 2138
Asn Gly Ile Ile Asn Phe Pro Pro Glu Thr Ala Pro Phe Pro Val Ser
655 660 665
CAA AAC AGT TTG CCC GCG CTG GAG TTG TAT GAA ATG TTT GAG AGA AGC 2186
Gln Asn Ser Leu Pro Ala Leu Glu Leu Tyr Glu Met Phe Glu Arg Ser
670 675 680
CCA TCT GAT AAC TCC TTG AAC ACG ACT GGG ATT ATC TGC AGA AAC GTC 2234
Pro Ser Asp Asn Ser Leu Asn Thr Thr Gly Ile Ile Cys Arg Asn Val
685 690 695
CAC ATG CTC CTG AGA AGG CAG GAG AGC AGC TCC TCT CTA GAG ATG CCC 2282
His Met Leu Leu Arg Arg Gln Glu Ser Ser Ser Ser Leu Glu Met Pro
700 705 710 715
TCA GGG GTG GCT CTG GAG GAG GGT GCC CAC GTG CTG AGG TGC AGC CAC 2330
Ser Gly Val Ala Leu Glu Glu Gly Ala His Val Leu Arg Cys Ser His
720 725 730
GTG ACC CTG GAA CCA GGG GCC AAC CAG ATA ACA TTC AGG ACT CAG GCC 2378
Val Thr Leu Glu Pro Gly Ala Asn Gln Ile Thr Phe Arg Thr Gln Ala
735 740 745
AAG GAA CCT GGA ACG TAT ACA CTC AGG CAG CTG TGC GCC TCG GTG GGC 2426
Lys Glu Pro Gly Thr Tyr Thr Leu Arg Gln Leu Cys Ala Ser Val Gly
750 755 760
TCC GTG TGG TTC GTC CTC CCT CAC ATC TAC CCC ATT GTG CAG TAC GAC 2474
Ser Val Trp Phe Val Leu Pro His Ile Tyr Pro Ile Val Gln Tyr Asp
765 770 775
GTG TAC TCA CAG GAG CCC CAG CTG CAC GTG GAG CCG CTG GCT GAT AGC 2522
Val Tyr Ser Gln Glu Pro Gln Leu His Val Glu Pro Leu Ala Asp Ser
780 785 790 795
CTT CTG GCA GGC ATT CCT CAG AGA GTC AAG TTC ACT GTC ACT ACC GGC 2570
Leu Leu Ala Gly Ile Pro Gln Arg Val Lys Phe Thr Val Thr Thr Gly
800 805 810
CAT GAT ACG ATA AAG AAT GGA GAC AGC CTG CAG CTT AGC AAT GCC GAA 2618
His Asp Thr Ile Lys Asn Gly Asp Ser Leu Gln Leu Ser Asn Ala Glu
815 820 825
GCC ATG CTC ATC CTG TGC CAG GCG GAG AGC AGG GCT GTG GTC TAC TCC 2666
Ala Met Leu Ile Leu Cys Gln Ala Glu Ser Arg Ala Val Val Tyr Ser
830 835 840
AAC ACG AGA GAA CAG TCT TCT GAG GCC GCG CTC CGG ATT CAG TCC TCC 2714
Asn Thr Arg Glu Gln Ser Ser Glu Ala Ala Leu Arg Ile Gln Ser Ser
845 850 855
GAC AAG GTC ACG AGC ATC AGT CTG CCT GTT GCG CCT GCG TAC CAC GTG 2762
Asp Lys Val Thr Ser Ile Ser Leu Pro Val Ala Pro Ala Tyr His Val
860 865 870 875
ATC GAA TTT GAA CTG GAA GTT CTC TCT TTA CCT TCA GCC CCA GCA CTC 2810
Ile Glu Phe Glu Leu Glu Val Leu Ser Leu Pro Ser Ala Pro Ala Leu
880 885 890
GGA GGG GAG AGT GAC ATG CTG GGG ATG GCA GAG CCC CAC AGG AAG CAT 2858
Gly Gly Glu Ser Asp Met Leu Gly Met Ala Glu Pro His Arg Lys His
895 900 905
AAG GAC AAA CAG AGA ACT GGC CGC TGC ATG GTT ACC ACA GAC CAC AAA 2906
Lys Asp Lys Gln Arg Thr Gly Arg Cys Met Val Thr Thr Asp His Lys
910 915 920
GTG TCG ATT GAC TGC CCG TGG TCC ATC TAC TCC ACA GTC ATC GCA CTG 2954
Val Ser Ile Asp Cys Pro Trp Ser Ile Tyr Ser Thr Val Ile Ala Leu
925 930 935
ACC TTC AGC GTA CCC TTC AGG ACC ACA CAC AGC CTC CTG TCC TCA GGA 3002
Thr Phe Ser Val Pro Phe Arg Thr Thr His Ser Leu Leu Ser Ser Gly
940 945 950 955
ACA CGG AAA TAT GTT CAA GTT TGT GTC CAG AAT TTG TCA GAA CTT GAC 3050
Thr Arg Lys Tyr Val Gln Val Cys Val Gln Asn Leu Ser Glu Leu Asp
960 965 970
TTT CAG CTG TCA GAT AGT TAT CTT GTA GAT ACC GGT GAT AGT ACC GAC 3098
Phe Gln Leu Ser Asp Ser Tyr Leu Val Asp Thr Gly Asp Ser Thr Asp
975 980 985
CTG CAA CTA GTA CCA CTG AAC ACG CAG TCC CAG CAG CCC ATC TAC AGC 3146
Leu Gln Leu Val Pro Leu Asn Thr Gln Ser Gln Gln Pro Ile Tyr Ser
990 995 1000
AAG CAG TCG GTG TTC TTC GTC TGG GAA CTC AAG TGG ACA GAA GAG CCT 3194
Lys Gln Ser Val Phe Phe Val Trp Glu Leu Lys Trp Thr Glu Glu Pro
1005 1010 1015
CCC CCT TCT CTG CAT TGC CGG TTC TCT GTT GGA TTT TCC CCA GCT TCT 3242
Pro Pro Ser Leu His Cys Arg Phe Ser Val Gly Phe Ser Pro Ala Ser
1020 1025 1030 1035
GAG GAA CAG CTG TCT ATC TCC TTA AAG CCG TAT ACT TAT GAA TTT AAA 3290
Glu Glu Gln Leu Ser Ile Ser Leu Lys Pro Tyr Thr Tyr Glu Phe Lys
1040 1045 1050
GTG GAA AAT TTT TTT ACA TTA TAC AAC GTG AAG GCT GAG ATC TTT CCC 3338
Val Glu Asn Phe Phe Thr Leu Tyr Asn Val Lys Ala Glu Ile Phe Pro
1055 1060 1065
CCT TCG GGA ATG GAG TAT TGC AGA ACA GGC TCC CTC TGC TCC CTG GAG 3386
Pro Ser Gly Met Glu Tyr Cys Arg Thr Gly Ser Leu Cys Ser Leu Glu
1070 1075 1080
GTT TTG ATC ACG AGG CTC TCA GAC CTC TTG GAG GTG GAT AAA GAT GAA 3434
Val Leu Ile Thr Arg Leu Ser Asp Leu Leu Glu Val Asp Lys Asp Glu
1085 1090 1095
GCA CTG ACT GAA TCT GAT GAG CAT TTT TCG ACA AAG CTT ATG TAT GAA 3482
Ala Leu Thr Glu Ser Asp Glu His Phe Ser Thr Lys Leu Met Tyr Glu
1100 1105 1110 1115
GTT GTC GAC AAC AGT AGC AAC TGG GCA GTG TGT GGG AAA AGC TGC GGT 3530
Val Val Asp Asn Ser Ser Asn Trp Ala Val Cys Gly Lys Ser Cys Gly
1120 1125 1130
GTC ATC TCC ATG CCA GTG GCT GCT CGG GCC ACT CAC AGG GTC CAC ATG 3578
Val Ile Ser Met Pro Val Ala Ala Arg Ala Thr His Arg Val His Met
1135 1140 1145
GAA GTG ATG CCG CTC TTC GCC GGG TAT CTC CCC CTG CCC GAC GTC AGG 3626
Glu Val Met Pro Leu Phe Ala Gly Tyr Leu Pro Leu Pro Asp Val Arg
1150 1155 1160
CTG TTC AAG TAC CTC CCC CAT CAT TCT GCA CAC TCC TCC CAA CTG GAC 3674
Leu Phe Lys Tyr Leu Pro His His Ser Ala His Ser Ser Gln Leu Asp
1165 1170 1175
GCT GAC AGC TGG ATA GAA AAC GCA GCC TGT CAG TAGACAAGCA CGGGGACGAC 3727
Ala Asp Ser Trp Ile Glu Asn Ala Ala Cys Gln
1180 1185 1190
CAGCCGGACA GCAGCAGCCT CAAGAGCAGG GGCAGCGTGC ATTCGGCCTG CAGCAGCGAG 3787
CACAAAGGCC TACCCATGCC CCGGCTGCAG GCACTGCCGG CCGGCCAGGT CTTCAACTCC 3847
AGCTCGGGCA CACAAGTCCT GGTCATCCCC AGCCAAGATG ACCACGTCCT GGAAGTCAGT 3907
GTAACATGAC AACGCCAGGG TGAACACACG CCACTTCCCA GCTAGGAGTG CACTTTATGG 3967
GACTGTGACT GGACTCTTCC GTTCTGGCTC CAGCCAGACC TTCAGTGGTC CTGCCTGGCC 4027
GTGGGGACAT CAGAGAGTGT CATCACGCAG CTGGCCAGCT GAGTTCTGTT GTTGTTTTCA 4087
TGCCGCCTGT GATCTCAGAT TCCTGCTTTT CTCACCCCGT CCCCATGCTG GTGTCCGACG 4147
CCGCTTACTC AGAGCCCTGG CCTCCCTCCC CCTACCTCAC ACGCTGCTCA TGAAAGTTTC 4207
CACCCACGCT GTCTCCACGG AACAGCCTCC GTCTGCTGGC TCTTCGTGGA AGGCCATTTG 4267
TCTTTCAGGT AGACACTCAG CAGCCCTCAC GGTCTTAGTG ACGTGTGTGC CTTTCTGGTC 4327
ACACAGCTGC CCAGTTTCCT GATCGGGGTG GATTTGTGTC CCCTAAGGGG TAAAACAGCC 4387
GTTTACCGCA GATCCTCTCA TACACCCTTC TAGGGGAGGC GGGTGGGGGA GGGAGGGATC 4447
ATAACCCCTT CTGTGCCTTG GGATGCCGGA GCTGGGGGAC CTGGAGGCCC ATCAGCCGGA 4507
GCCACGTGAA AGGTACTGAA GAAAGCTGAG ACCCGGCTGT GAGGAGCGCC TCAGCGGTGA 4567
GGTGGTTTAG GGATAAATGT TTCTGGAACC CTGTGGTCCC CCATAATGTT GATAGATATC 4627
ATATGCACTG GGAGTTAAAT ATATTTAATT TAATGATCAT TATATATGTG GGGGTTAATA 4687
TGTTGTTTTT CTGTCCCTTT AAAGTCTTTA CATGTAATTG TAGCTGTATA ATCGTTATTT 4747
TTCTTTTGCA TCTTAAGTCT TAGAAATTAA GATATTCCAT CGTGAGGATG AGAGAGGTCC 4807
TCAGTGTGTT TTTGGTCTGG TTGTAGGGAA GGACTCAAGT CCTGGAATGT CCTCCACTGG 4867
TCTACTGAGT TGCAGTCACA CTGTTCCAAT GGATTATTTG CTTTCGGTTG TAAATTTAAT 4927
TGTACATATG GTTGATTTAT TATTTTTAAA AATACAGACT AACTGATGTA ATGTTTATGT 4987
ATAAGTTGCA CCAAAAATCA AGGACAAAAA TAAGTGTGTT TGTTTTTACA GGTGTGAAAG 5047
TCACAGCTTG TAAATAAGTG TTGTATGTAT TAAACCTTTT CCAGTTCTCC AAAGCGATGT 5107
(2)SEQ ID No:2的信息
(I)序列特征:
(A)长度:1190个氨基酸
(B)类型:氨基酸
(D)拓扑学:线性
(ii)分子类型:蛋白质
(xi)序列描述:SEQ ID No 2:
Met Asp Ala Ser Glu Glu Pro Leu Pro Pro Val Ile Tyr Thr Met Glu
1 5 10 15
Asn Lys Pro Ile Val Thr Cys Ala Gly Asp Gln Asn Leu Phe Thr Ser
20 25 30
Val Tyr Pro Thr Leu Ser Gln Gln Leu Pro Arg Glu Pro Met Glu Trp
35 40 45
Arg Arg Ser Tyr Gly Arg Ala Pro Lys Met Ile His Leu Glu Ser Asn
50 55 60
Phe Val Gln Phe Lys Glu Glu Leu Leu Pro Lys Glu Gly Asn Lys Ala
65 70 75 80
Leu Leu Thr Phe Pro Phe Leu His Ile Tyr Trp Thr Glu Cys Cys Asp
85 90 95
Thr Glu Val Tyr Lys Ala Thr Val Lys Asp Asp Leu Thr Lys Trp Gln
100 105 110
Asn Val Leu Lys Ala His Ser Ser Val Asp Trp Leu Ile Val Ile Val
115 120 125
Glu Asn Asp Ala Lys Lys Lys Asn Lys Thr Asn Ile Leu Pro Arg Thr
130 135 140
Ser Ile Val Asp Lys Ile Arg Asn Asp Phe Cys Asn Lys Gln Ser Asp
145 150 155 160
Arg Cys Val Val Leu Ser Asp Pro Leu Lys Asp Ser Ser Arg Thr Gln
165 170 175
Glu Ser Trp Asn Ala Phe Leu Thr Lys Leu Arg Thr Leu Leu Leu Met
180 185 190
Ser Phe Thr Lys Asn Leu Gly Lys Phe Glu Asp Asp Met Arg Thr Leu
195 200 205
Arg Glu Lys Arg Thr Glu Pro Gly Trp Ser Phe Cys Glu Tyr Phe Met
210 215 220
Val Gln Glu Glu Leu Ala Phe Val Phe Glu Met Leu Gln Gln Phe Glu
225 230 235 240
Asp Ala Leu Val Gln Tyr Asp Glu Leu Asp Ala Leu Phe Ser Gln Tyr
245 250 255
Val Val Asn Phe Gly Ala Gly Asp Gly Ala Asn Trp Leu Thr Phe Phe
260 265 270
Cys Gln Pro Val Lys Ser Trp Asn Gly Leu Ple Leu Arg Lys Pro Ile
275 280 285
Asp Met Glu Lys Arg Glu Ser Ile Gln Arg Arg Glu Ala Thr Leu Leu
290 295 300
Asp Leu Arg Ser Tyr Leu Phe Ser Arg Gln Cys Thr Leu Leu Leu Phe
305 310 315 320
Leu Gln Arg Pro Trp Glu Val Ala Gln Arg Ala Leu Glu Leu Leu His
325 330 335
Asn Cys Val Gln Glu Leu Lys Leu Leu Glu Val Ser Val Pro Pro Gly
340 345 350
Ala Leu Asp Cys Trp Val Phe Leu Ser Cys Leu Glu Val Leu Gln Arg
355 360 365
Ile Glu Gly Cys Cys Asp Arg Ala Gln Ile Asp Ser Asn Ile Ala His
370 375 380
Thr Val Gly Leu Trp Ser Tyr Ala Thr Glu Lys Leu Lys Ser Leu Gly
385 390 395 400
Tyr Leu Cys Gly Leu Val Ser Glu Lys Gly Pro Asn Ser Glu Asp Leu
405 410 415
Asn Arg Thr Val Asp Leu Leu Ala Gly Leu Gly Ala Glu Arg Pro Glu
420 425 430
Thr Ala Asn Thr Ala Gln Ser Pro Tyr Lys Lys Leu Lys Glu Ala Leu
435 440 445
Ser Ser Val Glu Ala Phe Glu Lys His Tyr Leu Asp Leu Ser His Ala
450 455 460
Thr Ile Glu Met Tyr Thr Ser Ile Gly Arg Ile Arg Ser Ala Lys Phe
465 470 475 480
Val Gly Lys Asp Leu Ala Glu Phe Tyr Met Arg Lys Lys Ala Pro Gln
485 490 495
Lys Ala Glu Ile Tyr Leu Gln Gly Ala Leu Lys Asn Tyr Leu Ala Glu
500 505 510
Gly Trp Ala Leu Pro Ile Thr His Thr Arg Lys Gln Leu Ala Glu Cys
515 520 525
Gln Lys His Leu Gly Gln Ile Glu Asn Tyr Leu Gln Thr Ser Ser Leu
530 535 540
Leu Ala Ser Asp His His Leu Thr Glu Glu Glu Arg Lys His Phe Cys
545 550 555 560
Gln Glu Ile Leu Asp Phe Ala Ser Gln Pro Ser Asp Ser Pro Gly His
565 570 575
Lys Ile Val Leu Pro Met His Ser Phe Ala Gln Leu Arg Asp Leu His
580 585 590
Phe Asp Pro Ser Asn Ala Val Val His Val Gly Gly Val Leu Cys Val
595 600 605
Glu Ile Thr Met Tyr Ser Gln Met Pro Val Pro Val His Val Glu Gln
610 615 620
Ile Val Val Asn Val His Phe Ser Ile Glu Lys Asn Ser Tyr Arg Lys
625 630 635 640
Thr Ala Glu Trp Leu Thr Lys His Lys Thr Ser Asn Gly Ile Ile Asn
645 650 655
Phe Pro Pro Glu Thr Ala Pro Phe Pro Val Ser Gln Asn Ser Leu Pro
660 665 670
Ala Leu Glu Leu Tyr Glu Met Phe Glu Arg Ser Pro Ser Asp Asn Ser
675 680 685
Leu Asn Thr Thr Gly Ile Ile Cys Arg Asn Val His Met Leu Leu Arg
690 695 700
Arg Gln Glu Ser Ser Ser Ser Leu Glu Met Pro Ser Gly Val Ala Leu
705 710 715 720
Glu Glu Gly Ala His Val Leu Arg Cys Ser His Val Thr Leu Glu Pro
725 730 735
Gly Ala Asn Gln Ile Thr Phe Arg Thr Gln Ala Lys Glu Pro Gly Thr
740 745 750
Tyr Thr Leu Arg Gln Leu Cys Ala Ser Val Gly Ser Val Trp Phe Val
755 760 765
Leu Pro His Ile Tyr Pro Ile Val Gln Tyr Asp Val Tyr Ser Gln Glu
770 775 780
Pro Gln Leu His Val Glu Pro Leu Ala Asp Ser Leu Leu Ala Gly Ile
785 790 795 800
Pro Gln Arg Val Lys Phe Thr Val Thr Thr Gly His Asp Thr Ile Lys
805 810 815
Asn Gly Asp Ser Leu Gln Leu Ser Asn Ala Glu Ala Met Leu Ile Leu
820 825 830
Cys Gln Ala Glu Ser Arg Ala Val Val Tyr Ser Asn Thr Arg Glu Gln
835 840 845
Ser Ser Glu Ala Ala Leu Arg Ile Gln Ser Ser Asp Lys Val Thr Ser
850 855 860
Ile Ser Leu Pro Val Ala Pro Ala Tyr His Val Ile Glu Phe Glu Leu
865 870 875 880
Glu Val Leu Ser Leu Pro Ser Ala Pro Ala Leu Gly Gly Glu Ser Asp
885 890 895
Met Leu Gly Met Ala Glu Pro His Arg Lys His Lys Asp Lys Gln Arg
900 905 910
Thr Gly Arg Cys Met Val Thr Thr Asp His Lys Val Ser Ile Asp Cys
915 920 925
Pro Trp Ser Ile Tyr Ser Thr Val Ile Ala Leu Thr Phe Ser Val Pro
930 935 940
Phe Arg Thr Thr His Ser Leu Leu Ser Ser Gly Thr Arg Lys Tyr Val
945 950 955 960
Gln Val Cys Val Gln Asn Leu Ser Glu Leu Asp Phe Gln Leu Ser Asp
965 970 975
Ser Tyr Leu Val Asp Thr Gly Asp Ser Thr Asp Leu Gln Leu Val Pro
980 985 990
Leu Asn Thr Gln Ser Gln Gln Pro Ile Tyr Ser Lys Gln Ser Val Phe
995 1000 1005
Phe Val Trp Glu Leu Lys Trp Thr Glu Glu Pro Pro Pro Ser Leu His
1010 1015 1020
Cys Arg Phe Ser Val Gly Phe Ser Pro Ala Ser Glu Glu Gln Leu Ser
1025 1030 1035 1040
Ile Ser Leu Lys Pro Tyr Thr Tyr Glu Phe Lys Val Glu Asn Phe Phe
1045 1050 1055
Thr Leu Tyr Asn Val Lys Ala Glu Ile Phe Pro Pro Ser Gly Met Glu
1060 1065 1070
Tyr Cys Arg Thr Gly Ser Leu Cys Ser Leu Glu Val Leu Ile Thr Arg
1075 1080 1085
Leu Ser Asp Leu Leu Glu Val Asp Lys Asp Glu Ala Leu Thr Glu Ser
1090 1095 1100
Asp Glu His Phe Ser Thr Lys Leu Met Tyr Glu Val Val Asp Asn Ser
1105 1110 1115 1120
Ser Asn Trp Ala Val Cys G1y Lys Ser Cys Gly Val Ile Ser Met Pro
1125 1130 1135
Val Ala Ala Arg Ala Thr His Arg Val His Met Glu Val Met Pro Leu
1140 1145 1150
Phe Ala Gly Tyr Leu Pro Leu Pro Asp Val Arg Leu Phe Lys Tyr Leu
1155 1160 1165
Pro His His Ser Ala His Ser Ser Gln Leu Asp Ala Asp Ser Trp Ile
1170 1175 1180
Glu Asn Ala Ala Cys Gln
1185 1190
(2)SEQ ID No:3的信息:
(i)序列特征:
(A)长度:20对碱基
(B)类型:核苷酸
(C)链型:单、双链
(D)拓扑学:线性
(ii)分子类型:DNA(基因组的)
(xi)序列描述:SEQ ID No:3:
CCTGATGCTC GAGTGAATTC 20
(2)SEQ IDNo:4的信息:
(i)序列持征:
(A)长度:1801对碱基
(B)类型:核酸
(C)链型:单、双链
(D)拓扑学:线性
(ii)分子类型:cDNA
(vii)直接来源:
(B)克隆:cEH25(EHOC-13′未被翻译的cDNA)
(ix)特征:
(A)名称/关键词:polyA_位点
(B)位置:10
(ix)特征:
(A)名称/关键词:polyA_位点
(B)位置:310
(ix)特征:
(A)名称/关键词:polyA_位点
(B)位置:1149
(ix)特征:
(A)名称/关键词:polyA_位点
(B)位置:1155
(ix)特征:
(A)名称/关键词:polyA_位点
(B)位置:1798
(ix)特征:
(A)名称/关键词:polyA_位点
(B)位置:1801
(xi)序列描述:SEQ ID No:4
ATTTTTGTAC ACTTGAAATA GAGTACTCTT AATTTACTGG GCAAATGTGC TTGGAATTGA 60
ACTTGACAAG ATTAGCTCAA GCAGATAGAG TCGGGTCCAG CAGTGGGTGG CCCTCGTGTG 120
AATCCCCGTG GATGTGCAAG TTGTGGAGAG AAGGAGCACC GGGTTCCTGC CCAGCACTGT 180
GCTTGCGGGA GGCGGTGGGG CATGGGAGGA AGGAGGCACA GACCGGGGAA ATATGACAGC 240
CGTCATTTCC AGTATTCTCT GTGTTGTCTT TTAGCTCATT CAATAAATAA AGGTGGTGTG 300
ATTTTTTTTC CTCCTGTCTT TTTCATTTGT AGAAACTGGA GACGTGTAAA GAGATAAATA 360
ATTGGGTAAT TAAACTTTCC AGAAATTTAT CTTCCTCATG TGCAGTTAAC AAACTTGGTC 420
AAACTAGTTA GCAAATTAGA ACTTCAGAAT CTAATGATAG TTTAGGGTTT CTAANATAAG 480
GTTTNTTATT GTAAANATTG ACGATTGCCC TGCATTTCTA CCAAGTCCTG TGAATAAAGA 540
GATGGGAGTT TGATTCCGTC AGAAGAGACT GTAATCCGTG TCGTCAGCCT GGGAGCCTTC 600
CCCNGNGTAA TGTAGCTTTC TCTCTTACCT TCTGGAAGAG GGAATGTTTC ATTTATTACT 660
GTTGATTTCT TGTATCTGGT TCTACTCCCA GGATGAAATT ATCCAACTAC ATATATATTT 720
AGAGGAAGAA AGTGAAGGGG AAATTTAAAA TGTTTACGGC GCTTAATTGC CTGGAAATGA 780
AATGAAATCA AATTTATCAG TTTTTTTCCC CCTAATTACC CAAAAGATCT TTTGCAAACT 840
ATGTTACATG AATGCTTCTG CCTCTTTAAG ACAAAGAAGA ATGTCACCCA AAATTGTCAT 900
TTTTTTCTTA ATGTTCATCA TAAAAGTCCT AAAAAGGGTA ACCGTAATTG GATGTTTATT 960
GTTTTTATCT AAAGTAAGGT GTATGTGTTT GAGACAAGCT GGTTTTGTTG ATAAAGAGAT 1020
GTTAAATAAT TGTGAAGCCA GATATGCAAT GTGTATCTAA AAAGCAAGGA ATTTGCAGCC 1080
GTTTTACAAA TATCTGTGGA ACATGTAAAT ACTGTCAAAT GGAAAATAAA ATAAGTTATA 1140
ATTTTTGTGA ATTTCATGGG ATGTCCTATG ATTGGAAAAA TTATAACTCT TCTGATTCTA 1200
ATGTGGAAAT TGTATTTAAT CTGAAAATGA CTTTACCTAC AACAGTTCCA TTGTCAGCAC 1260
AGCCTAGGAG GGTCAGATTC CGTATTAATT GCTCTTAGTG GAGATGCCAG ATATCCCATA 1320
CAGAATTAGC AGAGAAAATA CAGACAGGCT TCTATTCAAA TTTTCTTTAG TGCTTAAAAT 1380
TAAGTTTTAA AATGAAATCA GACACTGCAG GTTTGTATAT AAAATGAAAA GCTATACTAC 1440
TTTTTATAAA AGGGCAAACT GGGCTGATGT AAATGTTTTA CTTTCAACTG TGTTCTTTAA 1500
AATAAATCCT ACCTGGTTTT TAAATTTTAT TTTTCATGAA AATGCTCCTT TCTCTACATT 1560
TATTCATCCT ATATACATCA GGCTGTAAGA CCCCCCCCAG TCATCATTAA TACAATGTGT 1620
TGGGATTCTG TGACTGGAAA AGGTGACAAG TTGGTGACTT TGACACTGCA GGTATTCCAT 1680
TTTCATGGTT TACTATGAAA AGTCATTTTT CATATTATGT AATATATTGT TAGATTAAAA 1740
CCATTGTATT AAGACTTTAA AATGTAAGCA TTGTAATTCT GAAAATACAC ATTTTAAGAA 1800
G 1801
(2)SEQ ID No:5的信息
(i)序列特征:
(A)长度:469对碱基
(B)类型:核酸
(C)链型:单、双链
(D)拓扑学:线性
(ii)分子类型:DNA(基因组的)
(vi)最初来源:
(A)有机体:人
(viii)在基因组中的位置:
(A)染色体/片断:21q22.3
(ix)特征:
(A)名称/关键词:mat_肽
(B)位置:117.263
(D)其它信息:/产物=“EHOC-1 cDNA的外显子7”
(ix)特征:
(A)名称/关键词:内显子
(B)位置:1..116
(ix)特征:
(A)名称/关键词:外显子
(B)位置:117.263
(ix)特征:
(A)名称/关键词:内显子
(B)位置:264..469
(xi)序列描述:SEQ ID No:5:
AGATGAGGTG GCTGCTTGAA GGTGAGGTTT GCACGTTCAA GCTAGAGCAT GTGGGTTTGT 60
TCAAGCTAGA GCTGTCCCGG AGCACCCCTC ACACGTTCGC ATTTGCACCC CCACAGGTCT 120
CTGTCCCACC TGGTGCTCTG GACTGCTGGG TGTTTCTGAG CTGTCTGGAG GTGTTGCAGA 180
GGATAGAAGG CTGCTGTGAC CGGGCACAGA TCGACTCAAA CATTGCCCAC ACTGTGGGGC 240
TATGGAGCTA TGCCACAGAA AAGGTGCCTA CCTGCCCAAG TGTGGAATGC TCACGTTGTC 300
TCTGCGGCCA TGCCTGGGTG GCGGAGGAAG TCTGCTGTTT GGAGGAGAGG TGTTGCTCAT 360
TTAGATCACG ATGCATCCAC TTTAGTGGCC CTAGAAGGTG TCTGGGTGCA GCCAAAGAAG 420
TCATAGTTCC CTACCACATG TCGATGTAGT CAGCAGACAG CAAGCACTT 469
(2)SEQ ID No:6的信息:
(i)序列特征:
(A)长度:229对碱基
(B)类型:核酸
(C)链型:单、双链
(D)拓扑学:线性
(ii)分子类型:cDNA
(vii)直接来源:
(A)文库:鼠胎脑cDNA
(B)克隆:cM06
(ix)特征:
(A)名称/关键词:CDS
(B)位置:1..229
(D)其它信息:/产物=“鼠EHOC-1”
/注意:“该鼠cDNA区与人cDNA具有75.4%的同源性,
相应于SEQ ID No:1的核苷酸1913-2141”
(xi)序列描述:SEQ ID No:6:
TTTTGACCCT CCCAATGCTG TGGTCCATGC GGGTGGTGTN CTGACTGTGG AGATAACGGT 60
ATACAGCCAG ATGCCCATCC CTGTCCACNT NGACCAGATT NCTGTCAATG TNCACTTNAG 120
CATCGAAAAA AACAACTACC GGAAGACAGC CGNNNNGCTG ACCAAGCACA AGACTTCCAA 180
TGGAATCATC ACCTTNNCAG CTGANNNCTC ACTGTTNCCT GCATCTCAG 229