癌症中的融合基因.pdf

摘要
申请专利号：	CN201580026399.3	申请日：	20150323
公开号：	CN106460054A	公开日：	20170222
当前法律状态：		有效性：	审查中
法律详情：
IPC分类号：	C12Q1/68	主分类号：	C12Q1/68
申请人：	新加坡科技研究局,新加坡国立大学
发明人：	阿克塞尔·希尔默,阮一骏,姚斐,陈文炜,杨启源,W·亨齐克,张淑明,夏于渊
地址：	新加坡
优先权：	10201400876T
专利代理机构：	北京派特恩知识产权代理有限公司	代理人：	康艳青;姚开丽
PDF下载：	PDF下载

内容摘要

本发明涉及一种用于对患者是否患有癌症或是否处于增加的患癌症的风险进行确定或作出预后的方法，所述方法包括测试从患者获得的样品中一种或多种癌症相关融合基因或其衍生的蛋白质的存在。更确切地说，本发明涉及胃癌中的融合基因CLEC16A‑EMP2、SNX2‑PRDM6、MLL3‑PRKAG2、DUS2L‑PSKH1以及CLDN18‑ARHGAP26。还提供了所述方法的用途以及一种用于所述方法中的试剂盒。

权利要求书

1.一种对患者是否患有癌症或是否处于增加的患癌症的风险进行确定或作出预后的方法，所述方法包括测试从患者获得的样品中一种或多种癌症相关融合基因或其衍生的蛋白质的存在，其中在所述样品中所述一种或多种癌症相关融合基因的存在指示所述患者患有癌症或处于增加的癌症风险，其中所述癌症相关融合基因选自由以下各项组成的组：CLEC16A-EMP2(SEQIDNO.:97、99或101)、SNX2-PRDM6(SEQIDNO.:113或115)、MLL3-PRKAG2(SEQIDNO.:121、123或125)以及DUS2L-PSKH1(SEQIDNO.:131或133)，或其中所述癌症相关融合基因选自由以下各项组成的组与CLDN18-ARHGAP26(SEQIDNO:107)的组合：CLEC16A-EMP2(SEQIDNO.:97、99或101)、SNX2-PRDM6(SEQIDNO.:113或115)、MLL3-PRKAG2(SEQIDNO.:121、123或125)以及DUS2L-PSKH1(SEQIDNO.:131或133)。 2.如权利要求1所述的方法，其中在所述样品中所述一种或多种癌症相关融合基因的存在指示了所述患者是辨证治疗计划的候选者。 3.如权利要求1所述的方法，其中所述癌症相关融合基因是选自由以下各项组成的组的2种、或3种、或4种融合基因：CLEC16A-EMP2(SEQIDNO.:97、99或101)、SNX2-PRDM6(SEQIDNO.:113或115)、MLL3-PRKAG2(SEQIDNO.:121、123或125)以及DUS2L-PSKH1(SEQIDNO.:131或133)，或其中所述癌症相关融合基因选自由以下各项组成的组与CLDN18-ARHGAP26(SEQIDNO:107)的组合：CLEC16A-EMP2(SEQIDNO.:97、99或101)、SNX2-PRDM6(SEQIDNO.:113或115)、MLL3-PRKAG2(SEQIDNO.:121、123或125)以及DUS2L-PSKH1(SEQIDNO.:131或133)。 4.如权利要求1至3中任一项所述的方法，其中所述癌症是上皮癌。 5.如权利要求4所述的方法，其中所述上皮癌选自由以下各项组成的组：胃癌、肺癌、乳腺癌、泌尿生殖系统癌症、结肠癌、前列腺癌以及宫颈癌。 6.如权利要求5所述的方法，其中所述癌症是胃癌。 7.如权利要求1所述的方法，其中所述癌症相关融合基因是CLEC16A-EMP2(SEQIDNO.:97、99或101)或CLEC16A-EMP2(SEQIDNO.:97、99或101)与CLDN18-ARHGAP26(SEQIDNO:107)的组合。 8.如权利要求7所述的方法，其中所述癌症相关融合基因是CLEC16A-EMP2(SEQIDNO.:97、99或101)。 9.如权利要求1至8中任一项所述的方法，其中与来自没有所述癌症相关融合基因中的任一种或多种的患者的样品相比较来确定所述增加的癌症风险。 10.如前述权利要求中任一项所述的方法，其中所述一种或多种融合基因与选自由以下各项组成的组的序列至少70％相同：CLEC16A-EMP2(SEQIDNO.:97、99或101)、SNX2-PRDM6(SEQIDNO.:113或115)、MLL3-PRKAG2(SEQIDNO.:121、123或125)、DUS2L-PSKH1(SEQIDNO.:131或133)以及CLDN18-ARHGAP26(SEQIDNO:107)。 11.一种表达载体，所述表达载体包含编码以下各项中的任一种的核酸序列：CLEC16A-EMP2(SEQIDNO.:97、99或101)、SNX2-PRDM6(SEQIDNO.:113或115)、MLL3-PRKAG2(SEQIDNO.:121、123或125)、DUS2L-PSKH1(SEQIDNO.:131或133)或CLDN18-ARHGAP26(SEQIDNO:107)。 12.用如权利要求11所述的表达载体转化的细胞。 13.一种用于产生多肽的方法，所述方法包括在适用于多肽表达的条件下培养如权利要求12所述的转化的细胞以及从所述细胞收集一定量的所述多肽。 14.癌症相关融合基因用于对患者中的癌症进行确定或作出预后的用途，其中在从所述患者获得的样品中所述一种或多种癌症相关融合基因的存在指示了所述患者患有癌症或处于增加的患癌症的风险，其中所述癌症相关融合基因选自由以下各项组成的组：CLEC16A-EMP2(SEQIDNO.:97、99或101)、SNX2-PRDM6(SEQIDNO.:113或115)、MLL3-PRKAG2(SEQIDNO.:121、123或125)以及DUS2L-PSKH1(SEQIDNO.:131或133)，或其中所述癌症相关融合基因选自由以下各项组成的组与CLDN18-ARHGAP26(SEQIDNO:107)的组合：CLEC16A-EMP2(SEQIDNO.:97、99或101)、SNX2-PRDM6(SEQIDNO.:113或115)、MLL3-PRKAG2(SEQIDNO.:121、123或125)以及DUS2L-PSKH1(SEQIDNO.:131或133)。 15.如权利要求14所述的用途，其中在所述样品中所述一种或多种癌症相关融合基因的存在指示了所述患者是辨证治疗计划的候选者。 16.如权利要求14或15所述的用途，其中所述癌症相关融合基因是选自由以下各项组成的组的2种或3种或4种融合基因：CLEC16A-EMP2(SEQIDNO.:97、99或101)、SNX2-PRDM6(SEQIDNO.:113或115)、MLL3-PRKAG2(SEQIDNO.:121、123或125)以及DUS2L-PSKH1(SEQIDNO.:131或133)，或其中所述癌症相关融合基因选自由以下各项组成的组与CLDN18-ARHGAP26(SEQIDNO:107)的组合：CLEC16A-EMP2(SEQIDNO.:97、99或101)、SNX2-PRDM6(SEQIDNO.:113或115)、MLL3-PRKAG2(SEQIDNO.:121、123或125)以及DUS2L-PSKH1(SEQIDNO.:131或133)。 17.如权利要求16所述的用途，其中检测至少2种癌症相关融合基因，其中一种是CLDN18-ARHGAP26(SEQIDNO:107)并且另一种癌症相关融合基因选自由以下各项组成的组：CLEC16A-EMP2(SEQIDNO.:97、99或101)、SNX2-PRDM6(SEQIDNO.:113或115)、MLL3PRKAG2(SEQIDNO.:121、123或125)以及DUS2L-PSKH1(SEQIDNO.:131或133)。 18.如权利要求14至17中任一项所述的用途，其中所述癌症是上皮癌。 19.如权利要求18所述的用途，其中所述上皮癌选自包括以下各项的组：胃癌、肺癌、乳腺癌、泌尿生殖系统癌症、结肠癌、前列腺癌以及宫颈癌。 20.如权利要求19所述的用途，其中所述癌症是胃癌。 21.如权利要求14至20中任一项所述的用途，其中所述一种或多种融合基因与选自由以下各项组成的组的序列至少70％相同：CLEC16A-EMP2(SEQIDNO.:97、99或101)、SNX2-PRDM6(SEQIDNO.:113或115)、MLL3-PRKAG2(SEQIDNO.:121、123或125)、DUS2L-PSKH1(SEQIDNO.:131或133)以及CLDN18-ARHGAP26(SEQIDNO:107)。 22.一种用于如权利要求1至10中任一项所述的方法中的试剂盒，所述试剂盒包括：a)选自由以下各项组成的组的第一引物：SEQIDNO.1、SEQIDNO.3、SEQIDNO.5、SEQIDNO.7以及SEQIDNO.9；b)选自由以下各项组成的组的第二引物：SEQIDNO.2、SEQIDNO.4、SEQIDNO.6、SEQIDNO.8以及SEQIDNO.10；任选地连同使用说明书。 23.如权利要求22所述的试剂盒，所述试剂盒进一步包括脱氧核糖核苷酸碱基(dNTP)。 24.如权利要求22或23所述的试剂盒，所述试剂盒进一步包括DNA聚合酶。

说明书

对相关申请的交叉引用

本申请要求2014年3月21日提交的新加坡申请号10201400876T的优先权权益，该新加坡申请的内容在此以引用的方式整体并入本文用于所有目的。

技术领域

本发明属于癌症生物标志物，特别是作为癌症的预后生物标志物的融合基因的领域。

背景技术

癌症是特征在于一群细胞已经丧失它的正常控制机制，从而导致生长失去调控的一类疾病。癌细胞也被称作恶性细胞并且可以由任何器官内的任何组织产生。随着癌细胞生长和增殖，它们形成肿瘤，所述肿瘤侵袭并且破坏正常的邻近组织。来自原发部位的癌细胞还可以扩散到全身。

癌症的一个实例是胃癌(GC)。大部分的GC在晚期被诊断出，这限制了当前的治疗策略，远处疾病或转移性疾病的总体5年存活率是约3％。

在分子水平上，GC是异质的并且目前，唯一的治疗靶标是扩增的受体酪氨酸蛋白激酶ERBB2。

虽然最近的全基因组和外显子组测序研究已经鉴定出反复突变的基因，但是GC中的基因组重排仍尚未被非常详细地研究。基因组重排可能通过扩增、缺失以及基因破坏对基因功能造成显著的影响，并且可能产生具有新功能的融合基因。

因此，需要鉴定出可以用于可靠地确定患有诸如胃癌的癌症的患者的预后，以允许鉴定出高风险的癌症患者和低风险的癌症患者而允许不同的治疗方法的预后因子和标志物。

发明内容

在一个方面，提供了一种对患者是否患有癌症或是否处于增加的患癌症的风险进行确定或作出预后的方法，所述方法包括测试从患者获得的样品中一种或多种癌症相关融合基因或其衍生的蛋白质的存在，其中在所述样品中所述一种或多种癌症相关融合基因的存在指示所述患者患有癌症或处于增加的癌症风险，其中所述癌症相关融合基因选自由以下各项组成的组：CLEC16A-EMP2(SEQ ID NO.：97、99或101)、SNX2-PRDM6(SEQ ID NO.：113或115)、MLL3-PRKAG2(SEQ ID NO.：121、123或125)以及DUS2L-PSKH1(SEQ ID NO.：131或133)，或其中所述癌症相关融合基因选自由以下各项组成的组与CLDN18-ARHGAP26(SEQ ID NO：107)的组合：CLEC16A-EMP2(SEQ ID NO.：97、99或101)、SNX2-PRDM6(SEQ ID NO.：113或115)、MLL3-PRKAG2(SEQ ID NO.：121、123或125)以及DUS2L-PSKH1(SEQ ID NO.：131或133)。

在一个方面，提供了一种确定患者是否患有癌症或是否处于增加的患癌症的风险的方法，所述方法包括测试从患者获得的样品中一种或多种癌症相关融合基因或其衍生的蛋白质的存在，其中在所述样品中所述一种或多种癌症相关融合基因的存在指示所述患者患有癌症或处于增加的癌症风险，其中所述癌症相关融合基因选自由以下各项组成的组：CLEC16A-EMP2(SEQ ID NO.：97、99或101)、SNX2-PRDM6(SEQ ID NO.：113或115)、MLL3-PRKAG2(SEQ ID NO.：121、123或125)、DUS2L-PSKH1(SEQ ID NO.：131或133)以及CLDN18-ARHGAP26(SEQ ID NO：107)。

在一个方面，提供了一种确定患者是否患有癌症或是否处于增加的患癌症的风险的方法，其中所述方法包括在从患者获得的样品中检测选自由以下各项组成的组的一种或多种癌症相关融合基因：CLEC16A-EMP2(SEQ ID NO.：97、99或101)、SNX2-PRDM6(SEQ ID NO.：113或115)、MLL3-PRKAG2(SEQ ID NO.：121、123或125)以及DUS2L-PSKH1(SEQ ID NO.：131或133)；或检测选自由以下各项组成的组的一种或多种癌症相关融合基因与CLDN18-ARHGAP26(SEQ ID NO：107)的组合：CLEC16A-EMP2(SEQ ID NO.：97、99或101)、SNX2-PRDM6(SEQ ID NO.：113或115)、MLL3-PRKAG2(SEQ ID NO.：121、123或125)以及DUS2L-PSKH(SEQ ID NO.：131或133)，其中在所述样品中所述一种或多种癌症相关融合基因的存在指示所述患者患有癌症或处于增加的患癌症的风险。

在一个方面，提供了一种确定患者是否患有癌症或是否处于增加的患癌症的风险的方法，其中所述方法包括在从患者获得的样品中检测选自由以下各项组成的组的一种或多种癌症相关融合基因：CLEC16A-EMP2(SEQ ID NO.：97、99或101)、SNX2-PRDM6(SEQ ID NO.：113或115)、MLL3-PRKAG2(SEQ ID NO.：121、123或125)、DUS2L-PSKH1(SEQ ID NO.：131或133)以及CLDN18-ARHGAP26(SEQ ID NO：107)，其中在所述样品中所述一种或多种癌症相关融合基因的存在指示所述患者患有癌症或处于增加的患癌症的风险。

在一个方面，提供了一种表达载体，所述表达载体包含编码以下各项中的任一种的核酸序列：CLEC16A-EMP2(SEQ ID NO.：97、99或101)、SNX2-PRDM6(SEQ ID NO.：113或115)、MLL3-PRKAG2(SEQ ID NO.：121、123或125)、DUS2L-PSKH1(SEQ ID NO.：131或133)或CLDN18-ARHGAP26(SEQ ID NO：107)。

在一个方面，提供了一种用如本文所公开的表达载体转化的细胞。

在一个方面，提供了一种用于产生多肽的方法，所述方法包括在适用于多肽表达的条件下培养如本文所公开的转化的细胞以及从所述细胞收集一定量的所述多肽。

在一个方面，提供了癌症相关融合基因用于在患者中对癌症进行确定或作出预后的用途，其中在从所述患者获得的样品中所述一种或多种癌症相关融合基因的存在指示所述患者患有癌症或处于增加的患癌症的风险，其中所述癌症相关融合基因选自由以下各项组成的组：CLEC16A-EMP2(SEQ ID NO.：97、99或101)、SNX2-PRDM6(SEQ ID NO.：113或115)、MLL3-PRKAG2(SEQ ID NO.：121、123或125)以及DUS2L-PSKH1(SEQ ID NO.：131或133)，或其中所述癌症相关融合基因选自由以下各项组成的组与CLDN18-ARHGAP26(SEQ ID NO：107)的组合：CLEC16A-EMP2(SEQ ID NO.：97、99或101)、SNX2-PRDM6(SEQ ID NO.：113或115)、MLL3-PRKAG2(SEQ ID NO.：121、123或125)以及DUS2L-PSKH1(SEQ ID NO.：131或133)。

在一个方面，提供了癌症相关融合基因用于确定患者是否患有癌症或是否处于增加的癌症风险的用途，其中在从所述患者获得的样品中所述一种或多种癌症相关融合基因的存在指示所述患者患有癌症或处于增加的患癌症的风险，其中所述癌症相关融合基因选自由以下各项组成的组：CLEC16A-EMP2(SEQ ID NO.：97、99或101)、SNX2-PRDM6(SEQ ID NO.：113或115)、MLL3-PRKAG2(SEQ ID NO.：121、123或125)以及DUS2L-PSKH1(SEQ ID NO.：131或133)，或其中所述癌症相关融合基因选自由以下各项组成的组与CLDN18-ARHGAP26(SEQ ID NO：107)的组合：CLEC16A-EMP2(SEQ ID NO.：97、99或101)、SNX2-PRDM6(SEQ ID NO.：113或115)、MLL3-PRKAG2(SEQ ID NO.：121、123或125)以及DUS2L-PSKH1(SEQ ID NO.：131或133)。

在一个方面，提供了一种用于如本文所公开的方法中的试剂盒，所述试剂盒包括：

a)选自由以下各项组成的组的第一引物：SEQ ID NO.1、SEQ ID NO.3、SEQ ID NO.5、SEQ ID NO.7以及SEQ ID NO.9；

b)选自由以下各项组成的组的第二引物：SEQ ID NO.2、SEQ ID NO.4、SEQ ID NO.6、SEQ ID NO.8以及SEQ ID NO.10；

任选地连同使用说明书。

附图说明

在结合非限制性实施例和附图考虑时，参考详细说明将更好地理解本发明，在附图中：

图1：在GC中通过DNA-PET鉴定的体细胞SV的特征。(A)示出了用于GC患者125的SV过滤程序。通过Circos在被布置成圆圈的整个人类基因组上对SV进行作图，所述圆圈在外环中具有拷贝数改变，之后是缺失、串联重复、倒位/非配对倒位、以及在内环中具有染色体间分离易位。将在患者125的血液中所鉴定出的SV(右上)从在患者125的胃肿瘤中所鉴定出的SV(左上)中扣除，从而产生对所述肿瘤具有特异性的体细胞获得性SV(底部)。(B)15例GC的体细胞SV和生殖系SV的分布。(C)在15例GC中体细胞SV和生殖系SV的比例。SV计数示于顶部。(D)与生殖系SV相比较，GC中体细胞SV的组成。SV计数示于顶部。(E)GC的体细胞SV组成与对于胰腺癌、乳腺癌以及前列腺癌所报道的体细胞SV的比较。SV被减到四个类别以允许进行比较。

图2：体细胞SV的断裂点特征提供了对机制的见解。(A-C)GC中体细胞SV的断裂点位置的表征。重复区和基因的坐标是从UCSC基因组浏览器下载的并且开放染色质区域是从DNA元件百科全书(Encyclopedia of DNA Elements，ENCODE)编译的。(D)涉及重排的基因可能具有源自于SV断裂点中的一个的小DNA片段的插入。箭头表示基因组片段。指示了断裂点坐标并且微同源性示于断裂点对的上方。(E)体细胞串联重复和染色质相互作用的重叠的实例。染色体4和放大的基因座的坐标示于顶部。示出了GC肿瘤100的体细胞59kb串联重复的PET标测坐标，上游标测区位于左侧并且下游标测区位于右侧。括号中的数字指示连接这两个区域的非冗余PET读段的数目(簇大小)。底部：在细胞系MCF-7中通过ChIA-PET所鉴定的染色质相互作用显示出两个断裂点区域之间由拱形指示的相互作用。

图3：在15例GC中所鉴定出的SV与通过ChIA-PET测序所鉴定出的染色质相互作用之间的相关性。(A)在乳腺癌(BC，n＝1,935)和GC(n＝1,945)中通过DNA-PET所鉴定出的体细胞SV以及GC患者(n＝1,667)中的生殖系SV与乳腺癌细胞系MCF-7(n＝87,253)中与RNA聚合酶II结合的远距离的染色质相互作用的重叠。绝对数示于条柱上方。与ChIA-PET相互作用重叠的SV的分数是相对于每一个数据集的SV总数(例如GC SV)计算的。所有的SV/染色质相互作用重叠均显著高于随机期望(P＜0.001，基于置换)。(B)在慢性骨髓性白血病(CML，n＝189)和GC(n＝1,945)中通过DNA-PET所鉴定出的体细胞SV以及GC患者(n＝1,667)中的生殖系SV与CML细胞系K562(n＝154,130)中与RNA聚合酶II结合的远距离的染色质相互作用的重叠。所有的SV/染色质相互作用重叠均显著高于随机期望(P＜0.001，基于置换)。(C、E以及G)示出了在GC患者的配对正常组织中所鉴定出的1,667个非冗余生殖系SV与MCF-7的通过ChIA-PET所鉴定出的87,253个RNA聚合酶II染色质相互作用之间的重叠特征。(D、F以及H)示出了在15例GC中所鉴定出的1,945个体细胞SV与和C、E以及G中相同的MCF-7染色质相互作用之间的重叠特征。(C)和(D)图示了SV与染色质相互作用之间重叠的比例的维恩图(Venn diagram)，所述维恩图显示出小的重叠，然而，所述重叠显著大于随机期望(P＜0.001，基于置换)。(E)和(F)分别与染色质相互作用位点重叠(共同)或不重叠(独特)的SV的簇大小分布的比较。(G)和(H)示出了SV与染色质相互作用位点之间距离的分布。

图4：GC中复现的CLDN18-ARHGAP26框内融合在HGC27中具有促增殖作用。(A)RefSeq基因跟踪(顶部)、通过DNA-PET测序所测定的肿瘤136的拷贝数(中间)、以及在肿瘤136中在CLDN18和ARHGAP26中具有断裂点的体细胞平衡易位的PET标测(底部)。融合的外显子的数目以红色示出。DNA-PET簇的标测区由红色的和灰色的箭头尖示出，簇大小处于括号中，虚线处于方括号中的Sanger测序验证的断裂点坐标处。肿瘤07K611T的基因组断裂点的位置(chr3：139，237，526和chr5：142，309，897)由垂直箭头指示。(B)通过对肿瘤136进行FISH来验证基因组重排。(C)带有CLDN18-ARHGAP26融合的两例胃癌的肿瘤/正常对的RT-PCR。β-肌动蛋白的RT-PCR用作阳性对照。N：正常胃组织；T：胃肿瘤；M：标志物。(D)CLDN18的外显子5的编码区中的隐蔽剪接位点使得开放阅读框延伸到ARHGAP26中。融合转录物的序列以粗体突出显示并且由垂线连接。(E)CLDN18-ARHGAP26的蛋白质结构域表意图。(F)肿瘤136的CLDN18-ARHGAP26的RT-PCR的Sanger测序色谱图。CLDN18与ARHGAP26之间的融合点由垂直虚线指示。(G)HGC27亲代细胞和具有空载体和CLDN18-ARHGAP26表达载体的稳定细胞系中的CLDN18-ARHGAP26融合转录物的qRT-PCR。(H)稳定表达CLDN18-ARHGAP26的HGC27细胞的增殖测定。测定是按一式四份进行的。误差棒表示标准差。OD450：在450nm的光密度。关于对MLL3-PRKAG2、DUS2L-PSKH1、CLEC16A-EMP2以及SNX2-PRDM6的表征，参见图5至8和实施例12。

图5：GC中复现的MLL3-PRKAG2框内融合在TMK1中具有促增殖作用。(A)从UCSC下载的RefSeq基因跟踪(顶部)、对TMK1进行的DNA-PET测序的物理覆盖度(中间)、以及在MLL3和PRKAG2中具有断裂点的体细胞缺失的PET标测(底部)。(B)如从Ensembl(www.ensembl.org)所下载的MLL3和PRKAG2的基因结构。在转录物水平上外显子-外显子的融合由对角线指示，外显子编号分别示于基因的上方和下方。沿着对角线的数字指示了对每一种融合观测的次数。(C)带有MLL3-PRKAG2融合的三例胃癌的肿瘤/正常对的RT-PCR。β-肌动蛋白的RT-PCR用作阳性对照。M：标志物；N：正常胃组织；T：胃肿瘤。(D)TMK1的MLL3-PRKAG2融合的RT-PCR的Sanger测序色谱图。MLL3与PRKAG2之间的融合点由垂直虚线指示。(E)在具有对融合点具有特异性的siRNA A和siRNA B的TMK1细胞中在基因敲低后内源性MLL3和PRKAG2以及融合转录物的定量RT-PCR(qRT-PCR)。实验是按一式三份进行的。误差棒表示三次重复测定的标准差。(F)具有靶向MLL3-PRKAG2融合的siRNA-A的TMK1细胞的增殖测定。FGFR4是在基因敲低之后阴性增殖作用的阳性对照。测定是按一式四份进行的。误差棒表示标准差。OD450：在450nm的光密度，即WST-1测定的比色读数。

图6：对复现的框内融合基因DUS2L-PSKH1的鉴定以及在融合基因敲低之后对TMK1进行的增殖分析。(A)染色体表意图(顶部)，放大区域(底部)由垂直方框突出显示。放大的基因组视图在顶部示出了基因组坐标，在下方示出了UCSC基因跟踪。基于癌症体细胞突变目录(Catalogue Of Somatic Mutations In Cancer，COSMIC)中的多个条目，基因GFOD2、RANBP10、NUTF2、NRN1L、DPEP2/3、DDX28、DUS2L、以及NFATC3牵涉到癌症。TMK1的拷贝数和SV跟踪示于基因跟踪下方，物理覆盖度被示为平滑线或不平滑线并且PET标测对于5′标测区被示为左箭头并且对于3′标测区被示为右箭头。TMK1的基于串联重复的重建基因组结构示于底部。(B)带有DUS2L-PSKH1基因融合的两例胃癌的肿瘤/正常对的RT-PCR。β-肌动蛋白的RT-PCR用作阳性对照。M：标志物；N：正常胃组织；T：胃肿瘤。(C)TMK1的DUS2L-PSKH1融合的RT-PCR的Sanger测序色谱图。DUS2L与PSKH1之间的融合点由垂直虚线指示。(D)使用靶向DUS2L-PSKH1转录物的融合点的四种siRNA敲低TMK1中融合基因的表达。实验是按一式三份进行的。两次实验中的一个代表。误差棒表示三次重复测定的标准差。(E)使用针对DUS2L-PSKH1的siRNAA和siRNA C来比较融合基因的敲低对增殖特性的影响。将TMK1细胞用siRNA瞬时转染并且通过使用WST-1试剂进行比色测定来估计增殖。FGFR4用作阳性对照。实验是按一式三份进行的。误差棒表示三次重复测定的标准差。注意siRNAA和siRNA C的不一致的结果。两次实验中的一个代表。

图7：对复现的框内融合基因CLEC16A-EMP2的鉴定以及对稳定表达CLEC16A-EMP2的HGC27进行的增殖分析。(A)在肿瘤133中通过DNA-PET所鉴定的引起CLEC16A和EMP2融合的非配对倒位。牵涉到癌症的EMP2、TEKT5、NUBP1、FAM18A、CIITA以及CLEC16A的染色体表意图、基因跟踪、拷贝数以及SV表示如对于图6所述。(B)肿瘤06/0159的融合CLEC16A-EMP2的Sanger测序色谱图。CLEC16A与EMP2之间的融合点由垂直虚线指示。(C)带有CLEC16A-EMP2基因融合的两例胃癌的肿瘤/正常对的RT-PCR。β-肌动蛋白的RT-PCR用作阳性对照。M：标志物；N：正常胃组织；T：胃肿瘤。(D)对稳定表达CLEC16A-EMP2融合基因的HGC27细胞进行的qPCR分析。倍数变化是相对于亲代细胞系和用空载体稳定转染的细胞计算的。误差棒表示三次重复测定的标准差。(E)对稳定表达CLEC16A-EMP2的HGC27细胞进行的增殖测定。测定是按一式四份进行的。误差棒表示标准差。OD450：在450nm的光密度，即WST-1测定的比色读数。

图8：对复现的框内融合基因SNX2-PRDM6的鉴定以及对稳定表达SNX2-PRDM6的HGC27进行的增殖分析。(A)在肿瘤125中通过DNA-PET所鉴定的引起SNX2和PRDM6融合的缺失。染色体表意图、基因跟踪、拷贝数以及SV表示如对于图6所述。(B)肿瘤160和配对的正常组织针对SNX2-PRDM6基因融合的RT-PCR。β-肌动蛋白的RT-PCR用作阳性对照。M：标志物；N：正常胃组织；T：胃肿瘤。(C)肿瘤125的融合SNX2-PRDM6的Sanger测序色谱图。SNX2与PRDM6之间的融合点由垂直虚线指示。(D)对稳定表达SNX2-PRDM6融合基因的HGC27细胞进行的qPCR分析。倍数变化是相对于亲代细胞系和用空载体稳定转染的细胞计算的。误差棒表示三次重复测定的标准偏差。(E)对稳定表达SNX2-PRDM6的HGC27细胞进行的增殖测定。测定是按一式四份进行的。误差棒表示标准差。OD450：在450nm的光密度，即WST-1测定的比色读数。

图9：对过表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26的细胞系的表征。(A)针对CLDN18和ARHGAP26的抗体检测到CLDN18-ARHGAP26融合蛋白。用针对CLDN18和ARHGAP26的抗体对表达CLDN18-ARHGAP26的MDCK细胞进行免疫染色。(B和C)CLDN18在HeLa细胞中的强制表达恢复到上皮形态，如通过使用DAPI和针对N-钙粘蛋白(B)、β-连环蛋白(C)以及HA的抗体对稳定表达CLDN18和CLDN18-ARHGAP26融合基因的HeLa细胞进行免疫荧光分析所观测到。(D)针对N-钙粘蛋白、β-连环蛋白以及PAK1水平对未转染的HeLa以及表达CLDN18和CLDN18ΔP的稳定细胞进行的q-PCR分析。(E)经由对稳定表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26的MDCK中的紧密连接蛋白进行q-PCR分析所观测到的在表达CLDN18-ARHGAP26的MDCK细胞中紧密连接蛋白的补偿效应。倍数变化是相对于未转染的MDCK细胞计算的。(F)将稳定表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26融合的MDCK细胞固定并且用针对ZO-1、HA或GFP的抗体进行免疫染色。

图10：表达CLDN18-ARHGAP26融合的患者样品和MDCK细胞表现出上皮表型的丧失和癌症进展的增进。在正常样品和胃肿瘤患者样品中(A)CLDN18和(B)ARHGAP26的表达。对分别用针对E-钙粘蛋白的抗体和DAPI以及针对CLDN18和ARHGAP26的抗体染色的人类正常胃切片(顶部)和肿瘤胃切片(底部)的免疫荧光分析。(C)表达CLDN18-ARHGAP26融合的MDCK细胞表现出梭形和突起的形态。在亚汇合水平获得的MDCK细胞中表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26的稳定细胞系的相衬图像。(D)细胞聚集测定。将未转染的MDCK和表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26融合基因的稳定细胞系以悬滴形式接种并且在第二天获得相衬图像。(E)分别稳定表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26的MDCK细胞中的EMT标志物的qPCR。(F)和(G)通过用针对N-钙粘蛋白、β-连环蛋白(F)、Akt、pAkt、以及PAK1(G)的抗体进行免疫印迹法对未转染的HeLa和表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26融合基因的稳定细胞进行的蛋白质印迹分析。肌动蛋白用作上样对照。

图11：CLDN18-ARHGAP26表达使得细胞-ECM粘附减少。(A)顶部：细胞-ECM粘附测定。将表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26融合基因的MDCK稳定细胞系接种到未处理的板上并且在接种后两小时之时获得相衬图像。未转染的MDCK细胞用作对照。底部：对粘附到未处理的表面、I型胶原处理的表面以及纤维连接蛋白处理的表面的细胞的定量。将2×104个细胞接种到这些表面上，用PBS洗涤三次并且在PFA中固定10分钟。对每个视野的细胞数计数3次-4次。粘附的细胞的比例是相对于未转染的MDCK细胞(100％)定量的。(B)将表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26融合基因的MDCK稳定细胞系固定并且用针对激活的FAK和HA或GFP的抗体进行免疫染色。(C)在表达CLDN18-ARHGAP26的MDCK细胞中的游离边缘中不存在桩蛋白。将表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26融合基因的MDCK稳定细胞系固定并且用针对桩蛋白和HA或GFP的抗体进行免疫染色。(D)对未转染的MDCK和表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26融合基因的稳定细胞系中的粘着斑分子水平的蛋白质印迹分析。GAPDH用作上样对照。(E)表达CLDN18-ARHGAP26的MDCK中粘着斑分子的水平降低。针对粘着斑分子对表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26的MDCK稳定细胞系进行的qPCR分析。倍数变化是相对于未转染的MDCK细胞计算的。(F)对未转染的MDCK以及表达CLDN18、ARHGAP26和CLDN18-ARHGAP26的稳定细胞进行的蛋白质印迹分析。针对整合素β1和β5对印迹进行探测，并且微管蛋白用作上样对照。(G)表达CLDN18-ARHGAP26融合的MDCK中的整合素亚基水平降低。对MDCK-CLDN18、MDCK-ARHGAP26以及MDCK-CLDN18-ARHGAP26稳定细胞进行的整合素亚基qPCR分析。倍数变化是相对于未转染的MDCK细胞计算的。(H)将表达CLDN18、具有失活的C末端PDZ结合基序的CLDN18(CLDN18ΔP)、ARHGAP26、CLDN18-ARHGAP26的MDCK稳定细胞系和未转染的MDCK细胞接种到Transwell插入物中并且经过48小时的时间测量TER值。空的Transwell插入物用作阴性对照。(I)未转染的MDCK以及表达CLDN18、ARHGAP26和CLDN18-ARHGAP26的稳定细胞在汇合水平下的相衬图像。

图12：CLDN18-ARHGAP26对增殖、侵袭以及伤口闭合有细胞背景特异性作用。(A)表达CLDN18-ARHGAP26融合的MDCK细胞中的细胞增殖速率延缓。将表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26的MDCK稳定细胞系以800个细胞按一式四份接种到24孔板中。未转染的MDCK细胞用作对照。(B)伤口愈合测定。将表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26的MDCK稳定细胞系接种到μ-Dish(细胞定位格子培养皿)中的Ibidi培养插入物上，并且在第二天，将插入物剥离以产生伤口并且监测闭合。在接种前，将M-Dish板用1型胶原处理。在实验开始时以及每隔一段时间获得相衬图像。(C)将稳定表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26融合基因的HeLa细胞接种到基质胶侵袭室上。未转染的HeLa细胞用作对照。在基础培养基处添加5％FBS作为化学吸引剂并且孵育24小时。将细胞固定，洗涤并且用结晶紫染色以获得相衬图像(左侧)以及定量(右侧)侵袭基质胶的细胞数。(D)将稳定表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26的HeLa细胞和HGC27细胞接种到软琼脂上，孵育一个月并且成像(左侧)和计数(右侧)。用载体稳定转染的亲代细胞系用作对照。

图13：CLDN18和ARHGAP26调节上皮表型。(A)表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26的MDCK细胞的肌动蛋白细胞骨架染色。针对表达CLDN18和CLDN18-ARHGAP26的细胞将细胞使用HA以及与Alexa 594荧光染料缀合的鬼笔环肽进行免疫染色。箭头指示表达ARHGAP26和CLDN18-ARHGAP26的MDCK细胞中应力纤维的清除。(B)对未转染的MDCK以及表达CLDN18、ARHGAP26和CLDN18-ARHGAP26的细胞中的总RhoA进行的蛋白质印迹分析。将细胞用RhoA抗体和GAPDH进行免疫染色。(C)在表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26的MDCK细胞中进行的活性RhoA免疫荧光分析。将MDCK稳定细胞用针对活性RhoA的抗体和DAPI染色。(D)表达ARHGAP26和CLDN18-ARHGAP26的MDCK稳定细胞中的GAP活性降低。在沉降测定(G-LISA，细胞骨架)中分析GAP活性。在用Rho家族效应蛋白的RDB结构域包被的96孔板中测定内源性活性GTP结合的RhoA的量。用RhoA一抗和与HRP缀合的二抗来测定结合到板上的来自不同的稳定细胞系的细胞裂解物的Rho的GTP形式。发光值是相对于未转染的MDCK细胞计算的。(E)在37℃将表达CLDN18、ARHGAP26以及CLDN18-ARHGAP26的活HeLa细胞与和Alexa 594缀合的CTxB一起孵育15分钟，之后洗涤和固定。将细胞用HA抗体或GFP抗体和DAPI进行免疫染色。

定义

本文所用的以下词语和术语应当具有所示的含义：

如本文所用的术语“预后”或其语法上的变体指的是对临床病况或疾病的可能病程和结果的预测。患者的预后通常是通过评价疾病的因素或症状而作出的，所述因素或症状指示了所述疾病的有利的或不利的病程或结果。术语“预后”并非指的是以100％准确度预测病况的病程或结果的能力。相反，术语“预后”指的是增加的将发生某一病程或结果的概率；也就是说，在表现出给定的病况的患者中，当与没有表现出所述病况的那些个体相比时，该种病程或结果更有可能发生。举例来说，可以99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、89％、88％、87％、86％、85％、84％、83％、82％、81％、80％、75％、70％、65％、60％、55％以及50％准确度对病况的病程或结果进行预测。

预后的一个实例是测试样品中标志物的存在，其中所述标志物的存在指示了有利的或不利的疾病结果。预后的另一个实例是测试样品中标志物的存在，其中所述标志物的存在指示了患者是一种类型的治疗的候选者。

如本文所用的术语“辨证治疗计划”指的是对患者或疾病亚型具有特异性的定制治疗计划。举例来说，患者样品中癌症标志物的存在指示了患者是辨证治疗计划的候选者，其中所述辨证治疗计划是靶向癌症治疗。

如本文所用的术语“样品”或“生物样品”指的是已经从受试者获得、取出或分离的细胞、组织或流体。样品的实例是肿瘤组织活检。样品可以是冷冻的新鲜组织、石蜡包埋的组织或福尔马林固定的石蜡包埋(FFPE)组织。样品的另一个实例是细胞系。流体样品的实例包括但不限于血液、血清、唾液、尿液、脑脊髓液以及骨髓液。

与基因、融合基因或其衍生的蛋白质产物有关的术语“测试……的存在”指的是针对样品中基因、融合基因或其衍生的蛋白质的存在或不存在进行筛选。与基因、融合基因或其衍生的蛋白质产物有关的术语“测试……的存在”还指的是对样品中基因、融合基因或其衍生的蛋白质产物的表达进行定量。应当了解的是，对表达进行定量包括对样品中基因、融合基因或蛋白质产物的绝对表达进行定量。

如本文所用的术语“融合基因”指的是由两个或更多个分开的基因形成的杂合基因。编码序列、非编码序列或这两者的全长或片段可以融合。融合可以通过染色体重排过程中的一个或多个来进行，所述过程包括但不限于染色体易位、倒位、重复或缺失。所述两个或更多个基因可以处于同一染色体、不同染色体或这两者的组合上。两个或更多个融合基因可以是框内融合或框外融合的。

应当了解的是，融合基因可以获得原始的未融合的基因中的一个的功能，或丧失原始的未融合的基因中的一个的功能或这两方面兼有。还将了解的是，融合基因可以获得未融合的基因中的任一个中不存在的功能。为了说明，由基因A和基因B融合的融合基因可以仅获得基因A的一种或多种功能并且丧失基因B的一种或多种功能。可选地，由基因A和基因B融合的融合基因可以获得在基因A或基因B中没有发现的功能。

因此将了解的是，带有融合基因的细胞可以具有在没有所述融合基因的细胞中没有发现的特性。

如本文所用的术语“癌症相关融合基因”指的是与癌症有关的融合基因。应当了解的是，一种或多种融合基因可能与癌症相关。举例来说，患者样品中一种或多种癌症相关融合基因的存在可以指示所述受试者患有癌症或所述受试者有增加的癌症风险。在患者样品中检测到一种或多种癌症相关融合基因还可以指示所述受试者适合靶向癌症治疗计划。癌症相关融合基因的实例包括但不限于CLEC16A-EMP2、SNX2-PRDM6、MLL3-PRKAG2、DUS2L-PSKH1以及CLDN18-ARHGAP26。应当了解的是，融合基因可以被单独或组合检测。不受理论所束缚，应当了解的是，相对于单一癌症相关融合基因的存在，多于一种癌症相关融合基因的组合的存在与更差的预后或疾病结果有关。因而，应当了解的是，多于一种癌症相关融合基因的组合的存在是疾病结果或预后的预测指标。举例来说，融合基因可以选自由以下各项组成的组：CLEC16A-EMP2、SNX2-PRDM6、MLL3-PRKAG2以及DUS2L-PSKH1与CLDN18-ARHGAP26的组合。应当了解的是，可以在样品中检测到0种、1种、2种、3种、4种、5种或更多种融合基因。举例来说，可以在样品中检测到CLEC16A-EMP2，或可以在样品中检测到CLEC16A-EMP2与CLDN18-ARHGAP26的组合。在一个实例中，CLDN18-ARHGAP26显示出CLDN18功能的丧失以及ARHGAP26功能的获得。

应当了解的是，在不同受试者的融合基因的核苷酸序列和氨基酸序列之间可能存在变异。这些遗传变异可能是由于突变、多态性或剪接变体导致的。还将了解的是，遗传变异可能导致受试者或样品中的表型变化或可能在表型上没有变化。

衍生自融合基因的蛋白质可以是功能性的或非功能性的。衍生自融合基因的蛋白质可以是延长的或截短的。如本文所用的“功能蛋白”指的是具有生物活性的多肽。应当了解的是，衍生自融合基因的功能蛋白的生物活性或生物特性可以与衍生自原始的未融合的基因中的一个的功能蛋白相同。还应当了解的是，衍生自融合基因的功能蛋白的生物活性或生物特性可以与未融合的基因的生物活性或特性不同。

如本文所用的“截短蛋白”指的是与全长的未截短的蛋白质相比具有减少数目的氨基酸的蛋白质或多肽。

如本文所用的“延长的蛋白质”指的是与全长的未截短的蛋白质相比具有增加数目的氨基酸的蛋白质。

还将了解的是，融合基因可以赋予细胞以不同的生物特性。举例来说，融合基因可以产生具有提高的迁移率、促转移特征或细胞形状变化的细胞。融合基因还可以产生丧失上皮表型、具有受损的上皮屏障特性和受损的伤口愈合特性的细胞。

本领域技术人员将了解的是，可以通过多种方法来检测融合基因的存在。实例包括但不限于聚合酶链反应(PCR)、定量PCR、微阵列、RT-PCR、DNA印迹、RNA印迹、荧光原位杂交(FISH)以及DNA测序。DNA测序包括但不限于DNA配对末端标签(DNA-PET)测序和下一代测序SOLiDTM测序。

本领域技术人员还将了解的是，多种检测剂可以用于检测融合基因。检测剂的实例包括但不限于与融合基因杂交的引物、探针以及互补核酸序列。

术语“引物”在本文用于意指能够在例如PCR技术中用作引物的任何单链寡核苷酸序列。因此，根据本公开的“引物”指的是能够用作起始点来合成与所要拷贝的核酸链基本上相同(对于正向引物)或基本上是所要拷贝的核酸链的反向互补序列(对于反向引物)的引物延伸产物的单链寡核苷酸序列。引物可以适用于例如PCR技术中。

如本文所用的术语“探针”指的是与靶序列杂交的任何核酸片段。可以将探针用放射性同位素、荧光标签、抗体或化学标记来标记以有助于检测探针。

如本文所用的“杂交”意指引物、探针或寡核苷酸与靶核酸分子在标准严格条件下形成非共价相互作用。杂交引物或寡核苷酸可以含有对形成非共价相互作用没有干扰的非杂交核苷酸，例如5′尾区或限制性内切酶识别位点以有助于克隆。

此外，如本文所用，任何“杂交”均是在严格条件下进行的。术语“严格条件”意指允许引物与等位基因扩增内的核苷酸序列特异性结合，但不与任何其它核苷酸序列特异性结合的任何杂交条件。举例来说，在“严格”杂交条件下探针与核酸靶区域的特异性杂交包括诸如3×SSC、0.1％SDS、在50℃的条件。改变温度、探针长度以及盐浓度的参数以使得可以实现特异性杂交在本领域技术人员的能力范围之内。杂交条件和洗涤条件是本领域公知的。

本领域技术人员将了解的是，可以通过多种方法来检测融合蛋白。检测融合蛋白的方法的实例包括但不限于免疫组织化学(IHC)、免疫荧光标记、蛋白质印迹、ELISA以及SDS-PAGE。

本领域技术人员还将了解的是，存在多种检测剂来定量融合蛋白的表达。检测剂的实例包括但不限于与融合蛋白特异性结合的抗体和配体。

如上所述，在从患者获得的样品中检测到一种或多种融合基因指示了癌症或增加的癌症风险。

如本文所用的“增加的癌症风险”意指受试者尚未被诊断为患有癌症，但是相对于没有所述一种或多种融合基因的对照或参照，具有增加的患有癌症的概率。

如本文所用的术语“参照”、“对照”或“标准”指的是用于进行比较以确定预后的样品或受试者。“参照”、“对照”或“标准”的实例包括从同一受试者获得的非癌样品、从非转移性肿瘤获得的样品、从未患癌症的受试者获得的样品或从患有不同的癌症亚型的受试者获得的样品。如本文所用的术语“参照”、“对照”或“标准”还可以指的是患者群组中基因或蛋白质的平均表达水平。如本文所用的术语“参照”、“对照”或“标准”还可以指的是一个细胞系或多个细胞系中融合基因或融合蛋白的存在或不存在。如本文所用的术语“参照”、“对照”或“标准”还可以指的是未患癌症或患有不同类型的癌症的受试者。参照或对照的实例是没有癌症相关融合基因中的任一种或多种的患者。

如本文所用的“癌症”指的是上皮癌。上皮癌的实例包括但不限于胃癌、肺癌、乳腺癌、泌尿生殖系统癌症、结肠癌、前列腺癌以及宫颈癌。

融合多肽可以通过将融合基因插入到表达载体中来获得。如本文所用的“表达载体”指的是用于将特定基因引入到靶细胞中的质粒。表达载体可以是瞬时表达载体或稳定表达载体。

应当了解的是，可以将细胞用表达载体转化。用于转化细胞的方法将是本领域技术人员所了解的。举例来说，可以通过电穿孔、热休克、化学转染或病毒转染来将细胞转化。

本文说明性描述的发明可以在不存在本文没有具体公开的任何一个或多个要素、一个或多个限制条件的情况下被适当地实施。因此，举例来说，术语“包含”、“包括”、“含有”等应当被宽泛地并且不加限制地解读。此外，本文所用的术语和措辞已经被用作描述性术语而非限制性术语，并且并不意图在使用这些术语和措辞时排除所示的以及所述的特征或其部分的任何等效形式，但应当认识到的是，各种修改在要求保护的本发明的范围内是可能的。因此，应当了解的是，尽管已经通过优选的实施方案和任选的特征具体地公开了本发明，但是本文所公开的其中所体现的发明的改动方案和变化方案可以依靠本领域技术人员获得，并且这些改动方案和变化方案被认为在本发明的范围内。

本发明已经在本文中被广泛地并且一般地描述。落入一般性公开内容内的较缩小种类和亚类分组中的每一个也形成本发明的一部分。这包括以从所述类中去除任何主题的附带条件或负面限制条件来一般性地说明本发明，不论所排除的内容是否在本文被具体地叙述。

其它实施方案在以下权利要求书和非限制性实施例的范围内。此外，在本发明的特征或方面以马库什组(Markush group)来描述的情况下，本领域技术人员将认识到的是，本发明因此同样以马库什组的任何单个成员或成员的亚组来描述。

具体实施方式

现在将公开对患者是否患有癌症或是否处于增加的患有癌症的风险进行确定或作出预后的方法的示例性的非限制性实施方案。

所述方法包括测试从患者获得的样品中一种或多种癌症相关融合基因或其衍生的蛋白质的存在，其中所述样品中所述一种或多种癌症相关融合基因的存在指示所述患者患有癌症或处于增加的癌症风险，其中所述癌症相关融合基因选自由以下各项组成的组：CLEC16A-EMP2、SNX2-PRDM6、MLL3-PRKAG2以及DUS2L-PSKH1，或其中所述癌症相关融合基因选自由以下各项组成的组：CLEC16A-EMP2、SNX2-PRDM6、MLL3-PRKAG2以及DUS2L-PSKH1与CLDN18-ARHGAP26的组合。

在一个实施方案中，所述癌症相关融合基因是CLEC16A-EMP2、SNX2-PRDM6、MLL3-PRKAG2、DUS2L-PSKH1或CLDN18-ARHGAP26。在一个优选的实施方案中，所述癌症相关融合基因是CLEC16A-EMP2。在一个实施方案中，所述融合基因中的2种、3种或4种选自由以下各项组成的组：CLEC16A-EMP2、SNX2-PRDM6、MLL3-PRKAG2以及DUS2L-PSKH1与CLDN18-ARHGAP26的组合。

在一个实施方案中，CLEC16A-EMP2与CLDN18-ARHGAP26组合。在一个实施方案中，SNX2-PRDM6与CLDN18-ARHGAP26组合。在一个实施方案中，MLL3-PRKAG2与CLDN18-ARHGAP26组合。在一个实施方案中，DUS2L-PSKH1与CLDN18-ARHGAP26组合。在一个优选的实施方案中，CLEC16A-EMP2与CLDN18-ARHGAP26组合。在一个优选的实施方案中，MLL3-PRKAG2与CLDN18-ARHGAP26组合。

本文所公开的方法适用于对癌症进行确定或作出预后。所述癌症可以是癌瘤、肉瘤、白血病、淋巴瘤、骨髓瘤或中枢神经系统癌症。

在一个实施方案中，所述癌症是上皮癌或癌瘤。上皮癌优选地选自由以下各项组成的组：皮肤癌、肺癌、胃癌、乳腺癌、泌尿生殖系统癌症、结肠癌、前列腺癌、宫颈癌、皮肤癌、卵巢癌、肝癌以及肾癌。在一个优选的实施方案中，所述癌症是胃癌。

如本文所述的方法适用于新鲜组织、冷冻组织、石蜡保存的组织和/或乙醇保存的组织的样品。所述样品可以是生物样品。生物样品的非限制性实例包括全血或其组分(例如血浆、血清)、尿液、唾液、淋巴、胆汁液、痰液、泪液、脑脊髓液、支气管肺泡灌洗液、滑液、精液、腹水瘤液、乳汁以及脓液。在一个实施方案中，所述样品是从血液、羊水或颊部涂片获得的。在一个优选的实施方案中，所述样品是组织活检。

如本文所考虑的生物样品包括组织样品、培养的生物材料，包括衍生自培养细胞的样品，如从培养细胞收集的培养基或细胞沉淀物。因此，生物样品可以指的是由整个生物体或它的组织、细胞或组成部分的子集制备的裂解物、匀浆或提取物，或其级分或部分。生物样品还可以在使用之前，例如通过将一种或多种组分纯化、稀释和/或离心来改良。

公知的提取程序和纯化程序可用于从样品中分离核酸。核酸可以在从样品中提取后被直接使用或更优选地，在多核苷酸扩增步骤(例如PCR)之后被使用。扩增的多核苷酸是‘衍生’自样品的。

优选地，在扩增之前使核酸序列变性。在一个实施方案中，变性包括热处理。优选地，在选自由以下各项组成的组的范围的温度进行热处理：约70℃-110℃；约75℃-105℃；约80℃-100℃；以及约85℃-95℃。优选地，在94℃进行变性步骤。

在另一个实施方案中，将变性步骤进行选自由以下各项组成的组的一段时间：约1分钟-30分钟；约2分钟-25分钟；以及约3分钟-10分钟。优选地，将变性步骤进行3分钟。

在一个优选的实施方案中，扩增步骤包括聚合酶链反应(PCR)。优选地，PCR包括在94℃持续20秒、在58℃持续30秒以及在68℃持续10分钟的15个循环；以及在94℃持续20秒、在55℃持续30秒以及在68℃持续10分钟的20个循环；以及在68℃持续15分钟的最终延伸步骤。

可以通过毛细管电泳、解链曲线分析、在DNA芯片上或下一代测序来分析一个或多个另外的扩增子。

根据本公开的引物可以另外包含可检测的标记，从而使得探针能够被检测。可以使用的标记的实例包括：荧光标志物或报告基因染料，例如6-羧基荧光素(6FAMTM)、NEDTM(Applera公司)、HEXTM或VICTM(应用生物系统公司(Applied Biosystems))；TAMRATM标记(美国加利福尼亚州的应用生物系统公司(Applied Biosystems，CA，USA))；化学发光标志物，例如钌探针。

可选地，标记可以选自由以下各项组成的组：电致发光标签、磁性标签、亲和标签或结合标签、核苷酸序列标签、位置特异性标签、和/或具有特定的物理特性，如不同的大小、质量、回转、离子强度、介电特性、极化或阻抗的标签。

可获得公知的提取程序和纯化程序用于从样品中分离蛋白质。蛋白质可以在从样品中提取之后被直接使用。蛋白质提取可以通过物理细胞破坏或基于洗涤剂的细胞裂解来实现。可以通过蛋白质印迹、考马斯染色、Bradford测定以及BCA测定来分析提取的蛋白质。

本文所公开的方法适用于确定患者是否是辨证治疗计划的候选者。辨证治疗计划可以包括选自由以下各项组成的组的一种或多种类型的治疗：化学治疗、免疫治疗、放射治疗、靶向治疗以及移植。辨证治疗计划还可以包括一种或多种治疗的组合。辨证治疗计划可以包括同时或相继施用的一种或多种治疗。在一个优选的实施方案中，辨证治疗是靶向治疗。在另一个优选的实施方案中，辨证治疗是靶向治疗与化学治疗的组合。在一个实施方案中，辨证治疗计划是曲妥珠单抗(transtuzumab)或雷莫芦单抗(ramucirumab)。在另一个实施方案中，辨证治疗计划是曲妥珠单抗或雷莫芦单抗与化学治疗的组合。

本文所公开的方法适用于对个人是否处于癌症风险进行确定或作出预后。如先前所述，相对于没有一种或多种融合基因的对照或参照，处于癌症风险的个人有增加的患癌症的概率。在一个实施方案中，个人或患者有增加了10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或99％的癌症风险。

一种或多种融合基因的核苷酸序列可以与选自由以下各项组成的组的序列至少70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％相同：CLEC16A-EMP2(SEQ ID NO.：97、99或101)、SNX2-PRDM6(SEQ ID NO.115)、MLL3PRKAG2(SEQ ID NO.：121、123或125)、DUS2L-PSKH1(SEQ ID NO.：131或133)以及CLDN18-ARHGAP26(SEQ ID NO：107)。在一个实施例中，CLEC16A-EMP2的核苷酸序列与SEQ ID NO.：9770％相同。在另一个实施例中，CLDN18-ARHGAP26的核苷酸序列与SEQ ID NO：107 95％相同。在又另一个实施例中，在癌症相关融合基因是CLEC16A-EMP2与CLDN18-ARHGAP26的组合的情况下，CLEC16A-EMP2与SEQ ID NO.97 80％相同，并且CLDN18-ARHGAP26与SEQ ID NO.10785％相同。

还提供了一种表达载体，所述表达载体包含本文所公开的融合基因中的任一种的编码序列。在一个实施方案中，所述表达载体是哺乳动物表达载体。合适的表达载体包括但不限于pMXs-Puro、pVSVG、pEGFP以及pCMVmyc。

还提供了一种用如本文所公开的表达载体转化的细胞。转化可以通过电穿孔、热休克、化学转染或病毒转染来实现。在一个实施方案中，将细胞通过化学转染来转化。在另一个实施方案中，化学转染是通过脂质体2000(Lipofectamine 2000)来实现的。在另一个实施方案中，转化是通过病毒转染来实现的。在又另一个实施方案中，病毒转染是慢病毒转染或逆转录病毒转染。

还提供了一种用于产生多肽的方法，所述方法包括在加湿室中在5％CO2和37℃将转化的细胞在含有10％牛血清、2mM谷氨酰胺、1％非必需氨基酸以及1％青霉素/链霉素的伊格氏最低必需培养基(Eagle′s Minimum Essential Medium)或杜氏改良伊格氏培养基(Dulbecco′s Modified Eagle′s Medium)或RPMI中培养以使多肽表达以及从所述细胞收集一定量的所述多肽。改变培养条件的参数以优化多肽的产生和提取在本领域技术人员的能力范围之内。

还公开了癌症相关融合基因用于在患者中对癌症进行确定或作出预后的用途，其中在从所述患者获得的样品中所述一种或多种癌症相关融合基因的存在指示所述患者患有癌症或处于增加的患癌症的风险。

实验部分

将通过参考具体实施例更详细地进一步描述本发明的非限制性实施例以及比较实施例，所述实施例不应当被视为以任何方式限制本发明的范围。

材料和方法

临床肿瘤样品

患者样品和临床信息是从已经在新加坡的国立大学医院(National University Hospital，Singapore)和新加坡的陈笃生医院(Tan Tock Seng Hospital，Singapore)接受胃癌手术的患者获得的。从所有受试者获得知情同意书并且所述研究是由新加坡国立大学的机构审查委员会(Institutional Review Board)(参考代码05-145)以及国立健保集团特定领域审查委员会(National Healthcare Group Domain Specific Review Board)(参考代码2005/00440)批准的。

从样品中提取DNA/RNA

使用Allprep DNA/RNA小型试剂盒(快而精公司(Qiagen))从组织样品中提取基因组DNA和总RNA。使用血液和细胞培养物DNA试剂盒(Blood&Cell Culture DNA kit)(快而精公司)从血液样品中提取基因组DNA。

引物和寡核苷酸

用于这一研究中的引物和寡核苷酸描述于表1中。

表1：用于这一研究中的引物。

抗体和试剂

一级和二级市售抗体和试剂描述于表2中。

表2：一级和二级市售抗体和试剂。

针对融合基因的存在进行的RT-PCR筛选

使用SuperScript III试剂盒(英杰公司(Invitrogen))，根据制造商的建议将1μg的总RNA逆转录成cDNA。以如下方案使用JumpStart RED AccuTaq LA DNA聚合酶试剂盒(西格玛公司)：

循环条件如下：94℃持续3分钟；(94℃持续20秒、58℃持续30秒、68℃持续10分钟)×15个循环；(94℃持续20秒、55℃持续30秒、68℃持续10分钟)×20个循环；68℃持续15分钟。

细胞培养条件和转染

根据标准条件培养MDCK II细胞系、HeLa细胞系、HGC27细胞系以及TMK1细胞系。使用JetPrimePolyPlus转染试剂盒，根据制造商的说明书进行瞬时转染和稳定转染实验。通过G418选择来产生稳定的转染子。

DNA-PET文库构建、测序、标测以及数据分析

通过改进的生物信息过滤来进行基因组DNA的10kb片段的DNA-PET文库的构建、测序、标测以及数据分析。使用Bioscope(生命科技公司)将短读段与NCBI人类参考基因组版本36.3(hg18)比对。先前已经描述了TMK1以及肿瘤17、26、28和38的DNA-PET数据(NCBI基因表达综合数据库(Gene Expression Omnibus，GEO)登录号GSE26954)以及肿瘤82和92的DNA-PET数据(NCBI GEO登录号GSE30833)。八个另外的肿瘤/正常对的SOLiD测序数据可以在NCBI的序列读段归档(Sequence Read Archive，SRA)处在BioProject ID PRJNA234469处被访问。用于鉴定CLDN18-ARHGAP26的复现的基因组断裂点、过滤癌症基因组中的生殖系结构变异(SV)以及断裂点分布分析的程序如下所述。

对于15个GC样品中的10个，配对的正常样品是可获得的并且使用对应的DNA-PET数据从在肿瘤中被鉴定出的SV中过滤生殖系SV。为此，在界定了SV的不一致配对末端标签(dPET)序列簇的延伸标测坐标中搜索与配对的正常样品的dPET簇的重叠。此外并且特别是对于没有配对正常样品的肿瘤(肿瘤17、26、28和38)以及TMK1，使用配对正常样品和16名无关的非癌症个体的所有SV进行过滤。此外，进行模拟，其中随机地从参考序列中选择呈代表性文库的距离分布的配对序列标签并且将所述标签标测并且通过管道处理。所得的dPET簇代表标测伪影并且用于SV过滤。此外，当较大的SV与在癌症基因组中所鉴定出的SV重叠≥80％时，将dPET簇与基因组变体的数据库(http：//dgv.tcag.ca/dgv/app/home)(对非癌症个体的配对末端测序研究)中的SV相比较。通过标准管道进行的数据处理由于异常插入序列大小分布而对于患者82的血液样品产生大量小的缺失，并且去除小于12kb的所有缺失。

MCF-7 RNA聚合酶II ChIA-PET和GC DNA-PET比较

为了研究所述研究的生殖系SV和体细胞SV的两个伴侣位点是否对于核中彼此接近的基因座是富集的，测试SV与通过对乳腺癌细胞系MCF-7进行ChIA-PET测序所获得的全基因组染色质相互作用数据集的重叠，基本原理是一些染色质相互作用在不同的细胞类型间可能是保守的。

驱动融合基因预测

通过如先前所述的计算机模拟分析来预测潜在的驱动融合基因。计算机模拟分析是网络融合中心(network fusion centrality)法，其中使用转录物网络内基因产物的位置来预测它对于网络起作用的重要性。设定阈值0.37来鉴定潜在的融合驱动基因。

通过RT-PCR进行的框内融合基因确认和筛选

使用用于RT-PCR的SuperScript III第一链合成系统(英杰公司)，根据制造商的说明书将一微克的总RNA逆转录成cDNA。使用JumpStartTM REDAccuTaq LA DNA聚合酶(西格玛-奥德里奇公司)进行PCR。

GC融合基因构建体和逆转录病毒转染

通过PCR，使用含有HF缓冲液的2×Phusion主混合物(赛默科技公司)和以下引物从肿瘤样品中扩增GC融合基因CLEC16A-EMP2、CLDN18-ARHGAP26、SNX2-PRDM6以及DUS2L-PSKH1。

使用以下正向引物和反向引物，在框内用pMXs-Puro的FLAG肽来构建CLEC16A-EMP2融合体的开放阅读框：正向引物5′GGCGCGGATCCGCCGCCACCATGTTTGGCCGCTCGCGGAG-3′(SEQ ID NO.11)(BamHI、kozak序列以及起始密码子，之后是CLEC16A的第一编码核苷酸)和反向引物5′-TGATAGCGGCCGCTCATCAAGCGTAATCTGGAACATCGTATGGGTACTCGAGTTTGCGCTTCCTCAGTATCAG-3′(SEQ ID NO.：12)(NotI、终止密码子、HA标签以及XhoI，之后是EMP2的编码序列的3′末端)。

类似地，用以下正向引物和反向引物构建CLDN18-ARHGAP26融合体的开放阅读框：正向引物5′GGCGCGGATCCGCCGCCACCATGGCCGTGACTGCCTGTCA-3′(SEQ ID NO.：13)(BamHI、kozak、起始密码子、CLDN18)和反向引物5′-GATAGCGGCCGCTCATCAAGCGTAATCTGGAACATCGTATGGGTACTCGAGGAGGAACTCCACGTAATTCTCA-3′(SEQ ID NO.：14)(NotI、终止密码子、HA标签、XhoI、ARHGAP26)。

使用以下正向引物和反向引物构建SNX2-PRDM6融合体的开放阅读框：正向引物5′-GGCGCTTAATTAAGCCGCCACCATGGCGGCCGAGAGGGAACC-3′(SEQ ID NO.：15)(PacI、kozak、起始密码子、SNX2)和反向引物5′-TGATAGCGGCCGCTCATCAAGCGTAATCTGGAACATCGTATGGGTACTCGAGATCCACTTCGATTGATTCTGG-3′(SEQ ID NO.：16)(NotI、终止密码子、HA标签、XhoI、PRDM6)。

使用以下正向引物和反向引物构建DUS2L-PSKH1融合体的开放阅读框：正向引物5′-GGCGCGGATCCGCCGCCACCATGATTTTGAATAGCCTCTC-3′(SEQ ID NO.：17)(BamHI、kozak、起始密码子、DUS2L)和反向引物5′-TGATAGCGGCCGCTCATCAAGCGTAATCTGGAACATCGTATGGGTACTCGAGGCCATTGTATTGCTGCTGGTAG-3′(SEQ ID NO.：18)(NotI、终止密码子、HA标签、XhoI、PSKH1)。

通过gBlock法(集成DNA技术公司(Integrated DNA Technologies，Inc))用pMXs-Puro的FLAG肽来合成MLL3-PRKAG2。将PCR产物或MLL3-PRKAG2克隆到pMXs-Puro逆转录病毒载体(细胞生物实验室公司(Cell biolabs)，RTV-012)中。使用脂质体2000将含有融合基因的pMXs-Puro逆转录病毒载体与pVSVG(假型化构建体)一起共转染到GP2-293细胞中以产生病毒。然后将HGC27细胞和HeLa细胞这两者用含有空载体或融合基因的病毒上清液感染。在嘌呤霉素二盐酸盐(西格玛公司，P9620)的选择压力下获得和维持稳定的转染子。

CLDN18质粒和ARHGAP26质粒的构建

从IMAGE联盟(IMAGE consortium)(http：//www.imageconsortium.org/)获得人类CLDN18 cDNA，并且将它与N末端HA标签一起克隆到pcDNA3载体中。CLDN18的编码PDZ结合基序的最后三个氨基酸(DYV)突变成丙氨酸并且被称为CLDN18ΔP。pEGFP载体中的人类ARHGAP26(GRAF1亚型2)cDNA和pCMVmyc是由Richard Lundmark博士(瑞典默奥的默奥大学(邮编：90187)的医药生物化学和生物物理学系(Medical Biochemistry and Biophysics，UniVersity，901 87Sweden))友情提供的。

ARHGAP26同种型的细节如下：

转录物：ARHGAP26-008ENST00000378004(http：//www.ensembl.org)(SEQ ID NO.：135)

ATGGGGCTCCCAGCGCTCGAGTTCAGCGACTGCTGCCTCGATAGTCCGCACTTCCGAGAGACGCTCAAGTCGCACGAAGCAGAGCTGGACAAGACCAACAAATTCATCAAGGAGCTCATCAAGGACGGGAAGTCACTCATAAGCGCGCTCAAGAATTTGTCTTCAGCGAAGCGGAAGTTTGCAGATTCCTTAAATGAATTTAAATTTCAGTGCATAGGAGATGCAGAAACAGATGATGAGATGTGTATAGCAAGATCTTTGCAGGAGTTTGCCACTGTCCTCAGGAATCTTGAAGATGAACGGATACGGATGATTGAGAATGCCAGCGAGGTGCTCATCACTCCCTTGGAGAAGTTTCGAAAGGAACAGATCGGGGCTGCCAAGGAAGCCAAAAAGAAGTATGACAAAGAGACAGAAAAGTATTGTGGCATCTTAGAAAAACACTTGAATTTGTCTTCCAAAAAGAAAGAATCTCAGCTTCAGGAGGCAGACAGCCAAGTGGACCTGGTCCGGCAGCATTTCTATGAAGTATCCCTGGAATATGTCTTCAAGGTGCAGGAAGTCCAAGAGAGAAAGATGTTTGAGTTTGTGGAGCCTCTGCTGGCCTTCCTGCAAGGACTCTTCACTTTCTATCACCATGGTTACGAACTGGCCAAGGATTTCGGGGACTTCAAGACACAGTTAACCATTAGCATACAGAACACAAGAAATCGCTTTGAAGGCACTAGATCAGAAGTGGAATCACTGATGAAAAAGATGAAGGAGAATCCCCTTGAGCACAAGACCATCAGTCCCTACACCATGGAGGGATACCTCTACGTGCAGGAGAAACGTCACTTTGGAACTTCTTGGGTGAAGCACTACTGTACATATCAACGGGATTCCAAACAAATCACCATGGTACCATTTGACCAAAAGTCAGGAGGAAAAGGGGGAGAAGATGAATCAGTTATCCTCAAATCCTGCACACGGCGGAAAACAGACTCCATTGAGAAGAGGTTTTGCTTTGATGTGGAAGCAGTAGACAGGCCAGGGGTTATCACCATGCAAGCTTTGTCGGAAGAGGACCGGAGGCTCTGGATGGAAGCCATGGATGGCCGGGAACCTGTCTACAACTCGAACAAAGACAGCCAGAGTGAAGGGACTGCGCAGTTGGACAGCATTGGCTTCAGCATAATCAGGAAATGCATCCATGCTGTGGAAACCAGAGGGATCAACGAGCAAGGGCTGTATCGAATTGTGGGTGTCAACTCCAGAGTGCAGAAGTTGCTGAGTGTCCTGATGGACCCCAAGACTGCTTCTGAGACAGAAACAGATATCTGTGCTGAATGGGAGATAAAGACCATCACTAGTGCTCTGAAGACCTACCTAAGAATGCTTCCAGGACCACTCATGATGTACCAGTTTCAAAGAAGTTTCATCAAAGCAGCAAAACTGGAGAACCAGGAGTCTCGGGTCTCTGAAATCCACAGCCTTGTTCATCGGCTCCCAGAGAAAAATCGGCAGATGTTACAGCTGCTCATGAACCACTTGGCAAATGTTGCTAACAACCACAAGCAGAATTTGATGACGGTGGCAAACCTTGGTGTGGTGTTTGGACCCACTCTGCTGAGGCCTCAGGAAGAAACAGTAGCAGCCATCATGGACATCAAATTTCAGAACATTGTCATTGAGATCCTAATAGAAAACCACGAAAAGATATTTAACACCGTGCCCGATATGCCTCTCACCAATGCCCAGCTGCACCTGTCTCGGAAGAAGAGCAGTGACTCCAAGCCCCCGTCCTGCAGCGAGAGGCCCCTGACGCTCTTCCACACCGTTCAGTCAACAGAGAAACAGGAACAAAGGAACAGCATCATCAACTCCAGTTTGGAATCTGTCTCATCAAATCCAAACAGCATCCTTAATTCCAGCAGCAGCTTACAGCCCAACATGAACTCCAGTGACCCAGACCTGGCTGTGGTCAAACCCACCCGGCCCAACTCACTCCCCCCGAATCCAAGCCCAACTTCACCCCTCTCGCCATCTTGGCCCATGTTCTCGGCGCCATCCAGCCCTATGCCCACCTCATCCACGTCCAGCGACTCATCCCCCGTCAGCACACCGTTCCGGAAGGCAAAAGCCTTGTATGCCTGCAAAGCTGAACATGACTCAGAACTTTCGTTCACAGCAGGCACGGTCTTCGATAACGTTCACCCATCTCAGGAGCCTGGCTGGTTGGAGGGGACTCTGAACGGAAAGACTGGCCTCATCCCTGAGAATTACGTGGAGTTCCTC

在框内随后是HA标签，之后是终止密码子。人类流感血凝素(HA)标签具有以下核苷酸序列之一：5′TAC CCA TAC GAT GTT CCA GAT TAC GCT 3′或5′TAT CCA TAT GAT GTT CCA GAT TAT GCT 3′。还将了解的是，终止密码子可以选自以下中的任一个：TAG、TAA或TGA。

融合基因复现率显著性检验

使用随机化框架来评估融合基因的观测频率的统计显著性。限定了SV谱，所述SV谱模拟通过DNA-PET测序的样品中所鉴定出的SV的类型、数目以及大小分布。使用SV谱模拟15例GC测试数据集的SV并且评估85个GC样品的模拟验证集上的复现SV的频率。假设N＝10,000是随机模拟的次数并且es是测试数据集中存在的SVs在验证数据集中的频率，P值(es)被定义为p/N，其中p是模拟次数，其中在频率ek≥es的情况下，SVk存在。

细胞聚集、细胞粘附以及伤口愈合测定

对于细胞聚集测定，将20μl的1.2×106个/毫升的细胞以悬滴形式接种到组织培养皿上，并且在第二天使用Nikon Eclipse TE2000-S获得相衬图像。

对于细胞粘附测定，24孔板未经处理或将24孔板用1mg/ml的纤维连接蛋白和10μg/ml的大鼠1型胶原处理2小时并且用0.1％BSA封闭。将2.5×104个/毫升的细胞接种并且在37℃孵育2小时。

详细地说，将24孔板用1mg/ml的纤维连接蛋白和10μg/ml的大鼠1型胶原处理2小时。随后对板进行洗涤并且通过将表面用0.1％牛血清白蛋白(BSA)处理20分钟来阻止非特异性结合。将表面再次用PBS洗涤并且将2.5×104个/毫升的细胞接种并且在37℃孵育2小时。还将细胞接种到未处理的24孔板中作为对照。使用相差显微术使细胞成像。对于粘附到表面的细胞的定量，将细胞轻轻地用PBS洗涤三次并且在PFA中固定并且计数。

对于伤口愈合测定，将70μL的7×105个细胞/毫升接种到μ-Dish 35mm(Ibidi公司)中的培养插入物上。在第二天，将插入物剥离以产生伤口并且用Nikon Eclispe TE2000使迁移成像直到伤口闭合为止。

细胞增殖测定

将800个细胞对于每一种条件按一式四份接种到24孔板中，并且根据制造商的说明书(细胞增殖试剂WST-1；罗氏公司(Roche))获取读数，持续7天。使用Infinite M200 Quad4单色器(Tecan公司)，在450nm，使用650nm的参考波长测量吸光度。

细胞侵袭迁移测定

根据制造商的说明书(康宁公司(Corning))将0.5ml的于RPMI无血清培养基中的1×105个稳定转染的HeLa细胞和MDCK细胞接种到Biocoat基质胶侵袭室中，将于培养基中5％的FBS作为化学吸引剂添加到基质胶侵袭室的孔中，持续24小时。确切地说，根据制造商的说明书(康宁公司)将0.5ml的于RPMI无血清培养基中的1×105个用CLDN18、ARHGAP26以及CLDN18-ARHGAP26稳定转染的HeLa细胞和MDCK细胞接种到Biocoat基质胶侵袭室中。将于培养基中5％的FBS作为化学吸引剂添加到基质胶侵袭室的孔中，持续24小时。在第二天，将细胞在3.7％PFA中固定10分钟并且将插入物用PBS洗涤。将0.1％的结晶紫添加到插入物中，持续10分钟并且用水洗涤两次。使用棉签去除任何非侵袭细胞并且再次洗涤。使用Nikon Eclipse TE2000-S使侵袭细胞的数目成像并且计数。

跨上皮电阻(TER)分析

将2×105个稳定转染的MDCK细胞接种到12mm Transwell插入物(康宁公司)上以获得极化单层。在第二天，将插入物放置在CellZcope(nanoAnalytics公司)中以测量TER。

软琼脂集落形成测定

将HeLa和HGC27稳定细胞系的5000个细胞添加到2ml软琼脂(0.35％诺布尔琼脂(Noble agar)和2×FBS培养基)中并且接种到凝固的基层(含2×FBS培养基的0.7％诺布尔琼脂)上，对于每一次实验设置三次重复测定。在2周-4周后，对集落进行计数。

融合基因

在这一研究中使用5种融合基因，如下表3中所详述。

表3：融合基因

有关这五种复现的融合基因的细节如下所述。

所有的基因组坐标是基于2009年2月人类参考序列(GRCh37或hg19；http：//genome.ucsc.edu/)。转录物ID是基于Ensembl基因组数据库(http：//www.ensembl.org/)。加黄色阴影的是如在最初的筛选中所发现的5′融合伴侣基因的编码部分，并且加绿色阴影的是3′融合伴侣基因。

融合基因#1：CLEC16A-EMP2

CLEC16A

基因组PCR确认的断裂点-chr16：11073471

外显子9中由RT-PCR确认的RNA融合点-chr16：11073239

EMP2

基因组PCR确认的断裂点-chr16：10666428

外显子2(5′UTR)中由RT-PCR确认的RNA融合点-chr16：10641534

转录物：CLEC16A-001 ENST00000409790

cDNA序列(SEQ ID NO.93)，融合基因的编码部分加阴影。

AACTGCATTTCCCAGCGCCCCACGCGGCGGCGGCCGTAAAGCGCGGCGGTCGAACGGCCGGTTCCGGCTGAATGTCAGTGCTGGGCTGTGGGCCGGGGAGGAAGGCGGCTCGCGGTTCCTCCACCGCCTCCGCCGCCGCATCCTCCGCTTGTGCTACCGCCGCGGGCGCTGGGCCGCTCTGCTGGTCCGGCATGAGACCGTGAGACGAGAGACGGGTCGGGGCCGCCGACATGTTTGGCCGCTCGCGGAGCTGGGTGGGCGGGGGCCATGGCAAGACTTCCCGCAACATCCACTCCTTGGACCACCTCAAGTATCTGTACCACGTTTTGACCAAAAACACCACAGTCACAGAACAGAACCGGAACCTGCTAGTGGAGACCATCCGTTCCATCACTGAGATCCTGATCTGGGGAGATCAAAATGACAGCTCTGTATTTGACTTCTTCCTGGAGAAGAATATGTTTGTTTTCTTCTTGAACATCTTGCGGCAAAAGTCGGGCCGTTACGTGTGCGTTCAGCTGCTGCAGACCTTGAACATCCTCTTTGAGAACATCAGTCACGAGACCTCACTTTATTATTTGCTCTCAAATAACTACGTAAATTCTATCATCGTTCATAAATTTGACTTTTCTGATGAGGAGATTATGGCCTATTATATATCGTTCCTGAAAACACTTTCGTTAAAACTCAACAACCACACTGTCCATTTCTTTTATAATGAGCACACCAATGACTTTGCCCTGTACACAGAAGCCATCAAGTTTTTCAACCACCCTGAAAGCATGGTTAGAATTGCTGTAAGAACCATAACTTTGAATGTCTATAAAGTGTCATTGGATAACCAGGCCATGCTGCACTACATCCGAGATAAAACTGCTGTTCCTTACTTCTCCAATTTGGTCTGGTTCATTGGGAGCCATGTGATCGAACTCGATGACTGCGTGCAGACTGATGAGGAGCATCGGAATCGGGGTAAACTGAGTGATCTGGTGGCAGAGCACCTAGACCACCTGCACTATCTCAATGACATCCTGATCATCAACTGTGAGTTCCTCAACGATGTGCTCACTGACCACCTGCTCAACAGGCTCTTCCTGCCCCTCTACGTGTACTCACTGGAGAACCAGGACAAGGGAGGAGAACGGCCGAAAATTAGCCTGCCGGTGTCTCTTTATCTTCTGTCACAGGTCTTCTTAATTATACATCATGCACCGCTGGTGAACTCGTTAGCTGAAGTCATTCTGAATGGTGATCTGTCTGAGATGTACGCTAAGACTGAACAGGATATTCAGAGAAGTTCTGCCAAGCCCAGCATTCGGTGCTTCATTAAACCCACCGAGACACTCGAGCGGTCCCTTGAGATGAACAAGCACAAGGGCAAGAGGCGGGTGCAAAAGAGACCCAACTACAAAAACGTTGGGGAAGAAGAAGATGAGGAGAAAGGGCCCACCGAGGATGCCCAAGAAGACGCCGAGAAGGCTAAAGGTACAGAGGGTGGTTCAAAAGGCATCAAGACGAGTGGGGAGAGTGAAGAGATCGAGATGGTGATCATGGAGCGTAGCAAGCTCTCAGAGCTGGCCGCCAGCACCTCCGTGCAGGAGCAGAACACCACGGACGAGGAGAAAAGCGCCGCCGCCACCTGCTCTGAGAGCACGCAATGGAGCAGACCCTTCCTGGATATGGTGTACCACGCGCTGGACAGCCCGGATGATGATTACCATGCCCTGTTCGTGCTCTGCCTCCTCTATGCCATGTCTCATAATAAAGGCATGGATCCTGAAAAATTAGAGCGAATCCAGCTCCCCGTGCCAAATGCGGCCGAGAAGACCACCTACAACCACCCGCTAGCTGAAAGACTCATCAGGATCATGAACAACGCTGCCCAGCCAGATGGGAAGATCCGGCTGGCGACGCTGGAGCTGAGCTGCCTGCTTCTGAAGCAGCAAGTCCTGATGAGTGCTGGCTGCATCATGAAGGACGTGCACCTGGCCTGCCTGGAGGGTGCGAGAGAAGAAAGTGTTCACCTTGTACGACATTTTTATAAGGGAGAAGACATTTTTTTGGACATGTTTGAAGATGAGTATAGGAGCATGACAATGAAGCCCATGAACGTGGAATATCTCATGATGGACGCCTCCATCCTGCTGCCCCCAACAGGCACGCCACTGACGGGCATTGACTTCGTGAAGCGGCTGCCGTGTGGCGATGTGGAGAAGACCCGGCGGGCCATCCGGGTGTTCTTCATGCTGCGTTCCCTGTCACTGCAATTGCGAGGGGAGCCTGAGACACAGTTGCCGCTGACTCGGGAGGAGGACCTGATCAAGACTGATGATGTCCTGGATCTGAATAACAGCGACTTGATTGCATGTACAGTGATCACCAAGGATGGCGGCATGGTCCAGCGATTCCTGGCTGTGGATATTTACCAGATGAGTTTGGTGGAGCCTGATGTGTCCAGGCTTGGCTGGGGAGTGGTCAAGTTTGCAGGCCTATTGCAGGACATGCAGGTGACTGGCGTGGAGGACGACAGCCGTGCCCTGAACATCACCATCCACAAGCCTGCGTCCAGCCCCCATTCCAAGCCCTTCCCCATCCTCCAGGCCACCTTCATCTTCTCAGACCACATCCGCTGCATCATCGCCAAGCAGCGCCTGGCCAAAGGCCGCATCCAGGCAAGGCGCATGAAGATGCAGAGAATAGCTGCCCTCCTGGACCTCCCAATCCAGCCCACCACTGAAGTCCTGGGGTTTGGACTCGGCTCCTCCACCTCCACTCAGCACCTGCCTTTCCGCTTCTACGACCAGGGGCGCCGGGGCAGCAGCGACCCCACAGTGCAGCGCTCCGTGTTTGCATCGGTGGACAAGGTGCCAGGCTTCGCCGTGGCCCAGTGCATAAACCAGCACAGCTCCCCGTCCCTGTCCTCACAGTCGCCACCCTCCGCCAGCGGGAGCCCCAGCGGCAGCGGGAGCACCAGCCACTGCGACTCTGGAGGCACCAGCTCGTCCTCCACCCCCTCCACAGCCCAGAGTCCAGCAGATGCCCCCATGAGTCCAGAACTGCCTAAGCCTCACCTTCCTGACCAGTTGGTAATCGTCAACGAAACGGAAGCAGACTCTAAGCCCAGCAAGAACGTGGCCAGGAGCGCAGCCGTGGAGACAGCCAGCCTGTCCCCCAGCCTCGTCCCTGCCCGGCAGCCCACCATTTCCCTGCTCTGCGAGGACACGGCTGACACGCTGAGCGTCGAATCGCTGACCCTTGTCCCCCCAGTTGACCCCCACAGCCTCCGCAGCCTCACCGGCATGCCCCCGCTGTCCACGCCGGCTGCCGCCTGCACAGAGCCCGTGGGCGAAGAGGCTGCATGTGCTGAGCCTGTGGGCACCGCTGAGGACTGAGTCAGTGCCGGGGCCTCCCTTTGTGTGTGTGGCCCCGCTGGTAGGGACCCCAGTGCCGCTGACTGGCAAGACACACTGGGAGCACCCACCATTCTGTGCGGCCCCCAGCAGCCATCTCAACCACCTATCCCTGCGCTCCCTTGAATGGGAAGAAGCCCCACGTTGTCCTTGAATTCCTTTTTCACTTTGCATCTCTTCACGTGCAGGCTGGGACCAGCGGAGACACCGCGGCGAATGCAGATGACTGCACCGGCCACTCAGGGAGCTGCCTGGGCTCCGTGTCTCTGAGCCCCGGGTGGCAGGACCCACCGGCACCTCTTTCTTCCTCTGTCATATGGCTCCTCTGTCACCAGCCCCAGTGTGCACAGAAGAATTGGACCAGGTCACTGTACGTAGAAATTTGTAGAAAAGCAGACTTAGATAAACATCTCCTTTGGATATTTATTTCCGCTTTTGGCAGCAGGTGAACATTTATTTTTAAAACTTCTATTTAAAAGAAGTCCAAAAACATCAACACTAAGGTTTGATGTCATGTGAAAAGTGTAATAATAACAGTTAAGATTTCATGATCATTTTCACTGGACCTTTCCTGATATTTTGTTTCAGAGTTCTTAGTGTGGCTTTTTCCATTTATTTAAGTGATTCTTTGTTACTCACTAACTCTGCAAGCCTGTGGAATAATGAAGTACCTTCCTGGAAAGTTTGGATTATTTTTTAAACAAAAACAAGGGAGATACATGTATTCTCAGGTACACACAGAGCTGAGAGGGCTGAATGGTTTTCTGCTATAGCAGCCGAGAGGCCTCCCATCATGGAAAGATTTCTCCAGGAAAAGGAGGAATGTAGCCAGCTCCCCACTCAGGACGCTTCCTCATTTCTCTTCACCAAAACCAAACAGAGACAGCTTCCAGCACCTTCTTCAGTGTTACCATCTCTAAGAAGGAACCAGTTGGGACCGTGAAGACTCCCGACCCTGTGGCCATGATGGAAATCAAAGGAAGACACCCTCTACGTCACCTGCCCTCGACTGTGTGTGCCCACATGTGCCGAGAGATGGCCCAGAGCCAGTTCCCCTCCAGCTGCAAGGGCATGGTGTCCCCAGAGCTCTGAGTCTGTCACTCTCCCTCTGCTACTGCTGCTGATCTGAATATGGAAACCCCATGGTTCCCTTCCCCATTCGGACTGGGTGTGTACAAGCAAGGACCCAGATGCATCAGACACAGCCCCCAAGATGTTCCTTTCTACTCGGCCAGCTCGGGAGCCAGACACAGCACTCACAGCCCAGGCCGTGATCCACCCTCCCCAAGTCCACCAGGGCCAGCGGCCCCTCACCTCTCTGGTCACTGGTGAGACCTTCCACAACTTTCCTCCAGACCTGCCAGCAGATGTGCCCACCAGGGGCATTAGGTATCCGCCGGAGCCTGGCCATAGGGTAGTCTCGGGAGCCGCGCTGAGATCTTTTGCCACCTGCATTTTAGAAGAACATGGTCTCTGTCTCCTCGGCCCAGCCAGCTGTCCCGGCAAGGCCTGCCGAGGGCAGTTTTCAACCTCATGAAGGAAACACAGTCCTGCCAAGGAGGGGGAGTGGCGCCCATGGGGACAGGCCTCAGTCCTTAGAAGCCCTCTGGGTAGCTGTGCCCACCCAGCCTTCATGGCTGCAGGTACAAGGACCTTTGCTTCCATAGAGAAAACGCACAGCTCAGAAAGGGGGCCACATGGGCAGAAACCCAAAGGAAGGACAAACCACGACCACCGTGGCCATCTGCAGAATCCCTGGAAGAGAAGGAAGGCAGGGTGGAGCGGGGGGAAGACCATCATGGAGAGAAGGACCACAGCATCAGGAGACGGGACACGCCACACCCAGCAGGCAGCCTGTGTGTTGCTTAATTTTTTAAGAGCAAGAGGGGTAGAGAGGATCAAGCTGGCCCTGGCTGGAGATGGCTAGCCCCTGAGACATGCACTTCTGGTTTTGAAATGACTCTGTCTGTGGGGCAGCAGAAACTAGAGAAGGCAAGTGGCTGCCCCACCCCAAGGCGTGACCAGGAGGAACAGCCTGCAGCTCACTCCATGCCACACGGGTGGGCCACCAGCCTGCTGTCAGAAGTCTCTGGGCTCCAACTGGTCTTGTAACCACTGAGCACTGAAGGAGAGAGGTCTTGGTCAGGGCTGGACAGCATGCCCGGGAGGACCAGCAGAGGATTAAAGGTGACTGGGAGGACCAGCGGAGGATAAAAGACACTGCTCAGGGCAGGGCTTCTACCCTGCATCCCTGGCCAAGAAAAGGGCAGTCCCCATGTGGGCTTGCAGGGTCACTCTCAGGGGCCTCTTTCAGCTGGGGCTGGCAACTTGCGTCTGGGGGACACCTCCAGGTGTGTGGGGTGAGGATTTCCTATAACCAGGGCTCCCAGAAGCTTTGCTTATGTAAGGAGGTCTGGGAGCCAGCCCATTGGAGGCCACCAGCCATTTTGGCTTCAAAGGACCCCACCTCACCCAGGTCTCAGCGGCAGTGGGCACAGCTATGTCTTCAGGAGCTCCCGTCAAACCTCATAGCTGGGGCGCTCCCAGACAGGCCAGTCCAGACAGGACACGCTGGGCCCCTGGCATCCAGAGGAAGAGCCAGGAGTGTGGGAAGGCCCACAGTGGGGGCTGTGGCTTCTGACACTCAGGTCATAGCCTCAGAGGTCTGAGGTCAGCCCCCACAGACCCATCCGGCCCGCCCCCCAAGTCCCTGCAGAGAGCACTTAGAGTTATGGCCCAGGCCCTGGTCCACCCTTCCCCTGTGCACCTCCGGCTGGGTTTGCCAAGTCAGGGAGCAGGGCTGGCCGCAGGAACTCCCAAACCTTGGCTTTGAATATTGTTGTGGAGGTGTGCTCGTCCCTTTCTGGACGTGCAAGGTACCTGTCCCAGCAGGTCAGATGGGGCCAGCTGAGGCGCTCCCCCAGGCAGGAAGGGCCAGCCTTCACCATCGCGTGGGATTGGGAGGAGGGGCCTCCGTGAGCAGCCCCTCCTCTGCCGCTGTCCCAGCCCAGTCCCTCTCCCGGAGCCTTGGCAGCCTCCCACAACCCAGACACTTGCGTTCACAAGCAACCTAAGGGGCAGGTGAAGAAGCGCAGCCCTGCCAGACGCGCTAGATTCCTCTAAGGTCTCTGAGATGCACCGTTTTTTAAAAAGGCGTGGGGTGAACTGATTTTGATCTTCTTGTCTAGATGCAATAAATAAATCTGAAGCATTTAATGTAGTCATCTTGACATTGGGCCTACACTGTACGAGTTCCTTATGTTTCCTTGAGCTAAAAATATGTAAATAATTTTTGTCCCAGTGAGAACCGAGGGTTAGAAAACCTCGATGCCTCTGAGCCTCGGGACCGCTCTAGGGAAGTACCTGCTTTCGCCAGCATGACTCATGCTTCGTGGGTACTGAACACGAGGGTGGAAATGAAAACTGGAACTTCCTTGTAAATTTAAACTTGGCAATAAAAGAGAAAAAAAGTTACCAAGAA

转录物：CLEC16A-001 ENST00000409790

蛋白质序列(SEQ ID NO.：94)，融合基因的编码部分加阴影。

MFGRSRSWVGGGHGKTSRNIHSLDHLKYLYHVLTKNTTVTEQNRNLLVETIRSITEILIWGDQNDSSVFDFFLEKNMFVFFLNILRQKSGRYVCVQLLQTLNILFENISHETSLYYLLSNNYVNSIIVHKFDFSDEEIMAYYISFLKTLSLKLNNHTVHFFYNEHTNDFALYTEAIKFFNHPESMVRIAVRTITLNVYKVSLDNQAMLHYIRDKTAVPYFSNLVWFIGSHVIELDDCVQTDEEHRNRGKLSDLVAEHLDHLHYLNDILIINCEFLNDVLTDHLLNRLFLPLYVYSLENQDKGGERPKISLPVSLYLLSQVFLIIHHAPLVNSLAEVILNGDLSEMYAKTEQDIQRSSAKPSIRCFIKPTETLERSLEMNKHKGKRRVQKRPNYKNVGEEEDEEKGPTEDAQEDAEKAKGTEGGSKGIKTSGESEEIEMVIMERSKLSELAASTSVQEQNTTDEEKSAAATCSESTQWSRPFLDMVYHALDSPDDDYHALFVLCLLYAMSHNKGMDPEKLERIQLPVPNAAEKTTYNHPLAERLIRIMNNAAQPDGKIRLATLELSCLLLKQQVLMSAGCIMKDVHLACLEGAREESVHLVRHFYKGEDIFLDMFEDEYRSMTMKPMNVEYLMMDASILLPPTGTPLTGIDFVKRLPCGDVEKTRRAIRVFFMLRSLSLQLRGEPETQLPLTREEDLIKTDDVLDLNNSDLIACTVITKDGGMVQRFLAVDIYQMSLVEPDVSRLGWGVVKFAGLLQDMQVTGVEDDSRALNITIHKPASSPHSKPFPILQATFIFSDHIRCIIAKQRLAKGRIQARRMKMQRIAALLDLPIQPTTEVLGFGLGSSTSTQHLPFRFYDQGRRGSSDPTVQRSVFASVDKVPGFAVAQCINQHSSPSLSSQSPPSASGSPSGSGSTSHCDSGGTSSSSTPSTAQSPADAPMSPELPKPHLPDQLVIVNETEADSKPSKNVARSAAVETASLSPSLVPARQPTISLLCEDTADTLSVESLTLVPPVDPHSLRSLTGMPPLSTPAAACTEPVGEEAACAEPVGTAED

转录物：EMP2-001 ENST00000359543

cDNA序列(SEQ ID NO.：95)，融合基因的编码部分加阴影。

GGCGGGATCGGGGAAGGAGGGGCCCCGCCGCCTAGAGGGTGGAGGGAGGGCGCGCAGTCCCAGCCCAGAGCTTCAAAACAGCCCGGCGGCCTCGCCTCGCACCCCCAGCCAGTCCGTCGATCCAGCTGCCAGCGCAGCCGCCAGCGCCGGCACATCCCGCTCTGGGCTTTAAACGTGACCCCTCGCCTCGACTCGCCCTGCCCTGTGAAAATGTTGGTGCTTCTTGCTTTCATCATCGCCTTCCACATCACCTCTGCAGCCTTGCTGTTCATTGCCACCGTCGACAATGCCTGGTGGGTAGGAGATGAGTTTTTTGCAGATGTCTGGAGAATATGTACCAACAACACGAATTGCACAGTCATCAATGACAGCTTTCAAGAGTACTCCACGCTGCAGGCGGTCCAGGCCACCATGATCCTCTCCACCATTCTCTGCTGCATCGCCTTCTTCATCTTCGTGCTCCAGCTCTTCCGCCTGAAGCAGGGAGAGAGGTTTGTCCTAACCTCCATCATCCAGCTAATGTCATGTCTGTGTGTCATGATTGCGGCCTCCATTTATACAGACAGGCGTGAAGACATTCACGACAAAAACGCGAAATTCTATCCCGTGACCAGAGAAGGCAGCTACGGCTACTCCTACATCCTGGCGTGGGTGGCCTTCGCCTGCACCTTCATCAGCGGCATGATGTACCTGATACTGAGGAAGCGCAAATAGAGTTCCGGAGCTGGGTTGCTTCTGCTGCAGTACAGAATCCACATTCAGATAACCATTTTGTATATAATCATTATTTTTTGAGGTTTTTCTAGCAAACGTATTGTTTCCTTTAAAAGCCAAAAAAAAAAAAAAAAAAAAAAAAAAAAGAAAAAAGAAAAAAAAAATCCAAAAGAGAGAAGAGTTTTTGCATTCTTGAGATCAGAGAATAGACTATGAAGGCTGGTATTCAGAACTGCTGCCCACTCAAAAGTCTCAACAAGACACAAGCAAAAATCCAGCAATGCTCAAATCCAAAAGCACTCGGCAGGACATTTCTTAACCATGGGGCTGTGATGGGAGGAGAGGAGAGGCTGGGAAAGCCGGGTCTCTGGGGACGTGCTTCCTATGGGTTTCAGCTGGCCCAAGCCCCTCCCGAATCTCTCTGCTAGTGGTGGGTGGAAGAGGGTGAGGTGGGGTATAGGAGAAGAATGACAGCTTCCTGAGAGGTTTCACCCAAGTTCCAAGTGAGAAGCAGGTGTAGTCCCTGGCATTCTGTCTGTATCCAAACCAGAGCCCAGCCATCCCTCCGGTATCGGGGTGGGTCAGAAAAAGTCTCACCTCAATTTGCCGACAGTGTCACCTGCTTGCCTTAGGAATGGTCATCCTTAACCTGCGTGCCAGATTTAGACTCGTCTTTAGGCAAAACCTACAGCGCCCCCCCCCTCACCCCAGACCTACAGAATCAGAGTCTTCAAGGGATGGGGCCAGGGAATCTGCATTTCTAACGCGCTCCCTGGGCAACGCTTCAGATGCGTTGAAGTTGGGGACCACGGTGCCTGGGCCAGGTCAGCAGAGCTGCCTCGTAAATGCTGGGGTATCGTCATGTGGAGATGGGGAGGTGAATGCAACCCCCACAGCAGGCCAAAACCTTGGCCTCCATCGCCACAGCTGTCTACATCTAGGGCCCCAAAACTCCATTCCTGAGCCATGTGAACTCATAGACACCTTCAGGGTGTGGGGTACAGCCTCCTTCCCATCTTATCCCAGAAGGCCTCTCCCTTCTTGTCCAGCCCTTCATGCTACACCTGGCTGGCCTCTCACCCCTATTTCTAGAGCCTCAGAGGACCCATCCACCATTCATTCATTCATTCATTCATTCATTCATTCATTCATTCATCAACATAAATCATAACTTGCATGCATGTGCCAGGCACAGGGGATACCCTCTAGAGACAATCTCCTCCTAGGGCTCATGGCCTAGTGGAGGAGACAGATTAAAACTTAATTAGAAAAACTGGCTGGGTACAGTGGCTCATGCTTGTAATCCCAGCACTTTGGGAGGCTGAGGCGGGTGGATCACCTGAGGTCAGGAGTTCAAGACCAGCCTGGCCAAAATGGTAAAACCTGTCTCTACTAAAAATACAAAAATGAGCTGGGCGTGGTGGTGCATGCCTGTAATCCCAGCTATCAGGTGGCTGAGGCAGGAGAATCACTTGAAATGGGAGGTGGAGGTTGCAGTGAGCCGAGACCGTGCCACTGCACTCCAGCCTGGGTGACAGAGTGAGACTCCATCTCAAAAAAAGAAAAAAAAGAAAAGAAACTAATTACACACTGTGATGGAGGCTGCAAAGAACACCACTAAGAATTCAAAATCAGCTGGGTGCGGTGGCTCACACCTGTAATCCCAGCACTTTGGGAGGCTGAGGCAGGTGGATCACAAGGTCAGGAGTTCAAGACCAGCCTGGCCAACATGGTGAAACCCCGTCTCTACCGAAAATACAACAAAATTAGCCCGGTGTGGTGGCAGGTGCCTGTAATCCCAGCTACTTAGGAGGCTGAGGCAGGAGAATCGCTTGAAACTGGGAGGCGGAGGTCGCAGTGAGCCGAGATTCACCACTGCACTCCAGCCCAGGCGACAGTCTGAGACTCCGTCTCAAAAATAAAACGATTCAAAATCGAGGCCTGTGGCATGGTAGGGAGGCTGCTTTACGCGTGCCTATTATTAAATGCTCCTGGAGGCATTTAGGTATTTAGATCAGTCTAAATATAGCTCCATTCAGTTCGTGCAGATGACAGTTATTGGGCAGTACCTGTCTGTGTAACACCCAGAAAACATGTCTGTGGAGGGGCCCATGGTCCCGACAGTAAATGCGGTGAGAGGGTCCCATAGAGCTGGAGTTTTCAAGCTTTAGGGGTTCCCGTGCTGCTTGGGACAGGCTGATTCAGAGGGTCTGGGTGAATGATTTCCAGGTGATTTTAAGACTGTGCTGAGAAATAGGGCTTTTGGGGCCTTGTCCTTCAGGATCAAAGCATGATGCTGTGTGGCAATGCAGACCACCCAGGAACCATCCCAGGAGATAAGCTCTTTGCACCTCATTGTCTTTTTCTGCTTATGTTGGAGCAGGATGCTGGGGGCTGTCCTGGGATGGGGTGTGGGACCTCGTGCTATTTAAATACTTTTGCACTTGACCTTCTGCTGAGTGGAGTGGTGGTTTGCCATCAGCTCAGTTCCAGTGGAGCTGAAGAGACATCTGGTTTGAGTAGTTTTAGGGCCACCATGGATATCTCTTCAATGCAGGATTGGCTCTTTCCATCTGCTCTTTCATTCATTTGTTTTTGACAGATAGTATTAAATGTTTACCATGTTCCAGGCACTGTGTGAGGCTCTGAAAATACAGGGGTGAGCAAATCCAGATATCCTCCCTGCCATCATGAAGTTTGGAGTCTATGAGATAGGACCCCCTCCCTATGGAGAAGCCACCAATGCAGTACAGGGTGACCTGGGGCCAGAGACAGGACAAATGTCACCTCCTGCCTCCATGAGATACTCTCACTAGTCATATTGTGGGCAAGAATGTGGCTTACACCCCTAGGGTTAACAGGATGCTACCCAAGCTCATGGAGGAAGTTGAATCTTAAGTTCCCTTGAAACTTTCTACCTTGGTGGCTTTTCTATAATTTTCTTTTTTCTTTTTCTTTTTTTTTTTTTTTTTTGAGACTGAGTTTTGCTCTTGTTGCCCAGGCTGGAGTGCAGTGGCACCATCTTGGCTCACCGCAACCTCTGCCTCCTGGGTTCAAGTGATTCTCCTGCCTCAGCCTCCCGAGTAGCTGGGATTACAGGCATGTCCCACCATGCCCAGCTAATTTTTGTATTTTTAGTAGAGATGGGGTTTCTCCATGTTGGTCAGGCTGGTTTCGAACTCCCAACCTCAGGTGATCCGCCCACCTCAGCCTTCCAAAGTGCTGGGATTACAGGCATGAGCCACTGCGTCTGGCCTTCTATAATTTTCTGGTAGTCACGATGGAAACAAACAAAACACCTTAGAACCAGAGATCGACCCCCTCAAGCAATACATCAATTCCCTTCACAAGAAACGTCGGGGCTACATGAGTATCTGTGTTGAATGCGGTCTGAAATGATCCTATGGATTTTCCCGGCTGGTTGCCACTGCTGTACAACATTCAGTGCCCACATCCACCTGTGCCATTAAGCTTTTTTGAGACATGAGAGATGCCTCTTCCCTGCTGTATGACATGCATTTGGGAAGTTGGAAAGAAATGACAAAATCAGGGAGAAAACATCCAAGCTTCTTACCTGTAGATAGAATCAGCCCTCACTTGGTGCTTATTACCAGTTATTCAAGAACAATAACAACAACAAAATTAGTAGACATCCAAGAAGCACATATTAGGACCAAAGATAGCATCAACTGTATTTGAAGGAACTGTAGTTTGCGCATTTTATGACATTTTTATAAAGTACTGTAATTCTTTCATTGAGGGGCTATGTGATGGAGACAGACTAACTCATTTTGTTATTTGCATTAAAATTATTTTGGGTCTCTGTTCAAATGAGTTTGGAGAATGCTTGACTTGTTGGTCTGTGTGAATGTGTATATATATATACCTGAATACAGGAACATCGGAGACCTATTCACTCCCACACACTCTGCTATAGTTTGCGTGCTTTTGTGGACACCCCTCATGAACAGGCTGGCGCTCTAGGACGCTCTGTGTTCACTGATGATGAAGAAACCTAGAACTCCAAGCCTGTTTGTAAACACACTAAACACAGTGGCCTAGATAGAAACTGTATCGTAGTTTAAAATCTGCCTCGCGGGATGTTACTAAACTCGCTAATAGTTTAAAGGTTACTTACAATAGAGCAAGTTGGACAATTTTGTGGTGTTGGGGAAATGTTAGGGCAAGGCCTAGAGGTTCATTTTGAATCTTGGTTTGTGACTTTAGGGTAGTTAGAAACTTTCTACTTAATGTACCTTTAAAATAGTCCATTTTCTATGTTTTGTATAATCTGAAACTGTACATGGAAAATAAAGTTTAAAACCAGATTGCCCAGAGCAAGACTCTAATGTTCCCAACGGTGATGACATCTAGGGCAGAATGCTGCCATTTTGAGGGGCAGGGGGTCAGCTGATTTCTCATCAAGATAATAATGTATGGTTTTTACACTAAGCAACTGATAAATGGACAATTTATCACTGGA

转录物：EMP2-001 ENST00000359543

cDNA序列

GGCGGGATCGGGGAAGGAGGGGCCCCGCCGCCTAGAGGGTGGAGGGAGGGCGCGCAGTCC............................................................CAGCCCAGAGCTTCAAAACAGCCCGGCGGCCTCGCCTCGCACCCCCAGCCAGTCCGTCGA............................................................EMP2断裂点TCCAGCTGCCAGCGCAGCCGCCAGCGCCGGCACATCCCGCTCTGGGCTTTAAACGTGACC............................................................CCTCGCCTCGACTCGCCCTGCCCTGTGAAAATGTTGGTGCTTCTTGCTTTCATCATCGCC..............................-M--L--V--L--L--A--F--I--I--A-TTCCACATCACCTCTGCAGCCTTGCTGTTCATTGCCACCGTCGACAATGCCTGGTGGGTA-F--H--I--T--S--A--A--L--L--F--I--A--T--V--D--N--A--W--W--V-GGAGATGAGTTTTTTGCAGATGTCTGGAGAATATGTACCAACAACACGAATTGCACAGTC-G--D--E--F--F--A--D--V--W--R--I--C--T--N--N--T--N--C--T--V-ATCAATGACAGCTTTCAAGAGTACTCCACGCTGCAGGCGGTCCAGGCCACCATGATCCTC-I--N--D--S--F--Q--E--Y--S--T--L--Q--A--V--Q--A--T--M--I--L-TCCACCATTCTCTGCTGCATCGCCTTCTTCATCTTCGTGCTCCAGCTCTTCCGCCTGAAG-S--T--I--L--C--C--I--A--F--F--I--F--V--L--Q--L--F--R--L--K-CAGGGAGAGAGGTTTGTCCTAACCTCCATCATCCAGCTAATGTCATGTCTGTGTGTCATG-Q--G--E--R--F--V--L--T--S--I--I--Q--L--M--S--C--L--C--V--M-ATTGCGGCCTCCATTTATACAGACAGGCGTGAAGACATTCACGACAAAAACGCGAAATTC-I--A--A--S--I--Y--T--D--R--R--E--D--I--H--D--K--N--A--K--F-TATCCCGTGACCAGAGAAGGCAGCTACGGCTACTCCTACATCCTGGCGTGGGTGGCCTTC-Y--P--V--T--R--E--G--S--Y--G--Y--S--Y--I--L--A--W--V--A--F-GCCTGCACCTTCATCAGCGGCATGATGTACCTGATACTGAGGAAGCGCAAATAGAGTTCC-A--C--T--F--I--S--G--M--M--Y--L--I--L--R--K--R--K--＊-......GGAGCTGGGTTGCTTCTGCTGCAGTACAGAATCCACATTCAGATAACCATTTTGTATATA............................................................ATCATTATTTTTTGAGGTTTTTCTAGCAAACGTATTGTTTCCTTTAAAAGCCAAAAAAAA............................................................AAAAAAAAAAAAAAAAAAAAGAAAAAAGAAAAAAAAAATCCAAAAGAGAGAAGAGTTTTT............................................................GCATTCTTGAGATCAGAGAATAGACTATGAAGGCTGGTATTCAGAACTGCTGCCCACTCA............................................................AAAGTCTCAACAAGACACAAGCAAAAATCCAGCAATGCTCAAATCCAAAAGCACTCGGCA............................................................GGACATTTCTTAACCATGGGGCTGTGATGGGAGGAGAGGAGAGGCTGGGAAAGCCGGGTC............................................................TCTGGGGACGTGCTTCCTATGGGTTTCAGCTGGCCCAAGCCCCTCCCGAATCTCTCTGCT............................................................AGTGGTGGGTGGAAGAGGGTGAGGTGGGGTATAGGAGAAGAATGACAGCTTCCTGAGAGG............................................................TTTCACCCAAGTTCCAAGTGAGAAGCAGGTGTAGTCCCTGGCATTCTGTCTGTATCCAAA............................................................CCAGAGCCCAGCCATCCCTCCGGTATCGGGGTGGGTCAGAAAAAGTCTCACCTCAATTTG............................................................CCGACAGTGTCACCTGCTTGCCTTAGGAATGGTCATCCTTAACCTGCGTGCCAGATTTAG............................................................ACTCGTCTTTAGGCAAAACCTACAGCGCCCCCCCCCTCACCCCAGACCTACAGAATCAGA............................................................GTCTTCAAGGGATGGGGCCAGGGAATCTGCATTTCTAACGCGCTCCCTGGGCAACGCTTC............................................................AGATGCGTTGAAGTTGGGGACCACGGTGCCTGGGCCAGGTCAGCAGAGCTGCCTCGTAAA............................................................TGCTGGGGTATCGTCATGTGGAGATGGGGAGGTGAATGCAACCCCCACAGCAGGCCAAAA............................................................CCTTGGCCTCCATCGCCACAGCTGTCTACATCTAGGGCCCCAAAACTCCATTCCTGAGCC............................................................ATGTGAACTCATAGACACCTTCAGGGTGTGGGGTACAGCCTCCTTCCCATCTTATCCCAG............................................................AAGGCCTCTCCCTTCTTGTCCAGCCCTTCATGCTACACCTGGCTGGCCTCTCACCCCTAT............................................................TTCTAGAGCCTCAGAGGACCCATCCACCATTCATTCATTCATTCATTCATTCATTCATTC............................................................ATTCATTCATCAACATAAATCATAACTTGCATGCATGTGCCAGGCACAGGGGATACCCTC............................................................TAGAGACAATCTCCTCCTAGGGCTCATGGCCTAGTGGAGGAGACAGATTAAAACTTAATT............................................................AGAAAAACTGGCTGGGTACAGTGGCTCATGCTTGTAATCCCAGCACTTTGGGAGGCTGAG............................................................GCGGGTGGATCACCTGAGGTCAGGAGTTCAAGACCAGCCTGGCCAAAATGGTAAAACCTG............................................................TCTCTACTAAAAATACAAAAATGAGCTGGGCGTGGTGGTGCATGCCTGTAATCCCAGCTA............................................................TCAGGTGGCTGAGGCAGGAGAATCACTTGAAATGGGAGGTGGAGGTTGCAGTGAGCCGAG............................................................ACCGTGCCACTGCACTCCAGCCTGGGTGACAGAGTGAGACTCCATCTCAAAAAAAGAAAA............................................................AAAAGAAAAGAAACTAATTACACACTGTGATGGAGGCTGCAAAGAACACCACTAAGAATT............................................................CAAAATCAGCTGGGTGCGGTGGCTCACACCTGTAATCCCAGCACTTTGGGAGGCTGAGGC............................................................AGGTGGATCACAAGGTCAGGAGTTCAAGACCAGCCTGGCCAACATGGTGAAACCCCGTCT............................................................CTACCGAAAATACAACAAAATTAGCCCGGTGTGGTGGCAGGTGCCTGTAATCCCAGCTAC............................................................TTAGGAGGCTGAGGCAGGAGAATCGCTTGAAACTGGGAGGCGGAGGTCGCAGTGAGCCGA............................................................GATTCACCACTGCACTCCAGCCCAGGCGACAGTCTGAGACTCCGTCTCAAAAATAAAACG............................................................ATTCAAAATCGAGGCCTGTGGCATGGTAGGGAGGCTGCTTTACGCGTGCCTATTATTAAA............................................................TGCTCCTGGAGGCATTTAGGTATTTAGATCAGTCTAAATATAGCTCCATTCAGTTCGTGC............................................................AGATGACAGTTATTGGGCAGTACCTGTCTGTGTAACACCCAGAAAACATGTCTGTGGAGG............................................................GGCCCATGGTCCCGACAGTAAATGCGGTGAGAGGGTCCCATAGAGCTGGAGTTTTCAAGC............................................................TTTAGGGGTTCCCGTGCTGCTTGGGACAGGCTGATTCAGAGGGTCTGGGTGAATGATTTC............................................................CAGGTGATTTTAAGACTGTGCTGAGAAATAGGGCTTTTGGGGCCTTGTCCTTCAGGATCA............................................................AAGCATGATGCTGTGTGGCAATGCAGACCACCCAGGAACCATCCCAGGAGATAAGCTCTT............................................................TGCACCTCATTGTCTTTTTCTGCTTATGTTGGAGCAGGATGCTGGGGGCTGTCCTGGGAT............................................................GGGGTGTGGGACCTCGTGCTATTTAAATACTTTTGCACTTGACCTTCTGCTGAGTGGAGT...........................................................GGTGGTTTGCCATCAGCTCAGTTCCAGTGGAGCTGAAGAGACATCTGGTTTGAGTAGTTT............................................................TAGGGCCACCATGGATATCTCTTCAATGCAGGATTGGCTCTTTCCATCTGCTCTTTCATT............................................................CATTTGTTTTTGACAGATAGTATTAAATGTTTACCATGTTCCAGGCACTGTGTGAGGCTC............................................................TGAAAATACAGGGGTGAGCAAATCCAGATATCCTCCCTGCCATCATGAAGTTTGGAGTCT............................................................ATGAGATAGGACCCCCTCCCTATGGAGAAGCCACCAATGCAGTACAGGGTGACCTGGGGC............................................................CAGAGACAGGACAAATGTCACCTCCTGCCTCCATGAGATACTCTCACTAGTCATATTGTG............................................................GGCAAGAATGTGGCTTACACCCCTAGGGTTAACAGGATGCTACCCAAGCTCATGGAGGAA............................................................GTTGAATCTTAAGTTCCCTTGAAACTTTCTACCTTGGTGGCTTTTCTATAATTTTCTTTT............................................................TTCTTTTTCTTTTTTTTTTTTTTTTTTGAGACTGAGTTTTGCTCTTGTTGCCCAGGCTGG............................................................AGTGCAGTGGCACCATCTTGGCTCACCGCAACCTCTGCCTCCTGGGTTCAAGTGATTCTC............................................................CTGCCTCAGCCTCCCGAGTAGCTGGGATTACAGGCATGTCCCACCATGCCCAGCTAATTT............................................................TTGTATTTTTAGTAGAGATGGGGTTTCTCCATGTTGGTCAGGCTGGTTTCGAACTCCCAA............................................................CCTCAGGTGATCCGCCCACCTCAGCCTTCCAAAGTGCTGGGATTACAGGCATGAGCCACT............................................................GCGTCTGGCCTTCTATAATTTTCTGGTAGTCACGATGGAAACAAACAAAACACCTTAGAA............................................................CCAGAGATCGACCCCCTCAAGCAATACATCAATTCCCTTCACAAGAAACGTCGGGGCTAC............................................................ATGAGTATCTGTGTTGAATGCGGTCTGAAATGATCCTATGGATTTTCCCGGCTGGTTGCC............................................................ACTGCTGTACAACATTCAGTGCCCACATCCACCTGTGCCATTAAGCTTTTTTGAGACATG............................................................AGAGATGCCTCTTCCCTGCTGTATGACATGCATTTGGGAAGTTGGAAAGAAATGACAAAA............................................................TCAGGGAGAAAACATCCAAGCTTCTTACCTGTAGATAGAATCAGCCCTCACTTGGTGCTT............................................................ATTACCAGTTATTCAAGAACAATAACAACAACAAAATTAGTAGACATCCAAGAAGCACAT............................................................ATTAGGACCAAAGATAGCATCAACTGTATTTGAAGGAACTGTAGTTTGCGCATTTTATGA............................................................CATTTTTATAAAGTACTGTAATTCTTTCATTGAGGGGCTATGTGATGGAGACAGACTAAC............................................................TCATTTTGTTATTTGCATTAAAATTATTTTGGGTCTCTGTTCAAATGAGTTTGGAGAATG............................................................CTTGACTTGTTGGTCTGTGTGAATGTGTATATATATATACCTGAATACAGGAACATCGGA............................................................GACCTATTCACTCCCACACACTCTGCTATAGTTTGCGTGCTTTTGTGGACACCCCTCATG............................................................AACAGGCTGGCGCTCTAGGACGCTCTGTGTTCACTGATGATGAAGAAACCTAGAACTCCA............................................................AGCCTGTTTGTAAACACACTAAACACAGTGGCCTAGATAGAAACTGTATCGTAGTTTAAA............................................................ATCTGCCTCGCGGGATGTTACTAAACTCGCTAATAGTTTAAAGGTTACTTACAATAGAGC............................................................AAGTTGGACAATTTTGTGGTGTTGGGGAAATGTTAGGGCAAGGCCTAGAGGTTCATTTTG............................................................AATCTTGGTTTGTGACTTTAGGGTAGTTAGAAACTTTCTACTTAATGTACCTTTAAAATA............................................................GTCCATTTTCTATGTTTTGTATAATCTGAAACTGTACATGGAAAATAAAGTTTAAAACCA............................................................GATTGCCCAGAGCAAGACTCTAATGTTCCCAACGGTGATGACATCTAGGGCAGAATGCTG.............................................................CCATTTTGAGGGGCAGGGGGTCAGCTGATTTCTCATCAAGATAATAATGTATGGTTTTTA............................................................CACTAAGCAACTGATAAATGGACAATTTATCACTGGA.....................................

转录物：EMP2-001 ENST00000359543

蛋白质序列(SEQ I D N0.：96)

MLVLLAFIIAFHITSAALLFIATVDNAWWVGDEFFADVWRICTNNTNCTVINDSFQEYSTLQAVQATMILSTILCCIAFFIFVLQLFRLKQGERFVLTSIIQLMSCLCVMIAASIYTDRREDIHDKNAKFYPVTREGSYGYSYILAWVAFACTFISGMMYLILRKRK

CLEC16A-EMP2融合序列外显子9到外显子2UTR

cDNA序列(SEQ ID NO.：97)，EMP2加下划线。

ATGTTTGGCCGCTCGCGGAGCTGGGTGGGCGGGGGCCATGGCAAGACTTCCCGCAACATCCACTCCTTGGACCACCTCAAGTATCTGTACCACGTTTTGACCAAAAACACCACAGTCACAGAACAGAACCGGAACCTGCTAGTGGAGACCATCCGTTCCATCACTGAGATCCTGATCTGGGGAGATCAAAATGACAGCTCTGTATTTGACTTCTTCCTGGAGAAGAATATGTTTGTTTTCTTCTTGAACATCTTGCGGCAAAAGTCGGGCCGTTACGTGTGCGTTCAGCTGCTGCAGACCTTGAACATCCTCTTTGAGAACATCAGTCACGAGACCTCACTTTATTATTTGCTCTCAAATAACTACGTAAATTCTATCATCGTTCATAAATTTGACTTTTCTGATGAGGAGATTATGGCCTATTATATATCGTTCCTGAAAACACTTTCGTTAAAACTCAACAACCACACTGTCCATTTCTTTTATAATGAGCACACCAATGACTTTGCCCTGTACACAGAAGCCATCAAGTTTTTCAACCACCCTGAAAGCATGGTTAGAATTGCTGTAAGAACCATAACTTTGAATGTCTATAAAGTGTCATTGGATAACCAGGCCATGCTGCACTACATCCGAGATAAAACTGCTGTTCCTTACTTCTCCAATTTGGTCTGGTTCATTGGGAGCCATGTGATCGAACTCGATGACTGCGTGCAGACTGATGAGGAGCATCGGAATCGGGGTAAACTGAGTGATCTGGTGGCAGAGCACCTAGACCACCTGCACTATCTCAATGACATCCTGATCATCAACTGTGAGTTCCTCAACGATGTGCTCACTGACCACCTGCTCAACAGGCTCTTCCTGCCCCTCTACGTGTACTCACTGGAGAACCAGGACAAGGGAGGAGAACGGCCGAAAATTAGCCTGCCGGTGTCTCTTTATCTTCTGTCACAGCACATCCCGCTCTGGGCTTTAAACGTGACCCCTCGCCTCGACTCGCCCTGCCCTGTGAAAATGTTGGTGCTTCTTGCTTTCATCATCGCCTTCCACATCACCTCTGCAGCCTTGCTGTTCATTGCCACCGTCGACAATGCCTGGTGGGTAGGAGATGAGTTTTTTGCAGATGTCTGGAGAATATGTACCAACAACACGAATTGCACAGTCATCAATGACAGCTTTCAAGAGTACTCCACGCTGCAGGCGGTCCAGGCCACCATGATCCTCTCCACCATTCTCTGCTGCATCGCCTTCTTCATCTTCGTGCTCCAGCTCTTCCGCCTGAAGCAGGGAGAGAGGTTTGTCCTAACCTCCATCATCCAGCTAATGTCATGTCTGTGTGTCATGATTGCGGCCTCCATTTATACAGACAGGCGTGAAGACATTCACGACAAAAACGCGAAATTCTATCCCGTGACCAGAGAAGGCAGCTACGGCTACTCCTACATCCTGGCGTGGGTGGCCTTCGCCTGCACCTTCATCAGCGGCATGATGTACCTGATACTGAGGAAGCGCAAATAG

蛋白质序列(SEQ ID NO.：98)，EMP2加下划线。

MFGRSRSWVGGGHGKTSRNIHSLDHLKYLYHVLTKNTTVTEQNRNLLVETIRSITEILIWGDQNDSSVFDFFLEKNMFVFFLNILRQKSGRYVCVQLLQTLNILFENISHETSLYYLLSNNYVNSIIVHKFDFSDEEIMAYYISFLKTLSLKLNNHTVHFFYNEHTNDFALYTEAIKFFNHPESMVRIAVRTITLNVYKVSLDNQAMLHYIRDKTAVPYFSNLVWFIGSHVIELDDCVQTDEEHRNRGKLSDLVAEHLDHLHYLNDILIINCEFLNDVLTDHLLNRLFLPLYVYSLENQDKGGERPKISLPVSLYLLSQHIPLWALNVTPRLDSPCPVKMLVLLAFIIAFHITSAALLFIATVDNAWWVGDEFFADVWRICTNNTNCTVINDSFQEYSTLQAVQATMILSTILCCIAFFIFVLQLFRLKQGERFVLTSIIQLMSCLCVMIAASIYTDRREDIHDKNAKFYPVTREGSYGYSYILAWVAFACTFISGMMYLILRKRK

蛋白质结构域

具有506个残基的查询序列内的结构域

名称开端末端跨膜区 341 363 跨膜区 400 422 跨膜区 434 456 跨膜区 480 502

CLEC16A-EMP2融合序列外显子4到外显子2UTR

cDNA序列(SEQ ID NO.：99)，EMP2加下划线。

ATGTTTGGCCGCTCGCGGAGCTGGGTGGGCGGGGGCCATGGCAAGACTTCCCGCAACATCCACTCCTTGGACCACCTCAAGTATCTGTACCACGTTTTGACCAAAAACACCACAGTCACAGAACAGAACCGGAACCTGCTAGTGGAGACCATCCGTTCCATCACTGAGATCCTGATCTGGGGAGATCAAAATGACAGCTCTGTATTTGACTTCTTCCTGGAGAAGAATATGTTTGTTTTCTTCTTGAACATCTTGCGGCAAAAGTCGGGCCGTTACGTGTGCGTTCAGCTGCTGCAGACCTTGAACATCCTCTTTGAGAACATCAGTCACGAGACCTCACTTTATTATTTGCTCTCAAATAACTACGTAAATTCTATCATCGTTCATAAATTTGACTTTTCTGATGAGGAGATTATGGCCTATTATATATCGTTCCTGAAAACACTTTCGTTAAAACTCAACAACCACACTGTCCATTTCTTTTATAATGAGCACATCCCGCTCTGGGCTTTAAACGTGACCCCTCGCCTCGACTCGCCCTGCCCTGTGAAAATGTTGGTGCTTCTTGCTTTCATCATCGCCTTCCACATCACCTCTGCAGCCTTGCTGTTCATTGCCACCGTCGACAATGCCTGGTGGGTAGGAGATGAGTTTTTTGCAGATGTCTGGAGAATATGTACCAACAACACGAATTGCACAGTCATCAATGACAGCTTTCAAGAGTACTCCACGCTGCAGGCGGTCCAGGCCACCATGATCCTCTCCACCATTCTCTGCTGCATCGCCTTCTTCATCTTCGTGCTCCAGCTCTTCCGCCTGAAGCAGGGAGAGAGGTTTGTCCTAACCTCCATCATCCAGCTAATGTCATGTCTGTGTGTCATGATTGCGGCCTCCATTTATACAGACAGGCGTGAAGACATTCACGACAAAAACGCGAAATTCTATCCCGTGACCAGAGAAGGCAGCTACGGCTACTCCTACATCCTGGCGTGGGTGGCCTTCGCCTGCACCTTCATCAGCGGCATGATGTACCTGATACTGAGGAAGCGCAAATAG

蛋白质序列(SEQ ID NO.：100)

M F G R S R S W V G G G H G K T S R N I H S L D H L K Y L Y H V L T K N T T V T E Q N R N L L V E T I R S I T E I L I W G D Q N D S S V F D F F L E K N M F V F F L N I L R Q K S G R Y V C V Q L L Q T L N I L F E N I S H E T S L Y Y L L S N N Y V N S I I V H K F D F S D E E I M A Y Y I S F L K T L S L K L N N H T V H F F Y N E H I P L W A L N V T P R L D S P C P V K M L V L L A F I I A F H I T S A A L L F I A T V D N A W W V G D E F F A D V W R I C T N N T N C T V I N D S F Q E Y S T L Q A V Q A T M I L S T I L C C I A F F I F V L Q L F R L K Q G E R F V L T S I I Q L M S C L C V M I A A S I Y T D R R E D I H D K N A K F Y P V T R E G S Y G Y S Y I L A W V A F A C T F I S G M M Y L I L R K R K终止密码子

蛋白质结构域

具有351个残基的查询序列内的结构域

CLEC16A-EMP2融合序列外显子10到外显子2UTR

cDNA序列(SEQ ID NO.：101)，EMP2加下划线。

ATGTTTGGCCGCTCGCGGAGCTGGGTGGGCGGGGGCCATGGCAAGACTTCCCGCAACATCCACTCCTTGGACCACCTCAAGTATCTGTACCACGTTTTGACCAAAAACACCACAGTCACAGAACAGAACCGGAACCTGCTAGTGGAGACCATCCGTTCCATCACTGAGATCCTGATCTGGGGAGATCAAAATGACAGCTCTGTATTTGACTTCTTCCTGGAGAAGAATATGTTTGTTTTCTTCTTGAACATCTTGCGGCAAAAGTCGGGCCGTTACGTGTGCGTTCAGCTGCTGCAGACCTTGAACATCCTCTTTGAGAACATCAGTCACGAGACCTCACTTTATTATTTGCTCTCAAATAACTACGTAAATTCTATCATCGTTCATAAATTTGACTTTTCTGATGAGGAGATTATGGCCTATTATATATCGTTCCTGAAAACACTTTCGTTAAAACTCAACAACCACACTGTCCATTTCTTTTATAATGAGCACACCAATGACTTTGCCCTGTACACAGAAGCCATCAAGTTTTTCAACCACCCTGAAAGCATGGTTAGAATTGCTGTAAGAACCATAACTTTGAATGTCTATAAAGTGTCATTGGATAACCAGGCCATGCTGCACTACATCCGAGATAAAACTGCTGTTCCTTACTTCTCCAATTTGGTCTGGTTCATTGGGAGCCATGTGATCGAACTCGATGACTGCGTGCAGACTGATGAGGAGCATCGGAATCGGGGTAAACTGAGTGATCTGGTGGCAGAGCACCTAGACCACCTGCACTATCTCAATGACATCCTGATCATCAACTGTGAGTTCCTCAACGATGTGCTCACTGACCACCTGCTCAACAGGCTCTTCCTGCCCCTCTACGTGTACTCACTGGAGAACCAGGACAAGGGAGGAGAACGGCCGAAAATTAGCCTGCCGGTGTCTCTTTATCTTCTGTCACAGGTCTTCTTAATTATACATCATGCACCGCTGGTGAACTCGTTAGCTGAAGTCATTCTGAATGGTGATCTGTCTGAGATGTACGCTAAGACTGAACAGGATATTCAGAGAAGTTCTCACATCCCGCTCTGGGCTTTAAACGTGACCCCTCGCCTCGACTCGCCCTGCCCTGTGAAAATGTTGGTGCTTCTTGCTTTCATCATCGCCTTCCACATCACCTCTGCAGCCTTGCTGTTCATTGCCACCGTCGACAATGCCTGGTGGGTAGGAGATGAGTTTTTTGCAGATGTCTGGAGAATATGTACCAACAACACGAATTGCACAGTCATCAATGACAGCTTTCAAGAGTACTCCACGCTGCAGGCGGTCCAGGCCACCATGATCCTCTCCACCATTCTCTGCTGCATCGCCTTCTTCATCTTCGTGCTCCAGCTCTTCCGCCTGAAGCAGGGAGAGAGGTTTGTCCTAACCTCCATCATCCAGCTAATGTCATGTCTGTGTGTCATGATTGCGGCCTCCATTTATACAGACAGGCGTGAAGACATTCACGACAAAAACGCGAAATTCTATCCCGTGACCAGAGAAGGCAGCTACGGCTACTCCTACATCCTGGCGTGGGTGGCCTTCGCCTGCACCTTCATCAGCGGCATGATGTACCTGATACTGAGGAAGCGCAAATAG

蛋白质序列(SEQ ID NO.：102)

M F G R S R S W V G G G H G K T S R N I H S L D H L K Y L Y H V L T K N T T V T E Q N R N L L V E T I R S I T E I L I W G D Q N D S S V F D F F L E K N M F V F F L N I L R Q K S G R Y V C V Q L L Q T L N I L F E N I S H E T S L Y Y L L S N N Y V N S I I V H K F D F S D E E I M A Y Y I S F L K T L S L K L N N H T V H F F Y N E H T N D F A L Y T E A I K F F N H P E S M V R I A V R T I T L N V Y K V S L D N Q A M L H Y I R D K T A V P Y F S N L V W F I G S H V I E L D D C V Q T D E E H R N R G K L S D L V A E H L D H L H Y L N D I L I I N C E F L N D V L T D H L L N R L F L P L Y V Y S L E N Q D K G G E R P K I S L P V S L Y L L S Q V F L I I H H A P L V N S L A E V I L N G D L S E M Y A K T E Q D I Q R S S H I P L W A L N V T P R L D S P C P V K M L V L L A F I I A F H I T S A A L L F I A T V D N A W W V G D E F F A D V W R I C T N N T N C T V I N D S F Q E Y S T L Q A V Q A T M I L S T I L C C I A F F I F V L Q L F R L K Q G E R F V L T S I I Q L M S C L C V M I A A S I Y T D R R E D I H D K N A K F Y P V T R E G S Y G Y S Y I L A W V A F A C T F I S G M M Y L I L R K R K终止密码子

蛋白质结构域

具有544个残基的查询序列内的结构域

融合基因#2：CLDN18-ARHGAP26

CLDN18

发现样品中的由基因组PCR确认的断裂点-chr3：137，752，065

外显子5中由RT-PCR确认的RNA融合点-chr3：137，749，947

ARHGAP26

发现样品中的由基因组PCR确认的断裂点-chr5：142318274

外显子12中由RT-PCR确认的RNA融合点-chr5：142393645

转录物：CLDN18-001 ENST00000343735

cDNA序列(SEQ ID NO.：103)，融合基因的编码部分加阴影。

AACCGCCTCCATTACATGGTCCGTTCCTGACGTGTACACCAGCCTCTCAGAGAAAACTCCATCCCTACACTCGGTAGTCTCAGAATTGCGCTGTCCACTTGTCGTGTGGCTCTGTGTCGACACTGTGCGCCACCATGGCCGTGACTGCCTGTCAGGGCTTGGGGTTCGTGGTTTCACTGATTGGGATTGCGGGCATCATTGCTGCCACCTGCATGGACCAGTGGAGCACCCAAGACTTGTACAACAACCCCGTAACAGCTGTTTTCAACTACCAGGGGCTGTGGCGCTCCTGTGTCCGAGAGAGCTCTGGCTTCACCGAGTGCCGGGGCTACTTCACCCTGCTGGGGCTGCCAGCCATGCTGCAGGCAGTGCGAGCCCTGATGATCGTAGGCATCGTCCTGGGTGCCATTGGCCTCCTGGTATCCATCTTTGCCCTGAAATGCATCCGCATTGGCAGCATGGAGGACTCTGCCAAAGCCAACATGACACTGACCTCCGGGATCATGTTCATTGTCTCAGGTCTTTGTGCAATTGCTGGAGTGTCTGTGTTTGCCAACATGCTGGTGACTAACTTCTGGATGTCCACAGCTAACATGTACACCGGCATGGGTGGGATGGTGCAGACTGTTCAGACCAGGTACACATTTGGTGCGGCTCTGTTCGTGGGCTGGGTCGCTGGAGGCCTCACACTAATTGGGGGTGTGATGATGTGCATCGCCTGCCGGGGCCTGGCACCAGAAGAAACCAACTACAAAGCCGTTTCTTATCATGCCTCAGGCCACAGTGTTGCCTACAAGCCTGGAGGCTTCAAGGCCAGCACTGGCTTTGGGTCCAACACCAAAAACAAGAAGATATACGATGGAGGTGCCCGCACAGAGGACGAGGTACAATCTTATCCTTCCAAGCACGACTATGTGTAATGCTCTAAGACCTCTCAGCACGGGCGGAAGAAACTCCCGGAGAGCTCACCCAAAAAACAAGGAGATCCCATCTAGATTTCTTCTTGCTTTTGACTCACAGCTGGAAGTTAGAAAAGCCTCGATTTCATCTTTGGAGAGGCCAAATGGTCTTAGCCTCAGTCTCTGTCTCTAAATATTCCACCATAAAACAGCTGAGTTATTTATGAATTAGAGGCTATAGCTCACATTTTCAATCCTCTATTTCTTTTTTTAAATATAACTTTCTACTCTGATGAGAGAATGTGGTTTTAATCTCTCTCTCACATTTTGATGATTTAGACAGACTCCCCCTCTTCCTCCTAGTCAATAAACCCATTGATGATCTATTTCCCAGCTTATCCCCAAGAAAACTTTTGAAAGGAAAGAGTAGACCCAAAGATGTTATTTTCTGCTGTTTGAATTTTGTCTCCCCACCCCCAACTTGGCTAGTAATAAACACTTACTGAAGAAGAAGCAATAAGAGAAAGATATTTGTAATCTCTCCAGCCCATGATCTCGGTTTTCTTACACTGTGATCTTAAAAGTTACCAAACCAAAGTCATTTTCAGTTTGAGGCAACCAAACCTTTCTACTGCTGTTGACATCTTCTTATTACAGCAACACCATTCTAGGAGTTTCCTGAGCTCTCCACTGGAGTCCTCTTTCTGTCGCGGGTCAGAAATTGTCCCTAGATGAATGAGAAAATTATTTTTTTTAATTTAAGTCCTAAATATAGTTAAAATAAATAATGTTTTAGTAAAATGATACACTATCTCTGTGAAATAGCCTCACCCCTACATGTGGATAGAAGGAAATGAAAAAATAATTGCTTTGACATTGTCTATATGGTACTTTGTAAAGTCATGCTTAAGTACAAATTCCATGAAAAGCTCACTGATCCTAATTCTTTCCCTTTGAGGTCTCTATGGCTCTGATTGTACATGATAGTAAGTGTAAGCCATGTAAAAAGTAAATAATGTCTGGGCACAGTGGCTCACGCCTGTAATCCTAGCACTTTGGGAGGCTGAGGAGGAAGGATCACTTGAGCCCAGAAGTTCGAGACTAGCCTGGGCAACATGGAGAAGCCCTGTCTCTACAAAATACAGAGAGAAAAAATCAGCCAGTCATGGTGGCCTACACCTGTAGTCCCAGCATTCCGGGAGGCTGAGGTGGGAGGATCACTTGAGCCCAGGGAGGTTGGGGCTGCAGTGAGCCATGATCACACCACTGCACTCCAGCCAGGTGACATAGCGAGATCCTGTCTAAAAAAATAAAAAATAAATAATGGAACACAGCAAGTCCTAGGAAGTAGGTTAAAACTAATTCTTTAAAAAAAAAAAAAAGTTGAGCCTGAATTAAATGTAATGTTTCCAAGTGACAGGTATCCACATTTGCATGGTTACAAGCCACTGCCAGTTAGCAGTAGCACTTTCCTGGCACTGTGGTCGGTTTTGTTTTGTTTTGCTTTGTTTAGAGACGGGGTCTCACTTTCCAGGCTGGCCTCAAACTCCTGCACTCAAGCAATTCTTCTACCCTGGCCTCCCAAGTAGCTGGAATTACAGGTGTGCGCCATCACAACTAGCTGGTGGTCAGTTTTGTTACTCTGAGAGCTGTTCACTTCTCTGAATTCACCTAGAGTGGTTGGACCATCAGATGTTTGGGCAAAACTGAAAGCTCTTTGCAACCACACACCTTCCCTGAGCTTACATCACTGCCCTTTTGAGCAGAAAGTCTAAATTCCTTCCAAGACAGTAGAATTCCATCCCAGTACCAAAGCCAGATAGGCCCCCTAGGAAACTGAGGTAAGAGCAGTCTCTAAAAACTACCCACAGCAGCATTGGTGCAGGGGAACTTGGCCATTAGGTTATTATTTGAGAGGAAAGTCCTCACATCAATAGTACATATGAAAGTGACCTCCAAGGGGATTGGTGAATACTCATAAGGATCTTCAGGCTGAACAGACTATGTCTGGGGAAAGAACGGATTATGCCCCATTAAATAACAAGTTGTGTTCAAGAGTCAGAGCAGTGAGCTCAGAGGCCCTTCTCACTGAGACAGCAACATTTAAACCAAACCAGAGGAAGTATTTGTGGAACTCACTGCCTCAGTTTGGGTAAAGGATGAGCAGACAAGTCAACTAAAGAAAAAAGAAAAGCAAGGAGGAGGGTTGAGCAATCTAGAGCATGGAGTTTGTTAAGTGCTCTCTGGATTTGAGTTGAAGAGCATCCATTTGAGTTGAAGGCCACAGGGCACAATGAGCTCTCCCTTCTACCACCAGAAAGTCCCTGGTCAGGTCTCAGGTAGTGCGGTGTGGCTCAGCTGGGTTTTTAATTAGCGCATTCTCTATCCAACATTTAATTGTTTGAAAGCCTCCATATAGTTAGATTGTGCTTTGTAATTTTGTTGTTGTTGCTCTATCTTATTGTATATGCATTGAGTATTAACCTGAATGTTTTGTTACTTAAATATTAAAAACACTGTTATCCTACAGTT

转录物：CLDN18-001 ENST00000343735

蛋白质序列(SEQ ID NO.：104)，融合基因的编码部分加阴影。

MAVTACQGLGFVVSLIGIAGIIAATCMDQWSTQDLYNNPVTAVFNYQGLWRSCVRESSGFTECRGYFTLLGLPAMLQAVRALMIVGIVLGAIGLLVSIFALKCIRIGSMEDSAKANMTLTSGIMFIVSGLCAIAGVSVFANMLVTNFWMSTANMYTGMGGMVQTVQTRYTFGAALFVGWVAGGLTLIGGVMMCIACRGLAPEETNYKAVSYHASGHSVAYKPGGFKASTGFGSNTKNKKIYDGGARTEDEVQSYPSKHDYV

转录物：ARHGAP26-001 ENST00000274498

cDNA序列(SEQ ID NO.：105)，融合基因的编码部分加阴影。

GGCGGGGCGGCCGAGGCTGCTGTGAGAGGGCGCTCGAGGCTGCCGAGAGCTAGCTAGCGAAGGAGGCGGGGAGGCGGCGTCTGCACTCGCTCGCCCGCTCGCTCGCTTCCCGGCGCCGCTGCGGGTCCGCGCTGCGTTTCCTGCTCGCGATCCGCTCCGTTGCCCGCGCCCGGAACAGCAGCACCTCGGCCGGGTCCGAGCTCGGTTCGGGAGTCTTGCGCGCCGGCGGACACCGCGCGCGGAGTGAGCCAGCGCCACACCTGTGGAGCCGGCGGCCGTCGGGGGAGCCGGCCGGGGTCCCGCCGCGTGAGTGCTCTGGGCGGCGGGCGGCCCGGGCCCCGGCGGAGGCGCGCCCCCCGGCTGGGCGCCGCGCGCACCATGGGGCTCCCAGCGCTCGAGTTCAGCGACTGCTGCCTCGATAGTCCGCACTTCCGAGAGACGCTCAAGTCGCACGAAGCAGAGCTGGACAAGACCAACAAATTCATCAAGGAGCTCATCAAGGACGGGAAGTCACTCATAAGCGCGCTCAAGAATTTGTCTTCAGCGAAGCGGAAGTTTGCAGATTCCTTAAATGAATTTAAATTTCAGTGCATAGGAGATGCAGAAACAGATGATGAGATGTGTATAGCAAGATCTTTGCAGGAGTTTGCCACTGTCCTCAGGAATCTTGAAGATGAACGGATACGGATGATTGAGAATGCCAGCGAGGTGCTCATCACTCCCTTGGAGAAGTTTCGAAAGGAACAGATCGGGGCTGCCAAGGAAGCCAAAAAGAAGTATGACAAAGAGACAGAAAAGTATTGTGGCATCTTAGAAAAACACTTGAATTTGTCTTCCAAAAAGAAAGAATCTCAGCTTCAGGAGGCAGACAGCCAAGTGGACCTGGTCCGGCAGCATTTCTATGAAGTATCCCTGGAATATGTCTTCAAGGTGCAGGAAGTCCAAGAGAGAAAGATGTTTGAGTTTGTGGAGCCTCTGCTGGCCTTCCTGCAAGGACTCTTCACTTTCTATCACCATGGTTACGAACTGGCCAAGGATTTCGGGGACTTCAAGACACAGTTAACCATTAGCATACAGAACACAAGAAATCGCTTTGAAGGCACTAGATCAGAAGTGGAATCACTGATGAAAAAGATGAAGGAGAATCCCCTTGAGCACAAGACCATCAGTCCCTACACCATGGAGGGATACCTCTACGTGCAGGAGAAACGTCACTTTGGAACTTCTTGGGTGAAGCACTACTGTACATATCAACGGGATTCCAAACAAATCACCATGGTACCATTTGACCAAAAGTCAGGAGGAAAAGGGGGAGAAGATGAATCAGTTATCCTCAAATCCTGCACACGGCGGAAAACAGACTCCATTGAGAAGAGGTTTTGCTTTGATGTGGAAGCAGTAGACAGGCCAGGGGTTATCACCATGCAAGCTTTGTCGGAAGAGGACCGGAGGCTCTGGATGGAAGCCATGGATGGCCGGGAACCTGTCTACAACTCGAACAAAGACAGCCAGAGTGAAGGGACTGCGCAGTTGGACAGCATTGGCTTCAGCATAATCAGGAAATGCATCCATGCTGTGGAAACCAGAGGGATCAACGAGCAAGGGCTGTATCGAATTGTGGGTGTCAACTCCAGAGTGCAGAAGTTGCTGAGTGTCCTGATGGACCCCAAGACTGCTTCTGAGACAGAAACAGATATCTGTGCTGAATGGGAGATAAAGACCATCACTAGTGCTCTGAAGACCTACCTAAGAATGCTTCCAGGACCACTCATGATGTACCAGTTTCAAAGAAGTTTCATCAAAGCAGCAAAACTGGAGAACCAGGAGTCTCGGGTCTCTGAAATCCACAGCCTTGTTCATCGGCTCCCAGAGAAAAATCGGCAGATGTTACAGCTGCTCATGAACCACTTGGCAAATGTTGCTAACAACCACAAGCAGAATTTGATGACGGTGGCAAACCTTGGTGTGGTGTTTGGACCCACTCTGCTGAGGCCTCAGGAAGAAACAGTAGCAGCCATCATGGACATCAAATTTCAGAACATTGTCATTGAGATCCTAATAGAAAACCACGAAAAGATATTTAACACCGTGCCCGATATGCCTCTCACCAATGCCCAGCTGCACCTGTCTCGGAAGAAGAGCAGTGACTCCAAGCCCCCGTCCTGCAGCGAGAGGCCCCTGACGCTCTTCCACACCGTTCAGTCAACAGAGAAACAGGAACAAAGGAACAGCATCATCAACTCCAGTTTGGAATCTGTCTCATCAAATCCAAACAGCATCCTTAATTCCAGCAGCAGCTTACAGCCCAACATGAACTCCAGTGACCCAGACCTGGCTGTGGTCAAACCCACCCGGCCCAACTCACTCCCCCCGAATCCAAGCCCAACTTCACCCCTCTCGCCATCTTGGCCCATGTTCTCGGCGCCATCCAGCCCTATGCCCACCTCATCCACGTCCAGCGACTCATCCCCCGTCAGGTCTGTTGCAGGGTTTGTTTGGTTTTCTGTTGCTGCCGTTGTTCTCTCATTGGCTCGGTCCTCTCTTCATGCAGTGTTCAGCCTCCTCGTCAACTTTGTTCCCTGCCATCCAAACCTGCACTTGCTTTTTGACAGGCCAGAAGAAGCGGTACATGAAGACTCCAGCACACCGTTCCGGAAGGCAAAAGCCTTGTATGCCTGCAAAGCTGAACATGACTCAGAACTTTCGTTCACAGCAGGCACGGTCTTCGATAACGTTCACCCATCTCAGGAGCCTGGCTGGTTGGAGGGGACTCTGAACGGAAAGACTGGCCTCATCCCTGAGAATTACGTGGAGTTCCTCTAACCGTGGGCCCCAGCAGAACTGCTGAGCTTTACATGGTATCCATGACAACTGCTGATTCCAGTGTCGAGGCCATTTCTCTTTGCCACTGAGAAATGCAGCGTGACTGACTCTGTTGCTACCTGTCAACATGAATGTTTCTGTGAGCTCTGGTGTCACTCATCTCCATGATCATCTCAGCCAACATGCATCAGTACTGCAAGAAAAGAAGTCAATCAGCAGAGGAGAGCATTTGATAACTAAGAGGAAGACTTGCAAAGCCGTTTTCTCATGAGTACCCTGAATAGGGGGCACTCATTTTGTTTCAACGGTCCAAACGCCCAACCTTCAGAAAGAGGAAGTCAGATAGAAATAGTCCCTGAGAGCACACTGTGTAGCTAAGCCTGCTGGGGCTGGGTGAAGAAATTGGCGCTGAGATCCAGGCTGGATCCATTGCTTTTGTTTACAATAGGCACTCTCTCTACCCCACCTCTCAGTACTTGAGACTTAAAGTGCTACAGGCAGCTGGATCTGTTTGCATGCAGGATGAAGAGGGTTAAAACACTGTTTATATAAGATCCAATCTCTCACCATCTCTAAAGCAGCCGTTGGCCTGTCATCAGTGAGATACAATCCAGTCTTCTCATGCACGGGAACACACACACCCTGCGTTTCTCCCTCCCAGGCTAGGAACCTCTCTGCCACCAAGGGCTGCCATCCATCGCCTAGTAACCACGGCAACCCAACCTACTCTAAAACCAAACCAAAAAAATAAAATAACACATCCTCTTTGCATGACACATTTTTTTTCTCCCCTTTTTGGTACACTTTTTTTGAATGGTTTTCTAACAACTTGAAGCACAGGATCAAGGAATTAGGGTGGTCTACTTGAGGCAGATGGGATAGTAGCTGGGAACTGTTCCCTTTCTGATTAATTTCAGCAGCATCGGAATATATTTGGAGCACACCCTAGTAACCTCTTGAGATTAAATTACATAGTCTTAATATTTCTGTTCCTCCATGCAACTGATGTTTGTTTTTTAAAGGGTAAGATGCTGCCTCCCAATGGGTGATGCCATCTGACTGGTTTCCCCATGTCCTCCCATTCACCCATCTCTGCTCCCACCCTTGCCTGCCTCTAACCCACCACTGGCCAGCCCCCTTGCCCTACTCTGGGCTGCTGAACACTGGTGCTGTGGTGGTTTTCAAGGTTAATTCCTAGGCTAACCGTATGGCCTATAGTTTAAAAGCACATCTATGTTCACTGCCACTCTGAAAAAGGGAATTATTTCTCAGTCTTTCAAGGCTTGAGACTAATATAGGCCATTGTGATTCAGGAAGAAACCCAAGGTTGGAGGGTGGGATGAGTACCCTCTGAAAAAGGGAATTTGCTGGTGAAAAGAGGCTGGATCTTGTGGAAGACTGTCTTGGATGGGGAAGTACTACCTGGAGATTTCAAATTCACTTGGCCTGCAAACAACAGAGTTATCCGTATCTTCCACATGTGAATGTCATTGCAAGGGTGACTCTAGACAAACTACAAACCGATGGACCGTCAAGCTCCCCAGGAGCCCCTTGGATGGCAGCGTTGCTTCAGAGTGTTTCCTGTTTCTGGAATTCCTTGTTAGGGAACTTTAAAGAAGAAAAGAAAAACTTGAATTGTGTTGAATTACTGTATCTTTTACTTTTTTTTTTTTGAAAAGATAAACTTGTAAATAGAGTGATTTGAAATACTATATGGCAAAGTTTTATATTTGATATTCTTTAAGTTAGTTGCTCACACACTTAGGCTTTGATTGCTGAAGAAGTATGTTTAAGAGGGAGAGAGGGGAGGCAAAGCTGAAGAGAGTCAAGGTCACTGTCCCCGCTTCGGCCTGAAGGAAAGAGAAGACATTTCTATGGCCTTGCTCTCTGCTGTCCTGTTGGTGGGCACGACACATCAGTGGTGTTCAGTCTTTATGTGTTTTTAAGCATCCCTTGGGCTTTGGATTTGGAGATGGGAAGAGCATCTCCAGGCAATGAGTTTTTCAAAGAATGCCTACTTAGTAGTAAGATGAAGCTCAGGATTTAAATAAGTGGGGTCAGGCATTCGAGTTTTTGTCTTTCTTCTCAGGTGTATTTCTTGGTACCCCCAAGATATCAGGCCAGAAAGAGATGAGTCAGTTGCTGTGCTCTTTACTTCTTTTTCTCCACATCTTCTGAGGCTTTAGAAATGTGGACAAGCTAGTTTTCAAATTTTGTGTGCGTCTGTAAGTTCTTAAAGAACCAGCTTCTTAGAATGTTCAGTTCTCAATGTGCTGCTGCTTTCCCTTCTCCTAAACATTTTAAAACTCTTCCCTTTCACCTCCAATTCCCGTGATCCCAAAAGAAGAGGAAGACTCCAGGAGGGGTATAGATTGTGCCGTCATAGCTTTACAGGTGGTTTTAAAGTTAACAGGGGTTTGTCATGGTGATTCACTACTCAGTTTATCAGCTCAAGGATTATACAGCTCTTTTCCGGGAACTCACCCAGGAGCAAGCGAGACACTACCATTGAATCAGGGAATGAGAATTAAGAATGGACAGGACCAAGACAGAACTCAAGAAAGCCACTGGGGAAAACTCGAGAAGAAAGGGAGTATACTAGTAGGTTAGATCTGTGAACCTGAGGACAAGAAGACCTTGGGAAATGGAGGCCTCAGGGGATGTGCATTCACATACTATTACGCTTCTCAAAGAGAGACCAACATCATGCTTTTAACACATTTGATGAGGTTTTTTATTTGTGTTTTTGTTTGTTTTTTGAGATGGAGTCTCACTCTGTGGCCCAGGCTGGAGTGCAGTGGCGCAATCTTGGCTCACTGCAACCTCCACCTCCCAGGTTCAAGTGATTCTCCTGTCTCAGCCTCCCAAGTAGCTGGGACTACAGGCATGAGCCATCACACCCAGCTAGTTTTTTGTATTTTTAGTAAAGATGGGGTTTTGCCATGTTTGCCAGGCTGATCTCGAACTCCTGACCTCAAGTGATCTGCCCACTTCAGACCCCCAAAGTGCTGGGATTCCAGGTGTGAGCCGCTGCGGCCGACCACATTTGATGTTTGAAGTTGTAATCTGTCCCATCATAAACTTACCTGGAGCTCATGTGGAGGAACAGAAGGCCAAGATCCTTGCTTTGGGGGTGCCTCACGAAGCATCCCTGTAGACATTTGGCCCCAGCTTCACTGCTTGGAAGCATGTCCCTCCCTCTTGAGTTGGCTCTGATTTGAAATCGGGAGAAACAGAGCTGCTGCCAATGGGATCTTTTAGGTAACTCCCTCCCTAGCTTCCGTGTGTCTGTGCAGTGCCCATGAGCTGCTGCCAATGGGATCTTTCAGGTACCCCCTCCCCAGCTTCCCTGTGGCTGTGCGGTGCCCTTGACAGATGGCTTCTCTGTTTCCCTTTGCCCAGCCAGGCTCCCCTCCTTCCTATTAGCTACAAAACTGGATAAACTTCAGAATATGAGCCAATGAGTAGGAAGGAACTTGAAGACTAAAGATTTTACTCTCTCCCCTATCCATGCCCCCTACCTCTGACTCTCTCTGTGTGAACAGGAAACTTTAGGGCAGATGAGGAGAATGAATTGGTTATCAGAGTGGAAGACCATGGCCCAGGATCCCTGAGCTTTCCCAGTAGCCTCCAGTTTCCTTTGTAAGACCCAGGGATCACTTAGCCATAGCCTGAATCTTTTAGGGGTATTAAGGTCAGCCTCTCACTCTTCCTTCAGGTTACTAACAAAATTTCGTAGCTAAAGAATGCCATGGCCGGGTGCAGTGGCTCACGCCTATAATCCCAGCACTTTGGGAGGCCGAGGCGGGCGGATCACGAGGTCAGGAGATTGAGACCATCCTGGCTACGACGGTGAAACCCCGTCTCTACTAAAAATACAAAAAATTAGCCGGGTGTGGTGGCGGGCGCCTGTAGTCCCAGCTACTCTGGAGGCTGAGGCAGGAGAATGGCATGAACCCAGGAGGCAGAGATTGCAGTGAGCCAAGATCACGCCCCTGCACTCCAGCCTGGGTGACAGAGCCAGACTCCGTCTCAAAGG

转录物：ARHGAP26-001 ENST00000274498

蛋白质序列(SEQ ID NO.：106)，融合基因的编码部分加阴影。

MGLPALEFSDCCLDSPHFRETLKSHEAELDKTNKFIKELIKDGKSLISALKNLSSAKRKFADSLNEFKFQCIGDAETDDEMCIARSLQEFATVLRNLEDERIRMIENASEVLITPLEKFRKEQIGAAKEAKKKYDKETEKYCGILEKHLNLSSKKKESQLQEADSQVDLVRQHFYEVSLEYVFKVQEVQERKMFEFVEPLLAFLQGLFTFYHHGYELAKDFGDFKTQLTISIQNTRNRFEGTRSEVESLMKKMKENPLEHKTISPYTMEGYLYVQEKRHFGTSWVKHYCTYQRDSKQITMVPFDQKSGGKGGEDESVILKSCTRRKTDSIEKRFCFDVEAVDRPGVITMQALSEEDRRLWMEAMDGREPVYNSNKDSQSEGTAQLDSIGFSIIRKCIHAVETRGINEQGLYRIVGVNSRVQKLLSVLMDPKTASETETDICAEWEIKTITSALKTYLRMLPGPLMMYQFQRSFIKAAKLENQESRVSEIHSLVHRLPEKNRQMLQLLMNHLANVANNHKQNLMTVANLGVVFGPTLLRPQEETVAAIMDIKFQNIVIEILIENHEKIFNTVPDMPLTNAQLHLSRKKSSDSKPPSCSERPLTLFHTVQSTEKQEQRNSIINSSLESVSSNPNSILNSSSSLQPNMNSSDPDLAVVKPTRPNSLPPNPSPTSPLSPSWPMFSAPSSPMPTSSTSSDSSPVRSVAGFVWFSVAAVVLSLARSSLHAVFSLLVNFVPCHPNLHLLFDRPEEAVHEDSSTPFRKAKALYACKAEHDSELSFTAGTVFDNVHPSQEPGWLEGTLNGKTGLIPENYVEFL

CLDN18-ARHGAP26融合序列

cDNA序列(SEQ ID NO.：107)，ARHGAP26加下划线。

ATGGCCGTGACTGCCTGTCAGGGCTTGGGGTTCGTGGTTTCACTGATTGGGATTGCGGGCATCATTGCTGCCACCTGCATGGACCAGTGGAGCACCCAAGACTTGTACAACAACCCCGTAACAGCTGTTTTCAACTACCAGGGGCTGTGGCGCTCCTGTGTCCGAGAGAGCTCTGGCTTCACCGAGTGCCGGGGCTACTTCACCCTGCTGGGGCTGCCAGCCATGCTGCAGGCAGTGCGAGCCCTGATGATCGTAGGCATCGTCCTGGGTGCCATTGGCCTCCTGGTATCCATCTTTGCCCTGAAATGCATCCGCATTGGCAGCATGGAGGACTCTGCCAAAGCCAACATGACACTGACCTCCGGGATCATGTTCATTGTCTCAGGTCTTTGTGCAATTGCTGGAGTGTCTGTGTTTGCCAACATGCTGGTGACTAACTTCTGGATGTCCACAGCTAACATGTACACCGGCATGGGTGGGATGGTGCAGACTGTTCAGACCAGGTACACATTTGGTGCGGCTCTGTTCGTGGGCTGGGTCGCTGGAGGCCTCACACTAATTGGGGGTGTGATGATGTGCATCGCCTGCCGGGGCCTGGCACCAGAAGAAACCAACTACAAAGCCGTTTCTTATCATGCCTCAGGCCACAGTGTTGCCTACAAGCCTGGAGGCTTCAAGGCCAGCACTGGCTTTGGGTCCAACACCAAAAACAAGAAGATATACGATGGAGGTGCCCGCACAGAGGACGAGGTCTACAACTCGAACAAAGACAGCCAGAGTGAAGGGACTGCGCAGTTGGACAGCATTGGCTTCAGCATAATCAGGAAATGCATCCATGCTGTGGAAACCAGAGGGATCAACGAGCAAGGGCTGTATCGAATTGTGGGTGTCAACTCCAGAGTGCAGAAGTTGCTGAGTGTCCTGATGGACCCCAAGACTGCTTCTGAGACAGAAACAGATATCTGTGCTGAATGGGAGATAAAGACCATCACTAGTGCTCTGAAGACCTACCTAAGAATGCTTCCAGGACCACTCATGATGTACCAGTTTCAAAGAAGTTTCATCAAAGCAGCAAAACTGGAGAACCAGGAGTCTCGGGTCTCTGAAATCCACAGCCTTGTTCATCGGCTCCCAGAGAAAAATCGGCAGATGTTACAGCTGCTCATGAACCACTTGGCAAATGTTGCTAACAACCACAAGCAGAATTTGATGACGGTGGCAAACCTTGGTGTGGTGTTTGGACCCACTCTGCTGAGGCCTCAGGAAGAAACAGTAGCAGCCATCATGGACATCAAATTTCAGAACATTGTCATTGAGATCCTAATAGAAAACCACGAAAAGATATTTAACACCGTGCCCGATATGCCTCTCACCAATGCCCAGCTGCACCTGTCTCGGAAGAAGAGCAGTGACTCCAAGCCCCCGTCCTGCAGCGAGAGGCCCCTGACGCTCTTCCACACCGTTCAGTCAACAGAGAAACAGGAACAAAGGAACAGCATCATCAACTCCAGTTTGGAATCTGTCTCATCAAATCCAAACAGCATCCTTAATTCCAGCAGCAGCTTACAGCCCAACATGAACTCCAGTGACCCAGACCTGGCTGTGGTCAAACCCACCCGGCCCAACTCACTCCCCCCGAATCCAAGCCCAACTTCACCCCTCTCGCCATCTTGGCCCATGTTCTCGGCGCCATCCAGCCCTATGCCCACCTCATCCACGTCCAGCGACTCATCCCCCGTCAGGTCTGTTGCAGGGTTTGTTTGGTTTTCTGTTGCTGCCGTTGTTCTCTCATTGGCTCGGTCCTCTCTTCATGCAGTGTTCAGCCTCCTCGTCAACTTTGTTCCCTGCCATCCAAACCTGCACTTGCTTTTTGACAGGCCAGAAGAAGCGGTACATGAAGACTCCAGCACACCGTTCCGGAAGGCAAAAGCCTTGTATGCCTGCAAAGCTGAACATGACTCAGAACTTTCGTTCACAGCAGGCACGGTCTTCGATAACGTTCACCCATCTCAGGAGCCTGGCTGGTTGGAGGGGACTCTGAACGGAAAGACTGGCCTCATCCCTGAGAATTACGTGGAGTTCCTCTAA

蛋白质序列(SEQ ID NO.：108)，ARHGAP26加下划线。

MAVTACQGLGFVVSLIGIAGIIAATCMDQWSTQDLYNNPVTAVFNYQGLWRSCVRESSGFTECRGYFTLLGLPAMLQAVRALMIVGIVLGAIGLLVSIFALKCIRIGSMEDSAKANMTLTSGIMFIVSGLCAIAGVSVFANMLVTNFWMSTANMYTGMGGMVQTVQTRYTFGAALFVGWVAGGLTLIGGVMMCIACRGLAPEETNYKAVSYHASGHSVAYKPGGFKASTGFGSNTKNKKIYDGGARTEDEVYNSNKDSQSEGTAQLDSIGFSIIRKCIHAVETRGINEQGLYRIVGVNSRVQKLLSVLMDPKTASETETDICAEWEIKTITSALKTYLRMLPGPLMMYQFQRSFIKAAKLENQESRVSEIHSLVHRLPEKNRQMLQLLMNHLANVANNHKQNLMTVANLGVVFGPTLLRPQEETVAAIMDIKFQNIVIEILIENHEKIFNTVPDMPLTNAQLHLSRKKSSDSKPPSCSERPLTLFHTVQSTEKQEQRNSIINSSLESVSSNPNSILNSSSSLQPNMNSSDPDLAVVKPTRPNSLPPNPSPTSPLSPSWPMFSAPSSPMPTSSTSSDSSPVRSVAGFVWFSVAAVVLSLARSSLHAVFSLLVNFVPCHPNLHLLFDRPEEAVHEDSSTPFRKAKALYACKAEHDSELSFTAGTVFDNVHPSQEPGWLEGTLNGKTGLIPENYVEFL

蛋白质结构域

具有695个残基的查询序列内的结构域

融合基因#3：SNX2-PRDM6

位于以下转录物的内含子12-13中的chr5：122162808上的SNX2的确认的基因组断裂点：SNX2-001(ENST00000379516)

位于以下转录物的内含子3-4处的chr5∶122437347上的PRDM6的确认的基因组断裂点：PRDM6-001(ENST00000407847)

转录物：SNX2-001 ENST00000379516

cDNA序列(SEQ ID NO.：109)，融合基因的编码部分加阴影。

AGGCCGGCCGGGGGCGGGGAGGCTGGCGGGTCGGCGCGGGCCCAGCCGTGCGTGCTCACGTGACGGGTCCGCGAGGCCCAGCTCGCGCAGTCGTTCGGGTGAGCGAAGATGGCGGCCGAGAGGGAACCTCCTCCGCTGGGGGACGGGAAGCCCACCGACTTTGAGGATCTGGAGGACGGAGAGGACCTGTTCACCAGCACTGTCTCCACCCTAGAGTCAAGTCCATCATCTCCAGAACCAGCTAGTCTTCCTGCAGAAGATATTAGTGCAAACTCCAATGGCCCAAAACCCACAGAAGTTGTATTAGATGATGACAGAGAAGATCTTTTTGCAGAAGCCACAGAAGAAGTTTCTTTGGACAGCCCTGAAAGGGAACCTATCCTATCCTCGGAACCTTCTCCTGCAGTCACACCTGTCACTCCTACTACACTCATTGCTCCTAGAATTGAATCAAAGAGTATGTCTGCTCCCGTGATCTTTGATAGATCCAGGGAAGAGATTGAAGAAGAAGCAAATGGAGACATTTTTGACATAGAAATTGGTGTATCAGATCCAGAAAAAGTTGGTGATGGCATGAATGCCTATATGGCATATAGAGTAACAACAAAGACATCTCTTTCCATGTTCAGTAAGAGTGAATTTTCAGTGAAAAGAAGATTCAGCGACTTTCTTGGTTTGCACAGCAAATTAGCAAGCAAATATTTACATGTTGGTTATATTGTGCCACCAGCTCCAGAAAAGAGTATAGTAGGGATGACCAAGGTCAAAGTGGGTAAAGAAGACTCATCATCCACTGAGTTTGTAGAAAAACGGAGAGCAGCTCTTGAAAGGTATCTTCAAAGAACAGTAAAACATCCAACTTTACTACAGGATCCTGATTTAAGGCAGTTCTTGGAAAGTTCAGAGCTGCCTAGAGCAGTTAATACACAGGCTCTGAGTGGAGCAGGAATATTGAGGATGGTGAACAAGGCTGCCGACGCTGTCAACAAAATGACAATCAAGATGAATGAATCGGATGCATGGTTTGAAGAAAAGCAGCAGCAATTTGAGAATCTGGATCAGCAACTTAGGAAACTTCATGTCAGTGTTGAAGCCTTGGTCTGTCATAGAAAAGAACTTTCAGCCAACACAGCTGCCTTTGCTAAAAGTGCTGCCATGTTAGGTAATTCTGAGGATCATACTGCTTTATCTAGAGCTTTGTCTCAGCTTGCAGAGGTTGAGGAGAAGATAGACCAGTTACATCAAGAACAAGCTTTTGCTGACTTTTATATGTTTTCAGAACTACTTAGTGACTACATTCGTCTTATTGCTGCAGTGAAAGGTGTGTTTGACCATCGAATGAAGTGCTGGCAGAAATGGGAAGATGCTCAAATTACTTTGCTCAAAAAACGTGAAGCTGAAGCAAAAATGATGGTTGCTAACAAACCAGATAAAATACAGCAAGCTAAAAATGAAATAAGAGAGTGGGAGGCGAAAGTGCAACAAGGGGAAAGAGATTTTGAACAGATATCTAAAACGATTCGAAAAGAAGTGGGAAGATTTGAGAAAGAACGAGTGAAGGATTTTAAAACCGTTATCATCAAGTACTTAGAATCACTAGTTCAAACACAACAACAGCTGATAAAATACTGGGAAGCATTCCTACCTGAAGCCAAAGCCATTGCCTAGCAATAAGATTGTTGCCGTTAAGAAGACCTTGGATGTTGTTCCAGTTATGCTGGATTCCACAGTGAAATCATTTAAAACCATCTAAATAAACCACTATATATTTTATGAATTACATGTGGTTTTATATACACACACACACACACACACACACACACACACACACTCTGACATTTTATTACAAGCTGCATGTCCTGACCCTCTTTGAATTAAGTGGACTGTGGCATGACATTCTGCAATACTTTGCTGAATTGAACACTATTGTGTCTTAAATACTTGCACTAAATAGTGCACTGCAAGACCAGAAAATTTTACAATATTTTTTCTTTACAATATGTTCTGTAGTATGTTTACCCTCTTTATGAAGTGAATTACCAATGCTTTGAATAATGTTCACTTATACATTCCTGTACAGAAATTACGATTTTGTGATTACAGTAATAAAATGATATTCCTTGTGAAA

转录物：SNX2-001 ENST00000379516

蛋白质序列(SEQ ID NO.：110)，融合基因的编码部分加阴影。

MAAEREPPPLGDGKPTDFEDLEDGEDLFTSTVSTLESSPSSPEPASLPAEDISANSNGPKPTEVVLDDDREDLFAEATEEVSLDSPEREPILSSEPSPAVTPVTPTTLIAPRIESKSMSAPVIFDRSREEIEEEANGDIFDIEIGVSDPEKVGDGMNAYMAYRVTTKTSLSMFSKSEFSVKRRFSDFLGLHSKLASKYLHVGYIVPPAPEKSIVGMTKVKVGKEDSSSTEFVEKRRAALERYLQRTVKHPTLLQDPDLRQFLESSELPRAVNTQALSGAGILRMVNKAADAVNKMTIKMNESDAWFEEKQQQFENLDQQLRKLHVSVEALVCHRKELSANTAAFAKSAAMLGNSEDHTALSRALSQLAEVEEKIDQLHQEQAFADFYMFSELLSDYIRLIAAVKGVFDHRMKCWQKWEDAQITLLKKREAEAKMMVANKPDKIQQAKNEIREWEAKVQQGERDFEQISKTIRKEVGRFEKERVKDFKTVIIKYLESLVQTQQQLIKYWEAFLPEAKAIA

转录物：PRDM6-001 ENST00000407847

cDNA序列(SEQ ID NO.：111)，融合基因的编码部分加阴影。

CTCTCTCACACACACACACACACACACACACACACACACACACACACACACACACACACACACACACACACTCACTCTATTTTGTGCTGTCGTAAAACCCACGTGTCCAGCCGGGAAGCTGCCAGAGCGTGGAACCAAGGAGCCAGGACGCGGCAGCGGCCAAGCGCAGCAGCCCACGGCGGTTGAGTCGGGCGCCCAGGTCCGTCCGCACTCTCGCGCCCTCCGCGGGCCTCCCAATTTTCTCGCTTGCAGGTCGGGAGGTTTCCGGGCGGCACAATCTCTAGGACTCTCCTCCCGCGCTGCTCAGGGGCATGTAGCGCACGCAGGGCGCACACTCTCGCGCACCCGCACGCTCACCGAGACACCCGCACGCACCCACCGGCAGCACCGAGTTTTCAGTTCGAGGCGCCGGACATGCTGAAGCCCGGAGACCCCGGCGGTTCGGCCTTCCTCAAAGTGGACCCAGCCTACCTGCAGCACTGGCAGCAACTCTTCCCTCACGGAGGCGCAGGCCCGCTCAAGGGCAGCGGCGCCGCGGGTCTCCTGAGCGCGCCGCAGCCTCTTCAGCCGCCGCCGCCGCCCCCGCCCCCGGAGCGCGCTGAGCCTCCGCCGGACAGCCTGCGCCCGCGGCCCGCCTCTCTCTCCTCCGCCTCGTCCACGCCGGCTTCCTCTTCCACCTCCGCCTCCTCCGCCTCCTCCTGCGCTGCTGCGGCCGCTGCCGCCGCGCTGGCTGGTCTCTCGGCCCTGCCGGTGTCGCAGCTGCCGGTGTTCGCGCCTCTAGCCGCCGCTGCCGTCGCCGCCGAGCCGCTGCCCCCCAAGGAACTGTGCCTCGGCGCCACCTCCGGCCCCGGGCCCGTCAAGTGCGGTGGTGGTGGCGGCGGCGGCGGGGAGGGTCGCGGCGCCCCGCGCTTCCGCTGCAGCGCAGAGGAGCTGGACTATTACCTGTATGGCCAGCAGCGCATGGAGATCATCCCGCTCAACCAGCACACCAGCGACCCCAACAACCGTTGCGACATGTGCGCGGACAACCGCAACGGCGAGTGCCCTATGCATGGGCCACTGCACTCGCTGCGCCGGCTTGTGGGCACCAGCAGCGCTGCGGCCGCCGCGCCCCCGCCGGAGCTGCCGGAGTGGCTGCGGGACCTGCCTCGCGAGGTGTGCCTCTGCACCAGTACTGTGCCCGGCCTGGCCTACGGCATCTGCGCGGCGCAGAGGATCCAGCAAGGCACCTGGATTGGACCTTTCCAAGGCGTGCTTCTGCCCCCAGAGAAGGTGCAGGCAGGCGCCGTGAGGAACACGCAGCATCTCTGGGAGATATATGACCAGGATGGGACACTACAGCACTTTATTGATGGTGGGGAACCTAGTAAGTCGAGCTGGATGAGGTATATCCGATGTGCAAGGCACTGCGGAGAACAGAATCTAACAGTAGTTCAGTACAGGTCGAATATATTCTACCGAGCCTGTATAGATATCCCTAGGGGCACCGAGCTTCTGGTGTGGTACAATGACAGCTATACGTCTTTCTTTGGGATCCCCTTACAATGCATTGCCCAGGATGAAAACTTAAATGTCCCTTCAACGGTAATGGAAGCCATGTGCAGACAAGACGCCCTGCAGCCCTTCAACAAAAGCAGCAAACTCGCCCCTACCACCCAGCAGCGCTCCGTTGTTTTCCCCCAGACTCCGTGCAGCAGGAACTTCTCTCTTCTGGATAAGTCTGGGCCCATTGAATCAGGATTTAATCAAATCAACGTGAAAAACCAGCGAGTCCTGGCAAGCCCAACTTCCACAAGCCAGCTCCACTCGGAGTTCAGTGACTGGCATCTTTGGAAATGTGGGCAGTGCTTTAAGACTTTCACCCAGCGGATCCTCTTACAGATGCACGTGTGCACGCAGAACCCCGACAGACCCTACCAATGCGGCCACTGCTCCCAGTCCTTTTCCCAGCCTTCAGAACTGAGGAACCACGTGGTCACTCACTCTAGTGACCGGCCTTTCAAGTGCGGCTACTGTGGTCGTGCCTTTGCCGGGGCCACCACCCTCAACAACCACATCCGAACCCACACTGGAGAAAAGCCCTTCAAGTGCGAGAGGTGTGAGAGGAGCTTCACGCAGGCCACCCAGCTGAGCCGACACCAGCGGATGCCCAATGAGTGCAAGCCAATAACTGAGAGCCCAGAATCAATCGAAGTGGATTAACGGATTGACTGGTTGGAATTAAACTGCAAGGAAAGTCATGATTAAATGTCACGGACACTTAAGCAAAACCAAAGATTTCCTCTGAGCAACTTTCAATCAGTCCCAGAAAACCAAAAGCAGTAATAAAATAAGTAAGATGTTAAGAGATATTGATCCTGGCATGGAAGTCAGACCAGGAAAGAGATTATTTATTTATGACTTAGGGATGAGACTTATTTCAGTGGACAACTAACCTGGGATGGTTAACATTTCCAGTCCCACCATGTATTTTGCTTTGTTTCTAAAAAGCTTTTTAAAAACTGTTATTTAATACCAAAGGGAGGAATCGTATGGGTTCTTCTGCCCACCGTTGTGACTAAGAATGCACAGGGACTTGGTTCTCGTTGCACCTTTTTTTAGTAACATGTTTCATGGGGACCCACTGTACAGCCCTTCATTCTGCTGTGTCAGTTTGGCCTGGCCTGACACTGGCTGCCCCAGCGGGGACCACGGAAGCAGAGTGAGAGCCTTCGCTGAGTCAATGCTACCTTCAGCCCCAGACGCATCCCATTTCCATGTCTTCCATGCTCACTGCTCATGCACTTTTTACACGGTTTCTTCCAAACAGCCCGGTCTTGATGCAGGAGAGTCTGGAAAAGGAAGAAAATGGTTTCAGTTTCAAAATTCAAAGGAAAAAGTTGAGGACTTATTTTGTCCTGTCAAGATTGCAAGAACATGTAAAATGTACGGAGCTTCATAATACGTTATATTGTTCCGAAGCAGCTCGTTGAGAAACATTTGTTTTCAATAACATTTTAGCTTAAAAAAAAAAAAAGAAAATGAAAATAAAGTTCTTTGGTTTAAGGCTGGA

转录物：PRDM6-001 ENST00000407847

蛋白质序列(SEQ ID NO.：112)，融合基因的编码部分加阴影。

MLKPGDPGGSAFLKVDPAYLQHWQQLFPHGGAGPLKGSGAAGLLSAPQPLQPPPPPPPPERAEPPPDSLRPRPASLSSASSTPASSSTSASSASSCAAAAAAAALAGLSALPVSQLPVFAPLAAAAVAAEPLPPKELCLGATSGPGPVKCGGGGGGGGEGRGAPRFRCSAEELDYYLYGQQRMEIIPLNQHTSDPNNRCDMCADNRNGECPMHGPLHSLRRLVGTSSAAAAAPPPELPEWLRDLPREVCLCTSTVPGLAYGICAAQRIQQGTWIGPFQGVLLPPEKVQAGAVRNTQHLWEIYDQDGTLQHFIDGGEPSKSSWMRYIRCARHCGEQNLTVVQYRSNIFYRACIDIPRGTELLVWYNDSYTSFFGIPLQCIAQDENLNVPSTVMEAMCRQDALQPFNKSSKLAPTTQQRSVVFPQTPCSRNFSLLDKSGPIESGFNQINVKNQRVLASPTSTSQLHSEFSDWHLWKCGQCFKTFTQRILLQMHVCTQNPDRPYQCGHCSQSFSQPSELRNHVVTHSSDRPFKCGYCGRAFAGATTLNNHIRTHTGEKPFKCERCERSFTQATQLSRHQRMPNECKPITESPESIEVD

SNX2-PRDM6融合序列外显子12到外显子4

cDNA序列(SEQ ID NO.：113)

ATGGCGGCCGAGAGGGAACCTCCTCCGCTGGGGGACGGGAAGCCCACCGACTTTGAGGATCTGGAGGACGGAGAGGACCTGTTCACCAGCACTGTCTCCACCCTAGAGTCAAGTCCATCATCTCCAGAACCAGCTAGTCTTCCTGCAGAAGATATTAGTGCAAACTCCAATGGCCCAAAACCCACAGAAGTTGTATTAGATGATGACAGAGAAGATCTTTTTGCAGAAGCCACAGAAGAAGTTTCTTTGGACAGCCCTGAAAGGGAACCTATCCTATCCTCGGAACCTTCTCCTGCAGTCACACCTGTCACTCCTACTACACTCATTGCTCCTAGAATTGAATCAAAGAGTATGTCTGCTCCCGTGATCTTTGATAGATCCAGGGAAGAGATTGAAGAAGAAGCAAATGGAGACATTTTTGACATAGAAATTGGTGTATCAGATCCAGAAAAAGTTGGTGATGGCATGAATGCCTATATGGCATATAGAGTAACAACAAAGACATCTCTTTCCATGTTCAGTAAGAGTGAATTTTCAGTGAAAAGAAGATTCAGCGACTTTCTTGGTTTGCACAGCAAATTAGCAAGCAAATATTTACATGTTGGTTATATTGTGCCACCAGCTCCAGAAAAGAGTATAGTAGGGATGACCAAGGTCAAAGTGGGTAAAGAAGACTCATCATCCACTGAGTTTGTAGAAAAACGGAGAGCAGCTCTTGAAAGGTATCTTCAAAGAACAGTAAAACATCCAACTTTACTACAGGATCCTGATTTAAGGCAGTTCTTGGAAAGTTCAGAGCTGCCTAGAGCAGTTAATACACAGGCTCTGAGTGGAGCAGGAATATTGAGGATGGTGAACAAGGCTGCCGACGCTGTCAACAAAATGACAATCAAGATGAATGAATCGGATGCATGGTTTGAAGAAAAGCAGCAGCAATTTGAGAATCTGGATCAGCAACTTAGGAAACTTCATGTCAGTGTTGAAGCCTTGGTCTGTCATAGAAAAGAACTTTCAGCCAACACAGCTGCCTTTGCTAAAAGTGCTGCCATGTTAGGTAATTCTGAGGATCATACTGCTTTATCTAGAGCTTTGTCTCAGCTTGCAGAGGTTGAGGAGAAGATAGACCAGTTACATCAAGAACAAGCTTTTGCTGACTTTTATATGTTTTCAGAACTACTTAGTGACTACATTCGTCTTATTGCTGCAGTGAAAGGTGTGTTTGACCATCGAATGAAGTGCTGGCAGAAATGGGAAGATGCTCAAATTACTTTGCTCAAAAAACGTGAAGCTGAAGCAAAAATGATGGTTGCTAACAAACCAGATAAAATACAGCAAGCTAAAAATGAAATAAGAGAGATATATGACCAGGATGGGACACTACAGCACTTTATTGATGGTGGGGAACCTAGTAAGTCGAGCTGGATGAGGTATATCCGATGTGCAAGGCACTGCGGAGAACAGAATCTAACAGTAGTTCAGTACAGGTCGAATATATTCTACCGAGCCTGTATAGATATCCCTAGGGGCACCGAGCTTCTGGTGTGGTACAATGACAGCTATACGTCTTTCTTTGGGATCCCCTTACAATGCATTGCCCAGGATGAAAACTTAAATGTCCCTTCAACGGTAATGGAAGCCATGTGCAGACAAGACGCCCTGCAGCCCTTCAACAAAAGCAGCAAACTCGCCCCTACCACCCAGCAGCGCTCCGTTGTTTTCCCCCAGACTCCGTGCAGCAGGAACTTCTCTCTTCTGGATAAGTCTGGGCCCATTGAATCAGGATTTAATCAAATCAACGTGAAAAACCAGCGAGTCCTGGCAAGCCCAACTTCCACAAGCCAGCTCCACTCGGAGTTCAGTGACTGGCATCTTTGGAAATGTGGGCAGTGCTTTAAGACTTTCACCCAGCGGATCCTCTTACAGATGCACGTGTGCACGCAGAACCCCGACAGACCCTACCAATGCGGCCACTGCTCCCAGTCCTTTTCCCAGCCTTCAGAACTGAGGAACCACGTGGTCACTCACTCTAGTGACCGGCCTTTCAAGTGCGGCTACTGTGGTCGTGCCTTTGCCGGGGCCACCACCCTCAACAACCACATCCGAACCCACACTGGAGAAAAGCCCTTCAAGTGCGAGAGGTGTGAGAGGAGCTTCACGCAGGCCACCCAGCTGAGCCGACACCAGCGGATGCCCAATGAGTGCAAGCCAATAACTGAGAGCCCAGAATCAATCGAAGTGGATTAA

蛋白质序列(SEQ ID NO.：114)

MAAEREPPPLGDGKPTDFEDLEDGEDLFTSTVSTLESSPSSPEPASLPAEDISANSNGPKPTEVVLDDDREDLFAEATEEVSLDSPEREPILSSEPSPAVTPVTPTTLIAPRIESKSMSAPVIFDRSREEIEEEANGDIFDIEIGVSDPEKVGDGMNAYMAYRVTTKTSLSMFSKSEFSVKRRFSDFLGLHSKLASKYLHVGYIVPPAPEKSIVGMTKVKVGKEDSSSTEFVEKRRAALERYLQRTVKHPTLLQDPDLRQFLESSELPRAVNTQALSGAGILRMVNKAADAVNKMTIKMNESDAWFEEKQQQFENLDQQLRKLHVSVEALVCHRKELSANTAAFAKSAAMLGNSEDHTALSRALSQLAEVEEKIDQLHQEQAFADFYMFSELLSDYIRLIAAVKGVFDHRMKCWQKWEDAQITLLKKREAEAKMMVANKPDKIQQAKNEIREIYDQDGTLQHFIDGGEPSKSSWMRYIRCARHCGEQNLTVVQYRSNIFYRACIDIPRGTELLVWYNDSYTSFFGIPLQCIAQDENLNVPSTVMEAMCRQDALQPFNKSSKLAPTTQQRSVVFPQTPCSRNFSLLDKSGPIESGFNQINVKNQRVLASPTSTSQLHSEFSDWHLWKCGQCFKTFTQRILLQMHVCTQNPDRPYQCGHCSQSFSQPSELRNHVVTHSSDRPFKCGYCGRAFAGATTLNNHIRTHTGEKPFKCERCERSFTQATQLSRHQRMPNECKPITESPESIEVD

蛋白质结构域

无跨膜结构域。

SNX2-PRDM6融合序列外显子2到外显子7

cDNA序列(SEQ ID NO.：115)

ATGGCGGCCGAGAGGGAACCTCCTCCGCTGGGGGACGGGAAGCCCACCGACTTTGAGGATCTGGAGGACGGAGAGGACCTGTTCACCAGCACTGTCTCCACCCTAGAGTCAAGTCCATCATCTCCAGAACCAGCTAGTCTTCCTGCAGAAGATATTAGTGCAAACTCCAATGGCCCAAAACCCACAGAAGTTGTATTAGATGATGACAGAGAAGATCTTTTTGCAGACCCTACCAATGCGGCCACTGCTCCCAGTCCTTTTCCCAGCCTTCAGAACTGAGGAACCACGTGGTCACTCACTCTAGTGACCGGCCTTTCAAGTGCGGCTACTGTGGTCGTGCCTTTGCCGGGGCCACCACCCTCAACAACCACATCCGAACCCACACTGGAGAAAAGCCCTTCAAGTGCGAGAGGTGTGAGAGGAGCTTCACGCAGGCCACCCAGCTGAGCCGACACCAGCGGATGCCCAATGAGTGCAAGCCAATAACTGAGAGCCCAGAATCAATCGAAGTGGATTAA

蛋白质序列(SEQ ID NO.：116)

MAAEREPPPLGDGKPTDFEDLEDGEDLFTSTVSTLESSPSSPEPASLPAEDISANSNGPKPTEVVLDDDREDLFAEPYQCGHCSQSFSQPSELRNHVVTHSSDRPFKCGYCGRAFAGATTLNNHIRTHTGEKPFKCERCERSFTQATQLSRHQRMPNECKPITESPESIEVD

蛋白质结构域

无跨膜结构域。

融合基因#4：MLL3-PRKAG2

chr7：151365906(参考转录物：MLL3-001(ENST00000262189))上的MLL3的确认的基因组断裂点

chr7∶151951997(参考转录物：PRKAG2-001(ENST00000287878))上的PRKAG2的确认的基因组断裂点

转录物：MLL3-001 ENST00000262189

cDNA序列(SEQ ID NO.：117)，融合基因的一部分加阴影。

GAGGTGCGCGCGCCCGCGCCGATGTGTGTGAGTGCGTGTCCTGCTCGCTCCATGTTGCCGCCTCTCCCGGTACCTGCTGCTGCTCCCGGGGCTGCGGGAAATGCGAGAGGCTGAGCCGGGGAGGAGGAACCCGAGCAGCAGCGGCGGCGGCGGCGGCCGCGGCGGCGGGAGCCCCCCAGGAGGAGGACCGGGATCCATGTGTCTTTCCTGGTGACTAGGATGTCGTCGGAGGAGGACAAGAGCGTGGAGCAGCCGCAGCCGCCGCCACCACCCCCCGAGGAGCCTGGAGCCCCGGCCCCGAGCCCCGCAGCCGCAGACAAAAGACCTCGGGGCCGGCCTCGCAAAGATGGCGCTTCCCCTTTCCAGAGAGCCAGAAAGAAACCTCGAAGTAGGGGGAAAACTGCAGTGGAAGATGAGGACAGCATGGATGGGCTGGAGACAACAGAAACAGAAACGATTGTGGAAACAGAAATCAAAGAACAATCTGCAGAAGAGGATGCTGAAGCAGAAGTGGATAACAGCAAACAGCTAATTCCAACTCTTCAGCGATCTGTGTCTGAGGAATCGGCAAACTCCCTGGTCTCTGTTGGTGTAGAAGCCAAAATCAGTGAACAGCTCTGCGCTTTTTGTTACTGTGGGGAAAAAAGTTCCTTAGGACAAGGAGACTTAAAACAATTCAGAATAACGCCTGGATTTATCTTGCCATGGAGAAACCAACCTTCTAACAAGAAGGACATTGATGACAACAGCAATGGAACCTATGAGAAAATGCAAAACTCAGCACCACGAAAACAAAGAGGACAGAGAAAAGAACGATCTCCTCAGCAGAATATAGTATCTTGTGTAAGTGTAAGCACCCAGACAGCTTCAGATGATCAAGCTGGTAAACTGTGGGATGAACTCAGTCTGGTTGGGCTTCCAGATGCCATTGATATCCAAGCCTTATTTGATTCTACAGGCACTTGTTGGGCTCATCACCGTTGTGTGGAGTGGTCACTAGGAGTATGCCAGATGGAAGAACCATTGTTAGTGAACGTGGACAAAGCTGTTGTCTCAGGGAGCACAGAACGATGTGCATTTTGTAAGCACCTTGGAGCCACTATCAAATGCTGTGAAGAGAAATGTACCCAGATGTATCATTATCCTTGTGCTGCAGGAGCCGGCACCTTTCAGGATTTCAGTCACATCTTCCTGCTTTGTCCAGAACACATTGACCAAGCTCCTGAAAGATCGAAGGAAGATGCAAACTGTGCAGTGTGCGACAGCCCGGGAGACCTCTTAGATCAGTTCTTTTGTACTACTTGTGGTCAGCACTATCATGGAATGTGCCTGGATATAGCGGTTACTCCATTAAAACGTGCAGGTTGGCAATGTCCTGAGTGCAAAGTGTGCCAGAACTGCAAACAATCGGGAGAAGATAGCAAGATGCTAGTGTGTGATACGTGTGACAAAGGGTATCATACTTTTTGTCTTCAACCAGTTATGAAATCAGTACCAACCAATGGCTGGAAATGCAAAAATTGCAGAATATGTATAGAGTGTGGCACACGGTCTAGTTCTCAGTGGCACCACAATTGCCTGATATGTGACAATTGTTACCAACAGCAGGATAACTTATGTCCCTTCTGTGGGAAGTGTTATCATCCAGAATTGCAGAAAGACATGCTTCATTGTAATATGTGCAAAAGGTGGGTTCACCTAGAGTGTGACAAACCAACAGATCATGAACTGGATACTCAGCTCAAAGAAGAGTATATCTGCATGTATTGTAAACACCTGGGAGCTGAGATGGATCGTTTACAGCCAGGTGAGGAAGTGGAGATAGCTGAGCTCACTACAGATTATAACAATGAAATGGAAGTTGAAGGCCCTGAAGATCAAATGGTATTCTCAGAGCAGGCAGCTAATAAAGATGTCAACGGTCAGGAGTCCACTCCTGGAATTGTTCCAGATGCGGTTCAAGTCCACACTGAAGAGCAACAGAAGAGTCATCCCTCAGAAAGTCTTGACACAGATAGTCTTCTTATTGCTGTATCATCCCAACATACAGTGAATACTGAATTGGAAAAACAGATTTCTAATGAAGTTGATAGTGAAGACCTGAAAATGTCTTCTGAAGTGAAGCATATTTGTGGCGAAGATCAAATTGAAGATAAAATGGAAGTGACAGAAAACATTGAAGTCGTTACACACCAGATCACTGTGCAGCAAGAACAACTGCAGTTGTTAGAGGAACCTGAAACAGTGGTATCCAGAGAAGAATCAAGGCCTCCAAAATTAGTCATGGAATCTGTCACTCTTCCACTAGAAACCTTAGTGTCCCCACATGAGGAAAGTATTTCATTATGTCCTGAGGAACAGTTGGTTATAGAAAGGCTACAAGGAGAAAAGGAACAGAAAGAAAATTCTGAACTTTCTACTGGATTGATGGACTCTGAAATGACTCCTACAATTGAGGGTTGTGTGAAAGATGTTTCATACCAAGGAGGCAAATCTATAAAGTTATCATCTGAGACAGAGTCATCATTTTCATCATCAGCAGACATAAGCAAGGCAGATGTGTCTTCCTCCCCAACACCTTCTTCAGACTTGCCTTCGCATGACATGCTGCATAATTACCCTTCAGCTCTTAGTTCCTCTGCTGGAAACATCATGCCAACAACTTACATCTCAGTCACTCCAAAAATTGGCATGGGTAAACCAGCTATTACTAAGAGAAAATTTTCTCCTGGTAGACCTCGGTCCAAACAGGGGGCTTGGAGTACCCATAATACAGTGAGCCCACCTTCCTGGTCCCCAGACATTTCAGAAGGTCGGGAAATTTTTAAACCCAGGCAGCTTCCTGGCAGTGCCATTTGGAGCATCAAAGTGGGCCGTGGGTCTGGATTTCCAGGAAAGCGGAGACCTCGAGGTGCAGGACTGTCGGGGCGAGGTGGCCGAGGCAGGTCAAAGCTGAAAAGTGGAATCGGAGCTGTTGTATTACCTGGGGTGTCTACTGCAGATATTTCATCAAATAAGGATGATGAAGAAAACTCTATGCACAATACAGTTGTGTTGTTTTCTAGCAGTGACAAGTTCACTTTGAATCAGGATATGTGTGTAGTTTGTGGCAGTTTTGGCCAAGGAGCAGAAGGAAGATTACTTGCCTGTTCTCAGTGTGGTCAGTGTTACCATCCATACTGTGTCAGTATTAAGATCACTAAAGTGGTTCTTAGCAAAGGTTGGAGGTGTCTTGAGTGCACTGTGTGTGAGGCCTGTGGGAAGGCAACTGACCCAGGAAGACTCCTGCTGTGTGATGACTGTGACATAAGTTATCACACCTACTGCCTAGACCCTCCATTGCAGACAGTTCCCAAAGGAGGCTGGAAGTGCAAATGGTGTGTTTGGTGCAGACACTGTGGAGCAACATCTGCAGGTCTAAGATGTGAATGGCAGAACAATTACACACAGTGCGCTCCTTGTGCAAGCTTATCTTCCTGTCCAGTCTGCTATCGAAACTATAGAGAAGAAGATCTTATTCTGCAATGTAGACAATGTGATAGATGGATGCATGCAGTTTGTCAGAACTTAAATACTGAGGAAGAAGTGGAAAATGTAGCAGACATTGGTTTTGATTGTAGCATGTGCAGACCCTATATGCCTGCGTCTAATGTGCCTTCCTCAGACTGCTGTGAATCTTCACTTGTAGCACAAATTGTCACAAAAGTAAAAGAGCTAGACCCACCCAAGACTTATACCCAGGATGGTGTGTGTTTGACTGAATCAGGGATGACTCAGTTACAGAGCCTCACAGTTACAGTTCCAAGAAGAAAACGGTCAAAACCAAAATTGAAATTGAAGATTATAAATCAGAATAGCGTGGCCGTCCTTCAGACCCCTCCAGACATCCAATCAGAGCATTCAAGGGATGGTGAAATGGATGATAGTCGAGAAGGAGAACTTATGGATTGTGATGGAAAATCAGAATCTAGTCCTGAGCGGGAAGCTGTGGATGATGAAACTAAGGGAGTGGAAGGAACAGATGGTGTCAAAAAGAGAAAAAGGAAACCATACAGACCAGGTATTGGTGGATTTATGGTGCGGCAAAGAAGTCGAACTGGGCAAGGGAAAACCAAAAGATCTGTGATCAGAAAAGATTCCTCAGGCTCTATTTCCGAGCAGTTACCTTGCAGAGATGATGGCTGGAGTGAGCAGTTACCAGATACTTTAGTTGATGAATCTGTTTCTGTTACTGAAAGCACTGAAAAAATAAAGAAGAGATACCGAAAAAGGAAAAATAAGCTTGAAGAAACTTTCCCTGCCTATTTACAAGAAGCTTTCTTTGGAAAAGATCTTCTAGATACAAGTAGACAAAGCAAGATAAGTTTAGATAATCTGTCAGAAGATGGAGCTCAGCTTTTATATAAAACAAACATGAACACAGGTTTCTTGGATCCTTCCTTAGATCCACTACTTAGTTCATCCTCGGCTCCAACAAAATCTGGAACTCACGGTCCTGCTGATGACCCATTAGCTGATATTTCTGAAGTTTTAAACACAGATGATGACATTCTTGGAATAATTTCAGATGATCTAGCAAAATCAGTTGATCATTCAGATATTGGTCCTGTCACTGATGATCCTTCCTCTTTGCCTCAGCCAAATGTCAATCAGAGTTCACGACCATTAAGTGAAGAACAGCTAGATGGGATCCTCAGTCCTGAACTAGACAAAATGGTCACAGATGGAGCAATTCTTGGAAAATTATATAAAATTCCAGAGCTTGGCGGAAAAGATGTTGAAGACTTATTTACAGCTGTACTTAGTCCTGCGAACACTCAGCCAACTCCATTGCCACAGCCTCCCCCACCAACACAGCTGTTGCCAATACACAATCAGGATGCTTTTTCACGGATGCCTCTCATGAATGGCCTTATTGGATCCAGTCCTCATCTCCCACATAATTCTTTGCCACCTGGAAGCGGACTGGGAACTTTCTCTGCAATTGCACAATCCTCTTATCCTGATGCCAGGGATAAAAATTCAGCCTTTAATCCAATGGCAAGTGATCCTAACAACTCTTGGACATCATCAGCTCCCACTGTGGAAGGAGAAAATGACACAATGTCGAATGCCCAGAGAAGCACGCTTAAGTGGGAGAAAGAGGAGGCTCTGGGTGAAATGGCAACTGTTGCCCCAGTTCTCTACACCAATATTAATTTCCCCAACTTAAAGGAAGAATTCCCTGATTGGACTACTAGAGTGAAGCAAATTGCCAAATTGTGGAGAAAAGCAAGCTCACAAGAAAGAGCACCATATGTGCAAAAAGCCAGAGATAACAGAGCTGCTTTACGCATTAATAAAGTACAGATGTCAAATGATTCCATGAAAAGGCAGCAACAGCAAGATAGCATTGATCCCAGCTCTCGTATTGATTCGGAGCTTTTTAAAGATCCTTTAAAGCAAAGAGAATCAGAACATGAACAGGAATGGAAATTTAGACAGCAAATGCGTCAGAAAAGTAAGCAGCAAGCTAAAATTGAAGCCACACAGAAACTTGAACAGGTGAAAAATGAGCAGCAGCAGCAGCAACAACAGCAATTTGGTTCTCAGCATCTTCTGGTGCAGTCTGGTTCAGATACACCAAGTAGTGGGATACAGAGTCCCTTGACACCTCAGCCTGGCAATGGAAATATGTCTCCTGCACAGTCATTCCATAAAGAACTGTTTACAAAACAGCCACCCAGTACCCCTACGTCTACATCTTCAGATGATGTGTTTGTAAAGCCACAAGCTCCACCTCCTCCTCCAGCCCCATCCCGGATTCCCATCCAGGATAGTCTTTCTCAGGCTCAGACTTCTCAGCCACCCTCACCGCAAGTGTTTTCACCTGGGTCCTCTAACTCACGACCACCATCTCCAATGGATCCATATGCAAAAATGGTTGGTACCCCTCGACCACCTCCTGTGGGCCATAGTTTTTCCAGAAGAAATTCTGCTGCACCAGTGGAAAACTGTACACCTTTATCATCGGTATCTAGGCCCCTTCAAATGAATGAGACAACAGCAAATAGGCCATCCCCTGTCAGAGATTTATGTTCTTCTTCCACGACAAATAATGACCCCTATGCAAAACCTCCAGACACACCTAGGCCTGTGATGACAGATCAATTTCCCAAATCCTTGGGCCTATCCCGGTCTCCTGTAGTTTCAGAACAAACTGCAAAAGGCCCTATAGCAGCTGGAACCAGTGATCACTTTACTAAACCATCTCCTAGGGCAGATGTGTTTCAAAGACAAAGGATACCTGACTCATATGCACGACCCTTGTTGACACCTGCACCTCTTGATAGTGGTCCTGGACCTTTTAAGACTCCAATGCAACCTCCTCCATCCTCTCAGGATCCTTATGGATCAGTGTCACAGGCATCAAGGCGATTGTCTGTTGACCCTTATGAAAGGCCTGCTTTGACACCAAGACCTATAGATAATTTTTCTCATAATCAGTCAAATGATCCATATAGTCAGCCTCCCCTTACCCCACATCCAGCAGTGAATGAATCTTTTGCCCATCCTTCAAGGGCTTTTTCCCAGCCTGGAACCATATCAAGGCCAACATCTCAGGACCCATACTCCCAACCCCCAGGAACTCCACGACCTGTTGTAGATTCTTATTCCCAATCTTCAGGAACAGCTAGGTCCAATACAGACCCTTACTCTCAACCTCCTGGAACTCCCCGGCCTACTACTGTTGACCCATATAGTCAGCAGCCCCAAACCCCAAGACCATCTACACAAACTGACTTGTTTGTTACACCTGTAACAAATCAGAGGCATTCTGATCCATATGCTCATCCTCCTGGAACACCAAGACCTGGAATTTCTGTCCCTTACTCTCAGCCACCAGCAACACCAAGGCCAAGGATTTCAGAGGGTTTTACTAGGTCCTCAATGACAAGACCAGTCCTCATGCCAAATCAGGATCCTTTCCTGCAAGCAGCACAAAACCGAGGACCAGCTTTACCTGGCCCGTTGGTAAGGCCACCTGATACATGTTCCCAGACACCTAGGCCCCCTGGACCTGGTCTTTCAGACACATTTAGCCGTGTTTCCCCATCTGCTGCCCGTGATCCCTATGATCAGTCTCCAATGACTCCAAGATCTCAGTCTGACTCTTTTGGAACAAGTCAAACTGCCCATGATGTTGCTGATCAGCCAAGGCCTGGATCAGAGGGGAGCTTCTGTGCATCTTCAAACTCTCCAATGCACTCCCAAGGCCAGCAGTTCTCTGGTGTCTCCCAACTTCCTGGACCTGTGCCAACTTCAGGAGTAACTGATACACAGAATACTGTAAATATGGCCCAAGCAGATACAGAGAAATTGAGACAGCGGCAGAAGTTACGTGAAATCATTCTCCAGCAGCAACAGCAGAAGAAGATTGCAGGTCGACAGGAGAAGGGGTCACAGGACTCACCCGCAGTGCCTCATCCAGGGCCTCTTCAACACTGGCAACCAGAGAATGTTAACCAGGCTTTCACCAGACCCCCACCTCCCTATCCTGGGAACATTAGGTCTCCTGTTGCCCCTCCTTTAGGACCTAGATATGCTGTTTTCCCAAAAGATCAGCGTGGACCCTATCCTCCTGATGTTGCTAGTATGGGGATGAGACCTCATGGATTTAGATTTGGATTTCCAGGAGGTAGTCATGGTACCATGCCGAGTCAAGAGCGCTTCCTTGTGCCTCCTCAGCAAATACAGGGATCTGGAGTTTCTCCACAGCTAAGAAGATCAGTATCTGTAGATATGCCTAGGCCTTTAAATAACTCACAAATGAATAATCCAGTTGGACTTCCTCAGCATTTTTCACCACAGAGCTTGCCAGTTCAGCAGCACAACATACTGGGCCAAGCATATATTGAACTGAGACATAGGGCTCCTGACGGAAGGCAACGGCTGCCTTTCAGTGCTCCACCTGGCAGCGTTGTAGAGGCATCTTCTAATCTGAGACATGGAAACTTCATTCCCCGGCCAGACTTTCCGGGCCCTAGACACACAGACCCCATGCGACGACCTCCCCAGGGTCTACCTAATCAGCTACCTGTGCACCCAGATTTGGAACAAGTGCCACCATCTCAACAAGAGCAAGGTCATTCTGTCCATTCATCTTCTATGGTCATGAGGACTCTGAACCATCCACTAGGTGGTGAATTTTCAGAAGCTCCTTTGTCAACATCTGTACCGTCTGAAACAACGTCTGATAATTTACAGATAACCACCCAGCCTTCTGATGGTCTAGAGGAAAAACTTGATTCTGATGACCCTTCTGTGAAGGAACTGGATGTTAAAGACCTTGAGGGGGTTGAAGTCAAAGACTTAGATGATGAAGATCTTGAAAACTTAAATTTAGATACAGAGGATGGCAAGGTAGTTGAATTGGATACTTTAGATAATTTGGAAACTAATGATCCCAACCTGGATGACCTCTTAAGGTCAGGAGAGTTTGATATCATTGCATATACAGATCCAGAACTTGACATGGGAGATAAGAAAAGCATGTTTAATGAGGAACTAGACCTTCCAATTGATGATAAGTTAGATAATCAGTGTGTATCTGTTGAACCAAAAAAAAAGGAACAAGAAAACAAAACTCTGGTTCTCTCTGATAAACATTCACCACAGAAAAAATCCACTGTTACCAATGAGGTAAAAACGGAAGTACTGTCTCCAAATTCTAAGGTGGAATCCAAATGTGAAACTGAAAAAAATGATGAGAATAAAGATAATGTTGACACTCCTTGCTCACAGGCTTCTGCTCACTCAGACCTAAATGATGGAGAAAAGACTTCTTTGCATCCTTGTGATCCAGATCTATTTGAGAAAAGAACCAATCGAGAAACTGCTGGCCCCAGTGCAAATGTCATTCAGGCATCCACTCAACTACCTGCTCAAGATGTAATAAACTCTTGTGGCATAACTGGATCAACTCCAGTTCTCTCAAGTTTACTTGCTAATGAGAAATCTGATAATTCAGACATTAGGCCATCGGGGTCTCCACCACCACCAACTCTGCCGGCCTCCCCATCCAATCATGTGTCAAGTTTGCCTCCTTTCATAGCACCGCCTGGCCGTGTTTTGGATAATGCCATGAATTCTAATGTGACAGTAGTCTCTAGGGTAAACCATGTTTTTTCTCAGGGTGTGCAGGTAAACCCAGGGCTCATTCCAGGTCAATCAACAGTTAACCACAGTCTGGGGACAGGAAAACCTGCAACTCAAACTGGGCCTCAAACAAGTCAGTCTGGTACCAGTAGCATGTCTGGACCCCAACAGCTAATGATTCCTCAAACATTAGCACAGCAGAATAGAGAGAGGCCCCTTCTTCTAGAAGAACAGCCTCTACTTCTACAGGATCTTTTGGATCAAGAAAGGCAAGAACAGCAGCAGCAAAGACAGATGCAAGCCATGATTCGTCAGCGATCAGAACCGTTCTTCCCTAATATTGATTTTGATGCAATTACAGATCCTATAATGAAAGCCAAAATGGTGGCCCTTAAAGGTATAAATAAAGTGATGGCACAAAACAATCTGGGCATGCCACCAATGGTGATGAGCAGGTTCCCTTTTATGGGCCAGGTGGTAACTGGAACACAGAACAGTGAAGGACAGAACCTTGGACCACAGGCCATTCCTCAGGATGGCAGTATAACACATCAGATTTCTAGGCCTAATCCTCCAAATTTTGGTCCAGGCTTTGTCAATGATTCACAGCGTAAGCAGTATGAAGAGTGGCTCCAGGAGACCCAACAGCTGCTTCAAATGCAGCAGAAGTATCTTGAAGAACAAATTGGTGCTCACAGAAAATCTAAGAAGGCCCTTTCAGCTAAACAACGTACTGCCAAGAAAGCTGGGCGTGAATTTCCAGAGGAAGATGCAGAACAACTCAAGCATGTTACTGAACAGCAAAGCATGGTTCAGAAACAGCTAGAACAGATTCGTAAACAACAGAAAGAACATGCTGAATTGATTGAAGATTATCGGATCAAACAGCAGCAGCAATGTGCAATGGCCCCACCTACCATGATGCCCAGTGTCCAGCCCCAGCCACCCCTAATTCCAGGTGCCACTCCACCCACCATGAGCCAACCCACCTTTCCCATGGTGCCACAGCAGCTTCAGCACCAGCAGCACACAACAGTTATTTCTGGCCATACTAGCCCTGTTAGAATGCCCAGTTTACCTGGATGGCAACCCAACAGTGCTCCTGCCCACCTGCCCCTCAATCCTCCTAGAATTCAGCCCCCAATTGCCCAGTTACCAATAAAAACTTGTACACCAGCCCCAGGGACAGTCTCAAATGCAAATCCACAGAGTGGACCACCACCTCGGGTAGAATTTGATGACAACAATCCCTTTAGTGAAAGTTTTCAAGAACGGGAACGTAAGGAACGTTTACGAGAACAGCAAGAGAGACAACGGATCCAACTCATGCAGGAGGTAGATAGACAAAGAGCTTTGCAGCAGAGGATGGAAATGGAGCAGCATGGTATGGTGGGCTCTGAGATAAGTAGTAGTAGGACATCTGTGTCCCAGATTCCCTTCTACAGTTCCGACTTACCTTGTGATTTTATGCAACCTCTAGGACCCCTTCAGCAGTCTCCACAACACCAACAGCAAATGGGGCAGGTTTTACAGCAGCAGAATATACAACAAGGATCAATTAATTCACCCTCCACCCAAACTTTCATGCAGACTAATGAGCGAAGGCAGGTAGGCCCTCCTTCATTTGTTCCTGATTCACCATCAATCCCTGTTGGAAGCCCAAATTTTTCTTCTGTGAAGCAGGGACATGGAAATCTTTCTGGGACCAGCTTCCAGCAGTCCCCAGTGAGGCCTTCTTTTACACCTGCTTTACCAGCAGCACCTCCAGTAGCTAATAGCAGTCTCCCATGTGGCCAAGATTCTACTATAACCCATGGACACAGTTATCCGGGATCAACCCAATCGCTCATTCAGTTGTATTCTGATATAATCCCAGAGGAAAAAGGGAAAAAGAAAAGAACAAGAAAGAAGAAAAGAGATGATGATGCAGAATCCACCAAGGCTCCATCAACTCCCCATTCAGATATAACTGCCCCACCGACTCCAGGCATCTCAGAAACTACCTCTACTCCTGCAGTGAGCACACCCAGTGAGCTTCCTCAACAAGCCGACCAAGAGTCGGTGGAACCAGTCGGCCCATCCACTCCCAATATGGCAGCAGGCCAGCTATGTACAGAATTAGAGAACAAACTGCCCAATAGTGATTTCTCACAAGCAACTCCAAATCAACAGACGTATGCAAATTCAGAAGTAGACAAGCTCTCCATGGAAACCCCTGCCAAAACAGAAGAGATAAAACTGGAAAAGGCTGAGACAGAGTCCTGCCCAGGCCAAGAGGAGCCTAAATTGGAGGAACAGAATGGTAGTAAGGTAGAAGGAAACGCTGTAGCCTGTCCTGTCTCCTCAGCACAGAGTCCTCCCCATTCTGCTGGGGCCCCTGCTGCCAAAGGAGACTCAGGGAATGAACTTCTGAAACACTTGTTGAAAAATAAAAAGTCATCTTCTCTTTTGAATCAAAAACCTGAGGGCAGTATTTGTTCAGAAGATGACTGTACAAAGGATAATAAACTAGTTGAGAAGCAGAACCCAGCTGAAGGACTGCAAACTTTGGGGGCTCAAATGCAAGGTGGTTTTGGATGTGGCAACCAGTTGCCAAAAACAGATGGAGGAAGTGAAACCAAGAAACAGCGAAGCAAACGGACTCAGAGGACGGGTGAGAAAGCAGCACCTCGCTCAAAGAAAAGGAAAAAGGACGAAGAGGAGAAACAAGCTATGTACTCTAGCACTGACACGTTTACCCACTTGAAACAGCAGAATAATTTAAGTAATCCTCCAACACCCCCTGCCTCTCTTCCTCCTACACCACCTCCTATGGCTTGTCAGAAGATGGCCAATGGTTTTGCAACAACTGAAGAACTTGCTGGAAAAGCCGGAGTGTTAGTGAGCCATGAAGTTACCAAAACTCTAGGACCTAAACCATTTCAGCTGCCCTTCAGACCCCAGGACGACTTGTTGGCCCGAGCTCTTGCTCAGGGCCCCAAGACAGTTGATGTGCCAGCCTCCCTCCCAACACCACCTCATAACAATCAGGAAGAATTAAGGATACAGGATCACTGTGGTGATCGAGATACTCCTGACAGTTTTGTTCCCTCATCCTCTCCTGAGAGTGTGGTTGGGGTAGAAGTGAGCAGGTATCCAGATCTGTCATTGGTCAAGGAGGAGCCTCCAGAACCGGTGCCGTCCCCCATCATTCCAATTCTTCCTAGCACTGCTGGGAAAAGTTCAGAATCAAGAAGGAATGACATCAAAACTGAGCCAGGCACTTTATATTTTGCGTCACCTTTTGGTCCTTCCCCAAATGGTCCCAGATCAGGTCTTATATCTGTAGCAATTACTCTGCATCCTACAGCTGCTGAGAACATTAGCAGTGTTGTGGCTGCATTTTCCGACCTTCTTCACGTCCGAATCCCTAACAGCTATGAGGTTAGCAGTGCTCCAGATGTCCCATCCATGGGTTTGGTCAGTAGCCACAGAATCAACCCGGGTTTGGAGTATCGACAGCATTTACTTCTCCGTGGGCCTCCGCCAGGATCTGCAAACCCTCCCAGATTAGTGAGCTCTTACCGGCTGAAGCAGCCTAATGTACCATTTCCTCCAACAAGCAATGGTCTTTCTGGATATAAGGATTCTAGTCATGGTATTGCAGAAAGCGCAGCACTCAGACCACAGTGGTGTTGTCATTGTAAAGTGGTTATTCTTGGAAGTGGTGTGCGGAAATCTTTCAAAGATCTGACCCTTTTGAACAAGGATTCCCGAGAAAGCACCAAGAGGGTAGAGAAGGACATTGTCTTCTGTAGTAATAACTGCTTTATTCTTTATTCATCAACTGCACAAGCGAAAAACTCAGAAAACAAGGAATCCATTCCTTCATTGCCACAATCACCTATGAGAGAAACGCCTTCCAAAGCATTTCATCAGTACAGCAACAACATCTCCACTTTGGATGTGCACTGTCTCCCCCAGCTCCCAGAGAAAGCTTCTCCCCCTGCCTCACCACCCATCGCCTTCCCTCCTGCTTTTGAAGCAGCCCAAGTCGAGGCCAAGCCAGATGAGCTGAAGGTGACAGTCAAGCTGAAGCCTCGGCTAAGAGCTGTCCATGGTGGGTTTGAAGATTGCAGGCCGCTCAATAAAAAATGGAGAGGAATGAAATGGAAGAAGTGGAGCATTCATATTGTAATCCCTAAGGGGACATTTAAACCACCTTGTGAGGATGAAATAGATGAATTTCTAAAGAAATTGGGCACTTCCCTTAAACCTGATCCTGTGCCCAAAGACTATCGGAAATGTTGCTTTTGTCATGAAGAAGGTGATGGATTGACAGATGGACCAGCAAGGCTACTCAACCTTGACTTGGATCTGTGGGTCCACTTGAACTGCGCTCTGTGGTCCACGGAGGTCTATGAGACTCAGGCTGGTGCCTTAATAAATGTGGAGCTAGCTCTGAGGAGAGGCCTACAAATGAAATGTGTCTTCTGTCACAAGACGGGTGCCACTAGTGGATGCCACAGATTTCGATGCACCAACATTTATCACTTCACTTGCGCCATTAAAGCACAATGCATGTTTTTTAAGGACAAAACTATGCTTTGCCCCATGCACAAACCAAAGGGAATTCATGAGCAAGAATTAAGTTACTTTGCAGTCTTCAGGAGGGTCTATGTTCAGCGTGATGAGGTGCGACAGATTGCTAGCATCGTGCAACGAGGAGAACGGGACCATACCTTTCGCGTGGGTAGCCTCATCTTCCACACAATTGGTCAGCTGCTTCCACAGCAGATGCAAGCATTCCATTCTCCTAAAGCACTCTTCCCTGTGGGCTATGAAGCCAGCCGGCTGTACTGGAGCACTCGCTATGCCAATAGGCGCTGCCGCTACCTGTGCTCCATTGAGGAGAAGGATGGGCGCCCAGTGTTTGTCATCAGGATTGTGGAACAAGGCCATGAAGACCTGGTTCTAAGTGACATCTCACCTAAAGGTGTCTGGGATAAGATTTTGGAGCCTGTGGCATGTGTGAGAAAAAAGTCTGAAATGCTCCAGCTTTTCCCAGCGTATTTAAAAGGAGAGGATCTGTTTGGCCTGACCGTCTCTGCAGTGGCACGCATAGCGGAATCACTTCCTGGGGTTGAGGCATGTGAAAATTATACCTTCCGATACGGCCGAAATCCTCTCATGGAACTTCCTCTTGCCGTTAACCCCACAGGTTGTGCCCGTTCTGAACCTAAAATGAGTGCCCATGTCAAGAGGTTTGTGTTAAGGCCTCACACCTTAAACAGCACCAGCACCTCAAAGTCATTTCAGAGCACAGTCACTGGAGAACTGAACGCACCTTATAGTAAACAGTTTGTTCACTCCAAGTCATCGCAGTACCGGAAGATGAAAACTGAATGGAAATCCAATGTGTATCTGGCACGGTCTCGGATTCAGGGGCTGGGCCTGTATGCTGCTCGAGACATTGAGAAACACACCATGGTCATTGAGTACATCGGGACTATCATTCGAAACGAAGTAGCCAACAGGAAAGAGAAGCTTTATGAGTCTCAGAACCGTGGTGTGTACATGTTCCGCATGGATAACGACCATGTGATTGACGCGACGCTCACAGGAGGGCCCGCAAGGTATATCAACCATTCGTGTGCACCTAATTGTGTGGCTGAAGTGGTGACTTTTGAGAGAGGACACAAAATTATCATCAGCTCCAGTCGGAGAATCCAGAAAGGAGAAGAGCTCTGCTATGACTATAAGTTTGACTTTGAAGATGACCAGCACAAGATTCCGTGTCACTGTGGAGCTGTGAACTGCCGGAAGTGGATGAACTGAAATGCATTCCTTGCTAGCTCAGCGGGCGGCTTGTCCCTAGGAAGAGGCGATTCAACACACCATTGGAATTTTGCAGACAGAAAGAGATTTTTGTTTTCTGTTTTATGACTTTTTGAAAAAGCTTCTGGGAGTTCTGATTTCCTCAGTCCTTTAGGTTAAAGCAGCGCCAGGAGGAAGCTGACAGAAGCAGCGTTCCTGAAGTGGCCGAGGTTAAACGGAATCACAGAATGGTCCAGCACTTTTGCTTTTTTTTCTTTTCCTTTTCTTTTTTTTTTGTTTGTTTTTTGTTTTGTTTTTCCCTTGTGGGTGGGTTTCATTGTTTTGGTTTTCTAGTCTCACTAAGGAGAAACTTTTACTGGGGCAAAGAGCCGATGGCTGCCCTGCCCCGGGCAGGGGCCTTCCTATGAATGTAAGACTGAAATCACCAGCGAGGGGGACAGAGAGTGCTGGCCACGGCCTTATTAAAAAGGGGCAGGCCCTCTAACTTCAAAATGTTTTTAAATAAAGTAGACACCACTGAACAAGGAATGTACTGAAATGACTTCCTTAGGGATAGAGCTAAGGGATAATAACTTGCACTAAATACATTTAAATACTTGATTCCATGAGTCAGTTTATTGTAGTTTTTGATTTCTGTAAAATAAGAGAAACTTTTGTATTTATTATTGAATAAGTGAATGAAGCTATTTTTAAATAAAGTTAGAAGAAAGCCAAGCTGCTGCTGTTACCTGCAGAACTAACAAACCCTGTTACTTTGTACAGATATGTAAATATTTTGAGAAAAAATACAGTATAAAAATAGTTATTGACCAAATGCTACCAGGCTCTGCAGCAGCTCGGGGGCTTATAAAATGTTCATAGGGATGTTACAATATAATTTTGTGTTATAAAATATGCCATTATAATTATGTAATAACCAAAATTTCAACCTAGAGTGTTGGGGGTTTTTTGGAAACCGCAGTCTATTAGTACTCAATGGTTTTATACACCTTACTTCTGACAGAGCGGGGCGTATGCTACGACTACAACTTTTATAGCTGTTTTGGTAATTTAAACTAATTTTTTCATATTATATTGTTGCATCCCTACTTCTTCAGTCAGGTTTTTTTGTGCTTACAATTTGTGATAACTGTGAATAACTGCTTAAAAATACACCCAAATGGAGGCTGAATTTTTTCTTCAGCAAAAGTAGTTTTGATTAGAACTTTGTTTCAGCCACAGAGAATCATGTAAACGTAATAGGATCATGTAGCAGAAACTTAAATCTAACCCTTTAGCCTTCTATTTAACACAAAAATTTGAAAAAGTTAAAAAAAAAAAGGAGATGTGATTATGCTTACAGCTGCAGGACTCTGGCAATAGGGTTTTTGGAAGATGTAATTTTAAAATGTGTTTGTATGAACTGTTTGTTTACATTTCTTTAATAAAAAAAACACTGTTTTGTGTTTGCTTGTAGAAACTTAATCAGCATTTTGAACCAGGTTAGCTTTTTATTTTGTACTTAAAATTCTGGTACTGACACTTCACAGGCTAAGTATAAAATGAAGTTTTGTGTGCACAATTCAAGTGGACTGTAAACTGTTGGTATATTCAGTGATGCAGTTCTGAACTTGTATATGGCATGATGTATTTTTATCTTACAGAATAAATCAATTGTATATATTTTTCTCTTGATAAATAGCTGTATGAAATTTGTTTCCTGAATATTTTTCTTCTCTTGTACAATATCCTGACATCCTACCAGTATTTGTCCTACCGGGTTTTTGTTGTTTTCTGTTCTGTATAATAGTATCTAATGTTGGCAAAAATTGAATTTTTTGAAGTATACAGAGTGTTATGGGTTTTGGAATTTGTGGACACAGATTTAGAAGATCACCATTTACAAATAAAATATTTTACATCTATAA

转录物：MLL3-001 ENST00000262189

蛋白质序列(SEQ ID NO.：118)，融合基因的一部分加阴影。

MSSEEDKSVEQPQPPPPPPEEPGAPAPSPAAADKRPRGRPRKDGASPFQRARKKPRSRGKTAVEDEDSMDGLETTETETIVETEIKEQSAEEDAEAEVDNSKQLIPTLQRSVSEESANSLVSVGVEAKISEQLCAFCYCGEKSSLGQGDLKQFRITPGFILPWRNQPSNKKDIDDNSNGTYEKMQNSAPRKQRGQRKERSPQQNIVSCVSVSTQTASDDQAGKLWDELSLVGLPDAIDIQALFDSTGTCWAHHRCVEWSLGVCQMEEPLLVNVDKAVVSGSTERCAFCKHLGATIKCCEEKCTQMYHYPCAAGAGTFQDFSHIFLLCPEHIDQAPERSKEDANCAVCDSPGDLLDQFFCTTCGQHYHGMCLDIAVTPLKRAGWQCPECKVCQNCKQSGEDSKMLVCDTCDKGYHTFCLQPVMKSVPTNGWKCKNCRICIECGTRSSSQWHHNCLICDNCYQQQDNLCPFCGKCYHPELQKDMLHCNMCKRWVHLECDKPTDHELDTQLKEEYICMYCKHLGAEMDRLQPGEEVEIAELTTDYNNEMEVEGPEDQMVFSEQAANKDVNGQESTPGIVPDAVQVHTEEQQKSHPSESLDTDSLLIAVSSQHTVNTELEKQISNEVDSEDLKMSSEVKHICGEDQIEDKMEVTENIEVVTHQITVQQEQLQLLEEPETVVSREESRPPKLVMESVTLPLETLVSPHEESISLCPEEQLVIERLQGEKEQKENSELSTGLMDSEMTPTIEGCVKDVSYQGGKSIKLSSETESSFSSSADISKADVSSSPTPSSDLPSHDMLHNYPSALSSSAGNIMPTTYISVTPKIGMGKPAITKRKFSPGRPRSKQGAWSTHNTVSPPSWSPDISEGREIFKPRQLPGSAIWSIKVGRGSGFPGKRRPRGAGLSGRGGRGRSKLKSGIGAVVLPGVSTADISSNKDDEENSMHNTVVLFSSSDKFTLNQDMCVVCGSFGQGAEGRLLACSQCGQCYHPYCVSIKITKVVLSKGWRCLECTVCEACGKATDPGRLLLCDDCDISYHTYCLDPPLQTVPKGGWKCKWCVWCRHCGATSAGLRCEWQNNYTQCAPCASLSSCPVCYRNYREEDLILQCRQCDRWMHAVCQNLNTEEEVENVADIGFDCSMCRPYMPASNVPSSDCCESSLVAQIVTKVKELDPPKTYTQDGVCLTESGMTQLQSLTVTVPRRKRSKPKLKLKIINQNSVAVLQTPPDIQSEHSRDGEMDDSREGELMDCDGKSESSPEREAVDDETKGVEGTDGVKKRKRKPYRPGIGGFMVRQRSRTGQGKTKRSVIRKDSSGSISEQLPCRDDGWSEQLPDTLVDESVSVTESTEKIKKRYRKRKNKLEETFPAYLQEAFFGKDLLDTSRQSKISLDNLSEDGAQLLYKTNMNTGFLDPSLDPLLSSSSAPTKSGTHGPADDPLADISEVLNTDDDILGIISDDLAKSVDHSDIGPVTDDPSSLPQPNVNQSSRPLSEEQLDGILSPELDKMVTDGAILGKLYKIPELGGKDVEDLFTAVLSPANTQPTPLPQPPPPTQLLPIHNQDAFSRMPLMNGLIGSSPHLPHNSLPPGSGLGTFSAIAQSSYPDARDKNSAFNPMASDPNNSWTSSAPTVEGENDTMSNAQRSTLKWEKEEALGEMATVAPVLYTNINFPNLKEEFPDWTTRVKQIAKLWRKASSQERAPYVQKARDNRAALRINKVQMSNDSMKRQQQQDSIDPSSRIDSELFKDPLKQRESEHEQEWKFRQQMRQKSKQQAKIEATQKLEQVKNEQQQQQQQQFGSQHLLVQSGSDTPSSGIQSPLTPQPGNGNMSPAQSFHKELFTKQPPSTPTSTSSDDVFVKPQAPPPPPAPSRIPIQDSLSQAQTSQPPSPQVFSPGSSNSRPPSPMDPYAKMVGTPRPPPVGHSFSRRNSAAPVENCTPLSSVSRPLQMNETTANRPSPVRDLCSSSTTNNDPYAKPPDTPRPVMTDQFPKSLGLSRSPVVSEQTAKGPIAAGTSDHFTKPSPRADVFQRQRIPDSYARPLLTPAPLDSGPGPFKTPMQPPPSSQDPYGSVSQASRRLSVDPYERPALTPRPIDNFSHNQSNDPYSQPPLTPHPAVNESFAHPSRAFSQPGTISRPTSQDPYSQPPGTPRPVVDSYSQSSGTARSNTDPYSQPPGTPRPTTVDPYSQQPQTPRPSTQTDLFVTPVTNQRHSDPYAHPPGTPRPGISVPYSQPPATPRPRISEGFTRSSMTRPVLMPNQDPFLQAAQNRGPALPGPLVRPPDTCSQTPRPPGPGLSDTFSRVSPSAARDPYDQSPMTPRSQSDSFGTSQTAHDVADQPRPGSEGSFCASSNSPMHSQGQQFSGVSQLPGPVPTSGVTDTQNTVNMAQADTEKLRQRQKLREIILQQQQQKKIAGRQEKGSQDSPAVPHPGPLQHWQPENVNQAFTRPPPPYPGNIRSPVAPPLGPRYAVFPKDQRGPYPPDVASMGMRPHGFRFGFPGGSHGTMPSQERFLVPPQQIQGSGVSPQLRRSVSVDMPRPLNNSQMNNPVGLPQHFSPQSLPVQQHNILGQAYIELRHRAPDGRQRLPFSAPPGSVVEASSNLRHGNFIPRPDFPGPRHTDPMRRPPQGLPNQLPVHPDLEQVPPSQQEQGHSVHSSSMVMRTLNHPLGGEFSEAPLSTSVPSETTSDNLQITTQPSDGLEEKLDSDDPSVKELDVKDLEGVEVKDLDDEDLENLNLDTEDGKVVELDTLDNLETNDPNLDDLLRSGEFDIIAYTDPELDMGDKKSMFNEELDLPIDDKLDNQCVSVEPKKKEQENKTLVLSDKHSPQKKSTVTNEVKTEVLSPNSKVESKCETEKNDENKDNVDTPCSQASAHSDLNDGEKTSLHPCDPDLFEKRTNRETAGPSANVIQASTQLPAQDVINSCGITGSTPVLSSLLANEKSDNSDIRPSGSPPPPTLPASPSNHVSSLPPFIAPPGRVLDNAMNSNVTVVSRVNHVFSQGVQVNPGLIPGQSTVNHSLGTGKPATQTGPQTSQSGTSSMSGPQQLMIPQTLAQQNRERPLLLEEQPLLLQDLLDQERQEQQQQRQMQAMIRQRSEPFFPNIDFDAITDPIMKAKMVALKGINKVMAQNNLGMPPMVMSRFPFMGQVVTGTQNSEGQNLGPQAIPQDGSITHQISRPNPPNFGPGFVNDSQRKQYEEWLQETQQLLQMQQKYLEEQIGAHRKSKKALSAKQRTAKKAGREFPEEDAEQLKHVTEQQSMVQKQLEQIRKQQKEHAELIEDYRIKQQQQCAMAPPTMMPSVQPQPPLIPGATPPTMSQPTFPMVPQQLQHQQHTTVISGHTSPVRMPSLPGWQPNSAPAHLPLNPPRIQPPIAQLPIKTCTPAPGTVSNANPQSGPPPRVEFDDNNPFSESFQERERKERLREQQERQRIQLMQEVDRQRALQQRMEMEQHGMVGSEISSSRTSVSQIPFYSSDLPCDFMQPLGPLQQSPQHQQQMGQVLQQQNIQQGSINSPSTQTFMQTNERRQVGPPSFVPDSPSIPVGSPNFSSVKQGHGNLSGTSFQQSPVRPSFTPALPAAPPVANSSLPCGQDSTITHGHSYPGSTQSLIQLYSDIIPEEKGKKKRTRKKKRDDDAESTKAPSTPHSDITAPPTPGISETTSTPAVSTPSELPQQADQESVEPVGPSTPNMAAGQLCTELENKLPNSDFSQATPNQQTYANSEVDKLSMETPAKTEEIKLEKAETESCPGQEEPKLEEQNGSKVEGNAVACPVSSAQSPPHSAGAPAAKGDSGNELLKHLLKNKKSSSLLNQKPEGSICSEDDCTKDNKLVEKQNPAEGLQTLGAQMQGGFGCGNQLPKTDGGSETKKQRSKRTQRTGEKAAPRSKKRKKDEEEKQAMYSSTDTFTHLKQQNNLSNPPTPPASLPPTPPPMACQKMANGFATTEELAGKAGVLVSHEVTKTLGPKPFQLPFRPQDDLLARALAQGPKTVDVPASLPTPPHNNQEELRIQDHCGDRDTPDSFVPSSSPESVVGVEVSRYPDLSLVKEEPPEPVPSPIIPILPSTAGKSSESRRNDIKTEPGTLYFASPFGPSPNGPRSGLISVAITLHPTAAENISSVVAAFSDLLHVRIPNSYEVSSAPDVPSMGLVSSHRINPGLEYRQHLLLRGPPPGSANPPRLVSSYRLKQPNVPFPPTSNGLSGYKDSSHGIAESAALRPQWCCHCKVVILGSGVRKSFKDLTLLNKDSRESTKRVEKDIVFCSNNCFILYSSTAQAKNSENKESIPSLPQSPMRETPSKAFHQYSNNISTLDVHCLPQLPEKASPPASPPIAFPPAFEAAQVEAKPDELKVTVKLKPRLRAVHGGFEDCRPLNKKWRGMKWKKWSIHIVIPKGTFKPPCEDEIDEFLKKLGTSLKPDPVPKDYRKCCFCHEEGDGLTDGPARLLNLDLDLWVHLNCALWSTEVYETQAGALINVELALRRGLQMKCVFCHKTGATSGCHRFRCTNIYHFTCAIKAQCMFFKDKTMLCPMHKPKGIHEQELSYFAVFRRVYVQRDEVRQIASIVQRGERDHTFRVGSLIFHTIGQLLPQQMQAFHSPKALFPVGYEASRLYWSTRYANRRCRYLCSIEEKDGRPVFVIRIVEQGHEDLVLSDISPKGVWDKILEPVACVRKKSEMLQLFPAYLKGEDLFGLTVSAVARIAESLPGVEACENYTFRYGRNPLMELPLAVNPTGCARSEPKMSAHVKRFVLKPHTLNSTSTSKSFQSTVTGELNAPYSKQFVHSKSSQYRKMKTEWKSNVYLARSRIQGLGLYAARDIEKHTMVIEYIGTIIRNEVANRKEKLYESQNRGVYMFRMDNDHVIDATLTGGPARYINHSCAPNCVAEVVTFERGHKIIISSSRRIQKGEELCYDYKFDFEDDQHKIPCHCGAVNCRKWMN

转录物：PRKAG2-001 ENST00000287878

cDNA序列(SEQ ID NO.：119)，融合基因的一部分加阴影。

GAGCTGGTTTATTCTGCGGCCGAGGATTACATTTATGCACGAACGGGCTTACTGGTTCCAGATTCCCCACTTGGGCACAGGCATAGGAGGCTTGTTTTCCAAATTGCTGGTTTTAATTGCACCTGCCTTTCAGATTACCTCTGGGAATCTGTGGGAGGAGCCGAGAGGGTGGAAAATGTTTCTTAGCTTTGCAAAAGGAAGAAAACTTTGTCACCCAGCGGGAGACCTCAGCCACGAGTAACCCGGGGAGACACCAGAACCGGGACGGGCTTTGACTGATTTGCCTACGAGGGTTCCGTAGGAAAGGACGCTTGAATTCGGCGCTTCGGCGGCGGCGGCGGCCGCGCGAGTTCCCTGCTCACCCTCCCTCTCCGCGGAAGTCCCCACGAGGTGGCTTCAGGGTGTAACAGAGCGCGCGGCTCCAGTCCGAAGGCAGCGGCCGGGGGAGGGAAGGAGGGGACCGAACCCCCGAGGAGTTTCGCAGAATCAACTTCTGGTTAGAGTTATGGGAAGCGCGGTTATGGACACCAAGAAGAAAAAAGATGTTTCCAGCCCCGGCGGGAGCGGCGGCAAGAAAAATGCCAGCCAGAAGAGGCGTTCGCTGCGCGTGCACATTCCGGACCTGAGCTCCTTCGCCATGCCGCTCCTGGACGGAGACCTGGAGGGTTCCGGAAAGCATTCCTCTCGAAAGGTGGACAGCCCCTTCGGCCCGGGCAGCCCCTCCAAAGGGTTCTTCTCCAGAGGCCCCCAGCCCCGGCCCTCCAGCCCCATGTCTGCACCTGTGAGGCCCAAGACCAGCCCCGGCTCTCCCAAAACCGTGTTCCCGTTCTCCTACCAGGAGTCCCCGCCACGCTCCCCTCGACGCATGAGCTTCAGTGGGATCTTCCGCTCCTCCTCCAAAGAGTCTTCCCCCAACTCCAACCCTGCTACCTCGCCCGGGGGCATCAGGTTTTTCTCCCGCTCCAGAAAAACCTCCGGCCTCTCCTCCTCTCCGTCAACACCCACCCAAGTGACCAAGCAGCACACGTTTCCCCTGGAATCCTATAAGCACGAGCCTGAACGGTTAGAGAATCGCATCTATGCCTCGTCTTCCCCCCCGGACACAGGGCAGAGGTTCTGCCCGTCTTCCTTCCAGAGCCCGACCAGGCCTCCACTGGCATCACCGACACACTATGCTCCCTCCAAAGCCGCGGCGCTGGCGGCGGCCCTGGGACCCGCGGAAGCCGGCATGCTGGAGAAGCTGGAGTTCGAGGACGAAGCAGTAGAAGACTCAGAAAGTGGTGTTTACATGCGATTCATGAGGTCACACAAGTGTTATGACATCGTTCCAACCAGTTCAAAGCTTGTTGTCTTTGATACTACATTACAAGTTAAAAAGGCCTTCTTTGCTTTGGTAGCCAACGGTGTCCGAGCAGCGCCACTGTGGGAGAGTAAAAAACAAAGTTTTGTAGGAATGCTAACAATTACAGATTTCATAAATATACTACATAGATACTATAAATCACCTATGGTACAGATTTATGAATTAGAGGAACATAAAATTGAAACATGGAGGGAGCTTTATTTACAAGAAACATTTAAGCCTTTAGTGAATATATCTCCAGATGCAAGCCTCTTCGATGCTGTATACTCCTTGATCAAAAATAAAATCCACAGATTGCCCGTTATTGACCCTATCAGTGGGAATGCACTTTATATACTTACCCACAAAAGAATCCTCAAGTTCCTCCAGCTTTTTATGTCTGATATGCCAAAGCCTGCCTTCATGAAGCAGAACCTGGATGAGCTTGGAATAGGAACGTACCACAACATTGCCTTCATACATCCAGACACTCCCATCATCAAAGCCTTGAACATATTTGTGGAAAGACGAATATCAGCTCTGCCTGTTGTGGATGAGTCAGGAAAAGTTGTAGATATTTATTCCAAATTTGATGTAATTAATCTTGCTGCTGAGAAAACATACAATAACCTAGATATCACGGTGACCCAGGCCCTTCAGCACCGTTCACAGTATTTTGAAGGTGTTGTGAAGTGCAATAAGCTGGAAATACTGGAGACCATCGTGGACAGAATAGTAAGAGCTGAGGTCCATCGGCTGGTGGTGGTAAATGAAGCAGATAGTATTGTGGGTATTATTTCCCTGTCGGACATTCTGCAAGCCCTGATCCTCACACCAGCAGGTGCCAAACAAAAGGAGACAGAAACGGAGTGACCGCCGTGAATGTAGACGCCCTAGGAGGAGAACTTGAACAAAGTCTCTGGGTCACGTTTTGCCTCATGAACACTGGCTGCAAGTGGTTAAGAATGTATATCAGGGTTTAACAATAGGTATTTCTTCCAGTGATGTTGAAATTAAGCTTAAAAAAGAAAGATTTTATGTGCTTGAAGATTCAGGCTTGCATTAAAAGACTGTTTTCAGACCTTTGTCTGAAGGATTTTAAATGCTGTATGTCATTAAAGTGCACTGTGTCCTGAAGTTTTCATTATTTTTCATTTCAAAGAATTCACTGGTATGGAACAGGTGATGTGGCATAAGGTGAGTGCACGGTATGTTCAGATCACAGTGCCTTATGTCCGAATACAGCAATATGTCACCGCCGCAGCCGGGGCGCACGCGTGTGAAACAACACCGAGCTTGAATGTGGAAGTCTTTGAACCTTTTACCAAATCAGTTTGTTTTCTTTAGATTTGTCAAAAAGTTGTAATTTGAATATAAATAATTACTTTAAAATTGTAATGACACTTTTACACGTAAGTGTTTTGTTCTGGGCTACCGTGTCAACGAGGCTGCTTTACAACAGCTTTATTTATTTTTACTTTCATGCAATTTTTTTACACATCTTTTGGTGGAGTAAACTTCACCACATCCATGAATAAACTCTCAGTTATTTTGAAATGGCAAATTTCTCATTATTTAAGTTTGGATCTGGAAAGGACATGACTTCTGAAATAGCCGCTGCTGGGTTTTAAAAGCTGAGGTCTCTCAAAGTGTGGAGGAGACGTTGCCGTCAGGCGGGAGCCAAGTGCCGGGAAGATGTCTATTTTTTTTCTTGTGTATTGAAATGTAAAATCATGATGTTTGTTATGACTGCTGATGCGATTGTTTTTGTAAATTTTATTGTGGCATATACAGTATTGTCATACAGTTGAAGAGAAACAATGTTTCCTAATGTAAGTGCTCTGAAAATGTTGACACTGTATATATATATATGAGGATAGTTTGTTTTTTTTTTGTTTTGGGTTTTTTTTTTTCAGATTGAAAAATTAAAATAGATCCTA

转录物：PRKAG2-001 ENST00000287878

蛋白质序列(SEQ ID NO.：120)，融合基因的一部分加阴影。

MGSAVMDTKKKKDVSSPGGSGGKKNASQKRRSLRVHIPDLSSFAMPLLDGDLEGSGKHSSRKVDSPFGPGSPSKGFFSRGPQPRPSSPMSAPVRPKTSPGSPKTVFPFSYQESPPRSPRRMSFSGIFRSSSKESSPNSNPATSPGGIRFFSRSRKTSGLSSSPSTPTQVTKQHTFPLESYKHEPERLENRIYASSSPPDTGQRFCPSSFQSPTRPPLASPTHYAPSKAAALAAALGPAEAGMLEKLEFEDEAVEDSESGVYMRFMRSHKCYDIVPTSSKLVVFDTTLQVKKAFFALVANGVRAAPLWESKKQSFVGMLTITDFINILHRYYKSPMVQIYELEEHKIETWRELYLQETFKPLVNISPDASLFDAVYSLIKNKIHRLPVIDPISGNALYILTHKRILKFLQLFMSDMPKPAFMKQNLDELGIGTYHNIAFIHPDTPIIKALNIFVERRISALPVVDESGKVVDIYSKFDVINLAAEKTYNNLDITVTQALQHRSQYFEGVVKCNKLEILETIVDRIVRAEVHRLVVVNEADSIVGIISLSDILQALILTPAGAKQKETETE

MLL3-PRKAG2融合序列外显子9到外显子5

cDNA序列(SEQ ID NO.：121)，PRKAG2加下划线。

ATGTCGTCGGAGGAGGACAAGAGCGTGGAGCAGCCGCAGCCGCCGCCACCACCCCCCGAGGAGCCTGGAGCCCCGGCCCCGAGCCCCGCAGCCGCAGACAAAAGACCTCGGGGCCGGCCTCGCAAAGATGGCGCTTCCCCTTTCCAGAGAGCCAGAAAGAAACCTCGAAGTAGGGGGAAAACTGCAGTGGAAGATGAGGACAGCATGGATGGGCTGGAGACAACAGAAACAGAAACGATTGTGGAAACAGAAATCAAAGAACAATCTGCAGAAGAGGATGCTGAAGCAGAAGTGGATAACAGCAAACAGCTAATTCCAACTCTTCAGCGATCTGTGTCTGAGGAATCGGCAAACTCCCTGGTCTCTGTTGGTGTAGAAGCCAAAATCAGTGAACAGCTCTGCGCTTTTTGTTACTGTGGGGAAAAAAGTTCCTTAGGACAAGGAGACTTAAAACAATTCAGAATAACGCCTGGATTTATCTTGCCATGGAGAAACCAACCTTCTAACAAGAAGGACATTGATGACAACAGCAATGGAACCTATGAGAAAATGCAAAACTCAGCACCACGAAAACAAAGAGGACAGAGAAAAGAACGATCTCCTCAGCAGAATATAGTATCTTGTGTAAGTGTAAGCACCCAGACAGCTTCAGATGATCAAGCTGGTAAACTGTGGGATGAACTCAGTCTGGTTGGGCTTCCAGATGCCATTGATATCCAAGCCTTATTTGATTCTACAGGCACTTGTTGGGCTCATCACCGTTGTGTGGAGTGGTCACTAGGAGTATGCCAGATGGAAGAACCATTGTTAGTGAACGTGGACAAAGCTGTTGTCTCAGGGAGCACAGAACGATGTGCATTTTGTAAGCACCTTGGAGCCACTATCAAATGCTGTGAAGAGAAATGTACCCAGATGTATCATTATCCTTGTGCTGCAGGAGCCGGCACCTTTCAGGATTTCAGTCACATCTTCCTGCTTTGTCCAGAACACATTGACCAAGCTCCTGAAAGATCGAAGGAAGATGCAAACTGTGCAGTGTGCGACAGCCCGGGAGACCTCTTAGATCAGTTCTTTTGTACTACTTGTGGTCAGCACTATCATGGAATGTGCCTGGATATAGCGGTTACTCCATTAAAACGTGCAGGTTGGCAATGTCCTGAGTGCAAAGTGTGCCAGAACTGCAAACAATCGGGAGAAGATAGCAAGATGCTAGTGTGTGATACGTGTGACAAAGGGTATCATACTTTTTGTCTTCAACCAGTTATGAAATCAGTACCAACCAATGGCTGGAAATGCAAAGCGGCGCTGGCGGCGGCCCTGGGACCCGCGGAAGCCGGCATGCTGGAGAAGCTGGAGTTCGAGGACGAAGCAGTAGAAGACTCAGAAAGTGGTGTTTACATGCGATTCATGAGGTCACACAAGTGTTATGACATCGTTCCAACCAGTTCAAAGCTTGTTGTCTTTGATACTACATTACAAGTTAAAAAGGCCTTCTTTGCTTTGGTAGCCAACGGTGTCCGAGCAGCGCCACTGTGGGAGAGTAAAAAACAAAGTTTTGTAGGAATGCTAACAATTACAGATTTCATAAATATACTACATAGATACTATAAATCACCTATGGTACAGATTTATGAATTAGAGGAACATAAAATTGAAACATGGAGGGAGCTTTATTTACAAGAAACATTTAAGCCTTTAGTGAATATATCTCCAGATGCAAGCCTCTTCGATGCTGTATACTCCTTGATCAAAAATAAAATCCACAGATTGCCCGTTATTGACCCTATCAGTGGGAATGCACTTTATATACTTACCCACAAAAGAATCCTCAAGTTCCTCCAGCTTTTTATGTCTGATATGCCAAAGCCTGCCTTCATGAAGCAGAACCTGGATGAGCTTGGAATAGGAACGTACCACAACATTGCCTTCATACATCCAGACACTCCCATCATCAAAGCCTTGAACATATTTGTGGAAAGACGAATATCAGCTCTGCCTGTTGTGGATGAGTCAGGAAAAGTTGTAGATATTTATTCCAAATTTGATGTAATTAATCTTGCTGCTGAGAAAACATACAATAACCTAGATATCACGGTGACCCAGGCCCTTCAGCACCGTTCACAGTATTTTGAAGGTGTTGTGAAGTGCAATAAGCTGGAAATACTGGAGACCATCGTGGACAGAATAGTAAGAGCTGAGGTCCATCGGCTGGTGGTGGTAAATGAAGCAGATAGTATTGTGGGTATTATTTCCCTGTCGGACATTCTGCAAGCCCTGATCCTCACACCAGCAGGTGCCAAACAAAAGGAGACAGAAACGGAGTGA

蛋白质序列外显子9到外显子5(SEQ ID NO.：122)，PRKAG2加下划线。

MSSEEDKSVEQPQPPPPPPEEPGAPAPSPAAADKRPRGRPRKDGASPFQRARKKPRSRGKTAVEDEDSMDGLETTETETIVETEIKEQSAEEDAEAEVDNSKQLIPTLQRSVSEESANSLVSVGVEAKISEQLCAFCYCGEKSSLGQGDLKQFRITPGFILPWRNQPSNKKDIDDNSNGTYEKMQNSAPRKQRGQRKERSPQQNIVSCVSVSTQTASDDQAGKLWDELSLVGLPDAIDIQALFDSTGTCWAHHRCVEWSLGVCQMEEPLLVNVDKAVVSGSTERCAFCKHLGATIKCCEEKCTQMYHYPCAAGAGTFQDFSHIFLLCPEHIDQAPERSKEDANCAVCDSPGDLLDQFFCTTCGQHYHGMCLDIAVTPLKRAGWQCPECKVCQNCKQSGEDSKMLVCDTCDKGYHTFCLQPVMKSVPTNGWKCKAALAAALGPAEAGMLEKLEFEDEAVEDSESGVYMRFMRSHKCYDIVPTSSKLVVFDTTLQVKKAFFALVANGVRAAPLWESKKQSFVGMLTITDFINILHRYYKSPMVQIYELEEHKIETWRELYLQETFKPLVNISPDASLFDAVYSLIKNKIHRLPVIDPISGNALYILTHKRILKFLQLFMSDMPKPAFMKQNLDELGIGTYHNIAFIHPDTPIIKALNIFVERRISALPVVDESGKVVDIYSKFDVINLAAEKTYNNLDITVTQALQHRSQYFEGVVKCNKLEILETIVDRIVRAEVHRLVVVNEADSIVGIISLSDILQALILTPAGAKQKETETE

蛋白质结构域外显子9到外显子5

由于重叠的结构域，因此存在蛋白质的4种表示。无跨膜结构域。

MLL3-PRKAG2融合序列外显子6到外显子7

cDNA序列(SEQ ID NO.：123)，PRKAG2加下划线。

ATGTCGTCGGAGGAGGACAAGAGCGTGGAGCAGCCGCAGCCGCCGCCACCACCCCCCGAGGAGCCTGGAGCCCCGGCCCCGAGCCCCGCAGCCGCAGACAAAAGACCTCGGGGCCGGCCTCGCAAAGATGGCGCTTCCCCTTTCCAGAGAGCCAGAAAGAAACCTCGAAGTAGGGGGAAAACTGCAGTGGAAGATGAGGACAGCATGGATGGGCTGGAGACAACAGAAACAGAAACGATTGTGGAAACAGAAATCAAAGAACAATCTGCAGAAGAGGATGCTGAAGCAGAAGTGGATAACAGCAAACAGCTAATTCCAACTCTTCAGCGATCTGTGTCTGAGGAATCGGCAAACTCCCTGGTCTCTGTTGGTGTAGAAGCCAAAATCAGTGAACAGCTCTGCGCTTTTTGTTACTGTGGGGAAAAAAGTTCCTTAGGACAAGGAGACTTAAAACAATTCAGAATAACGCCTGGATTTATCTTGCCATGGAGAAACCAACCTTCTAACAAGAAGGACATTGATGACAACAGCAATGGAACCTATGAGAAAATGCAAAACTCAGCACCACGAAAACAAAGAGGACAGAGAAAAGAACGATCTCCTCAGCAGAATATAGTATCTTGTGTAAGTGTAAGCACCCAGACAGCTTCAGATGATCAAGCTGGTAAACTGTGGGATGAACTCAGTCTGGTTGGGCTTCCAGATGCCATTGATATCCAAGCCTTATTTGATTCTACAGGCACTTGTTGGGCTCATCACCGTTGTGTGGAGTGGTCACTAGGAGTATGCCAGATGGAAGAACCATTGTTAGTGAACGTGGACAAAGCTGTTGTCTCAGGGAGCACAGAAGTTAAAAAGGCCTTCTTTGCTTTGGTAGCCAACGGTGTCCGAGCAGCGCCACTGTGGGAGAGTAAAAAACAAAGTTTTGTAGGAATGCTAACAATTACAGATTTCATAAATATACTACATAGATACTATAAATCACCTATGGTACAGATTTATGAATTAGAGGAACATAAAATTGAAACATGGAGGGAGCTTTATTTACAAGAAACATTTAAGCCTTTAGTGAATATATCTCCAGATGCAAGCCTCTTCGATGCTGTATACTCCTTGATCAAAAATAAAATCCACAGATTGCCCGTTATTGACCCTATCAGTGGGAATGCACTTTATATACTTACCCACAAAAGAATCCTCAAGTTCCTCCAGCTTTTTATGTCTGATATGCCAAAGCCTGCCTTCATGAAGCAGAACCTGGATGAGCTTGGAATAGGAACGTACCACAACATTGCCTTCATACATCCAGACACTCCCATCATCAAAGCCTTGAACATATTTGTGGAAAGACGAATATCAGCTCTGCCTGTTGTGGATGAGTCAGGAAAAGTTGTAGATATTTATTCCAAATTTGATGTAATTAATCTTGCTGCTGAGAAAACATACAATAACCTAGATATCACGGTGACCCAGGCCCTTCAGCACCGTTCACAGTATTTTGAAGGTGTTGTGAAGTGCAATAAGCTGGAAATACTGGAGACCATCGTGGACAGAATAGTAAGAGCTGAGGTCCATCGGCTGGTGGTGGTAAATGAAGCAGATAGTATTGTGGGTATTATTTCCCTGTCGGACATTCTGCAAGCCCTGATCCTCACACCAGCAGGTGCCAAACAAAAGGAGACAGAAACGGAGTGA

蛋白质序列外显子6到外显子7(SEQ ID NO.：124)

M S S E E D K S V E Q P Q P P P P P P E E P G A P A P S P A A A D K R P R G R P R K D G A S P F Q R A R K K P R S R G K T A V E D E D S Met D G L E T T E T E T I V E T E I K E Q S A E E D A E A E V D N S K Q L I P T L Q R S V S E E S A N S L V S V G V E A K I S E Q L C A F C Y C G E K S S L G Q G D L K Q F R I T P G F I L P W R N Q P S N K K D I D D N S N G T Y E K M Q N S A P R K Q R G Q R K E R S P Q Q N I V S C V S V S T Q T A S D D Q A G K L W D E L S L V G L P D A I D I Q A L F D S T G T C W A H H R C V E W S L G V C Q M E E P L L V N V D K A V V S G S T E V K K A F F A L V A N G V R A A P L W E S K K Q S F V G M L T I T D F I N I L H R Y Y K S P M V Q I Y E L E E H K I E T W R E L Y L Q E T F K P L V N I S P D A S L F D A V Y S L I K N K I H R L P V I D P I S G N A L Y I L T H K R I L K F L Q L F M S D M P K P A F M K Q N L D EL G I G T Y H N I A F I H P D T P I I K A L N I F V E R R I S A L P V V D E S G K V V D I Y S K F D V I N L A A E K T Y N N L D I T V T Q A L Q H R S Q Y F E G V V K C N K L E I L E T I V D R I V R A E V H R L V V V N E A D S I V G I I S L S D I L Q A L I L T PA G A K Q K E T E T E终止密码子

蛋白质结构域外显子6到外显子7

具有566个残基的查询序列内无跨膜结构域。

MLL3-PRKAG2融合序列外显子23到外显子6

cDNA序列(SEQ ID NO.：125)，PRKAG2加下划线。

ATGTCGTCGGAGGAGGACAAGAGCGTGGAGCAGCCGCAGCCGCCGCCACCACCCCCCGAGGAGCCTGGAGCCCCGGCCCCGAGCCCCGCAGCCGCAGACAAAAGACCTCGGGGCCGGCCTCGCAAAGATGGCGCTTCCCCTTTCCAGAGAGCCAGAAAGAAACCTCGAAGTAGGGGGAAAACTGCAGTGGAAGATGAGGACAGCATGGATGGGCTGGAGACAACAGAAACAGAAACGATTGTGGAAACAGAAATCAAAGAACAATCTGCAGAAGAGGATGCTGAAGCAGAAGTGGATAACAGCAAACAGCTAATTCCAACTCTTCAGCGATCTGTGTCTGAGGAATCGGCAAACTCCCTGGTCTCTGTTGGTGTAGAAGCCAAAATCAGTGAACAGCTCTGCGCTTTTTGTTACTGTGGGGAAAAAAGTTCCTTAGGACAAGGAGACTTAAAACAATTCAGAATAACGCCTGGATTTATCTTGCCATGGAGAAACCAACCTTCTAACAAGAAGGACATTGATGACAACAGCAATGGAACCTATGAGAAAATGCAAAACTCAGCACCACGAAAACAAAGAGGACAGAGAAAAGAACGATCTCCTCAGCAGAATATAGTATCTTGTGTAAGTGTAAGCACCCAGACAGCTTCAGATGATCAAGCTGGTAAACTGTGGGATGAACTCAGTCTGGTTGGGCTTCCAGATGCCATTGATATCCAAGCCTTATTTGATTCTACAGGCACTTGTTGGGCTCATCACCGTTGTGTGGAGTGGTCACTAGGAGTATGCCAGATGGAAGAACCATTGTTAGTGAACGTGGACAAAGCTGTTGTCTCAGGGAGCACAGAACGATGTGCATTTTGTAAGCACCTTGGAGCCACTATCAAATGCTGTGAAGAGAAATGTACCCAGATGTATCATTATCCTTGTGCTGCAGGAGCCGGCACCTTTCAGGATTTCAGTCACATCTTCCTGCTTTGTCCAGAACACATTGACCAAGCTCCTGAAAGATCGAAGGAAGATGCAAACTGTGCAGTGTGCGACAGCCCGGGAGACCTCTTAGATCAGTTCTTTTGTACTACTTGTGGTCAGCACTATCATGGAATGTGCCTGGATATAGCGGTTACTCCATTAAAACGTGCAGGTTGGCAATGTCCTGAGTGCAAAGTGTGCCAGAACTGCAAACAATCGGGAGAAGATAGCAAGATGCTAGTGTGTGATACGTGTGACAAAGGGTATCATACTTTTTGTCTTCAACCAGTTATGAAATCAGTACCAACCAATGGCTGGAAATGCAAAAATTGCAGAATATGTATAGAGTGTGGCACACGGTCTAGTTCTCAGTGGCACCACAATTGCCTGATATGTGACAATTGTTACCAACAGCAGGATAACTTATGTCCCTTCTGTGGGAAGTGTTATCATCCAGAATTGCAGAAAGACATGCTTCATTGTAATATGTGCAAAAGGTGGGTTCACCTAGAGTGTGACAAACCAACAGATCATGAACTGGATACTCAGCTCAAAGAAGAGTATATCTGCATGTATTGTAAACACCTGGGAGCTGAGATGGATCGTTTACAGCCAGGTGAGGAAGTGGAGATAGCTGAGCTCACTACAGATTATAACAATGAAATGGAAGTTGAAGGCCCTGAAGATCAAATGGTATTCTCAGAGCAGGCAGCTAATAAAGATGTCAACGGTCAGGAGTCCACTCCTGGAATTGTTCCAGATGCGGTTCAAGTCCACACTGAAGAGCAACAGAAGAGTCATCCCTCAGAAAGTCTTGACACAGATAGTCTTCTTATTGCTGTATCATCCCAACATACAGTGAATACTGAATTGGAAAAACAGATTTCTAATGAAGTTGATAGTGAAGACCTGAAAATGTCTTCTGAAGTGAAGCATATTTGTGGCGAAGATCAAATTGAAGATAAAATGGAAGTGACAGAAAACATTGAAGTCGTTACACACCAGATCACTGTGCAGCAAGAACAACTGCAGTTGTTAGAGGAACCTGAAACAGTGGTATCCAGAGAAGAATCAAGGCCTCCAAAATTAGTCATGGAATCTGTCACTCTTCCACTAGAAACCTTAGTGTCCCCACATGAGGAAAGTATTTCATTATGTCCTGAGGAACAGTTGGTTATAGAAAGGCTACAAGGAGAAAAGGAACAGAAAGAAAATTCTGAACTTTCTACTGGATTGATGGACTCTGAAATGACTCCTACAATTGAGGGTTGTGTGAAAGATGTTTCATACCAAGGAGGCAAATCTATAAAGTTATCATCTGAGACAGAGTCATCATTTTCATCATCAGCAGACATAAGCAAGGCAGATGTGTCTTCCTCCCCAACACCTTCTTCAGACTTGCCTTCGCATGACATGCTGCATAATTACCCTTCAGCTCTTAGTTCCTCTGCTGGAAACATCATGCCAACAACTTACATCTCAGTCACTCCAAAAATTGGCATGGGTAAACCAGCTATTACTAAGAGAAAATTTTCTCCTGGTAGACCTCGGTCCAAACAGGGGGCTTGGAGTACCCATAATACAGTGAGCCCACCTTCCTGGTCCCCAGACATTTCAGAAGGTCGGGAAATTTTTAAACCCAGGCAGCTTCCTGGCAGTGCCATTTGGAGCATCAAAGTGGGCCGTGGGTCTGGATTTCCAGGAAAGCGGAGACCTCGAGGTGCAGGACTGTCGGGGCGAGGTGGCCGAGGCAGGTCAAAGCTGAAAAGTGGAATCGGAGCTGTTGTATTACCTGGGGTGTCTACTGCAGATATTTCATCAAATAAGGATGATGAAGAAAACTCTATGCACAATACAGTTGTGTTGTTTTCTAGCAGTGACAAGTTCACTTTGAATCAGGATATGTGTGTAGTTTGTGGCAGTTTTGGCCAAGGAGCAGAAGGAAGATTACTTGCCTGTTCTCAGTGTGGTCAGTGTTACCATCCATACTGTGTCAGTATTAAGATCACTAAAGTGGTTCTTAGCAAAGGTTGGAGGTGTCTTGAGTGCACTGTGTGTGAGGCCTGTGGGAAGGCAACTGACCCAGGAAGACTCCTGCTGTGTGATGACTGTGACATAAGTTATCACACCTACTGCCTAGACCCTCCATTGCAGACAGTTCCCAAAGGAGGCTGGAAGTGCAAATGGTGTGTTTGGTGCAGACACTGTGGAGCAACATCTGCAGGTCTAAGATGTGAATGGCAGAACAATTACACACAGTGCGCTCCTTGTGCAAGCTTATCTTCCTGTCCAGTCTGCTATCGAAACTATAGAGAAGAAGATCTTATTCTGCAATGTAGACAATGTGATAGATGGATGCATGCAGTTTGTCAGAACTTAAATACTGAGGAAGAAGTGGAAAATGTAGCAGACATTGGTTTTGATTGTAGCATGTGCAGACCCTATATGCCTGCGTCTAATGTGCCTTCCTCAGACTGCTGTGAATCTTCACTTGTAGCACAAATTGTCACAAAAGTAAAAGAGCTAGACCCACCCAAGACTTATACCCAGGATGGTGTGTGTTTGACTGAATCAGGGATGACTCAGTTACAGAGCCTCACAGTTACAGTTCCAAGAAGAAAACGGTCAAAACCAAAATTGAAATTGAAGATTATAAATCAGAATAGCGTGGCCGTCCTTCAGACCCCTCCAGACATCCAATCAGAGCATTCAAGGGATGGTGAAATGGATGATAGTCGAGCAGTAGAAGACTCAGAAAGTGGTGTTTACATGCGATTCATGAGGTCACACAAGTGTTATGACATCGTTCCAACCAGTTCAAAGCTTGTTGTCTTTGATACTACATTACAAGTTAAAAAGGCCTTCTTTGCTTTGGTAGCCAACGGTGTCCGAGCAGCGCCACTGTGGGAGAGTAAAAAACAAAGTTTTGTAGGAATGCTAACAATTACAGATTTCATAAATATACTACATAGATACTATAAATCACCTATGGTACAGATTTATGAATTAGAGGAACATAAAATTGAAACATGGAGGGAGCTTTATTTACAAGAAACATTTAAGCCTTTAGTGAATATATCTCCAGATGCAAGCCTCTTCGATGCTGTATACTCCTTGATCAAAAATAAAATCCACAGATTGCCCGTTATTGACCCTATCAGTGGGAATGCACTTTATATACTTACCCACAAAAGAATCCTCAAGTTCCTCCAGCTTTTTATGTCTGATATGCCAAAGCCTGCCTTCATGAAGCAGAACCTGGATGAGCTTGGAATAGGAACGTACCACAACATTGCCTTCATACATCCAGACACTCCCATCATCAAAGCCTTGAACATATTTGTGGAAAGACGAATATCAGCTCTGCCTGTTGTGGATGAGTCAGGAAAAGTTGTAGATATTTATTCCAAATTTGATGTAATTAATCTTGCTGCTGAGAAAACATACAATAACCTAGATATCACGGTGACCCAGGCCCTTCAGCACCGTTCACAGTATTTTGAAGGTGTTGTGAAGTGCAATAAGCTGGAAATACTGGAGACCATCGTGGACAGAATAGTAAGAGCTGAGGTCCATCGGCTGGTGGTGGTAAATGAAGCAGATAGTATTGTGGGTATTATTTCCCTGTCGGACATTCTGCAAGCCCTGATCCTCACACCAGCAGGTGCCAAACAAAAGGAGACAGAAACGGAGTGA

蛋白质序列外显子23到外显子6(SEQ ID NO.：126)

M S S E E D K S V E Q P Q P P P P P P E E P G A P A P S P A A A D K R P R G R P R K D G A S P F Q R A R K K P R S R G K T A V E D E D S M D G L E T T E T E T I V E T E I K E Q S A E E D A E A E V D N S K Q L I P T L Q R S V S E E S A N S L V S V G V E A K I S E Q L C A F C Y C G E K S S L G Q G D L K Q F R I T P G F I L P W R N Q P S N K K D I D D N S N G T Y E K M Q N S A P R K Q R G Q R K E R S P Q Q N I V S C V S V S T Q T A S D D Q A G K L W D E L S L V G L P D A I D I Q A L F D S T G T C W A H H R C V E W S L G V C Q M E E P L L V N V D K A V V S G S T E R C A F C K H L G A T I K C C E E K C T Q M Y H Y P C A A G A G T F Q D F S H I F L L C P E H I D Q A P E R S K E D A N C A V C D S P G D L L D Q F F C T T C G Q H Y H G M C L D I A V T P L K R A G W Q C P E C K V C Q N C K Q S G E D S K M L V C D T C D K G Y H T F C L Q P V M K S V P T N G W K C K N C R I C I E C G T R S S S Q W H H N C L I C D N C Y Q Q Q D N L C P F C G K C Y H P E L Q K D M L H C N M C K R W V H L E C D K P T D H E L D T Q L K E E Y I C M Y C K H L G A E M D R L Q P G E E V E I A E L T T D Y N N E M E V E G P E D Q Met V F S E Q A A N K D V N G Q E S T P G I V P D A V Q V H T E E Q Q K S H P S E S L D T D S L L I A V S S Q H T V N T E L E K Q I S N E V D S E D L K M S S E V K H I C G E D Q I E D K M E V T E N I E V V T H Q I T V Q Q E Q L Q L L E E P E T V V S R E E S R P P K L V M E S V T L P L E T L V S P H E E S I S L C P E E Q L V I E R L Q G E K E Q K E NS E L S T G L M D S E M T P T I E G C V K D V S Y Q G G K S I K L S S E T E S S F S S S A D I S K A D V S S S P T P S S D L P S H D M L H N Y P S A L S S S A G N I M P T T Y I S V T P K I G M G K P A I T K R K F S P G R P R S K Q G A W S T H N T V S P P S W S P D I S E G R E I F K P R Q L P G S A I W S I K V G R G S G F P G K R R P R G A G L S G R G G R G R S K L K S G I G A V V L P G V S T A D I S S N K D D E E N S M H N T V V L F S S S D K F T L N Q D M C V V C G S F G Q G A E G R L L A C S Q C G Q C Y H P Y C V S I K I T K V V L S K G W R C L E C T V C E A C G K A T D P G R L L L C D D C D I S Y H T Y C L D P P L Q T V P K G G W K C K W C V W C R H C G A T S A G L R C E W Q N N Y T Q C A P C A S L S S C P V C Y R N Y R E E D L I L Q C R Q C D R W M H A V C Q N L N T E E E V E N V A D I G F D C S M C R P Y M P A S N V P S S D C C E S S L V A Q I V T K V K E L D P P K T Y T Q D G V C L T E S G M T Q L Q S L T V T V P R R K R S K P K L K L K I I N Q N S V A V L Q T P P D I Q S E H S R D G E M D D S R A V E D S E S G V Y M R F M R S H K C Y D I V P T S S K L V V F D T T L Q V K K A F F A L V A N G V R A A P L W E S K K Q S F V G M L T I T D F I N I L H R Y Y K S P M V Q I Y E L E E H K I E T W R E L Y L Q E T F K P L V N I S P D A S L F D A V Y S L I K N K I H R L P V I D P I S G N A L Y I L T H K R I L K F L Q L F M S D M P K P A F M K Q N L D E L G I G T Y H N I A F I H P D T P I I K A L N I F V E R R I S A L P V V D E S G K V V D I Y S K F D V I N L A A E K T Y N N L D I T V T Q A L Q H R S Q Y F E G V V K C N K L E I L E T I V D R I V R A E V H R L V V V N E A D S I V G I I S L S D I L Q A L I L T P A G A K Q K E T E T E终止密码子

蛋白质结构域外显子23到外显子6

由于重叠的结构域，因此存在蛋白质的40种表示。无跨膜结构域。

融合基因#5：DUS2L-PSKH1

确认的基因组断裂点：DUS2L-chr16：67930935、PSKH1-chr16：68103638

转录物：DUS2L-001 ENST00000565263

cDNA序列(SEQ ID NO.：127)，融合基因的一部分加阴影。

TGAGGCGCGCCGGCTGGTTCAACTCCGGCCGCCGCGCCGAAACCAGCAGCGGTCCGGGTCGAACCAGCACCGGCCTCGGGAGGTTCCGCCGCCTGCTCTGCCGCTGTTCCAACTGCCGCTGTAGAGCCACTGGGATGCGCACCACCGGCAGGGGTTCGTCGGGACTGCGGACCGTGAGGCCCCGTCGCGGCGCCAGGAGCAACCGAGTCACGAGGGAAAAGAGCCGCACCGGCCGCGTTAGAGCCATGTTTCCCTTAGTGCGGGAGAAGCGCACATCAGTGACGTCACGGACGCGCCGCGACCTCGCGTACGGTGGCTGGCGAGGCTCAGTACGGTGTGTGGAGCTGGAGCACCGTGAGGAAGAAGCGAGGTTCTTTTTAAGAGTTCAGCTGCGAGATATCAAACAAAGAATTACTCTGTACAAAGCCAGAACACATATATCAAAGTAATCCTGAAGTATCAGAACAAAATAATAGGCTGTAACAGAGGAGGAAATGATTTTGAATAGCCTCTCTCTGTGTTACCATAATAAGCTAATCCTGGCCCCAATGGTTCGGGTAGGGACTCTTCCAATGAGGCTGCTGGCCCTGGATTATGGAGCGGACATTGTTTACTGTGAGGAGCTGATCGACCTCAAGATGATTCAGTGCAAGAGAGTTGTTAATGAGGTGCTCAGCACAGTGGACTTTGTCGCCCCTGATGATCGAGTTGTCTTCCGCACCTGTGAAAGAGAGCAGAACAGGGTGGTCTTCCAGATGGGGACTTCAGACGCAGAGCGAGCCCTTGCTGTGGCCAGGCTTGTAGAAAATGATGTGGCTGGTATTGATGTCAACATGGGCTGTCCAAAACAATATTCCACCAAGGGAGGAATGGGAGCTGCCCTGCTGTCAGACCCTGACAAGATTGAGAAGATCCTCAGCACTCTTGTTAAAGGGACACGCAGACCTGTGACCTGCAAGATTCGCATCCTGCCATCGCTAGAAGATACCCTGAGCCTTGTGAAGCGGATAGAGAGGACTGGCATTGCTGCCATCGCAGTTCATGGGAGGAAGCGGGAGGAGCGACCTCAGCATCCTGTCAGCTGTGAAGTCATCAAAGCCATTGCTGATACCCTCTCCATTCCTGTCATAGCCAACGGAGGATCTCATGACCACATCCAACAGTATTCGGACATAGAGGACTTTCGACAAGCCACGGCAGCCTCTTCCGTGATGGTGGCCCGAGCAGCCATGTGGAACCCATCTATCTTCCTCAAGGAGGGTCTGCGGCCCCTGGAGGAGGTCATGCAGAAATACATCAGATACGCGGTGCAGTATGACAACCACTACACCAACACCAAGTACTGCTTGTGCCAGATGCTACGAGAACAGCTGGAGTCGCCCCAGGGAAGGTTGCTCCATGCTGCCCAGTCTTCCCGGGAAATTTGTGAGGCCTTTGGCCTTGGTGCCTTCTATGAGGAGACCACACAGGAGCTGGATGCCCAGCAGGCCAGGCTCTCAGCCAAGACTTCAGAGCAGACAGGGGAGCCAGCTGAAGATACCTCTGGTGTCATTAAGATGGCTGTCAAGTTTGACCGGAGAGCATACCCAGCCCAGATCACCCCTAAGATGTGCCTACTAGAGTGGTGCCGGAGGGAGAAGTTGGCACAGCCTGTGTATGAAACGGTTCAACGCCCTCTAGATCGCCTGTTCTCCTCTATTGTCACCGTTGCTGAACAAAAGTATCAGTCTACCTTGTGGGACAAGTCCAAGAAACTGGCGGAGCAGGCTGCAGCCATCGTCTGTCTGCGGAGCCAGGGCCTCCCTGAGGGTCGGCTGGGTGAGGAGAGCCCTTCCTTGCACAAGCGAAAGAGGGAGGCTCCTGACCAAGACCCTGGGGGCCCCAGAGCTCAGGAGCTAGCACAACCTGGGGATCTGTGCAAGAAGCCCTTTGTGGCCTTGGGAAGTGGTGAAGAAAGCCCCCTGGAAGGCTGGTGACTACTCTTCCTGCCTTAGTCACCCCTCCATGGGCCTGGTGCTAAGGTGGCTGTGGATGCCACAGCATGAACCAGATGCCGTTGAACAGTTTGCTGGTCTTGCCTGGCAGAAGTTAGATGTCCTGGCAGGGGCCATCAGCCTAGAGCATGGACCAGGGGCCGCCCAGGGGTGGATCCTGGCCCCTTTGGTGGATCTGAGTGACAGGGTCAAGTTCTCTTTGAAAACAGGAGCTTTTCAGGTGGTAACTCCCCAACCTGACATTGGTACTGTGCAATAAAGACACCCCCTACCCTCACCCACGGCTGGCTGCTTCAGCCTTGGGCATCTTCATAAA

转录物：DUS2L-001 ENST00000565263

cDNA序列

TGAGGCGCGCCGGCTGGTTCAACTCCGGCCGCCGCGCCGAAACCAGCAGCGGTCCGGGTC............................................................GAACCAGCACCGGCCTCGGGAGGTTCCGCCGCCTGCTCTGCCGCTGTTCCAACTGCCGCT............................................................GTAGAGCCACTGGGATGCGCACCACCGGCAGGGGTTCGTCGGGACTGCGGACCGTGAGGC............................................................CCCGTCGCGGCGCCAGGAGCAACCGAGTCACGAGGGAAAAGAGCCGCACCGGCCGCGTTA............................................................GAGCCATGTTTCCCTTAGTGCGGGAGAAGCGCACATCAGTGACGTCACGGACGCGCCGCG............................................................ACCTCGCGTACGGTGGCTGGCGAGGCTCAGTACGGTGTGTGGAGCTGGAGCACCGTGAGG............................................................AAGAAGCGAGGTTCTTTTTAAGAGTTCAGCTGCGAGATATCAAACAAAGAATTACTCTGT............................................................ACAAAGCCAGAACACATATATCAAAGTAATCCTGAAGTATCAGAACAAAATAATAGGCTG............................................................TAACAGAGGAGGAAATGATTTTGAATAGCCTCTCTCTGTGTTACCATAATAAGCTAATCC..............-M--I--L--N--S--L--S--L--C--Y--H--N--K--L--I--TGGCCCCAATGGTTCGGGTAGGGACTCTTCCAATGAGGCTGCTGGCCCTGGATTATGGAGL--A--P--M--V--R--V--G--T--L--P--M--R--L--L--A--L--D--Y--G--CGGACATTGTTTACTGTGAGGAGCTGATCGACCTCAAGATGATTCAGTGCAAGAGAGTTGA--D--I--V--Y--C--E--E--L--I--D--L--K--M--I--Q--C--K--R--V--TTAATGAGGTGCTCAGCACAGTGGACTTTGTCGCCCCTGATGATCGAGTTGTCTTCCGCAV--N--E--V--L--S--T--V--D--F--V--A--P--D--D--R--V--V--F--R--CCTGTGAAAGAGAGCAGAACAGGGTGGTCTTCCAGATGGGGACTTCAGACGCAGAGCGAGT--C--E--R--E--Q--N--R--V--V--F--Q--M--G--T--S--D--A--E--R--CCCTTGCTGTGGCCAGGCTTGTAGAAAATGATGTGGCTGGTATTGATGTCAACATGGGCTA--L--A--V--A--R--L--V--E--N--D--V--A--G--I--D--V--N--M--G--GTCCAAAACAATATTCCACCAAGGGAGGAATGGGAGCTGCCCTGCTGTCAGACCCTGACAC--P--K--Q--Y--S--T--K--G--G--M--G--A--A--L--L--S--D--P--D--AGATTGAGAAGATCCTCAGCACTCTTGTTAAAGGGACACGCAGACCTGTGACCTGCAAGAK--I--E--K--I--L--S--T--L--V--K--G--T--R--R--P--V--T--C--K--TTCGCATCCTGCCATCGCTAGAAGATACCCTGAGCCTTGTGAAGCGGATAGAGAGGACTGI--R--I--L--P--S--L--E--D--T--L--S--L--V--K--R--I--E--R--T--DUS2L断裂点GCATTGCTGCCATCGCAGTTCATGGGAGGAAGCGGGAGGAGCGACCTCAGCATCCTGTCAG--I--A--A--I--A--V--H--G--R--K--R--E--E--R--P--Q--H--P--V--GCTGTGAAGTCATCAAAGCCATTGCTGATACCCTCTCCATTCCTGTCATAGCCAACGGAGS--C--E--V--I--K--A--I--A--D--T--L--S--I--P--V--I--A--N--G--GATCTCATGACCACATCCAACAGTATTCGGACATAGAGGACTTTCGACAAGCCACGGCAGG--S--H--D--H--I--Q--Q--Y--S--D--I--E--D--F--R--Q--A--T--A--CCTCTTCCGTGATGGTGGCCCGAGCAGCCATGTGGAACCCATCTATCTTCCTCAAGGAGGA--S--S--V--M--V--A--R--A--A--M--W--N--P--S--I--F--L--K--E--GTCTGCGGCCCCTGGAGGAGGTCATGCAGAAATACATCAGATACGCGGTGCAGTATGACAG--L--R--P--L--E--E--V--M--Q--K--Y--I--R--Y--A--V--Q--Y--D--ACCACTACACCAACACCAAGTACTGCTTGTGCCAGATGCTACGAGAACAGCTGGAGTCGCN--H--Y--T--N--T--K--Y--C--L--C--Q--M--L--R--E--Q--L--E--S--CCCAGGGAAGGTTGCTCCATGCTGCCCAGTCTTCCCGGGAAATTTGTGAGGCCTTTGGCCP--Q--G--R--L--L--H--A--A--Q--S--S--R--E--I--C--E--A--F--G--TTGGTGCCTTCTATGAGGAGACCACACAGGAGCTGGATGCCCAGCAGGCCAGGCTCTCAGL--G--A--F--Y--E--E--T--T--Q--E--L--D--A--Q--Q--A--R--L--S--CCAAGACTTCAGAGCAGACAGGGGAGCCAGCTGAAGATACCTCTGGTGTCATTAAGATGGA--K--T--S--E--Q--T--G--E--P--A--E--D--T--S--G--V--I--K--M--CTGTCAAGTTTGACCGGAGAGCATACCCAGCCCAGATCACCCCTAAGATGTGCCTACTAGA--V--K--F--D--R--R--A--Y--P--A--Q--I--T--P--K--M--C--L--L--AGTGGTGCCGGAGGGAGAAGTTGGCACAGCCTGTGTATGAAACGGTTCAACGCCCTCTAGE--W--C--R--R--E--K--L--A--Q--P--V--Y--E--T--V--Q--R--P--L--ATCGCCTGTTCTCCTCTATTGTCACCGTTGCTGAACAAAAGTATCAGTCTACCTTGTGGGD--R--L--F--S--S--I--V--T--V--A--E--Q--K--Y--Q--S--T--L--W--ACAAGTCCAAGAAACTGGCGGAGCAGGCTGCAGCCATCGTCTGTCTGCGGAGCCAGGGCCD--K--S--K--K--L--A--E--Q--A--A--A--I--V--C--L--R--S--Q--G--TCCCTGAGGGTCGGCTGGGTGAGGAGAGCCCTTCCTTGCACAAGCGAAAGAGGGAGGCTCL--P--E--G--R--L--G--E--E--S--P--S--L--H--K--R--K--R--E--A--CTGACCAAGACCCTGGGGGCCCCAGAGCTCAGGAGCTAGCACAACCTGGGGATCTGTGCAP--D--Q--D--P--G--G--P--R--A--Q--E--L--A--Q--P--G--D--L--C--AGAAGCCCTTTGTGGCCTTGGGAAGTGGTGAAGAAAGCCCCCTGGAAGGCTGGTGACTACK--K--P--F--V--A--L--G--S--G--E--E--S--P--L--E--G--W--＊-....TCTTCCTGCCTTAGTCACCCCTCCATGGGCCTGGTGCTAAGGTGGCTGTGGATGCCACAG............................................................CATGAACCAGATGCCGTTGAACAGTTTGCTGGTCTTGCCTGGCAGAAGTTAGATGTCCTG............................................................GCAGGGGCCATCAGCCTAGAGCATGGACCAGGGGCCGCCCAGGGGTGGATCCTGGCCCCT............................................................TTGGTGGATCTGAGTGACAGGGTCAAGTTCTCTTTGAAAACAGGAGCTTTTCAGGTGGTA............................................................ACTCCCCAACCTGACATTGGTACTGTGCAATAAAGACACCCCCTACCCTCACCCACGGCT............................................................GGCTGCTTCAGCCTTGGGCATCTTCATAAA..............................

转录物：DUS2L-001 ENST00000565263

蛋白质序列(SEQ ID NO.：128)，融合基因的一部分加阴影。

MILNSLSLCYHNKLILAPMVRVGTLPMRLLALDYGADIVYCEELIDLKMIQCKRVVNEVLSTVDFVAPDDRVVFRTCEREQNRVVFQMGTSDAERALAVARLVENDVAGIDVNMGCPKQYSTKGGMGAALLSDPDKIEKILSTLVKGTRRPVTCKIRILPSLEDTLSLVKRIERTGIAAIAVHGRKREERPQHPVSCEVIKAIADTLSIPVIANGGSHDHIQQYSDIEDFRQATAASSVMVARAAMWNPSIFLKEGLRPLEEVMQKYIRYAVQYDNHYTNTKYCLCQMLREQLESPQGRLLHAAQSSREICEAFGLGAFYEETTQELDAQQARLSAKTSEQTGEPAEDTSGVIKMAVKFDRRAYPAQITPKMCLLEWCRREKLAQPVYETVQRPLDRLFSSIVTVAEQKYQSTLWDKSKKLAEQAAAIVCLRSQGLPEGRLGEESPSLHKRKREAPDQDPGGPRAQELAQPGDLCKKPFVALGSGEESPLEGW

转录物：PSKH1-001 ENST00000291041

cDNA序列(SEQ ID NO.：129)，融合基因的一部分加阴影。

GAGAATGGCGGCGGCGGCGGCGGCGGCGGCGGCCGCTGCCATTGCCCGGAGATGGCCGGCPSKH1断裂点AGAGCCGCCGAGACGCCGAAGAGCCCGCCGCCCGCGCGAGGTGTAGACGGGGCACTGCCTTCAGAGCAGGTCCTGCCAGCCTCGCTGGAGAGGATGCCCTCGTGTCCGTGATGGGCTGTGGGACAAGCAAGGTCCTTCCCGAGCCACCCAAGGATGTCCAGCTGGATCTGGTCAAGAAGGTGGAGCCCTTCAGTGGCACTAAGAGTGACGTGTACAAGCACTTCATCACAGAGGTGGACAGTGTTGGCCCTGTCAAAGCCGGGTTCCCAGCAGCAAGTCAGTATGCACACCCCTGCCCCGGTCCCCCGACTGCTGGCCACACGGAGCCTCCCTCAGAACCACCACGCAGGGCCAGGGTAGCTAAGTACAGGGCCAAGTTTGACCCACGTGTTACAGCTAAGTATGACATCAAGGCCCTAATTGGCCGAGGCAGCTTCAGCCGAGTGGTACGTGTAGAGCACCGGGCAACCCGGCAGCCGTATGCCATCAAGATGATTGAGACCAAGTACCGGGAGGGGCGGGAGGTGTGTGAGTCGGAGCTGCGTGTGCTGCGTCGGGTGCGTCATGCCAACATCATCCAGCTGGTGGAGGTGTTCGAGACACAGGAGCGGGTGTACATGGTGATGGAGCTGGCCACTGGTGGAGAGCTCTTTGACCGCATCATTGCCAAGGGCTCCTTCACCGAGCGTGACGCCACGCGGGTGCTGCAGATGGTGCTGGATGGCGTCCGGTATCTGCATGCACTGGGCATCACACACCGAGACCTCAAACCTGAGAATCTGCTCTACTACCATCCGGGCACTGACTCCAAGATCATCATCACCGACTTCGGCCTGGCCAGTGCTCGCAAGAAGGGTGATGACTGCTTGATGAAGACCACCTGTGGCACGCCTGAGTACATTGCCCCAGAAGTCCTGGTCCGCAAGCCATACACCAACTCAGTGGACATGTGGGCGCTGGGCGTCATTGCCTACATCCTACTCAGTGGCACCATGCCGTTTGAGGATGACAACCGTACCCGGCTGTACCGGCAGATCCTCAGGGGCAAGTACAGTTACTCTGGGGAGCCCTGGCCTAGTGTGTCCAACCTGGCCAAGGACTTCATTGACCGCCTGCTGACAGTGGACCCTGGAGCCCGTATGACTGCACTGCAGGCCCTGAGGCACCCGTGGGTGGTGAGCATGGCTGCCTCTTCATCCATGAAGAACCTGCACCGCTCCATATCCCAGAACCTCCTTAAACGTGCCTCCTCGCGCTGCCAGAGCACCAAATCTGCCCAGTCCACGCGTTCCAGCCGCTCCACACGCTCCAATAAGTCACGCCGTGTGCGGGAACGGGAGCTGCGGGAGCTCAACCTGCGCTACCAGCAGCAATACAATGGCTGAGCCGCCTGGCTGTGCACACATGCAGCACGACCCAGCCTGGCCACACACTGTGGTGCCATCTGGGTCCGATGCCCTCTCTGGAGATAGGCCTATGTGGCCCACAGTAGGTGAAGAATGTCTGGCTCCAGCCCTTTCTCTGTGCCTTCAGCAGCCCCTGTCCTCACCATGGGCCTGGGCCAGGTGTGACAGAGTAGAGGTAGCACAGGGGGCTGTGACTCCCCCTGAACTGGGAGCCTGGCCTGGCACTGATACCCCTCTTGGTGGGCAGCTGCTCTGGTGGAGTTGGGAAGGGATAGGACCTGGCCTTCACTGTCTCCCTTGCCCTTTGACTTTTCCCCAATCAAAGGGAACTGCAGTGCTGGGTGGAGTGTCCTGTGGCCTCAGGACCCTTTGGGACAGTTACTTCTGGGACCCCCTTTCCTCCACAGAGCCCTTCTCCCTGGTTTCACACATTCCCATGCATCCTGATCCTTAAGATTATGCTCCAGTGGGAGACCCTGGTAGGCACAAAGCTTGTGCCTTGACTGGACCCGTAGCCCCTGGCTAGGTCGAAACAGCCCTCCACCTCCCAGCCAAGATCTGTCTTCCTTCATGGTGCCTCCAGGGAGCCTTCCTGGTCCCAGGACCTCTGGTGGAGGGCCATGGCGTGGACCTTCACCCTTCTGGACTGTGTGGCCATGCTGGTCATCGGCTTGCCCAGGCTCCAGCCTCTCCAGATTCTGAGGGGTCTCAGCCCACCGCCCTTGGTGCCTTCTTTGTAGAGCCCACCGCTACCTCCCTCTCCCCGTTGGATGTCCATTCCATTCCCCAGGTGCCTCCTTCCCAACTGGGGGTGGTTAAAGGGAGCCCCACTGCTGCTACCTGGGGAATGGGGCACCTGGGGGCCAAGGCAGAGGGAAGGGGGTCCTCCCGATTAGGGTCGAGTGTCAGCCTGGGTTCTATCCTTTGGTGCAGCCCCATTGCCTTTTCCCTTCAGGCTCTGTTGCTCCCTCCTCTGCAGCTGCACGAAGGCGCCATCTGGTGTCTGCATGGGTGTTGGCAGCCTGGGAGTGATCACTGCACGCCCATCGTGCACACCTGCCCATCGTGCACACCCACCCATGGTGCACACCTGTAGTCCTCCATGAGGACATGGGAAGGTAGGAGTTGCCGCCCTGGGGGAGGGTCCCGGGCTGCTCACCTCTCCCCTTCTGCTGAGCTTCTGCGCACCCCTCCCTGGAACTTAGCCATACTGTGTGACCTGCCTCTGAAACCAGGGTGCCAGGGGCACTGCCTTCTCACAGCTGGCCTTGCCCCGTCCACCCTGTGCTGCTTCCCTTCACAGCATTAACCTTCCAGTCTGGGTCCCACTGAGCCTCAAGCTGGAAGGAGCCCCTGCGGGAGGTGGGTGGGGTTGGGTGGCTGCTTTCCCAGAGGCCTGAGCCAGAACCATCCCCATTTCTTTTGTGGTATCTCCCCCTACCACAAACCAGGCTGGAACCCAAGCCCCTTCCTCCACAGCTGCCTTCAGTGGGTAGAATGGGGCCAGGGCCCAGCTTTGGCCTTAGCTTGACGGCAGGGCCCCTGCCATTGCAGGAGGGTTTGGTTCCCACTCAGCTTCTGCCGGTCGGCAGCCTGGGCCAGGCCCTTTTCCTGCATGTGCCACCTCCAGTGGGAAACAAAACTAAAGAGACCACTCTGTGCCAAGTCGACTATGCCTTAGACACATCCTCCTACCGTCCCCAATGCCCCCTGGGCAGGAGGCAGTGGAGAACCAAGCCCCATGGCCTCAGAATTTCCCCCCAGTTCCCCAAGTGTCTCTGGGGACCTGAAGCCCTGGGGCTTACGTTCTCTCTTGCCCAGGGTGGGCCTGGTCCTGAGGGCAGGACAGGGGGTTTGGAGATGTGGGCCTTTGATAGACCCACTTGGGCCTTCATGCCATGGCCTGTGGATGGAGAATGTGCAGTTATTTATTATGCGTATTCAGTTTGTAAACGTATCCTCTGTATTCAGTAAACAGGCTGCCTCTCCAGGGAGGGCTGCCATTCATTCCAACAGTTCTGGCTTCTTGCTGTAGGACCAAGGGGTTGCCCTGGAGGAGGGGTGGGGGCCCCGGCCTCGGCATGGCTACTCTAGGAAGAGCCACTGCTACTCAAGGAGTCACTCAGCCCCTTCTGTGCCAGAAGTCCAAGTAGGGAGTCGGACCCTCAACAGCCTCTTCTTTCTCCTGAGCCAGGAAGACAGACATGAATGCATGATGGGACAGGGCCTGGGTCTTTAATGGGTTGAGCTGGGGAGGGCCTGTGGTGAGCTCAGTTGTAGGCTATGACCTGGTT

转录物：PSKH1-001 ENST00000291041

cDNA序列

GAGAATGGCGGCGGCGGCGGCGGCGGCGGCGGCCGCTGCCATTGCCCGGAGATGGCCGGC............................................................

PSK1断裂点AGAGCCGCCGAGACGCCGAAGAGCCCGCCGCCCGCGCGAGGTGTAGACGGGGCACTGCCT............................................................TCAGAGCAGGTCCTGCCAGCCTCGCTGGAGAGGATGCCCTCGTGTCCGTGATGGGCTGTG..................................................-M--G--C--GGACAAGCAAGGTCCTTCCCGAGCCACCCAAGGATGTCCAGCTGGATCTGGTCAAGAAGGG--T--S--K--V--L--P--E--P--P--K--D--V--Q--L--D--L--V--K--K--TGGAGCCCTTCAGTGGCACTAAGAGTGACGTGTACAAGCACTTCATCACAGAGGTGGACAV--E--P--F--S--G--T--K--S--D--V--Y--K--H--F--I--T--E--V--D--GTGTTGGCCCTGTCAAAGCCGGGTTCCCAGCAGCAAGTCAGTATGCACACCCCTGCCCCGS--V--G--P--V--K--A--G--F--P--A--A--S--Q--Y--A--H--P--C--P--GTCCCCCGACTGCTGGCCACACGGAGCCTCCCTCAGAACCACCACGCAGGGCCAGGGTAGG--P--P--T--A--G--H--T--E--P--P--S--E--P--P--R--R--A--R--V--CTAAGTACAGGGCCAAGTTTGACCCACGTGTTACAGCTAAGTATGACATCAAGGCCCTAAA--K--Y--R--A--K--F--D--P--R--V--T--A--K--Y--D--I--K--A--L--TTGGCCGAGGCAGCTTCAGCCGAGTGGTACGTGTAGAGCACCGGGCAACCCGGCAGCCGTI--G--R--G--S--F--S--R--V--V--R--V--E--H--R--A--T--R--Q--P--ATGCCATCAAGATGATTGAGACCAAGTACCGGGAGGGGCGGGAGGTGTGTGAGTCGGAGCY--A--I--K--M--I--E--T--K--Y--R--E--G--R--E--V--C--E--S--E--TGCGTGTGCTGCGTCGGGTGCGTCATGCCAACATCATCCAGCTGGTGGAGGTGTTCGAGAL--R--V--L--R--R--V--R--H--A--N--I--I--Q--L--V--E--V--F--E--CACAGGAGCGGGTGTACATGGTGATGGAGCTGGCCACTGGTGGAGAGCTCTTTGACCGCAT--Q--E--R--V--Y--M--V--M--E--L--A--T--G--G--E--L--F--D--R--TCATTGCCAAGGGCTCCTTCACCGAGCGTGACGCCACGCGGGTGCTGCAGATGGTGCTGGI--I--A--K--G--S--F--T--E--R--D--A--T--R--V--L--Q--M--V--L--ATGGCGTCCGGTATCTGCATGCACTGGGCATCACACACCGAGACCTCAAACCTGAGAATCD--G--V--R--Y--L--H--A--L--G--I--T--H--R--D--L--K--P--E--N--TGCTCTACTACCATCCGGGCACTGACTCCAAGATCATCATCACCGACTTCGGCCTGGCCAL--L--Y--Y--H--P--G--T--D--S--K--I--I--I--T--D--F--G--L--A--GTGCTCGCAAGAAGGGTGATGACTGCTTGATGAAGACCACCTGTGGCACGCCTGAGTACAS--A--R--K--K--G--D--D--C--L--M--K--T--T--C--G--T--P--E--Y--TTGCCCCAGAAGTCCTGGTCCGCAAGCCATACACCAACTCAGTGGACATGTGGGCGCTGGI--A--P--E--V--L--V--R--K--P--Y--T--N--S--V--D--M--W--A--L--GCGTCATTGCCTACATCCTACTCAGTGGCACCATGCCGTTTGAGGATGACAACCGTACCCG--V--I--A--Y--I--L--L--S--G--T--M--P--F--E--D--D--N--R--T--GGCTGTACCGGCAGATCCTCAGGGGCAAGTACAGTTACTCTGGGGAGCCCTGGCCTAGTGR--L--Y--R--Q--I--L--R--G--K--Y--S--Y--S--G--E--P--W--P--S--TGTCCAACCTGGCCAAGGACTTCATTGACCGCCTGCTGACAGTGGACCCTGGAGCCCGTAV--S--N--L--A--K--D--F--I--D--R--L--L--T--V--D--P--G--A--R--TGACTGCACTGCAGGCCCTGAGGCACCCGTGGGTGGTGAGCATGGCTGCCTCTTCATCCAM--T--A--L--Q--A--L--R--H--P--W--V--V--S--M--A--A--S--S--S--TGAAGAACCTGCACCGCTCCATATCCCAGAACCTCCTTAAACGTGCCTCCTCGCGCTGCCM--K--N--L--H--R--S--I--S--Q--N--L--L--K--R--A--S--S--R--C--AGAGCACCAAATCTGCCCAGTCCACGCGTTCCAGCCGCTCCACACGCTCCAATAAGTCACQ--S--T--K--S--A--Q--S--T--R--S--S--R--S--T--R--S--N--K--S--GCCGTGTGCGGGAACGGGAGCTGCGGGAGCTCAACCTGCGCTACCAGCAGCAATACAATGR--R--V--R--E--R--E--L--R--E--L--N--L--R--Y--Q--Q--Q--Y--N--GCTGAGCCGCCTGGCTGTGCACACATGCAGCACGACCCAGCCTGGCCACACACTGTGGTGG--＊-.......................................................CCATCTGGGTCCGATGCCCTCTCTGGAGATAGGCCTATGTGGCCCACAGTAGGTGAAGAA............................................................TGTCTGGCTCCAGCCCTTTCTCTGTGCCTTCAGCAGCCCCTGTCCTCACCATGGGCCTGG............................................................GCCAGGTGTGACAGAGTAGAGGTAGCACAGGGGGCTGTGACTCCCCCTGAACTGGGAGCC............................................................TGGCCTGGCACTGATACCCCTCTTGGTGGGCAGCTGCTCTGGTGGAGTTGGGAAGGGATA............................................................GGACCTGGCCTTCACTGTCTCCCTTGCCCTTTGACTTTTCCCCAATCAAAGGGAACTGCA............................................................GTGCTGGGTGGAGTGTCCTGTGGCCTCAGGACCCTTTGGGACAGTTACTTCTGGGACCCC............................................................CTTTCCTCCACAGAGCCCTTCTCCCTGGTTTCACACATTCCCATGCATCCTGATCCTTAA............................................................GATTATGCTCCAGTGGGAGACCCTGGTAGGCACAAAGCTTGTGCCTTGACTGGACCCGTA............................................................GCCCCTGGCTAGGTCGAAACAGCCCTCCACCTCCCAGCCAAGATCTGTCTTCCTTCATGG............................................................TGCCTCCAGGGAGCCTTCCTGGTCCCAGGACCTCTGGTGGAGGGCCATGGCGTGGACCTT............................................................CACCCTTCTGGACTGTGTGGCCATGCTGGTCATCGGCTTGCCCAGGCTCCAGCCTCTCCA............................................................GATTCTGAGGGGTCTCAGCCCACCGCCCTTGGTGCCTTCTTTGTAGAGCCCACCGCTACC............................................................TCCCTCTCCCCGTTGGATGTCCATTCCATTCCCCAGGTGCCTCCTTCCCAACTGGGGGTG............................................................GTTAAAGGGAGCCCCACTGCTGCTACCTGGGGAATGGGGCACCTGGGGGCCAAGGCAGAG............................................................GGAAGGGGGTCCTCCCGATTAGGGTCGAGTGTCAGCCTGGGTTCTATCCTTTGGTGCAGC............................................................CCCATTGCCTTTTCCCTTCAGGCTCTGTTGCTCCCTCCTCTGCAGCTGCACGAAGGCGCC............................................................ATCTGGTGTCTGCATGGGTGTTGGCAGCCTGGGAGTGATCACTGCACGCCCATCGTGCAC............................................................ACCTGCCCATCGTGCACACCCACCCATGGTGCACACCTGTAGTCCTCCATGAGGACATGG............................................................GAAGGTAGGAGTTGCCGCCCTGGGGGAGGGTCCCGGGCTGCTCACCTCTCCCCTTCTGCT............................................................GAGCTTCTGCGCACCCCTCCCTGGAACTTAGCCATACTGTGTGACCTGCCTCTGAAACCA............................................................GGGTGCCAGGGGCACTGCCTTCTCACAGCTGGCCTTGCCCCGTCCACCCTGTGCTGCTTC............................................................CCTTCACAGCATTAACCTTCCAGTCTGGGTCCCACTGAGCCTCAAGCTGGAAGGAGCCCC............................................................TGCGGGAGGTGGGTGGGGTTGGGTGGCTGCTTTCCCAGAGGCCTGAGCCAGAACCATCCC............................................................CATTTCTTTTGTGGTATCTCCCCCTACCACAAACCAGGCTGGAACCCAAGCCCCTTCCTC............................................................CACAGCTGCCTTCAGTGGGTAGAATGGGGCCAGGGCCCAGCTTTGGCCTTAGCTTGACGG............................................................CAGGGCCCCTGCCATTGCAGGAGGGTTTGGTTCCCACTCAGCTTCTGCCGGTCGGCAGCC............................................................TGGGCCAGGCCCTTTTCCTGCATGTGCCACCTCCAGTGGGAAACAAAACTAAAGAGACCA............................................................CTCTGTGCCAAGTCGACTATGCCTTAGACACATCCTCCTACCGTCCCCAATGCCCCCTGG............................................................GCAGGAGGCAGTGGAGAACCAAGCCCCATGGCCTCAGAATTTCCCCCCAGTTCCCCAAGT............................................................GTCTCTGGGGACCTGAAGCCCTGGGGCTTACGTTCTCTCTTGCCCAGGGTGGGCCTGGTC............................................................CTGAGGGCAGGACAGGGGGTTTGGAGATGTGGGCCTTTGATAGACCCACTTGGGCCTTCA.............................................................TGCCATGGCCTGTGGATGGAGAATGTGCAGTTATTTATTATGCGTATTCAGTTTGTAAAC............................................................GTATCCTCTGTATTCAGTAAACAGGCTGCCTCTCCAGGGAGGGCTGCCATTCATTCCAAC............................................................AGTTCTGGCTTCTTGCTGTAGGACCAAGGGGTTGCCCTGGAGGAGGGGTGGGGGCCCCGG............................................................CCTCGGCATGGCTACTCTAGGAAGAGCCACTGCTACTCAAGGAGTCACTCAGCCCCTTCT............................................................GTGCCAGAAGTCCAAGTAGGGAGTCGGACCCTCAACAGCCTCTTCTTTCTCCTGAGCCAG............................................................GAAGACAGACATGAATGCATGATGGGACAGGGCCTGGGTCTTTAATGGGTTGAGCTGGGG............................................................

AGGGCCTGTGGTGAGCTCAGTTGTAGGCTATGACCTGGTT........................................

转录物：PSKH1-001 ENST00000291041

蛋白质序列(SEQ ID NO.：130)

MGCGTSKVLPEPPKDVQLDLVKKVEPFSGTKSDVYKHFITEVDSVGPVKAGFPAASQYAHPCPGPPTAGHTEPPSEPPRRARVAKYRAKFDPRVTAKYDIKALIGRGSFSRVVRVEHRATRQPYAIKMIETKYREGREVCESELRVLRRVRHANIIQLVEVFETQERVYMVMELATGGELFDRIIAKGSFTERDATRVLQMVLDGVRYLHALGITHRDLKPENLLYYHPGTDSKIIITDFGLASARKKGDDCLMKTTCGTPEYIAPEVLVRKPYTNSVDMWALGVIAYILLSGTMPFEDDNRTRLYRQILRGKYSYSGEPWPSVSNLAKDFIDRLLTVDPGARMTALQALRHPWVVSMAASSSMKNLHRSISQNLLKRASSRCQSTKSAQSTRSSRSTRSNKSRRVRERELRELNLRYQQQYNG

DUS2L-PSKH1融合序列外显子10到外显子2UTR

cDNA序列(SEQ ID NO.：131)。PSKH1加下划线。

ATGATTTTGAATAGCCTCTCTCTGTGTTACCATAATAAGCTAATCCTGGCCCCAATGGTTCGGGTAGGGACTCTTCCAATGAGGCTGCTGGCCCTGGATTATGGAGCGGACATTGTTTACTGTGAGGAGCTGATCGACCTCAAGATGATTCAGTGCAAGAGAGTTGTTAATGAGGTGCTCAGCACAGTGGACTTTGTCGCCCCTGATGATCGAGTTGTCTTCCGCACCTGTGAAAGAGAGCAGAACAGGGTGGTCTTCCAGATGGGGACTTCAGACGCAGAGCGAGCCCTTGCTGTGGCCAGGCTTGTAGAAAATGATGTGGCTGGTATTGATGTCAACATGGGCTGTCCAAAACAATATTCCACCAAGGGAGGAATGGGAGCTGCCCTGCTGTCAGACCCTGACAAGATTGAGAAGATCCTCAGCACTCTTGTTAAAGGGACACGCAGACCTGTGACCTGCAAGATTCGCATCCTGCCATCGCTAGAAGATACCCTGAGCCTTGTGAAGCGGATAGAGAGGACTGGCATTGCTGCCATCGCAGTTCATGGGAGGTGTAGACGGGGCACTGCCTTCAGAGCAGGTCCTGCCAGCCTCGCTGGAGAGGATGCCCTCGTGTCCGTGATGGGCTGTGGGACAAGCAAGGTCCTTCCCGAGCCACCCAAGGATGTCCAGCTGGATCTGGTCAAGAAGGTGGAGCCCTTCAGTGGCACTAAGAGTGACGTGTACAAGCACTTCATCACAGAGGTGGACAGTGTTGGCCCTGTCAAAGCCGGGTTCCCAGCAGCAAGTCAGTATGCACACCCCTGCCCCGGTCCCCCGACTGCTGGCCACACGGAGCCTCCCTCAGAACCACCACGCAGGGCCAGGGTAGCTAAGTACAGGGCCAAGTTTGACCCACGTGTTACAGCTAAGTATGACATCAAGGCCCTAATTGGCCGAGGCAGCTTCAGCCGAGTGGTACGTGTAGAGCACCGGGCAACCCGGCAGCCGTATGCCATCAAGATGATTGAGACCAAGTACCGGGAGGGGCGGGAGGTGTGTGAGTCGGAGCTGCGTGTGCTGCGTCGGGTGCGTCATGCCAACATCATCCAGCTGGTGGAGGTGTTCGAGACACAGGAGCGGGTGTACATGGTGATGGAGCTGGCCACTGGTGGAGAGCTCTTTGACCGCATCATTGCCAAGGGCTCCTTCACCGAGCGTGACGCCACGCGGGTGCTGCAGATGGTGCTGGATGGCGTCCGGTATCTGCATGCACTGGGCATCACACACCGAGACCTCAAACCTGAGAATCTGCTCTACTACCATCCGGGCACTGACTCCAAGATCATCATCACCGACTTCGGCCTGGCCAGTGCTCGCAAGAAGGGTGATGACTGCTTGATGAAGACCACCTGTGGCACGCCTGAGTACATTGCCCCAGAAGTCCTGGTCCGCAAGCCATACACCAACTCAGTGGACATGTGGGCGCTGGGCGTCATTGCCTACATCCTACTCAGTGGCACCATGCCGTTTGAGGATGACAACCGTACCCGGCTGTACCGGCAGATCCTCAGGGGCAAGTACAGTTACTCTGGGGAGCCCTGGCCTAGTGTGTCCAACCTGGCCAAGGACTTCATTGACCGCCTGCTGACAGTGGACCCTGGAGCCCGTATGACTGCACTGCAGGCCCTGAGGCACCCGTGGGTGGTGAGCATGGCTGCCTCTTCATCCATGAAGAACCTGCACCGCTCCATATCCCAGAACCTCCTTAAACGTGCCTCCTCGCGCTGCCAGAGCACCAAATCTGCCCAGTCCACGCGTTCCAGCCGCTCCACACGCTCCAATAAGTCACGCCGTGTGCGGGAACGGGAGCTGCGGGAGCTCAACCTGCGCTACCAGCAGCAATACAATGGCTGA

DUS2L-PSKH1融合序列外显子10到外显子2UTR

蛋白质序列(SEQ ID NO.：132)，PSKH1加下划线。

MILNSLSLCYHNKLILAPMVRVGTLPMRLLALDYGADIVYCEELIDLKMIQCKRVVNEVLSTVDFVAPDDRVVFRTCEREQNRVVFQMGTSDAERALAVARLVENDVAGIDVNMGCPKQYSTKGGMGAALLSDPDKIEKILSTLVKGTRRPVTCKIRILPSLEDTLSLVKRIERTGIAAIAVHGRCRRGTAFRAGPASLAGEDALVSVMGCGTSKVLPEPPKDVQLDLVKKVEPFSGTKSDVYKHFITEVDSVGPVKAGFPAASQYAHPCPGPPTAGHTEPPSEPPRRARVAKYRAKFDPRVTAKYDIKALIGRGSFSRVVRVEHRATRQPYAIKMIETKYREGREVCESELRVLRRVRHANIIQLVEVFETQERVYMVMELATGGELFDRIIAKGSFTERDATRVLQMVLDGVRYLHALGITHRDLKPENLLYYHPGTDSKIIITDFGLASARKKGDDCLMKTTCGTPEYIAPEVLVRKPYTNSVDMWALGVIAYILLSGTMPFEDDNRTRLYRQILRGKYSYSGEPWPSVSNLAKDFIDRLLTVDPGARMTALQALRHPWVVSMAASSSMKNLHRSISQNLLKRASSRCQSTKSAQSTRSSRSTRSNKSRRVRERELRELNLRYQQQYNG

蛋白质结构域

无跨膜结构域。

DUS2L-PSKH1融合序列外显子3到外显子2UTR

cDNA序列(SEQ ID NO.：133)，PSKH1加下划线。

ATGATTTTGAATAGCCTCTCTCTGTGTTACCATAATAAGCTAATCCTGGCCCCAATGGTTCGGGTAGGGACTCTTCCAATGAGGCTGCTGGCCCTGGATTATGGAGCGGACATTGTTTACTGTGAGGAGCTGATCGACCTCAAGATGATTCAGTGCAAGAGAGTTGTTAATGAGGTGCTCAGCACAGTGGACTTTGTCGCCCCTGATGATCGAGTTGTCTTCCGCACCTGTGAAAGAGAGCAGAACAGGGTGGTCTTCCAGATGGTGTAGACGGGGCACTGCCTTCAGAGCAGGTCCTGCCAGCCTCGCTGGAGAGGATGCCCTCGTGTCCGTGATGGGCTGTGGGACAAGCAAGGTCCTTCCCGAGCCACCCAAGGATGTCCAGCTGGATCTGGTCAAGAAGGTGGAGCCCTTCAGTGGCACTAAGAGTGACGTGTACAAGCACTTCATCACAGAGGTGGACAGTGTTGGCCCTGTCAAAGCCGGGTTCCCAGCAGCAAGTCAGTATGCACACCCCTGCCCCGGTCCCCCGACTGCTGGCCACACGGAGCCTCCCTCAGAACCACCACGCAGGGCCAGGGTAGCTAAGTACAGGGCCAAGTTTGACCCACGTGTTACAGCTAAGTATGACATCAAGGCCCTAATTGGCCGAGGCAGCTTCAGCCGAGTGGTACGTGTAGAGCACCGGGCAACCCGGCAGCCGTATGCCATCAAGATGATTGAGACCAAGTACCGGGAGGGGCGGGAGGTGTGTGAGTCGGAGCTGCGTGTGCTGCGTCGGGTGCGTCATGCCAACATCATCCAGCTGGTGGAGGTGTTCGAGACACAGGAGCGGGTGTACATGGTGATGGAGCTGGCCACTGGTGGAGAGCTCTTTGACCGCATCATTGCCAAGGGCTCCTTCACCGAGCGTGACGCCACGCGGGTGCTGCAGATGGTGCTGGATGGCGTCCGGTATCTGCATGCACTGGGCATCACACACCGAGACCTCAAACCTGAGAATCTGCTCTACTACCATCCGGGCACTGACTCCAAGATCATCATCACCGACTTCGGCCTGGCCAGTGCTCGCAAGAAGGGTGATGACTGCTTGATGAAGACCACCTGTGGCACGCCTGAGTACATTGCCCCAGAAGTCCTGGTCCGCAAGCCATACACCAACTCAGTGGACATGTGGGCGCTGGGCGTCATTGCCTACATCCTACTCAGTGGCACCATGCCGTTTGAGGATGACAACCGTACCCGGCTGTACCGGCAGATCCTCAGGGGCAAGTACAGTTACTCTGGGGAGCCCTGGCCTAGTGTGTCCAACCTGGCCAAGGACTTCATTGACCGCCTGCTGACAGTGGACCCTGGAGCCCGTATGACTGCACTGCAGGCCCTGAGGCACCCGTGGGTGGTGAGCATGGCTGCCTCTTCATCCATGAAGAACCTGCACCGCTCCATATCCCAGAACCTCCTTAAACGTGCCTCCTCGCGCTGCCAGAGCACCAAATCTGCCCAGTCCACGCGTTCCAGCCGCTCCACACGCTCCAATAAGTCACGCCGTGTGCGGGAACGGGAGCTGCGGGAGCTCAACCTGCGCTACCAGCAGCAATACAATGGCTGA

蛋白质序列(SEQ ID NO.：134)

M I L N S L S L C Y H N K L I L A P M V R V G T L P M R L L A L D Y G A D I V Y C E E L I D L K M I Q C K R V V N E V L S T V D F V A P D D R V V F R T C E R E Q N R V V F Q M V终止密码子

蛋白质结构域

无结构域。

这一研究中的融合基因中的每一种的mRNA融合点的基因组位置呈现于表4中。

表4：对应于这一研究中的五种复现的融合基因的mRNA融合点的基因组位置。

实验程序

实施例1

在胃癌(GC)中通过全基因组DNA-PET测序所鉴定的结构变异(SV)

通过DNA-PET由包括十个配对正常样品在内的14个原发性胃肿瘤和胃癌细胞系TMK1对基因组DNA进行测序。在基因组的约2倍碱基对覆盖度和200倍物理覆盖度的情况下，1,945个体细胞SV被鉴定(图1A-C)，其中在生殖系SV与体细胞SV之间的SV分布方面有显著性差异(P＝2.2×10-16，χ2检验，图1D)，这表明了不同的突变机制或选择机制。与已经针对SV经过详细分析的其它癌症类型相比，GC显示出比前列腺癌高的比例的串联重复以及比胰腺癌多的倒位(图1E)，这表明每一种癌症类型带有它自身的重排模式。

实施例2

GC中体细胞SV的特征提供了对重排机制的深入了解

生殖系断裂点和体细胞断裂点这两者在重复区(P＜10-5，图2A)和开放染色质结构域(P＜10-21，χ2检验；图2B)中均是富集的，而只有体细胞断裂点在基因中是富集的(P＜10-15，χ2检验)而生殖系断裂点在基因中是贫化的(P＜10-15，χ2检验，图2C)。这可以反映出对生殖系中基因破坏性重排的负选择，以及与此相反，改变基因结构的体细胞重排的促癌潜能。这些观测结果表明基因组的转录活性部分更容易发生GC中的体细胞重排。

观测到验证的融合点中有2％具有特征模式，其中插入序列源自于接近融合点的基因座(图2D)。这些情况中的三种情况产生融合基因(ARHGAP26-CLDN18、LIFR-GATA4以及MLL3-PRKAG2)。在相同的基因座处观测到这些重排特征可以表明可能是转录偶联的特定机制。

通过搜索SV与通过配对末端标签(ChIA-PET)测序数据进行的染色质相互作用分析之间的重叠来测试体细胞SV的重排伴侣位点倾向于在核内在空间上接近的可能性。作为概念验证，分别对乳腺癌和慢性骨髓性白血病(CML)的细胞系衍生的(MCF-7和K562)染色质相互作用和肿瘤衍生的体细胞SV进行比较并且观测到显著的重叠。

为了研究所述研究的生殖系SV和体细胞SV的两个伴侣位点是否对于核中彼此接近的基因座是富集的，测试SV与通过对乳腺癌细胞系MCF-7进行ChIA-PET测序所获得的全基因组染色质相互作用数据集的重叠，基本原理是一些染色质相互作用在不同的细胞类型间可能是保守的(图3)。

由于胃细胞系的ChIA-PET数据是不可获得的，因此使用来自乳腺癌细胞系MCF-7的数据，假设一些染色质相互作用在不同的组织间是稳定的。15例GC的1,667个生殖系SV和1,945个体细胞SV与MCF-7的87,253个染色质相互作用重叠，并且61个(3.7％)生殖系SV和19个(1％)体细胞SV重叠被发现，多于随机期望(P＜0.001，基于置换，图2E)，这表明染色质相互作用促成生殖系GC SV和体细胞GC SV的形状。

实施例3

GC中的重排热点

用严格的搜索标准鉴定出14个复现的体细胞SV并且用宽松的搜索标准鉴定出另外的173个SV。复现的重排簇集在七个热点中，FHIT、WWOX、MACROD2、PARK2以及PDE4D处于已知的脆性位点处并且NAALADL2和CCSER1(FAM190A)处于新的热点处。所有反复重排的基因对于癌症具有相关性。有趣的是，具有七个重排热点中最高数目的体细胞SV(分别是12个和11个)的肿瘤17和TMK1也在具有最大数目的体细胞SV的GC的范围内(图1B)，这表明这些重排热点使重排在具有基因组不稳定性的肿瘤中快速积聚或热点基因的破坏在机制上导致基因组不稳定性。我们还发现MYC基因座处复现的串联重复和ATM基因座处复现的缺失，它们是癌症生物学中的两个关键的基因，这进一步证实复现的体细胞SV可能与癌症生物学具有相关性。

实施例4

GC中复现的融合基因

使用15例GC的体细胞SV，预测了136个融合基因，通过基因组PCR和Sanger测序验证了它们中的97个，并且在对应的肿瘤中通过逆转录聚合酶链反应(RT-PCR)确认了44个的表达。十五个表达的融合基因在框内。由于组成型活性致癌融合基因通常是框内融合，因此将重点放在这一类别上以通过RT-PCR对一组另外的85个GC肿瘤/正常对进行筛选并且发现一例另外的肿瘤中的SNX2-PRDM6、两例另外的肿瘤中的CLDN18-ARHGAP26和DUS2L-PSKH1、三例另外的肿瘤中的MLL3-PRKAG2、以及四例另外的肿瘤中的CLEC16A-EMP2，这给出了2％-5％的总频率(图4A-C和图5至8)。进行统计模拟以评估这样的复现率的显著性。使用随机化框架来评估融合基因的观测频率的统计显著性。限定了15个SV谱，所述SV谱模拟通过DNA-PET测序的样品中所鉴定出的SV的类型、数目以及大小分布。使用SV谱模拟15例GC测试数据集的SV并且对85个GC样品的模拟验证集评估复现的SV的频率。假设N＝10,000是随机模拟的次数并且es是测试数据集中存在的SV s在验证数据集中的频率，我们将P值(es)定义为p/N，其中p是模拟次数，其中在频率ek≥es的情况下，SV k存在。

已发现它们不是随机期望的(P＝0.00472)，两个重新发现率(P＝9.98×10-5)和三个重新发现率(P＝1.11×10-5)具有更高的显著性水平。这表明这些融合基因不是随机产生的，而最有可能是通过靶向重排机制产生的和/或所得的融合基因提供了选择优势。

实施例5

融合基因对细胞增殖的作用

为了探究融合基因是否提供选择优势，使用生物信息学和细胞生物学方法。经由计算机模拟，使用网络融合中心分析来预测驱动融合基因。在这一研究的136个融合基因中，38个被分类为潜在的驱动融合基因，包括CLDN18-ARHGAP26、SNX2-PRDM6以及MLL3-PRKAG2(表5)。由于鉴定出TMK1中的MLL3-PRKAG2和DUS2L-PSKH1，因此进行对MLL3-PRKAG2和DUS2L-PSKH1转录物的融合点具有特异性的短干扰RNA(siRNA)实验。在使MLL3-PRKAG2沉默时，观测到细胞增殖减少了63％(图5)，但是对于DUS2L-PSKH1基因敲低的细胞观测到非决定性的变化(图6)。因此，基于GC中4％的频率、预测的驱动特性、以及促增殖作用的实验证据，表明了MLL3-PRKAG2对于GC具有促致癌性。

表5：驱动融合基因预测。

为了研究CLDN18-ARHGAP26、CLEC16A-EMP2以及SNX2-PRDM6在GC中的功能，在GC细胞系HGC27中产生稳定的过表达，并且对于CLDN18-ARHGAP26(增加85％，P＝4.2×10-6，T检验；图4G、H)和CLEC16A-EMP2(增加50％，P＝7.9×10-5，T检验；图7)显示细胞增殖率增加，但是对于SNXX2-PRDM6(降低46％，P＝9×10-6，T检验；图8)显示增殖率降低。

由CLDN18-ARHGAP26的过表达所引起的高增殖率表明这种融合基因的致癌作用，并且对它的功能进行进一步研究。CLDN18-ARHGAP26编码75.6kDa的融合蛋白，所述融合蛋白含有CLDN18的所有四个跨膜结构域以及ARHGAP26的RhoGAP结构域，但是缺少CLDN18的C末端PDZ结合基序(图4E)，所述基序介导与闭锁小带支架蛋白(ZO-1、ZO-2、ZO-3)的相互作用。CLDN18属于密封蛋白(claudin)蛋白质家族，所述密封蛋白是紧密连接(TJ)的组分。ARHGAP26(GRAF1)与粘着斑激酶(FAK)结合，所述粘着斑激酶调节细胞生长、增殖、存活、粘附以及迁移。ARHGAP26还可以负调节小GTP结合蛋白RhoA，所述RhoA在RAS介导的恶性转化中的生长促进作用是公知的。

在带有CLDN18-ARHGAP26融合体的所有三例肿瘤中，转录物是通过CLDN18的外显子5的编码区内的隐蔽剪接位点和ARHGAP26的外显子12的常规剪接位点接合的(图4D)。在基因组水平上，我们通过荧光原位杂交(FISH，图4B)和PCR/Sanger测序(图4C)来验证肿瘤136中的CLDN18-ARHGAP26重排。使用定制的捕获测序，肿瘤07K611T中的基因组融合点被鉴定为CLDN18下游2,342bp(图4A)，这表明隐蔽剪接位点甚至在断裂点处于CLDN18基因下游时仍介导了框内融合。

实施例6

表达CLDN18-ARHGAP26的患者样品和MDCK细胞中的上皮表型丧失

对于肿瘤样品中的免疫荧光，使用CLDN18抗体和ARHGAP26抗体，所述抗体均能够检测CLDN18-ARHGAP26融合蛋白(图9A)。在正常胃样品和表达融合体的肿瘤胃样品中，在内衬胃小凹区域的上皮细胞的质膜中以及在胃腺的基部处观测到CLDN18蛋白(图10A)。先前在HeLa细胞中的多形管状和点状膜结构上检测到ARHGAP26。在这一研究中，在正常胃中在整个胃粘膜上的囊泡结构上观测到ARHGAP26(图10B)。与分化良好的正常胃上皮相反，表达CLDN18-ARHGAP26的胃肿瘤样品显示出无组织的结构。虽然上皮标志物CDH1(E-钙粘蛋白)在对照组织中的上皮细胞的膜处表达，但是它在肿瘤样品中显示出细胞内点状分布或不存在于细胞中(图10A、B)。CLDN18-ARHGAP26存在于肿瘤样品中的E-钙粘蛋白阳性细胞和E-钙粘蛋白阴性细胞这两者中，E-钙粘蛋白阴性细胞显示出间充质特征(图10A、B)，这与改变细胞-细胞粘附从而使得上皮表型丧失的融合蛋白相一致。总体而言，融合基因与对胃上皮完整性的毁灭性损伤相关。

为了了解融合蛋白对在肿瘤样品中所观测到的上皮完整性变化所起的作用，使CLDN18、ARHGAP26或CLDN18-ARHGAP26在未转化的上皮MDCK细胞中稳定表达。通过相衬观测到，对照细胞培养物和MDCK-CLDN18细胞培养物显示出特征性上皮形态(图10C)。虽然MDCK-ARHGAP26细胞略微更加呈梭形并且具有短的突起，但是MDCK-CLDN18-ARHGAP26细胞表现出上皮表型的显著丧失和长的突起，这指示了上皮-间充质转化(EMT)(图10C)。细胞聚集测定表明MDCK-CLDN18-ARHGAP26细胞的聚集不佳(图10D)，这表明了的确，融合基因引起了所观测到的上皮变化。还用HGC27细胞获得了相似的结果。

为了评价由CLDN18-ARHGAP26所诱导的表型变化是否反映了EMT，使用定量PCR(qPCR)来研究各种EMT标志物的表达。虽然在表达ARHGAP26和CLDN18-ARHGAP26的细胞中E-钙粘蛋白mRNA水平保持不变，但是主EMT调节因子SNAI1(Snail)和SNAI2(Slug)的mRNA减少(图10E)。相对于对照MDCK细胞，MDCK-CLDN18-ARHGAP26显示出MMP2(基质金属蛋白酶2)mRNA水平提高5.2倍(图10E)，这表明融合基因诱导细胞外基质(ECM)粘附发生变化。

有趣的是，在CLDN18，而不是融合蛋白表达的情况下，在转化的HeLa细胞中观测到N-钙粘蛋白和β-连环蛋白表达下调(图10F和9B-D)，这分别表明CLDN18可以逆转在EMT期间所观测到的从上皮钙粘蛋白向间充质钙粘蛋白的转换和抑制Wnt信号转导。Wnt信号转导在许多癌症中是过度激活的，并且N-钙粘蛋白表达激活AKT信号转导，所述AKT信号转导在许多肿瘤中是超激活的。的确，与对照相比，在过表达CLDN18的HeLa细胞中，pAKT蛋白质水平以及下游效应子p21激活激酶(PAK)的蛋白质水平降低(图10G)。这表明了CLDN18作为肿瘤抑制因子的作用，所述作用是通过阻抑AKT信号转导和Wnt信号转导而实现的。

实施例7

CLDN18-ARHGAP26减少细胞-细胞外基质粘附

ARHGAP26可能经由它与FAK的相互作用以及它对RhoA的调节来影响细胞与ECM的粘附，这进而调节粘着斑。粘附测定显示对照细胞和MDCK-CLDN18细胞在未处理的表面或ECM包被的表面上附着和扩散。不仅表达ARHGAP26的细胞，而且甚至更是这样，表达CLDN18-ARHGAP26的细胞不太高效地附着到表面(图11A)，但是确实附着的细胞在接种之后两小时之时仍变圆(图11A)，这证实融合基因增强了ARHGAP26的作用并且强烈地影响了细胞-ECM粘附特性。存在于融合蛋白中的ARHGAP26的SH3结构域与粘着斑分子FAK和PXN(桩蛋白)结合。因此研究CLDN18-ARHGAP26的表达对粘着斑蛋白的影响。pFAK和桩蛋白在MDCK-CLDN18和MDCK-ARHGAP26的游离边缘处被检测到，但是不存在于MDCK-CLDN18-ARHGAP26细胞中的这一位置处(图11B、C)。对与ARHGAP26或粘着斑复合物蛋白质相关的粘附分子进行的蛋白质印迹分析显示MDCK-ARHGAP26中的β-Pix、LIMS1(PINCH1)以及桩蛋白的水平降低，并且在MDCK-CLDN18-ARHGAP26细胞中这样的情况更加显著(图11D)。

在反映出蛋白质水平的变化的情况下，通过qPCR在MDCK-ARHGAP26细胞和MDCK-CLDN18-ARHGAP26细胞中观测到PINCH1和桩蛋白转录物的水平显著降低(图11E)。还观测到在表达融合蛋白的细胞中踝蛋白-1、踝蛋白-2以及SDC1(多配体蛋白聚糖1)mRNA水平的大幅降低，进一步指示了CLDN18-ARHGAP26细胞的不佳ECM粘附(图11E)。

除了粘着斑的细胞质组分之外，还分析了直接与ECM组分相互作用的整合素家族成员的蛋白质水平。与MDCK-CLDN18-ARHGAP26细胞在胶原包被的表面上不佳的附着(图11A)相一致，这些细胞表达降低水平的ITGB1(整合素β1)和ITGB5(整合素β5)(图11F)。的确，在MDCK-CLDN18-ARHGAP26细胞中观测到许多整合素亚基，特别是整合素α5的转录物水平降低(图11G)。综上所述，ARHGAP26的过表达以及甚至更是这样的融合基因的过表达破坏ECM粘附。

实施例8

由CLDN18促进的上皮屏障被CLDN18-ARHGAP26损害

密封蛋白是细胞旁上皮屏障的关键组分，所述屏障包括保护胃组织不受胃腔中的酸性环境损伤。这种屏障功能的改变可能导致慢性炎症，即产生GC的一种风险因素。因此，研究了CLDN18和融合蛋白在屏障形成中的作用。并非内源性表达在MDCK细胞中的CLDN18的过表达使得MDCK-CLDN18单层的跨上皮电阻(TER)显著提高。虽然ARHGAP26对TER没有显著的影响，但是CLDN18-ARHGAP26完全消除了TER(图11H)。这一效应并非单纯反映了C末端PDZ结合基序的缺乏，这是因为其中这一C末端PDZ结合基序失活的CLDN18构建体(CLDN18ΔP)仍提高了MDCK细胞的基线TER。汇合的表达CLDN18-ARHGAP26融合体的MDCK细胞的相衬图像显示这些细胞不能形成紧密的单层，从而解释了TER的丧失(图11I)。虽然TJP1(ZO-1)(使密封蛋白与肌动蛋白细胞骨架直接连接的一种支架蛋白)的表达水平和亚细胞定位在表达融合蛋白的MDCK细胞中没有发生改变(图9E、F)，但是若干种其它TJ组分的表达在MDCK-CLDN18-ARHGAP26中上调，这可能是作为一种代偿机制(图9E)。

实施例9

CLDN18-ARHGAP26对细胞增殖、侵袭以及迁移发挥细胞背景特异性作用

在GC细胞系HGC27中，CLDN18-ARHGAP26诱导增殖的增加(图4H)。然而，有趣的是，在未转化的MDCK细胞中，与对照相比，MDCK-CLDN18-AHGAP26细胞的增殖率更低(图12A)。虽然伤口闭合实验显示与对照相比MDCK-CLDN18-ARHGAP26细胞的细胞迁移减少(图12B)，但是MDCK细胞中CLDN18-ARHGAP26的表达对作为癌症进展和转移的特征的侵袭和非锚定依赖性生长没有影响。因此测试这些过程以确定它们在癌细胞系HGC27和HeLa中是否发生改变。稳定表达CLDN18-ARHGAP26的两种独立的HeLa细胞系显示出细胞侵袭增加3倍至4倍(图12C)并且稳定表达融合蛋白的HeLa细胞和HGC27细胞在软琼脂生长测定中多形成30％的集落(图12D)。这些发现突出了融合蛋白对未转化的细胞和转化的细胞的增殖、侵袭以及非锚定依赖性生长的不同作用，并且表明了融合蛋白驱动晚期癌症事件，如侵袭和转移的作用。

实施例10

ARHGAP26和CLDN18-ARHGAP26这两者抑制RhoA和应力纤维形成

RhoA在生长因子受体或整合素与它们对应的配体结合时调节许多肌动蛋白事件，如肌动蛋白聚合、收缩以及应力纤维形成。ARHGAP26经由它的GAP结构域刺激CDC42和RhoA的GTP酶活性，从而使它们失活。由于CLDN18-ARHGAP26融合蛋白保留ARHGAP26的GAP结构域，因此它可以仍能够使RhoA失活。为了对此进行测试，分析CLDN18-ARHGAP26的表达对应力纤维形成以及活性RhoA(例如GTP结合的RhoA)的存在和亚细胞定位的影响。在HeLa细胞中，ARHGAP26或CLDN18-ARHGAP26的稳定过表达诱导细胞骨架变化，特别是应力纤维的减少，这指示了RhoA失活(图13A)。将稳定细胞系用特异性识别激活的RhoA的抗体标记显示出表达ARHGAP26和CLDN18-ARHGAP26融合蛋白的细胞中标记减少，而总RhoA水平保持不变(图13B、C)。测量活性RhoA水平的GLISA测定进一步确认了这些结果(图13D)。这些发现表明了CLDN18-ARHGAP26融合蛋白中的GAP结构域保留了它对RhoA的抑制活性。

实施例11

CLDN18-ARHGAP26融合蛋白抑制非网格蛋白依赖性内吞

内吞的变化可以影响细胞表面停留时间和/或细胞-ECM粘附蛋白和细胞-细胞粘附蛋白以及受体酪氨酸激酶(RTK)的降解，从而改变细胞粘附、迁移以及RTK信号转导，这些可能驱动致癌作用。与其它细胞系相反，表达CLDN18-ARHGAP26融合蛋白的HeLa细胞显示出内吞的显著减少(图13E和实施例13)，这与融合蛋白中BAR结构域和PH结构域的不存在相一致，这些结构域对于内吞来说是必要的。

实施例12

复现的融合基因CLEC16A-EMP2、SNX2-PRDM6、MLL3-PRKAG2以及DUS2L-PSKH1的生物学背景

在癌细胞系TMK1中并且随后在两例原发性胃肿瘤中鉴定出DUS2L与PSKH1之间的融合转录物。然而，在一例肿瘤中，DUS2L的外显子3与PSKH1的外显子2(UTR区)融合，从而产生框外融合转录物(图6)。在TMK1和第二例肿瘤中，DUS2L的外显子10与PSKH1的外显子2在框内融合。非小细胞肺癌细胞中DUS2L的siRNA基因敲低抑制了生长并且已经报道了肿瘤中高水平的DUS2L与肺癌患者的更差预后之间的关联。PSKH1被鉴定为前列腺癌细胞生长的一种调节因子。对于DUS2L-PSKH1没有发现一致的增殖作用(图6)。然而，增殖只是(融合)基因可能促进肿瘤发生或进展的一个可能的机制，并且仍有可能的是，DUS2L-PSKH1在GC中起作用。

非配对倒位产生融合基因CLEC16A-EMP2，所述融合基因在100例GC中的五例中被鉴定出。在CLEC16A中，外显子4(一例肿瘤)、外显子9(两例肿瘤)或外显子10(两例肿瘤)与EMP2的外显子2融合(图7)。EMP2外显子2的前60bp是5′UTR并且融合使得在EMP2的标准起始甲硫氨酸前面包括了20个氨基酸。预测的开放阅读框编码328个、486个以及524个氨基酸，从而保留了具有其功能结构域的整个EMP2蛋白。在B细胞淋巴瘤细胞系中进行的实验表明EMP2充当肿瘤抑制因子。相反，EMP2被发现在＞70％的卵巢肿瘤中高表达，针对EMP2的抗体在具有卵巢癌细胞系的小鼠异种移植物中显著抑制肿瘤生长并且诱导细胞死亡。EMP2因此可能是药物靶标。这两个研究表明了EMP2在癌症中的作用，但是作用可能具有组织特异性。通过表达微阵列来分析15例经过测序的GC中的14例，并且发现EMP2在所有的GC中的高表达水平以及在带有CLEC16A-EMP2融合体的肿瘤113中最高的表达(数据未示)。这与作为融合体的一部分的EMP2的致癌作用是一致的。用稳定表达融合基因的HGC27进行的增殖测定(图7)进一步支持了CLEC16A-EMP2可能具有致癌特性。

SNX2-PRDM6被发现在一例胃肿瘤中框内融合(SNX2的外显子12与PRDM6的外显子4融合)以及在第二例肿瘤中框外融合(SNX2的外显子2与PRDM6的外显子7融合，图8)。SNX2编码分选连接蛋白家族的成员并且这个家族的成员参与细胞内运输。PRDM6有可能具有组蛋白甲基转移酶功能并且可能用作转录阻遏因子。小鼠胚胎内皮细胞中PRDM6的过表达诱导细胞凋亡以及减少的管形成，这表明PRDM6可能通过染色质重塑在脉管系统中起作用。观测到稳定表达SNX2-PRDM6的HGC27的增殖率降低，但是潜在致癌作用可能与增强的脉管系统相关，而不是与增殖相关。

实施例13

CLDN18-ARHGAP26融合蛋白抑制非网格蛋白依赖性内吞

ARHGAP26被报道为对非网格蛋白依赖性内吞来说是不可缺少的，并且许多受体酪氨酸激酶(RTK)可以通过网格蛋白依赖性途径和非网格蛋白依赖性途径这两者被内化。为了评价CLDN18-ARHGAP26融合蛋白对非网格蛋白依赖性内吞的作用，将与异硫氰酸荧光素(FITC)缀合的CTxB(非网格蛋白依赖性内吞的一种标志物)与活的对照HeLa细胞或稳定表达CLDN18、ARHGAP26或CLDN18-ARHAGP26的细胞一起孵育15分钟。然后将细胞固定并且通过荧光显微术使内化的FITC-CTxB可视化。与其它细胞系相反，表达CLDN18-ARHGAP26融合蛋白的HeLa细胞显示出内吞的CTxB的量显著减少(图13)，这与融合蛋白中BAR结构域和PH结构域的不存在相一致，这些结构域对于内吞来说是必要的。

在这一研究中观测到复现的体细胞SV和复现的融合基因。模拟证实复现的融合基因的比率不能用随机来解释，这表明与其它重排相比，特定的重排更有可能发生和/或选择过程富集了这些重排。通过将体细胞SV与染色质相互作用的全基因组视图相比较，相较于随机期望，观测到重排位点与染色质相互作用的显著更多的重叠，这表明染色质结构促成了GC中复现的远隔基因座的融合。

这是首次对在癌症中的体细胞SV与染色质相互作用之间进行的系统的相关性分析。由于染色质结构是在不同于GC的细胞类型中被表征的，因此染色质相互作用与重排之间实际的重叠率可能已经被低估。

评价了136种融合基因的有效性、表达以及阅读框特征，并且通过延伸的筛选鉴定出五种复现的融合基因。详细地分析了CLDN18-ARHGAP26并且发现促进早期癌症产生和晚期疾病进展这两者的功能特性。CLDN18和ARHGAP26在胃粘膜上皮中表达，其中CLDN18定位于紧密连接(TJ)并且ARHGAP26定位于上皮细胞的点状管状囊泡结构。CLDN18-ARHGAP26融合基因因此使RhoA的调节因子的功能蛋白结构域与TJ蛋白连接，从而产生改变的特性。这些以及GAP活性的异常定位使得向与GC有关的细胞功能发生变化。

虽然CLDN18-ARHGAP26与致瘤性HeLa细胞和HGC27细胞的增殖增加、锚定依赖性生长和侵袭有关，但是这些细胞过程在未转化的MDCK细胞中减少(增殖、伤口闭合)，这表明转化的程度影响融合蛋白的效应中的一些，这与致癌作用的多步模型相一致。在相关GC中原位过表达以及当在MDCK细胞中过表达时，CLDN18-ARHGAP26与上皮表型的丧失有关。

164844PCT-CN-ELLA序列表

<110> 新加坡科技研究局

<120> 癌症中的融合基因

<130> 9869SG3063

<160> 135

<170> PatentIn 3.5版

<210> 1

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 1

tttcaactac caggggctgt 20

<210> 2

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 2

gccagtcttt ccgttcagag 20

<210> 3

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 3

tagtggagac catccgttcc 20

<210> 4

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 4

ccttctctgg tcacgggata 20

<210> 5

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 5

cagtacggtg tgtggagctg 20

<210> 6

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 6

ggtgcaggtt cttcatggat 20

<210> 7

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 7

cctttccaga gagccagaaa 20

<210> 8

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 8

gcaaaacgtg acccagagac 20

<210> 9

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 9

ttcaccagca ctgtctccac 20

<210> 10

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 10

ttcgattgat tctgggctct 20

<210> 11

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 11

ggcgcggatc cgccgccacc atgtttggcc gctcgcggag 40

<210> 12

<211> 73

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 12

tgatagcggc cgctcatcaa gcgtaatctg gaacatcgta tgggtactcg agtttgcgct 60

tcctcagtat cag 73

<210> 13

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 13

ggcgcggatc cgccgccacc atggccgtga ctgcctgtca 40

<210> 14

<211> 73

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 14

gatagcggcc gctcatcaag cgtaatctgg aacatcgtat gggtactcga ggaggaactc 60

cacgtaattc tca 73

<210> 15

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 15

ggcgcttaat taagccgcca ccatggcggc cgagagggaa cc 42

<210> 16

<211> 73

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 16

tgatagcggc cgctcatcaa gcgtaatctg gaacatcgta tgggtactcg agatccactt 60

cgattgattc tgg 73

<210> 17

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 17

ggcgcggatc cgccgccacc atgattttga atagcctctc 40

<210> 18

<211> 74

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 18

tgatagcggc cgctcatcaa gcgtaatctg gaacatcgta tgggtactcg aggccattgt 60

attgctgctg gtag 74

<210> 19

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 19

aaaacccaca gcctcatgtc 20

<210> 20

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 20

cacctggtcc ttgttctggt 20

<210> 21

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 21

ggtttcccat tatgccattg 20

<210> 22

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 22

ttccaagaca tgtgcagctc 20

<210> 23

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 23

ccgacaggat gttgacaatg 20

<210> 24

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 24

tcagagaggt cggcaaactt 20

<210> 25

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 25

ggatgctgcc tttaattgga 20

<210> 26

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 26

cgcacccttg aagaagtagc 20

<210> 27

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 27

caaactctac ggcttctgcc 20

<210> 28

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 28

tggcaccgat gaatgatcta 20

<210> 29

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 29

aagcagttgc actgtgatgc 20

<210> 30

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 30

gcagtgaggg caagaaaaag 20

<210> 31

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 31

caaggccttc aactgcaaat 20

<210> 32

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 32

aaggttcggg aacaggtctt 20

<210> 33

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 33

ctgaagtagc ttccccagg 19

<210> 34

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 34

tgttgatgag tgagtccact g 21

<210> 35

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 35

acacggatcc cagagcagc 19

<210> 36

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 36

tgcagcgata aaacaaaagg c 21

<210> 37

<211> 15

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 37

gcccctgcac cgtgg 15

<210> 38

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 38

tctctgaccc tccagccaat 20

<210> 39

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 39

gcgacggttc tttctaggga 20

<210> 40

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 40

tccccttgag gaaatgggag 20

<210> 41

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 41

ccagggacag tcccccc 17

<210> 42

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 42

gcgtcgggtt ccgagat 17

<210> 43

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 43

ggtgggcatg agatgcact 19

<210> 44

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 44

caccaccgcc agtctgtctt 20

<210> 45

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 45

gagggcctgt ggatgaactg 20

<210> 46

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 46

agtcgtacac cttgcactgc a 21

<210> 47

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 47

tccaccacct cgcatatctc t 21

<210> 48

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 48

gccatttagg gcctcactgg a 21

<210> 49

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 49

ccagaaggtt cctttgtgga 20

<210> 50

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 50

ggctggtgtt tgacttggtt 20

<210> 51

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 51

ggtggccctg tccttaaag 19

<210> 52

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 52

cgtacccgtc ccttcctcc 19

<210> 53

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 53

aagtgtgctc tggggtcaag 20

<210> 54

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 54

agcctttgtc cgtgaggtaa 20

<210> 55

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 55

agctcaactt tctggcgaag 20

<210> 56

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 56

cttcacgacg atgtcattgc 20

<210> 57

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 57

ccatttaaag atctccg 17

<210> 58

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 58

catttggaag tcatgttcg 19

<210> 59

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 59

aggacgaggg gagctatgac c 21

<210> 60

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 60

gtgggggcct tctgataag 19

<210> 61

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 61

atcccagagg ctccaaagat 20

<210> 62

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 62

gctggagctt ctctgctgtt 20

<210> 63

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 63

gacctttgag tgtggggtgt 20

<210> 64

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 64

tcttccgagc attcacactg 20

<210> 65

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 65

acagtcccaa gaaacggatg 20

<210> 66

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 66

ccttcaccgt gtagcggtat 20

<210> 67

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 67

aagcccatct ccacacactc 20

<210> 68

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 68

aggagaaggg gctctcagtc 20

<210> 69

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 69

tgagaccagg cagtgaacag 20

<210> 70

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 70

ccgagaggtc catgaggtaa 20

<210> 71

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 71

cgtgacttcc gtcttggatt 20

<210> 72

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 72

cctttctggg tggatgctaa 20

<210> 73

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 73

atttggaaac tgccacaagc 20

<210> 74

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 74

atttggaaac tgccacaagc 20

<210> 75

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 75

catctaccac agcagctcca 20

<210> 76

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 76

ctcctcccca tggattacct 20

<210> 77

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 77

gacgacacgg aggactttgt 20

<210> 78

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 78

tgtctgagcc attgaggatg 20

<210> 79

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 79

agtggagctg tggttttgct 20

<210> 80

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 80

agaccttccc cgtcaaaaat 20

<210> 81

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 81

tccaggtgga gcttcttttg 20

<210> 82

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 82

ttcttagagt gacctggaga cc 22

<210> 83

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 83

aacatcatcc ctgcttccac 20

<210> 84

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 84

gaccacctgg tcctcagtgt 20

<210> 85

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 85

acagtggcca cctacaaagg 20

<210> 86

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 86

ccgagatggg gttgataatg 20

<210> 87

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 87

aaaatggcag tgcgtttag 19

<210> 88

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 88

tttgaaggca gtctgtcgta 20

<210> 89

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 89

cgtggctaca tctcccattt 20

<210> 90

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 90

tccctcatga ccaggatctc 20

<210> 91

<211> 14

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 91

gaccccttca ttga 14

<210> 92

<211> 14

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 92

cttctccatg gtgg 14

<210> 93

<211> 6891

<212> DNA

<213> 智人

<400> 93

aactgcattt cccagcgccc cacgcggcgg cggccgtaaa gcgcggcggt cgaacggccg 60

gttccggctg aatgtcagtg ctgggctgtg ggccggggag gaaggcggct cgcggttcct 120

ccaccgcctc cgccgccgca tcctccgctt gtgctaccgc cgcgggcgct gggccgctct 180

gctggtccgg catgagaccg tgagacgaga gacgggtcgg ggccgccgac atgtttggcc 240

gctcgcggag ctgggtgggc gggggccatg gcaagacttc ccgcaacatc cactccttgg 300

accacctcaa gtatctgtac cacgttttga ccaaaaacac cacagtcaca gaacagaacc 360

ggaacctgct agtggagacc atccgttcca tcactgagat cctgatctgg ggagatcaaa 420

atgacagctc tgtatttgac ttcttcctgg agaagaatat gtttgttttc ttcttgaaca 480

tcttgcggca aaagtcgggc cgttacgtgt gcgttcagct gctgcagacc ttgaacatcc 540

tctttgagaa catcagtcac gagacctcac tttattattt gctctcaaat aactacgtaa 600

attctatcat cgttcataaa tttgactttt ctgatgagga gattatggcc tattatatat 660

cgttcctgaa aacactttcg ttaaaactca acaaccacac tgtccatttc ttttataatg 720

agcacaccaa tgactttgcc ctgtacacag aagccatcaa gtttttcaac caccctgaaa 780

gcatggttag aattgctgta agaaccataa ctttgaatgt ctataaagtg tcattggata 840

accaggccat gctgcactac atccgagata aaactgctgt tccttacttc tccaatttgg 900

tctggttcat tgggagccat gtgatcgaac tcgatgactg cgtgcagact gatgaggagc 960

atcggaatcg gggtaaactg agtgatctgg tggcagagca cctagaccac ctgcactatc 1020

tcaatgacat cctgatcatc aactgtgagt tcctcaacga tgtgctcact gaccacctgc 1080

tcaacaggct cttcctgccc ctctacgtgt actcactgga gaaccaggac aagggaggag 1140

aacggccgaa aattagcctg ccggtgtctc tttatcttct gtcacaggtc ttcttaatta 1200

tacatcatgc accgctggtg aactcgttag ctgaagtcat tctgaatggt gatctgtctg 1260

agatgtacgc taagactgaa caggatattc agagaagttc tgccaagccc agcattcggt 1320

gcttcattaa acccaccgag acactcgagc ggtcccttga gatgaacaag cacaagggca 1380

agaggcgggt gcaaaagaga cccaactaca aaaacgttgg ggaagaagaa gatgaggaga 1440

aagggcccac cgaggatgcc caagaagacg ccgagaaggc taaaggtaca gagggtggtt 1500

caaaaggcat caagacgagt ggggagagtg aagagatcga gatggtgatc atggagcgta 1560

gcaagctctc agagctggcc gccagcacct ccgtgcagga gcagaacacc acggacgagg 1620

agaaaagcgc cgccgccacc tgctctgaga gcacgcaatg gagcagaccc ttcctggata 1680

tggtgtacca cgcgctggac agcccggatg atgattacca tgccctgttc gtgctctgcc 1740

tcctctatgc catgtctcat aataaaggca tggatcctga aaaattagag cgaatccagc 1800

tccccgtgcc aaatgcggcc gagaagacca cctacaacca cccgctagct gaaagactca 1860

tcaggatcat gaacaacgct gcccagccag atgggaagat ccggctggcg acgctggagc 1920

tgagctgcct gcttctgaag cagcaagtcc tgatgagtgc tggctgcatc atgaaggacg 1980

tgcacctggc ctgcctggag ggtgcgagag aagaaagtgt tcaccttgta cgacattttt 2040

ataagggaga agacattttt ttggacatgt ttgaagatga gtataggagc atgacaatga 2100

agcccatgaa cgtggaatat ctcatgatgg acgcctccat cctgctgccc ccaacaggca 2160

cgccactgac gggcattgac ttcgtgaagc ggctgccgtg tggcgatgtg gagaagaccc 2220

ggcgggccat ccgggtgttc ttcatgctgc gttccctgtc actgcaattg cgaggggagc 2280

ctgagacaca gttgccgctg actcgggagg aggacctgat caagactgat gatgtcctgg 2340

atctgaataa cagcgacttg attgcatgta cagtgatcac caaggatggc ggcatggtcc 2400

agcgattcct ggctgtggat atttaccaga tgagtttggt ggagcctgat gtgtccaggc 2460

ttggctgggg agtggtcaag tttgcaggcc tattgcagga catgcaggtg actggcgtgg 2520

aggacgacag ccgtgccctg aacatcacca tccacaagcc tgcgtccagc ccccattcca 2580

agcccttccc catcctccag gccaccttca tcttctcaga ccacatccgc tgcatcatcg 2640

ccaagcagcg cctggccaaa ggccgcatcc aggcaaggcg catgaagatg cagagaatag 2700

ctgccctcct ggacctccca atccagccca ccactgaagt cctggggttt ggactcggct 2760

cctccacctc cactcagcac ctgcctttcc gcttctacga ccaggggcgc cggggcagca 2820

gcgaccccac agtgcagcgc tccgtgtttg catcggtgga caaggtgcca ggcttcgccg 2880

tggcccagtg cataaaccag cacagctccc cgtccctgtc ctcacagtcg ccaccctccg 2940

ccagcgggag ccccagcggc agcgggagca ccagccactg cgactctgga ggcaccagct 3000

cgtcctccac cccctccaca gcccagagtc cagcagatgc ccccatgagt ccagaactgc 3060

ctaagcctca ccttcctgac cagttggtaa tcgtcaacga aacggaagca gactctaagc 3120

ccagcaagaa cgtggccagg agcgcagccg tggagacagc cagcctgtcc cccagcctcg 3180

tccctgcccg gcagcccacc atttccctgc tctgcgagga cacggctgac acgctgagcg 3240

tcgaatcgct gacccttgtc cccccagttg acccccacag cctccgcagc ctcaccggca 3300

tgcccccgct gtccacgccg gctgccgcct gcacagagcc cgtgggcgaa gaggctgcat 3360

gtgctgagcc tgtgggcacc gctgaggact gagtcagtgc cggggcctcc ctttgtgtgt 3420

gtggccccgc tggtagggac cccagtgccg ctgactggca agacacactg ggagcaccca 3480

ccattctgtg cggcccccag cagccatctc aaccacctat ccctgcgctc ccttgaatgg 3540

gaagaagccc cacgttgtcc ttgaattcct ttttcacttt gcatctcttc acgtgcaggc 3600

tgggaccagc ggagacaccg cggcgaatgc agatgactgc accggccact cagggagctg 3660

cctgggctcc gtgtctctga gccccgggtg gcaggaccca ccggcacctc tttcttcctc 3720

tgtcatatgg ctcctctgtc accagcccca gtgtgcacag aagaattgga ccaggtcact 3780

gtacgtagaa atttgtagaa aagcagactt agataaacat ctcctttgga tatttatttc 3840

cgcttttggc agcaggtgaa catttatttt taaaacttct atttaaaaga agtccaaaaa 3900

catcaacact aaggtttgat gtcatgtgaa aagtgtaata ataacagtta agatttcatg 3960

atcattttca ctggaccttt cctgatattt tgtttcagag ttcttagtgt ggctttttcc 4020

atttatttaa gtgattcttt gttactcact aactctgcaa gcctgtggaa taatgaagta 4080

ccttcctgga aagtttggat tattttttaa acaaaaacaa gggagataca tgtattctca 4140

ggtacacaca gagctgagag ggctgaatgg ttttctgcta tagcagccga gaggcctccc 4200

atcatggaaa gatttctcca ggaaaaggag gaatgtagcc agctccccac tcaggacgct 4260

tcctcatttc tcttcaccaa aaccaaacag agacagcttc cagcaccttc ttcagtgtta 4320

ccatctctaa gaaggaacca gttgggaccg tgaagactcc cgaccctgtg gccatgatgg 4380

aaatcaaagg aagacaccct ctacgtcacc tgccctcgac tgtgtgtgcc cacatgtgcc 4440

gagagatggc ccagagccag ttcccctcca gctgcaaggg catggtgtcc ccagagctct 4500

gagtctgtca ctctccctct gctactgctg ctgatctgaa tatggaaacc ccatggttcc 4560

cttccccatt cggactgggt gtgtacaagc aaggacccag atgcatcaga cacagccccc 4620

aagatgttcc tttctactcg gccagctcgg gagccagaca cagcactcac agcccaggcc 4680

gtgatccacc ctccccaagt ccaccagggc cagcggcccc tcacctctct ggtcactggt 4740

gagaccttcc acaactttcc tccagacctg ccagcagatg tgcccaccag gggcattagg 4800

tatccgccgg agcctggcca tagggtagtc tcgggagccg cgctgagatc ttttgccacc 4860

tgcattttag aagaacatgg tctctgtctc ctcggcccag ccagctgtcc cggcaaggcc 4920

tgccgagggc agttttcaac ctcatgaagg aaacacagtc ctgccaagga gggggagtgg 4980

cgcccatggg gacaggcctc agtccttaga agccctctgg gtagctgtgc ccacccagcc 5040

ttcatggctg caggtacaag gacctttgct tccatagaga aaacgcacag ctcagaaagg 5100

gggccacatg ggcagaaacc caaaggaagg acaaaccacg accaccgtgg ccatctgcag 5160

aatccctgga agagaaggaa ggcagggtgg agcgggggga agaccatcat ggagagaagg 5220

accacagcat caggagacgg gacacgccac acccagcagg cagcctgtgt gttgcttaat 5280

tttttaagag caagaggggt agagaggatc aagctggccc tggctggaga tggctagccc 5340

ctgagacatg cacttctggt tttgaaatga ctctgtctgt ggggcagcag aaactagaga 5400

aggcaagtgg ctgccccacc ccaaggcgtg accaggagga acagcctgca gctcactcca 5460

tgccacacgg gtgggccacc agcctgctgt cagaagtctc tgggctccaa ctggtcttgt 5520

aaccactgag cactgaagga gagaggtctt ggtcagggct ggacagcatg cccgggagga 5580

ccagcagagg attaaaggtg actgggagga ccagcggagg ataaaagaca ctgctcaggg 5640

cagggcttct accctgcatc cctggccaag aaaagggcag tccccatgtg ggcttgcagg 5700

gtcactctca ggggcctctt tcagctgggg ctggcaactt gcgtctgggg gacacctcca 5760

ggtgtgtggg gtgaggattt cctataacca gggctcccag aagctttgct tatgtaagga 5820

ggtctgggag ccagcccatt ggaggccacc agccattttg gcttcaaagg accccacctc 5880

acccaggtct cagcggcagt gggcacagct atgtcttcag gagctcccgt caaacctcat 5940

agctggggcg ctcccagaca ggccagtcca gacaggacac gctgggcccc tggcatccag 6000

aggaagagcc aggagtgtgg gaaggcccac agtgggggct gtggcttctg acactcaggt 6060

catagcctca gaggtctgag gtcagccccc acagacccat ccggcccgcc ccccaagtcc 6120

ctgcagagag cacttagagt tatggcccag gccctggtcc acccttcccc tgtgcacctc 6180

cggctgggtt tgccaagtca gggagcaggg ctggccgcag gaactcccaa accttggctt 6240

tgaatattgt tgtggaggtg tgctcgtccc tttctggacg tgcaaggtac ctgtcccagc 6300

aggtcagatg gggccagctg aggcgctccc ccaggcagga agggccagcc ttcaccatcg 6360

cgtgggattg ggaggagggg cctccgtgag cagcccctcc tctgccgctg tcccagccca 6420

gtccctctcc cggagccttg gcagcctccc acaacccaga cacttgcgtt cacaagcaac 6480

ctaaggggca ggtgaagaag cgcagccctg ccagacgcgc tagattcctc taaggtctct 6540

gagatgcacc gttttttaaa aaggcgtggg gtgaactgat tttgatcttc ttgtctagat 6600

gcaataaata aatctgaagc atttaatgta gtcatcttga cattgggcct acactgtacg 6660

agttccttat gtttccttga gctaaaaata tgtaaataat ttttgtccca gtgagaaccg 6720

agggttagaa aacctcgatg cctctgagcc tcgggaccgc tctagggaag tacctgcttt 6780

cgccagcatg actcatgctt cgtgggtact gaacacgagg gtggaaatga aaactggaac 6840

ttccttgtaa atttaaactt ggcaataaaa gagaaaaaaa gttaccaaga a 6891

<210> 94

<211> 1053

<212> PRT

<213> 智人

<400> 94

Met Phe Gly Arg Ser Arg Ser Trp Val Gly Gly Gly His Gly Lys Thr

1 5 10 15

Ser Arg Asn Ile His Ser Leu Asp His Leu Lys Tyr Leu Tyr His Val

20 25 30

Leu Thr Lys Asn Thr Thr Val Thr Glu Gln Asn Arg Asn Leu Leu Val

35 40 45

Glu Thr Ile Arg Ser Ile Thr Glu Ile Leu Ile Trp Gly Asp Gln Asn

50 55 60

Asp Ser Ser Val Phe Asp Phe Phe Leu Glu Lys Asn Met Phe Val Phe

65 70 75 80

Phe Leu Asn Ile Leu Arg Gln Lys Ser Gly Arg Tyr Val Cys Val Gln

85 90 95

Leu Leu Gln Thr Leu Asn Ile Leu Phe Glu Asn Ile Ser His Glu Thr

100 105 110

Ser Leu Tyr Tyr Leu Leu Ser Asn Asn Tyr Val Asn Ser Ile Ile Val

115 120 125

His Lys Phe Asp Phe Ser Asp Glu Glu Ile Met Ala Tyr Tyr Ile Ser

130 135 140

Phe Leu Lys Thr Leu Ser Leu Lys Leu Asn Asn His Thr Val His Phe

145 150 155 160

Phe Tyr Asn Glu His Thr Asn Asp Phe Ala Leu Tyr Thr Glu Ala Ile

165 170 175

Lys Phe Phe Asn His Pro Glu Ser Met Val Arg Ile Ala Val Arg Thr

180 185 190

Ile Thr Leu Asn Val Tyr Lys Val Ser Leu Asp Asn Gln Ala Met Leu

195 200 205

His Tyr Ile Arg Asp Lys Thr Ala Val Pro Tyr Phe Ser Asn Leu Val

210 215 220

Trp Phe Ile Gly Ser His Val Ile Glu Leu Asp Asp Cys Val Gln Thr

225 230 235 240

Asp Glu Glu His Arg Asn Arg Gly Lys Leu Ser Asp Leu Val Ala Glu

245 250 255

His Leu Asp His Leu His Tyr Leu Asn Asp Ile Leu Ile Ile Asn Cys

260 265 270

Glu Phe Leu Asn Asp Val Leu Thr Asp His Leu Leu Asn Arg Leu Phe

275 280 285

Leu Pro Leu Tyr Val Tyr Ser Leu Glu Asn Gln Asp Lys Gly Gly Glu

290 295 300

Arg Pro Lys Ile Ser Leu Pro Val Ser Leu Tyr Leu Leu Ser Gln Val

305 310 315 320

Phe Leu Ile Ile His His Ala Pro Leu Val Asn Ser Leu Ala Glu Val

325 330 335

Ile Leu Asn Gly Asp Leu Ser Glu Met Tyr Ala Lys Thr Glu Gln Asp

340 345 350

Ile Gln Arg Ser Ser Ala Lys Pro Ser Ile Arg Cys Phe Ile Lys Pro

355 360 365

Thr Glu Thr Leu Glu Arg Ser Leu Glu Met Asn Lys His Lys Gly Lys

370 375 380

Arg Arg Val Gln Lys Arg Pro Asn Tyr Lys Asn Val Gly Glu Glu Glu

385 390 395 400

Asp Glu Glu Lys Gly Pro Thr Glu Asp Ala Gln Glu Asp Ala Glu Lys

405 410 415

Ala Lys Gly Thr Glu Gly Gly Ser Lys Gly Ile Lys Thr Ser Gly Glu

420 425 430

Ser Glu Glu Ile Glu Met Val Ile Met Glu Arg Ser Lys Leu Ser Glu

435 440 445

Leu Ala Ala Ser Thr Ser Val Gln Glu Gln Asn Thr Thr Asp Glu Glu

450 455 460

Lys Ser Ala Ala Ala Thr Cys Ser Glu Ser Thr Gln Trp Ser Arg Pro

465 470 475 480

Phe Leu Asp Met Val Tyr His Ala Leu Asp Ser Pro Asp Asp Asp Tyr

485 490 495

His Ala Leu Phe Val Leu Cys Leu Leu Tyr Ala Met Ser His Asn Lys

500 505 510

Gly Met Asp Pro Glu Lys Leu Glu Arg Ile Gln Leu Pro Val Pro Asn

515 520 525

Ala Ala Glu Lys Thr Thr Tyr Asn His Pro Leu Ala Glu Arg Leu Ile

530 535 540

Arg Ile Met Asn Asn Ala Ala Gln Pro Asp Gly Lys Ile Arg Leu Ala

545 550 555 560

Thr Leu Glu Leu Ser Cys Leu Leu Leu Lys Gln Gln Val Leu Met Ser

565 570 575

Ala Gly Cys Ile Met Lys Asp Val His Leu Ala Cys Leu Glu Gly Ala

580 585 590

Arg Glu Glu Ser Val His Leu Val Arg His Phe Tyr Lys Gly Glu Asp

595 600 605

Ile Phe Leu Asp Met Phe Glu Asp Glu Tyr Arg Ser Met Thr Met Lys

610 615 620

Pro Met Asn Val Glu Tyr Leu Met Met Asp Ala Ser Ile Leu Leu Pro

625 630 635 640

Pro Thr Gly Thr Pro Leu Thr Gly Ile Asp Phe Val Lys Arg Leu Pro

645 650 655

Cys Gly Asp Val Glu Lys Thr Arg Arg Ala Ile Arg Val Phe Phe Met

660 665 670

Leu Arg Ser Leu Ser Leu Gln Leu Arg Gly Glu Pro Glu Thr Gln Leu

675 680 685

Pro Leu Thr Arg Glu Glu Asp Leu Ile Lys Thr Asp Asp Val Leu Asp

690 695 700

Leu Asn Asn Ser Asp Leu Ile Ala Cys Thr Val Ile Thr Lys Asp Gly

705 710 715 720

Gly Met Val Gln Arg Phe Leu Ala Val Asp Ile Tyr Gln Met Ser Leu

725 730 735

Val Glu Pro Asp Val Ser Arg Leu Gly Trp Gly Val Val Lys Phe Ala

740 745 750

Gly Leu Leu Gln Asp Met Gln Val Thr Gly Val Glu Asp Asp Ser Arg

755 760 765

Ala Leu Asn Ile Thr Ile His Lys Pro Ala Ser Ser Pro His Ser Lys

770 775 780

Pro Phe Pro Ile Leu Gln Ala Thr Phe Ile Phe Ser Asp His Ile Arg

785 790 795 800

Cys Ile Ile Ala Lys Gln Arg Leu Ala Lys Gly Arg Ile Gln Ala Arg

805 810 815

Arg Met Lys Met Gln Arg Ile Ala Ala Leu Leu Asp Leu Pro Ile Gln

820 825 830

Pro Thr Thr Glu Val Leu Gly Phe Gly Leu Gly Ser Ser Thr Ser Thr

835 840 845

Gln His Leu Pro Phe Arg Phe Tyr Asp Gln Gly Arg Arg Gly Ser Ser

850 855 860

Asp Pro Thr Val Gln Arg Ser Val Phe Ala Ser Val Asp Lys Val Pro

865 870 875 880

Gly Phe Ala Val Ala Gln Cys Ile Asn Gln His Ser Ser Pro Ser Leu

885 890 895

Ser Ser Gln Ser Pro Pro Ser Ala Ser Gly Ser Pro Ser Gly Ser Gly

900 905 910

Ser Thr Ser His Cys Asp Ser Gly Gly Thr Ser Ser Ser Ser Thr Pro

915 920 925

Ser Thr Ala Gln Ser Pro Ala Asp Ala Pro Met Ser Pro Glu Leu Pro

930 935 940

Lys Pro His Leu Pro Asp Gln Leu Val Ile Val Asn Glu Thr Glu Ala

945 950 955 960

Asp Ser Lys Pro Ser Lys Asn Val Ala Arg Ser Ala Ala Val Glu Thr

965 970 975

Ala Ser Leu Ser Pro Ser Leu Val Pro Ala Arg Gln Pro Thr Ile Ser

980 985 990

Leu Leu Cys Glu Asp Thr Ala Asp Thr Leu Ser Val Glu Ser Leu Thr

995 1000 1005

Leu Val Pro Pro Val Asp Pro His Ser Leu Arg Ser Leu Thr Gly

1010 1015 1020

Met Pro Pro Leu Ser Thr Pro Ala Ala Ala Cys Thr Glu Pro Val

1025 1030 1035

Gly Glu Glu Ala Ala Cys Ala Glu Pro Val Gly Thr Ala Glu Asp

1040 1045 1050

<210> 95

<211> 5197

<212> DNA

<213> 智人

<400> 95

ggcgggatcg gggaaggagg ggccccgccg cctagagggt ggagggaggg cgcgcagtcc 60

cagcccagag cttcaaaaca gcccggcggc ctcgcctcgc acccccagcc agtccgtcga 120

tccagctgcc agcgcagccg ccagcgccgg cacatcccgc tctgggcttt aaacgtgacc 180

cctcgcctcg actcgccctg ccctgtgaaa atgttggtgc ttcttgcttt catcatcgcc 240

ttccacatca cctctgcagc cttgctgttc attgccaccg tcgacaatgc ctggtgggta 300

ggagatgagt tttttgcaga tgtctggaga atatgtacca acaacacgaa ttgcacagtc 360

atcaatgaca gctttcaaga gtactccacg ctgcaggcgg tccaggccac catgatcctc 420

tccaccattc tctgctgcat cgccttcttc atcttcgtgc tccagctctt ccgcctgaag 480

cagggagaga ggtttgtcct aacctccatc atccagctaa tgtcatgtct gtgtgtcatg 540

attgcggcct ccatttatac agacaggcgt gaagacattc acgacaaaaa cgcgaaattc 600

tatcccgtga ccagagaagg cagctacggc tactcctaca tcctggcgtg ggtggccttc 660

gcctgcacct tcatcagcgg catgatgtac ctgatactga ggaagcgcaa atagagttcc 720

ggagctgggt tgcttctgct gcagtacaga atccacattc agataaccat tttgtatata 780

atcattattt tttgaggttt ttctagcaaa cgtattgttt cctttaaaag ccaaaaaaaa 840

aaaaaaaaaa aaaaaaaaaa gaaaaaagaa aaaaaaaatc caaaagagag aagagttttt 900

gcattcttga gatcagagaa tagactatga aggctggtat tcagaactgc tgcccactca 960

aaagtctcaa caagacacaa gcaaaaatcc agcaatgctc aaatccaaaa gcactcggca 1020

ggacatttct taaccatggg gctgtgatgg gaggagagga gaggctggga aagccgggtc 1080

tctggggacg tgcttcctat gggtttcagc tggcccaagc ccctcccgaa tctctctgct 1140

agtggtgggt ggaagagggt gaggtggggt ataggagaag aatgacagct tcctgagagg 1200

tttcacccaa gttccaagtg agaagcaggt gtagtccctg gcattctgtc tgtatccaaa 1260

ccagagccca gccatccctc cggtatcggg gtgggtcaga aaaagtctca cctcaatttg 1320

ccgacagtgt cacctgcttg ccttaggaat ggtcatcctt aacctgcgtg ccagatttag 1380

actcgtcttt aggcaaaacc tacagcgccc cccccctcac cccagaccta cagaatcaga 1440

gtcttcaagg gatggggcca gggaatctgc atttctaacg cgctccctgg gcaacgcttc 1500

agatgcgttg aagttgggga ccacggtgcc tgggccaggt cagcagagct gcctcgtaaa 1560

tgctggggta tcgtcatgtg gagatgggga ggtgaatgca acccccacag caggccaaaa 1620

ccttggcctc catcgccaca gctgtctaca tctagggccc caaaactcca ttcctgagcc 1680

atgtgaactc atagacacct tcagggtgtg gggtacagcc tccttcccat cttatcccag 1740

aaggcctctc ccttcttgtc cagcccttca tgctacacct ggctggcctc tcacccctat 1800

ttctagagcc tcagaggacc catccaccat tcattcattc attcattcat tcattcattc 1860

attcattcat caacataaat cataacttgc atgcatgtgc caggcacagg ggataccctc 1920

tagagacaat ctcctcctag ggctcatggc ctagtggagg agacagatta aaacttaatt 1980

agaaaaactg gctgggtaca gtggctcatg cttgtaatcc cagcactttg ggaggctgag 2040

gcgggtggat cacctgaggt caggagttca agaccagcct ggccaaaatg gtaaaacctg 2100

tctctactaa aaatacaaaa atgagctggg cgtggtggtg catgcctgta atcccagcta 2160

tcaggtggct gaggcaggag aatcacttga aatgggaggt ggaggttgca gtgagccgag 2220

accgtgccac tgcactccag cctgggtgac agagtgagac tccatctcaa aaaaagaaaa 2280

aaaagaaaag aaactaatta cacactgtga tggaggctgc aaagaacacc actaagaatt 2340

caaaatcagc tgggtgcggt ggctcacacc tgtaatccca gcactttggg aggctgaggc 2400

aggtggatca caaggtcagg agttcaagac cagcctggcc aacatggtga aaccccgtct 2460

ctaccgaaaa tacaacaaaa ttagcccggt gtggtggcag gtgcctgtaa tcccagctac 2520

ttaggaggct gaggcaggag aatcgcttga aactgggagg cggaggtcgc agtgagccga 2580

gattcaccac tgcactccag cccaggcgac agtctgagac tccgtctcaa aaataaaacg 2640

attcaaaatc gaggcctgtg gcatggtagg gaggctgctt tacgcgtgcc tattattaaa 2700

tgctcctgga ggcatttagg tatttagatc agtctaaata tagctccatt cagttcgtgc 2760

agatgacagt tattgggcag tacctgtctg tgtaacaccc agaaaacatg tctgtggagg 2820

ggcccatggt cccgacagta aatgcggtga gagggtccca tagagctgga gttttcaagc 2880

tttaggggtt cccgtgctgc ttgggacagg ctgattcaga gggtctgggt gaatgatttc 2940

caggtgattt taagactgtg ctgagaaata gggcttttgg ggccttgtcc ttcaggatca 3000

aagcatgatg ctgtgtggca atgcagacca cccaggaacc atcccaggag ataagctctt 3060

tgcacctcat tgtctttttc tgcttatgtt ggagcaggat gctgggggct gtcctgggat 3120

ggggtgtggg acctcgtgct atttaaatac ttttgcactt gaccttctgc tgagtggagt 3180

ggtggtttgc catcagctca gttccagtgg agctgaagag acatctggtt tgagtagttt 3240

tagggccacc atggatatct cttcaatgca ggattggctc tttccatctg ctctttcatt 3300

catttgtttt tgacagatag tattaaatgt ttaccatgtt ccaggcactg tgtgaggctc 3360

tgaaaataca ggggtgagca aatccagata tcctccctgc catcatgaag tttggagtct 3420

atgagatagg accccctccc tatggagaag ccaccaatgc agtacagggt gacctggggc 3480

cagagacagg acaaatgtca cctcctgcct ccatgagata ctctcactag tcatattgtg 3540

ggcaagaatg tggcttacac ccctagggtt aacaggatgc tacccaagct catggaggaa 3600

gttgaatctt aagttccctt gaaactttct accttggtgg cttttctata attttctttt 3660

ttctttttct tttttttttt tttttttgag actgagtttt gctcttgttg cccaggctgg 3720

agtgcagtgg caccatcttg gctcaccgca acctctgcct cctgggttca agtgattctc 3780

ctgcctcagc ctcccgagta gctgggatta caggcatgtc ccaccatgcc cagctaattt 3840

ttgtattttt agtagagatg gggtttctcc atgttggtca ggctggtttc gaactcccaa 3900

cctcaggtga tccgcccacc tcagccttcc aaagtgctgg gattacaggc atgagccact 3960

gcgtctggcc ttctataatt ttctggtagt cacgatggaa acaaacaaaa caccttagaa 4020

ccagagatcg accccctcaa gcaatacatc aattcccttc acaagaaacg tcggggctac 4080

atgagtatct gtgttgaatg cggtctgaaa tgatcctatg gattttcccg gctggttgcc 4140

actgctgtac aacattcagt gcccacatcc acctgtgcca ttaagctttt ttgagacatg 4200

agagatgcct cttccctgct gtatgacatg catttgggaa gttggaaaga aatgacaaaa 4260

tcagggagaa aacatccaag cttcttacct gtagatagaa tcagccctca cttggtgctt 4320

attaccagtt attcaagaac aataacaaca acaaaattag tagacatcca agaagcacat 4380

attaggacca aagatagcat caactgtatt tgaaggaact gtagtttgcg cattttatga 4440

catttttata aagtactgta attctttcat tgaggggcta tgtgatggag acagactaac 4500

tcattttgtt atttgcatta aaattatttt gggtctctgt tcaaatgagt ttggagaatg 4560

cttgacttgt tggtctgtgt gaatgtgtat atatatatac ctgaatacag gaacatcgga 4620

gacctattca ctcccacaca ctctgctata gtttgcgtgc ttttgtggac acccctcatg 4680

aacaggctgg cgctctagga cgctctgtgt tcactgatga tgaagaaacc tagaactcca 4740

agcctgtttg taaacacact aaacacagtg gcctagatag aaactgtatc gtagtttaaa 4800

atctgcctcg cgggatgtta ctaaactcgc taatagttta aaggttactt acaatagagc 4860

aagttggaca attttgtggt gttggggaaa tgttagggca aggcctagag gttcattttg 4920

aatcttggtt tgtgacttta gggtagttag aaactttcta cttaatgtac ctttaaaata 4980

gtccattttc tatgttttgt ataatctgaa actgtacatg gaaaataaag tttaaaacca 5040

gattgcccag agcaagactc taatgttccc aacggtgatg acatctaggg cagaatgctg 5100

ccattttgag gggcaggggg tcagctgatt tctcatcaag ataataatgt atggttttta 5160

cactaagcaa ctgataaatg gacaatttat cactgga 5197

<210> 96

<211> 167

<212> PRT

<213> 智人

<400> 96

Met Leu Val Leu Leu Ala Phe Ile Ile Ala Phe His Ile Thr Ser Ala

1 5 10 15

Ala Leu Leu Phe Ile Ala Thr Val Asp Asn Ala Trp Trp Val Gly Asp

20 25 30

Glu Phe Phe Ala Asp Val Trp Arg Ile Cys Thr Asn Asn Thr Asn Cys

35 40 45

Thr Val Ile Asn Asp Ser Phe Gln Glu Tyr Ser Thr Leu Gln Ala Val

50 55 60

Gln Ala Thr Met Ile Leu Ser Thr Ile Leu Cys Cys Ile Ala Phe Phe

65 70 75 80

Ile Phe Val Leu Gln Leu Phe Arg Leu Lys Gln Gly Glu Arg Phe Val

85 90 95

Leu Thr Ser Ile Ile Gln Leu Met Ser Cys Leu Cys Val Met Ile Ala

100 105 110

Ala Ser Ile Tyr Thr Asp Arg Arg Glu Asp Ile His Asp Lys Asn Ala

115 120 125

Lys Phe Tyr Pro Val Thr Arg Glu Gly Ser Tyr Gly Tyr Ser Tyr Ile

130 135 140

Leu Ala Trp Val Ala Phe Ala Cys Thr Phe Ile Ser Gly Met Met Tyr

145 150 155 160

Leu Ile Leu Arg Lys Arg Lys

165

<210> 97

<211> 1521

<212> DNA

<213> 智人

<400> 97

atgtttggcc gctcgcggag ctgggtgggc gggggccatg gcaagacttc ccgcaacatc 60

cactccttgg accacctcaa gtatctgtac cacgttttga ccaaaaacac cacagtcaca 120

gaacagaacc ggaacctgct agtggagacc atccgttcca tcactgagat cctgatctgg 180

ggagatcaaa atgacagctc tgtatttgac ttcttcctgg agaagaatat gtttgttttc 240

ttcttgaaca tcttgcggca aaagtcgggc cgttacgtgt gcgttcagct gctgcagacc 300

ttgaacatcc tctttgagaa catcagtcac gagacctcac tttattattt gctctcaaat 360

aactacgtaa attctatcat cgttcataaa tttgactttt ctgatgagga gattatggcc 420

tattatatat cgttcctgaa aacactttcg ttaaaactca acaaccacac tgtccatttc 480

ttttataatg agcacaccaa tgactttgcc ctgtacacag aagccatcaa gtttttcaac 540

caccctgaaa gcatggttag aattgctgta agaaccataa ctttgaatgt ctataaagtg 600

tcattggata accaggccat gctgcactac atccgagata aaactgctgt tccttacttc 660

tccaatttgg tctggttcat tgggagccat gtgatcgaac tcgatgactg cgtgcagact 720

gatgaggagc atcggaatcg gggtaaactg agtgatctgg tggcagagca cctagaccac 780

ctgcactatc tcaatgacat cctgatcatc aactgtgagt tcctcaacga tgtgctcact 840

gaccacctgc tcaacaggct cttcctgccc ctctacgtgt actcactgga gaaccaggac 900

aagggaggag aacggccgaa aattagcctg ccggtgtctc tttatcttct gtcacagcac 960

atcccgctct gggctttaaa cgtgacccct cgcctcgact cgccctgccc tgtgaaaatg 1020

ttggtgcttc ttgctttcat catcgccttc cacatcacct ctgcagcctt gctgttcatt 1080

gccaccgtcg acaatgcctg gtgggtagga gatgagtttt ttgcagatgt ctggagaata 1140

tgtaccaaca acacgaattg cacagtcatc aatgacagct ttcaagagta ctccacgctg 1200

caggcggtcc aggccaccat gatcctctcc accattctct gctgcatcgc cttcttcatc 1260

ttcgtgctcc agctcttccg cctgaagcag ggagagaggt ttgtcctaac ctccatcatc 1320

cagctaatgt catgtctgtg tgtcatgatt gcggcctcca tttatacaga caggcgtgaa 1380

gacattcacg acaaaaacgc gaaattctat cccgtgacca gagaaggcag ctacggctac 1440

tcctacatcc tggcgtgggt ggccttcgcc tgcaccttca tcagcggcat gatgtacctg 1500

atactgagga agcgcaaata g 1521

<210> 98

<211> 506

<212> PRT

<213> 智人

<400> 98

Met Phe Gly Arg Ser Arg Ser Trp Val Gly Gly Gly His Gly Lys Thr

1 5 10 15

Ser Arg Asn Ile His Ser Leu Asp His Leu Lys Tyr Leu Tyr His Val

20 25 30

Leu Thr Lys Asn Thr Thr Val Thr Glu Gln Asn Arg Asn Leu Leu Val

35 40 45

Glu Thr Ile Arg Ser Ile Thr Glu Ile Leu Ile Trp Gly Asp Gln Asn

50 55 60

Asp Ser Ser Val Phe Asp Phe Phe Leu Glu Lys Asn Met Phe Val Phe

65 70 75 80

Phe Leu Asn Ile Leu Arg Gln Lys Ser Gly Arg Tyr Val Cys Val Gln

85 90 95

Leu Leu Gln Thr Leu Asn Ile Leu Phe Glu Asn Ile Ser His Glu Thr

100 105 110

Ser Leu Tyr Tyr Leu Leu Ser Asn Asn Tyr Val Asn Ser Ile Ile Val

115 120 125

His Lys Phe Asp Phe Ser Asp Glu Glu Ile Met Ala Tyr Tyr Ile Ser

130 135 140

Phe Leu Lys Thr Leu Ser Leu Lys Leu Asn Asn His Thr Val His Phe

145 150 155 160

Phe Tyr Asn Glu His Thr Asn Asp Phe Ala Leu Tyr Thr Glu Ala Ile

165 170 175

Lys Phe Phe Asn His Pro Glu Ser Met Val Arg Ile Ala Val Arg Thr

180 185 190

Ile Thr Leu Asn Val Tyr Lys Val Ser Leu Asp Asn Gln Ala Met Leu

195 200 205

His Tyr Ile Arg Asp Lys Thr Ala Val Pro Tyr Phe Ser Asn Leu Val

210 215 220

Trp Phe Ile Gly Ser His Val Ile Glu Leu Asp Asp Cys Val Gln Thr

225 230 235 240

Asp Glu Glu His Arg Asn Arg Gly Lys Leu Ser Asp Leu Val Ala Glu

245 250 255

His Leu Asp His Leu His Tyr Leu Asn Asp Ile Leu Ile Ile Asn Cys

260 265 270

Glu Phe Leu Asn Asp Val Leu Thr Asp His Leu Leu Asn Arg Leu Phe

275 280 285

Leu Pro Leu Tyr Val Tyr Ser Leu Glu Asn Gln Asp Lys Gly Gly Glu

290 295 300

Arg Pro Lys Ile Ser Leu Pro Val Ser Leu Tyr Leu Leu Ser Gln His

305 310 315 320

Ile Pro Leu Trp Ala Leu Asn Val Thr Pro Arg Leu Asp Ser Pro Cys

325 330 335

Pro Val Lys Met Leu Val Leu Leu Ala Phe Ile Ile Ala Phe His Ile

340 345 350

Thr Ser Ala Ala Leu Leu Phe Ile Ala Thr Val Asp Asn Ala Trp Trp

355 360 365

Val Gly Asp Glu Phe Phe Ala Asp Val Trp Arg Ile Cys Thr Asn Asn

370 375 380

Thr Asn Cys Thr Val Ile Asn Asp Ser Phe Gln Glu Tyr Ser Thr Leu

385 390 395 400

Gln Ala Val Gln Ala Thr Met Ile Leu Ser Thr Ile Leu Cys Cys Ile

405 410 415

Ala Phe Phe Ile Phe Val Leu Gln Leu Phe Arg Leu Lys Gln Gly Glu

420 425 430

Arg Phe Val Leu Thr Ser Ile Ile Gln Leu Met Ser Cys Leu Cys Val

435 440 445

Met Ile Ala Ala Ser Ile Tyr Thr Asp Arg Arg Glu Asp Ile His Asp

450 455 460

Lys Asn Ala Lys Phe Tyr Pro Val Thr Arg Glu Gly Ser Tyr Gly Tyr

465 470 475 480

Ser Tyr Ile Leu Ala Trp Val Ala Phe Ala Cys Thr Phe Ile Ser Gly

485 490 495

Met Met Tyr Leu Ile Leu Arg Lys Arg Lys

500 505

<210> 99

<211> 1056

<212> DNA

<213> 智人

<400> 99