用于谱DNA分析的方法.pdf

摘要
申请专利号：	CN200980122875.6	申请日：	2009.06.12
公开号：	CN102067141A	公开日：	2011.05.18
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 19/22申请日:20090612\|\|\|公开
IPC分类号：	G06F19/22(2011.01)I; G06F17/14	主分类号：	G06F19/22
申请人：	皇家飞利浦电子股份有限公司
发明人：	A. I. D. 布库尔; J. J. A. 范利尤文; N. 迪米特罗瓦; C. 米塔尔
地址：	荷兰艾恩德霍芬
优先权：	2008.06.19 EP 08158610.9
专利代理机构：	中国专利代理(香港)有限公司 72001	代理人：	龚海军;刘鹏
PDF下载：	PDF下载

内容摘要

本发明涉及一种用于分析DNA序列的方法。通过将所述DNA序列转换为多个二进制指示符序列（BIS）并且在所述二进制指示符序列上应用短期傅立叶变换（STFT）来分析DNA序列。装箱（binning）函数（BF）被应用于傅立叶系数（Usk_X(k)）,由此修改对应的傅立叶系数（Usk_X(k)）。最后，发现基本相等的修改的傅立叶系数（Usk_X(k)）。本发明向用户提供一种改进很大的在大量的DNA序列数据中看到独特的强图案（strongpattern）的能力。

权利要求书

1：一种用于分析 DNA 序列（10）的方法，该方法包括：提供 DNA 序列，基于所述 DNA 序列，通过将所述 DNA 序列转换为多个二进制指示符序列（BIS）并且将短期傅立叶变换（STFT）应用在所述二进制指示符序列上来创建多个谱（20），每个谱包括对应的频率（k）和傅立叶系数（Usk_X(k)），其中每种傅立叶系数构成通道（X），对于适用于相对于一个或多个通道（X）的傅立叶系数（Usk_X(k)）的频率（K’ ），定义装箱函数（BF），将所述装箱函数（BF）应用在所述多个谱的至少一部分上并且由此修改对应的傅立叶系数（Usk_X(k)），以及在所述多个谱的所述部分内发现基本相等的修改的傅立叶系数（Usk_X(k)）。
2：根据权利要求 1 的方法，其中在所述多个谱的所述部分内发现基本相等的修改的傅立叶系数（Usk_X(k)）包括定量分析修改的傅立叶系数（Usk_X(k)）相对于所述装箱函数（BF）的分布。
3：根据权利要求 1 的方法，其中针对一组频率（K_i）重复所述方法。
4：根据权利要求 1 的方法，其中使用合并函数将二进制指示符序列的集合减小到 BIS 的更小集合，该合并函数优选地包括逻辑 AND 函数。
5：根据权利要求 1 或 3 的方法，其中发现在任何频率和 / 或通道中具有基本相等的修改的傅立叶系数（Usk_X(k)）的最大集合的第一组谱（S）并且将其与剩余的谱分离，所述剩余的谱形成第二组谱。
6：根据权利要求 5 的方法，其中在第二组谱内发现并且分离基本相等的修改的傅立叶系数（Usk_X(k)）的最大集合。
7：根据权利要求 6 的方法，其中将谱分离为第一和第二组谱被重复，忽视先前发现的修改的傅立叶系数（Usk_X(k)）的最长集合。
8：根据权利要求 6 或 7 的方法，其中重复将谱分离为第一和第二组的操作： i）直到发现修改的傅立叶系数（Usk_X(k)）的最长集合的预定义阈值为止， ii）直到执行了预定义次数的分离为第一和第二组谱的操作为止，或 iii）直到第一和 / 或第二组谱包含单个序列为止。
9：根据权利要求 1 或 3 的方法，其中发现在任何频率和 / 或通道中具有基本相等的修改的傅立叶系数（Usk_X(k)）的最大集合的第一组谱（S）并对其做标记。
10：根据权利要求 9 的方法，其中发现在任何频率和 / 或通道中具有基本相等的修改的傅立叶系数（Usk_X(k)）的最大集合的第二组谱并对其做标记，忽视先前发现的修改的傅立叶系数（Usk_X(k)）的最长集合。
11：根据权利要求 9-10 中任一项的方法，其中发现所述最长集合并且所述组的谱被重排序： i）直到发现修改的傅立叶系数（Usk_X(k)）的最长集合的长度的预定义阈值为止， ii）直到发现预定义数量的最长集合为止，或 iii）直到最长集合包含单个序列为止。
12：根据权利要求 1 或 3 的方法，其中发现所发现的修改的傅立叶系数（Usk_X(k)）的图案的长度超出第一预定义阈值（N_thres1）的所有组的谱（S）或包含 k 个最长图案的所有组的谱并且将其与剩余的谱分离，所述剩余的谱形成第二组谱，其中 k 是整数。
13：根据权利要求 12 的方法，其中使用修改的傅立叶系数（Usk_X(k)）的图案的长度的 2 第二预定义阈值（N_thres2）或使用 j 个最长图案来进一步分离根据权利要求 18 分离的每组谱，其中 j 是等于或不同于 k 的整数。
14：根据权利要求 13 的方法，其中将谱分离为组的操作被重复进行： i）直到发现修改的傅立叶系数（Usk_X(k)）的图案的长度的预定义阈值为止， ii）直到执行了预定义次数的分离为第一和第二组谱的操作为止，或 iii）直到第一和 / 或第二组谱包含长度等于 1 的修改的傅立叶系数（Usk_X(k)）的序列为止。
15：一种适于使得包括至少一台计算机的计算机系统能够实现根据权利要求 1 的方法的计算机程序产品。

说明书

用于谱 DNA 分析的方法
    【技术领域】
     本发明涉及一种用于执行谱 DNA 分析的方法，即使用傅立叶变换在谱空间中表示 DNA 序列。本发明还涉及一种对应的计算机程序产品。背景技术
     过去已经描述了根据 DNA 序列的 DNA 谱图方法，对于该主题的早期参考，参看 Benson 等人的 Nucleic Acid Research . 中 18(21)， p.6305-6310 和 18（10）， 3001-3006, 1990。
     通过将 DNA 序列转换为二进制指示符（indicator）序列并且然后应用短时傅立叶变换且映射到颜色空间以便使输出可视化来生成 DNA 谱图。为了允许频域中大量长序列的系统发育学的和生物学的比较，这些序列需要被可视化，以使得相似性是可（容易）检测的，甚至可被人类观察者检测。因此，需要将具有相似的频率图案（pattern）的序列聚集在一起的策略。在谱域中执行 DNA 分析的一个重要优点在于，避免了常规的序列到匹配序列的 N - 缩放（scaling）， N 是序列中核苷酸碱基的数量。US6,287,773 公开了例如一种基于频域的比较方法，其规模为（scale as） Nlog（N），这可以非常显著地降低针对长序列的计算时间，所述长序列例如长于 10000 个核苷酸碱基。
     即使利用本用于 DNA 分析的谱分析的优点，仍然需要甚至更快和 / 或更高效的分析工具，因为数据量巨大。例如，人类基因组的完整染色体 1 是 2.47 亿核苷酸长，并且相应地作为（如最近由 N. Dimitrova 等人的 “Analysis and visualization of DNA spectrograms: open possibilities for genome research,” in ACM MM ., Santa Barbara, CA, Oct. 2006 建议的）所谓的谱视频（spectra video）来观看 DNA 谱图也可能是冗长的任务。
     而且，尽管迄今为止进行了许多努力，但是仍然需要用于方便迅速分析 DNA 序列信息的系统和方法。而且仍然需要可以识别展示出相似谱特性的在结构上或组成上相似的图案的工具。这样的工具将与设法以线性次序或通过核苷酸外观（appearance）比对序列的常规的序列比对工具形成对照。
     当前用于序列比对的聚类算法不适合谱分析，在谱分析中我们需要分析各个频率处的内容。标准的聚类方法包括全局距离度量（global distance metric），在这种情况下其将被应用在谱图中所考虑的所有频率上。尽管这种方法将能够检测许多频率中的强图案，但是它将筛选出在各个频率中的强图案。然而，在不同频率上的图案之间没有关系以在单个距离度量中考虑它们。在谱分析中，各单个频率上的强（长）图案是相关的。
     因此，一种用于分析 DNA 序列的改进的方法将是有利的，并且特别是一种更高效的和 / 或可靠的方法将是有利的。
     2发明内容因此，本发明优选地设法单独地或任意组合地减轻、缓和或消除上面所提及的缺点的一个或多个。特别地，可以看作本发明的一个目的的是，提供一种解决上面提及的现有技术的分析 DNA 序列的问题的方法。
     在本发明的第一方面，该目的和若干其他目的通过提供一种用于分析 DNA 序列的方法获得，所述方法包括： - 提供 DNA 序列， - 基于所述 DNA 序列通过将 DNA 序列转换为多个二进制指示符序列并将短期傅立叶变换（STFT）应用在所述二进制指示符序列上来创建多个谱，每个谱包括对应的频率（k）和傅立叶系数（Usk_X(k)），其中每种傅立叶系数构成通道（X）， - 对于适用于相对于一个或多个通道（X）的傅立叶系数（Usk_X(k)）的频率（K’ ）定义装箱函数（BF）， - 将装箱函数（BF）应用在多个谱的至少一部分上并且由此修改对应的傅立叶系数（Usk_X(k)），以及 - 在所述多个谱的所述部分内发现基本相等的修改的傅立叶系数（Usk_X(k)）。
     本发明特别地但非排他地有利于获得用于向用户提供在大量的 DNA 序列数据中看到独特的强图案的改进很大的能力的方法。进一步可能的是，提取图案的强度并评估在单个频率或一组频率上哪一个是最强图案或评估 DNA 序列中的所有频率上的所有图案来分析。
     本发明可以有利地利用对所有 DNA 谱的全自动或半自动图案搜索结合注释和 / 或可视化环境来实现。
     装箱函数（BF）的使用可以允许灵活测量 “相似性” ，其可以被调适于（adapted to）数据集以便检测所有相关图案，从而对付 DNA 序列中的变化。
     此外，本发明是可扩展的（scalable）并且适合于并行实现，所述并行实现使得搜索大基因组数据空间（例如不同物种的基因组）变得可行。
     该方法可以基于多个大基因组序列的谱图案来高效地和有效地比较这些基因组序列以便导出基因同源性并且因此导出系统发育学关系。
     各序列中的共同谱图案可以例如标识所述序列中的核苷酸周期性重复并且将帮助在编码和非编码 DNA 中发现新颖的重复元素（element），否则所述新颖的重复元素可能不 “可见” ，这归因于在周期性间隔中随机排列的核苷酸之后仅特定的核苷酸的周期性。
     在本发明的上下文中，也可以有利地应用其他用于谱分析的方法，例如 PCT 申请 PH008112WO1（律师参考号）、 IB2008/051434（PCT 申请号）中描述的方法。
     所述装箱函数可以包括截取、上舍入、下舍入、模函数和 / 或阈值函数，或技术人员可获得的可以结合本发明实现的任何其他相关的装箱函数。
     典型地，装箱函数（BF）针对所有通道（X）而被定义。因此，对于 DNA，可以修改通道 X={A,T,C 和 G}，但是可替代地，仅通道的子集可以依赖于分析的要求得以修改。
     有利地，在所述多个谱的所述部分内发现基本相等的修改的傅立叶系数（Usk_ X(k)）可以包括定量分析修改的傅立叶系数（Usk_X(k)）相对于所述装箱函数（BF）的分布。因此，它可以包括绘制所述分布，例如以将在下文中更详细地解释的柱状图绘制，或以其他类型的图绘制。
     典型地，依赖于期望的分析的要求，针对一组频率（K_i），例如所有频率，或间隔，连续或不连续地（即分开）重复所述方法。
     应当注意，所述方法同样可以应用于分析 RNA 序列或氨基酸序列而不是 DNA 序列。本发明的应用因此不限于关于 DNA 序列的分析的应用，而是也可以应用在在生物化学内相关（relevance）的相似序列（例如 RNA 序列和氨基酸序列）上。
     我们可以创建用于氨基酸（其中 20 种）的二进制指示符表示，并且随后我们应用 STFT 以将 BIS 序列转换为傅立叶域空间。随后，用于实现本发明的其余过程将是相同的。这里是氨基酸的列表：丙氨酸 - ala - A 精氨酸 - arg - R 天门冬酰胺 - asn - N 天门冬氨酸 - asp - D 半胱氨酸 - cys - C 谷氨酰胺 - gln - Q 谷氨酸 - glu - E 甘氨酸 - gly - G 组氨酸 - his - H 异白氨酸 - ile - I 白氨酸 - leu - L 赖氨酸 - lys - K 蛋氨酸 - met - M 苯丙氨酸 - phe - F 脯氨酸 - pro - P 丝氨酸 - ser - S 苏氨酸 - thr - T 色氨酸 - trp - W 酪氨酸 - tyr - Y 缬氨酸 - val - V 这 20 种不同的氨基酸可以被映射到红 - 绿 - 蓝（RGB）（或色调饱和度值 -HSV 空间）中的 20 种不同颜色。这些空间中任一种可以被量化为 20 种颜色 - 每种氨基酸一个颜色。因此，本发明的教导不限于 DNA 分析，而是可以利用本领域技术人员容易认识到的相关修改而扩展到 RNA 和氨基酸分析。
     优选地，使用合并函数可以将二进制指示符序列的集合减小到 BIS 的更小集合，该合并函数可以优选地包括逻辑 AND 函数。
     在所述多个谱的所述部分内所发现的基本相等的修改的傅立叶系数（Usk_X(k)）的集合可被定义为构成图案。在一个实施例中，在任何频率和 / 或通道中具有基本相等的修改的傅立叶系数（Usk_X(k)）的最大集合的第一组谱（S）可被发现并且与剩余谱分离，剩余谱形成第二组谱。术语 “最大集合” 的意思是具有最高数量的重新发生的修改的傅立叶系数的集群（collective group）。此外，基本相等的修改的傅立叶系数（Usk_X(k)）的最大集合可在第二组谱内被发现并且被分离。而且，谱分离为第一和第二组谱可以重复进行，忽视先前发现的修改的傅立叶系数（Usk_X(k)）的最长集合，从而发现下一个最长集合。可以重复将谱分离为第一和第二组的操作： i）直到发现修改的傅立叶系数（Usk_X(k)）的最长集合的预定义阈值为止， ii）直到执行了预定义次数的将谱分离为第一和第二组谱的操作为止，或 iii）直到第一和 / 或第二组谱包含单个序列为止，以便提供所述分离的结束。
     在另一个实施例中，在任何频率和 / 或通道中具有基本相等的修改的傅立叶系数（Usk_X(k)）的最大集合的第一组谱（S）可被发现并被做标记。所述集合可以优选地被显示以供分析。而且，在任何频率和 / 或通道中具有基本相等的修改的傅立叶系数（Usk_X(k)）的最大集合的第二组谱可被发现并被做标记，忽视先前发现的修改的傅立叶系数（Usk_ X(k)）的最长集合。所述集合优选地也可以被显示给用户以供分析。此外，第一组和 / 或下一组谱可被重排序并且优选地被显示，其中考虑所述标记。这样，在任何频率和 / 或通道中最长的图案可被发现。最后，所述最长集合可被发现并且这组谱可被重排序： i）直到修改的傅立叶系数（Usk_X(k)）的最长集合的长度的预定义阈值被发现为止， ii）直到预定义数量的最长集合被发现为止，或 iii）直到最长集合包含单个序列为止，以便提供该实施例的过程的结束。在又一个实施例中，所发现的修改的傅立叶系数（Usk_X(k)）的图案的长度超出第一预定义阈值（N_thres1）的所有组谱（S）或包含 k 个最长图案（k 是整数）的所有组谱可被发现并且与剩余谱分离，剩余谱形成第二组谱。所选的各组谱不必是分开的。可以使用用于修改的傅立叶系数（Usk_X(k)）的图案的长度的第二预定义阈值（N_thres2）或使用 j 个最长图案（j 是等于或不同于 k 的整数）来进一步分离这样分离的每个组谱。为了提供所述分离的结束，谱分离为各组的操作可被重复进行： i）直到修改的傅立叶系数（Usk_X(k)）的图案的长度的预定义阈值被发现为止， ii）直到执行了预定义次数的分离为第一和第二组谱的操作为止，或 iii）直到第一和 / 或第二组谱包含长度等于 1 的修改的傅立叶系数（Usk_ X(k)）的序列为止。
     在第二方面，本发明涉及一种适于使得包括至少一个计算机的计算机系统能够实现根据本发明的第一方面的方法的计算机程序产品。
     本发明的该方面特别地但非排他地有利于：本发明可以通过使得计算机系统能够执行本发明第二方面的操作的计算机程序产品来实现。因此，预期通过在计算机系统上安装控制所述光学记录装置的计算机程序产品来改变一些已知的计算机系统以根据本发明进行操作。这种计算机程序产品可以在任何种类的计算机可读介质（例如基于磁性的或光学的介质）上提供或通过基于计算机的网络（例如因特网）提供。
     本发明可以以包括硬件、软件、固件或这些的任意组合的任何适当形式来实现。本发明或本发明的一些特征可以被实现为运行在一个或多个数据处理器和 / 或数字信号处理器上的计算机软件。本发明的实施例的元件和组件在物理上、功能上和逻辑上可以以任何适当的方式实现。事实上，所述功能可在单个单元、多个单元中实现或实现为其他功能单元的一部分。同样，本发明可以单个单元中实现，或者可以在物理上和功能上分布在不同的单元和处理器中。
     本发明的这些和其他方面将根据下文描述的实施例而清楚并且参照这些实施例而被阐明。
     附图说明
     现在将参照附图仅通过实例解释本发明，在附图中图 1 是示范性二进制序列（BIS）图案，图 2 是四个核苷酸碱基 A、 T、 C 和 G 的来自图 1 的对应的 BIS 图案的图，图 3 是每个碱基的转换的频谱，图 4 与图 3 相似，并且在右边指示出，获得了被相应核苷酸碱基的频率分量的大小加权的颜色映射向量的叠加，图 5 示意性示出从 DNA 序列的一部分的短时傅立叶变换（STFT）生成单个、彩色谱，图 6 与图 5 相似，并且示出通过沿 DNA 序列重复进行 STFT 来生成多个谱，图 7 是根据本发明的装箱函数（BF）的应用的原理草图，图 8 是根据本发明的在各个频率处的谱的示意图，图 9 是与图 8 相似的图，其示出根据本发明的装箱函数（BF），图 10 是与图 8 相似的图，其示出根据本发明的另一个装箱函数（BF’ ），图 11 是与图 8 相似的图，其示意性示出装箱函数的应用并绘制为根据本发明的柱状图，图 12 和图 13 示出根据本发明的所谓的自顶向下的层次分类（TDHS）的实例，图 14 和图 15 示出根据本发明的所谓的独立迭代分类（independent iterative sorting， IIS）的实例，以及图 16 是根据本发明的方法的流程图。具体实施方式
     DNA 谱图可以以常规方式生成，如下文中将参照图 1-6 更详细地描述的。例如，可以使用用于生成 DNA 谱图的常规算法或技术，其需要下列 5 个步骤：（i）针对所述四个核苷酸碱基形成二进制指示符序列（BIS） uA[n]、 uT[n]、 uC[n] 和 uG[n]。图 1 中再现了从 DNA 序列 10 生成的示范性 BIS 图案，并且图 2 中呈现了 BIS 值的图。
     （ii）在 BIS 上进行离散傅立叶变换（DFT）。每个碱基的频谱是通过使用公式（1）计算每个碱基相应的 BIS 的 DFT 而获得的：X =A, T, C, 或 G （1）如图 3 所示，序列 U[k] 提供在频率 k 处的频率内容（frequency content）的度量，其等于 N/k 个样本的基础（underlying）周期。N 是窗口 W 中的核苷酸碱基的总数，参看图 5 和图 6。碱基的数量可以是最多 300 个核苷酸碱基，优选地为最多 500 个碱基，或者甚至更优选地为 700 个核苷酸碱基。可替代地，所述周期可以最多为 3000 个核苷酸碱基，优选地为最多 5000 个核苷酸碱基，或者甚至更优选地为最多 10000 个核苷酸碱基。（iii）将 DTF 值映射到 RGB 颜色。所述 4 个（DFT）序列在 RGB 空间中通过下面再现的一组线性方程而被减少到 3 个序列：其中 (a r , a g , a b ), (t r , t g , t b ), (c r , c g , c b ) 和 (g r , g g , g b ) 分别是核苷酸碱基 A、 T、 C 和 G 的颜色映射向量。所得的像素颜色 (X r [k], X g [k], X b [k]) 因此是被如图 4 右侧所指示的它们各自的核苷酸碱基的频率分量的大小加权的颜色映射向量的叠加。在图 5 中针对单个谱 20 示出了 DFT 值到颜色的映射，并且在图 6 中针对若干谱 20（即谱图 30）示出了 DFT 值到颜色的映射。图 5 和图 6 二者在这里为了说明的目的以灰度色调重现。基于频域的 U 值的其他颜色空间映射也是可能的，例如映射到 HSV 空间。
     （iv）将像素值归一化。在再现彩色谱图 30 之前，每个像素的 RGB 值通常被归一化以使其落在 0 与 1 之间。对于本领域技术人员而言，一旦认识到本发明总的原理，许多归一化过程就容易可用。
     （v）短时傅立叶变换（STFT）。通过各个 DNA 序列谱 20（ “条” ）的级联（concatenation）形成多个 DNA 谱 20，即谱图 30，其中每个条或谱通常描绘局部 DNA 片段的频谱，如图 6 所示。短期傅立叶变换（STFT）具有如图 6 所示沿着 DNA 序列从 5’ 移位到 3’ 的窗口 W。
     图 6 中所示的谱图具有 60 个核苷酸碱基的长度，并且所述窗口 W 每次被移位一个碱基。在谱图 30 中的水平标度上，示出了频率 k （向下增加），而 DNA 序列 10 上的开始位置 P_ini 在谱图 30 中的水平标度上示出。
     谱图 30 的外观（appearance）非常受 STFT 窗口 W 的尺寸、相邻窗口 W 之间的重叠序列的长度以及颜色映射向量的选择的影响，参看公式（2）。所述窗口尺寸确定了谱图 30 中像素值的有效范围。较大的窗口导致展现从较长 DNA 片段收集的统计数据的谱图。一般地，窗口 W 的尺寸应当被制造得为感兴趣的重复图案的长度的若干倍大并且为包含感兴趣的图案的区域的尺寸的若干分之一小。为了探查的目的，推荐尝试窗口尺寸的范围。所述窗口重叠确定了两个相邻 STFT 窗口共同的 DNA 片段的长度。因此所述重叠越大，频谱从一个 STFT 窗口到下一个窗口的转变越渐进。图像分辨率较高使得通过图像处理或视觉检查提取特征较为容易。观看大量的序列数据需要一种用于信息分析和可视化（visualization）的高效方法。为了优化对从非常大的序列导出的谱或包含许多小窗口的谱的观看，所述谱可被再现为由本发明的发明人示出的视频； N.Dimitrova 等人的 “Analysis and visualization of DNA spectrograms:open possibilities for genome research” ,in ACM MM,Santa Barbara,CA,Oct.2006，该文献通过整体应用合并于此。
     图 7 是根据本发明的根据三种不同情况的装箱函数应用的原理草图。参照图 3 和图 8（参看下文），所述四个通道 A、 T、 C 和 G 中的每一个通过坐标频率 k、傅立叶系数 Usk_ X(k) 和谱数 s 定义了倒易 k- 空间中的三维空间。因此，对于一个通道，频率 k 可以通过三维向量 U_1、 U_2、 U_3、 U_4 或 U_5 表示。本发明通过定义相对于例如一个通道 C（通常研究
     多于一个的通道）的装箱函数 BF 来操作。在图 7 中通过点状箭头示意性指示装箱函数 BF 的操作，并且所述五个向量 U_1、 U_2、 U_3、 U_4 和 U_5 分别被示意性修改为 U_1’ 、 U_2’ 、 U_3’ 、 U_4’ 和 U_5’ 。
     在情况 A 中，装箱函数 BF 被应用在由向量 U_1 指示的一个频率上，并且作为装箱函数 BF 的结果， U_1 的傅立叶系数 Usk_X(k) 被修改并且因此如图所示改变了所述向量。
     在情况 B 中，装箱函数 BF 被应用在由向量 U_2 和 U_3 指示的两个频率上，并且作为装箱函数 BF 的结果， U_2 和 U_3 二者的傅立叶系数 Usk_X(k) 分别被修改为向量 U_2’ 和 U_3’ 。在该特定情况下，装箱函数 BF 具有效果： U_2’ 等于 U_3’ 。这可以例如是装箱函数 BF 的下述情况：明显改变了值，例如苛刻的下舍入或类似改变。因此，丢失了信息，但是可以执行更容易的和 / 或改进的分析。
     在情况 C 中，装箱函数 BF 被应用在由向量 U_4 和 U_5 指示的两个频率上，并且作为装箱函数 BF 的结果， U_4 和 U_5 二者的傅立叶系数 Usk_X(k) 分别被修改为向量 U_4’ 和 U_5’ 。在该特定情况下，装箱函数 BF 具有在向量空间中转变（turn）两个向量 U_4 和 U_5 的效果。
     图 8 是根据本发明的在各个频率处的谱的示意图，其具体列出了在该图左部通过行进索引 s 向下连续编号的不同谱 20 的傅立叶系数 Usk_X(k)。所述频率 k 还在图 8 的顶部被示出。DFT 的频率从 1 到傅立叶变换的最大频率 km 行进。如前所述，所述四个核苷酸碱基 A、 T、 C 和 G 构成四个通道，即 X=A、 T、 C 和 G。通常，研究多于一个通道，并且由此与所述搜索模板的相似性可以基于多于一个通道（例如 X=A 和 C）的变化程度，并且特别地，所述相似性可以基于所有通道（即 X=A、 T、 C 和 G）的变化程度。为了强调图 8 中每个条目包括 4 个不同的通道，第一行（s=1）中名称为 U1k_x 的条目已经被放大（blow up）并且所有四个通道在图 8 的上部中明确地被写出。
     图 9 是与图 8 相似的图，其示出根据本发明的装箱函数 BF。基于 DNA 序列通过将 DNA 序列转换为多个二进制指示符序列（BIS）并且将短期傅立叶变换（STFT）应用在所述二进制指示符序列上来获得多个谱 s，每个谱包括对应的频率 k 和傅立叶系数 Usk_X(k)，其中每种傅立叶系数构成通道 X。
     随后，针对频率 K’ （其中 K’ =2）定义装箱函数 BF，其适用于相对于相关通道 X 的傅立叶系数 Usk_X(k)。因此，所述装箱函数可以例如包括截取、上舍入、下舍入、模函数和 / 或阈值函数，或相关于本发明的目的的其他相关的数学函数。在一个实施例中，执行所述截取。典型地，所述装箱函数（BF）针对所有通道 X 定义，因此 X={A， T， C 和 G}，但是对于一些应用，一个或例如 C 和 G 的子集可以是待分析的通道。在图 9 中，装箱函数（BF）被应用在从 s=1 到 s 的所述多个谱的一部分上，并且由此修改对应的傅立叶系数 Usk_X(k)。可替代地，所述装箱函数（BF）可以应用在更小的部分上，例如 s=1 到 s=2。
     其后，所述多个谱（例如 s=1 以及向上）的所述部分内的基本相等的修改的傅立叶系数 Usk_X(k) 被发现并且优选地被做标记或打上标签以供进一步分析。因此，发现的意思是例如计数具有修改的傅立叶系数 Usk_X(k) 的一定值的条目有多少，例如 10 个。术语 “基本相等” 的意思是考虑在应用了装箱函数 BF 之后引入的数值误差。
     图 10 是与图 8 相似的图，其示出根据本发明的另一个装箱函数 BF’ 。所述方法可以针对一组频率 K_i 或者并行地或者连续地（典型地以一定间隔）被重复，但是这组 K_i 也可以在特定的 k 个值上 “跳动” 。因此，应当强调，所述频率组或间隔 K_i 可以包括若干不同的频率间隔，即 K_i 可以包括 k=2， k=6 或 k=2 和 k=4。因此， K_i 可以是从 k=1 到 k=km（傅立叶变换的最大频率）的间隔内的任何适当的子组或各子组的组合。
     图 11 是与图 8 相似的图，其示意性示出装箱函数 BF 在多个谱上的应用，但是为了简化起见仅仅针对一个频率 k 示出了所述应用。在应用了所述装箱函数 BF （在这种情况下为简单截取）之后，修改的傅立叶系数的相等值被发现，然后将发生的次数作为装箱值的函数绘制为柱状图，例如 Usl_G(k)=6 的两次发生和 Usl_G(k)=9 的一次发生等等。
     对于每个频率， “相似的” 值（即根据所应用的装箱函数 BF 为基本相等的）被聚集在一起，并且示出落入每个箱（bin）中的值的个数的柱状图被建立。针对单独的频率的 A、 C、 G、 T 的值可以独立地进行比较，或者可以以常见方法（common measure）来组合，所述常见方法考虑所有四个核苷酸上的相似性以发现所述频率中的相似性。图 11 提供了如何应用装箱函数 BF 和如何生成柱状图的实例。然后，可以应用频率分类或聚类方法的各种实施例。使用所述装箱函数，针对所有频率的 A、 T、 C 和 G，生成示出所述 “相似” 值的柱状图。
     接下来，对于每个频率，根据所选择的策略选择一个或多个柱状图箱（例如最大的）。在下文中，进一步解释了三个这样的策略：自顶向下的层次分类（TDHS）、独立迭代分类（IIS）和格状分类（LS），但是在本发明的上下文和教导内技术人员容易获得其他方法。然后，可以根据所选的策略并考虑柱状图箱来将域（domain）分割（split），并且在每个子域中重复所述过程直到达到停止标准为止。例如，当最大的箱被选择时，它提供最大数量的序列，所述序列在针对所述核苷酸之一的所述特定频率中共享根据所述装箱函数 BF 的 “相似” 值。针对在跨越所有频率的所有柱状图箱中（对于每一个频率，存在单个柱状图）最大值的频率被选择，并且对该柱状图有贡献的序列被聚集在一起。这样，各序列的整个域被分割成共享在所述频率中的相似性的序列的组和其余组，从而获得两个 “群（cluster） ” （尽管这不是字面严格意义上的聚类算法，但是可以采用该术语），并且特定选择和处理策略被应用在这两个群的每一个上。接下来，再次建立所述各值的柱状图，或者将计算的柱状图箱更新以反映分割成各群；选择最长的柱状图，并且根据该柱状图再次将所述域分割成两个群。当最长的柱状图的尺寸低于预定义阈值时，当达到用户定义的数量的待提取的长图案时，或者当所述两个群的每一个包含单个序列时，迭代停止。也可以应用其他停止标准。
     图 12 和图 13 示出根据本发明的所谓的自顶向下的层次分类（TDHS）的实例。一旦发现最长的图案，例如 k=1、 C 通道，三次值 “8” ， TDHS 算法将窗口或谱的域分割成包含最长图案和剩余图案的域。为了说明这个过程，在右边示出了三个所选通道的柱状图，即 k=1， A&C 通道和 k=2， A 通道。利用中间的柱状图中的实线圆，示意性标识了最长图案。
     接下来，在所述两个群的每一个或第一组和第二组中，（下一个）最长图案被发现并且所述群中的每一个再次被分割成或细分成包含长图案和剩余图案的多个群或组。这在图 13 中被示出，在图 13 中窗口或谱 s=1,2 和 3 形成被分割成包含最长图案 k=2、具有 2 次出现的装箱值 “10” 的 A 通道的谱的组和谱 s=2 的组。
     在图 13 的左下部中通过 “分类三” 示出了具有两个分支点的该层次分类。TDHS 分类的第一分支也在图 12 的左下部被示出。
     当达到最长图案或步骤数的阈值时，或当所述两个群或组的每一个包含单个序列
     时（例如图 13 中的谱 s=2），该算法停止。最后，将具有一种图案的层次。可以选择在分离的每个步骤处显示两个群，或仅仅显示具有最长图案的群或组。该策略可能在长图案在先前步骤中被分割时遗漏长图案。 TDHS 的一种变化是停止分割树的左侧 - 已经包含最长图案的侧。这将导致多叶二叉树。
     图 14 和图 15 示出根据本发明的所谓独立迭代分类（IIS）的实例。 IIS 以图案的尺寸的降序显示了所述域中的所有图案。它首先选择如用于 TDHS 分类算法的图 12 中所示的最长图案，然后 IIS 算法将包含最长图案的群重排序在顶部并且显示整个域。接下来， IIS 选择独立于第一图案的第二（不同的）最长图案（如图 14 所示， k=1, 具有两次出现的装箱值 “2” 的通道 A，用实线圆在柱状图中示出（尽管 k=2，通道 A 也具有两次出现的装箱值 “10” ））等等，直到所有图案被发现为止。因此，在图 15 中，第三最长图案是 k=2，具有两次出现的装箱值 “10” 的通道 A，如也利用实线圆在柱状图中指示。利用该策略，完全同时存在的图案（在更长的图案中没有间隙）或完全分开（disjoint）的图案（没有公共序列）将总是出现。还应当注意，在不同的迭代中所获得的群可以包含相同的（重叠的）谱。
     而且，所谓的格状分类（LS）算法可以结合本发明实现。开始，对于比给定尺寸 N_ thres1 长的所有图案（或可替代地对于 k 个最长的图案），通过选择包括这些图案的行或谱并且放弃其余的行或谱来形成群。随后，在每个群或组中反复（iteratively）执行相同的选择，直到找不到合适的图案为止，即直到所有的图案都比 N_thres2 短（或剩余的所有图案长度都为 1）为止。利用该策略，所述群可以是重叠的，并且每个群具有一个子群。与 TDHS 不同， LS 从不遗漏长图案。也利用该策略，完全共存的图案将总是出现。 TDHS、 IIS 和 LS 的所有上述策略可以在以下意义下交互式实现：在每个步骤，所述图案可被可视化并且用户可以决定探究群或组的层次中的哪些分支。
     接下来，所述谱可以在如图 6 所示的一种被称为分类的视频的新表示中堆叠于彼此之上并且可以被显示。依赖于用户的偏好，所有群可以被示出，或者只有那些在所述算法步骤中包含最强图案的群被示出。
     此外，本发明有助于并行化，这与本领域已知的其他聚类方法（比如层次聚类）不同。为了分类，针对每个频率建立柱状图，这使得容易在若干过程中分割傅立叶值的域并且并行地、在并行系统或分布式系统上或在网格上执行它们。
     最后，本发明提供一种可视化方法（如图 6 所示），其使得生物学家或临床医生更容易看到关于这些图案的相似性的结果并发现关于这些图案的相似性的进一步解释。为了这个任务，可以提供可用的基因组注释，比如基因的名称或基因组元素、物种、实验等等。
     图 16 是根据本发明的方法的流程图。所述方法包括： S1 提供 DNA 序列， S2 基于所述 DNA 序列，通过将该 DNA 序列转换为多个二进制指示符序列（BIS）并且将短期傅立叶变换（STFT）应用在所述二进制指示符序列上来创建多个谱 20，每个谱包括对应的频率 k 和傅立叶系数 Usk_X(k)，其中每种傅立叶系数构成通道 X， S3 对于适用于相对于一个或多个通道 X 的傅立叶系数 Usk_X(k) 的频率 K’ ，定义装箱函数 BF， S4 将装箱函数 BF 应用在所述多个谱的至少一部分上并且由此修改对应的傅立叶系数 Usk_X(k)，以及
     S5 在所述多个谱的所述部分内发现基本相等的修改的傅立叶系数 Usk_X(k)。
     本发明可以以包括硬件、软件、固件或这些的任何组合的任何适当形式实现。本发明或本发明的一些特征可以被实现为运行在一个或多个数据处理器和 / 或数字信号处理器上的计算机软件。本发明的实施例的元件和组件在物理上、功能上和逻辑上可以以任何适当的方式实现。事实上，所述功能可在单个单元、多个单元中实现或实现为其他功能单元的一部分。同样，本发明可以单个单元中实现，或者可以在物理上和功能上分布在多个不同的单元和处理器之间。
     尽管已经结合指定的实施例描述了本发明，但是本发明不期望限于本文所陈述的特定形式。相反地，本发明的范围仅仅由所附权利要求限定。在权利要求中，术语 “包括” 不排除其他元件或步骤的存在。此外，尽管各个特征可以包含在不同的权利要求中，但是这些特征可以有利地被组合，并且在不同权利要求中包含所述各个特征并不暗示这些特征的组合是不可行的和 / 或不是有利的。此外，单数引用不排除多个。因此，对 “一” 、 “第一” 、 “第二” 等的引用不排除多个。而且，权利要求中的附图标记不应当被解释为限制范围。

资源描述

《用于谱DNA分析的方法.pdf》由会员分享，可在线阅读，更多相关《用于谱DNA分析的方法.pdf（25页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN102067141A43申请公布日20110518CN102067141ACN102067141A21申请号200980122875622申请日2009061208158610920080619EPG06F19/22201101G06F17/1420060171申请人皇家飞利浦电子股份有限公司地址荷兰艾恩德霍芬72发明人AID布库尔JJA范利尤文N迪米特罗瓦C米塔尔74专利代理机构中国专利代理香港有限公司72001代理人龚海军刘鹏54发明名称用于谱DNA分析的方法57摘要本发明涉及一种用于分析DNA序列的方法。通过将所述DNA序列转换为多个二进制指示符序列（BIS）并且在所述。

2、二进制指示符序列上应用短期傅立叶变换（STFT）来分析DNA序列。装箱（BINNING）函数（BF）被应用于傅立叶系数（USK_XK）,由此修改对应的傅立叶系数（USK_XK）。最后，发现基本相等的修改的傅立叶系数（USK_XK）。本发明向用户提供一种改进很大的在大量的DNA序列数据中看到独特的强图案（STRONGPATTERN）的能力。30优先权数据85PCT申请进入国家阶段日2010121786PCT申请的申请数据PCT/IB2009/0525172009061287PCT申请的公布数据WO2009/153722EN2009122351INTCL19中华人民共和国国家知识产权局12发明专利。

3、申请权利要求书2页说明书10页附图12页CN102067151A1/2页21一种用于分析DNA序列（10）的方法，该方法包括提供DNA序列，基于所述DNA序列，通过将所述DNA序列转换为多个二进制指示符序列（BIS）并且将短期傅立叶变换（STFT）应用在所述二进制指示符序列上来创建多个谱（20），每个谱包括对应的频率（K）和傅立叶系数（USK_XK），其中每种傅立叶系数构成通道（X），对于适用于相对于一个或多个通道（X）的傅立叶系数（USK_XK）的频率（K），定义装箱函数（BF），将所述装箱函数（BF）应用在所述多个谱的至少一部分上并且由此修改对应的傅立叶系数（USK_XK），以及在所述多个。

4、谱的所述部分内发现基本相等的修改的傅立叶系数（USK_XK）。2根据权利要求1的方法，其中在所述多个谱的所述部分内发现基本相等的修改的傅立叶系数（USK_XK）包括定量分析修改的傅立叶系数（USK_XK）相对于所述装箱函数（BF）的分布。3根据权利要求1的方法，其中针对一组频率（K_I）重复所述方法。4根据权利要求1的方法，其中使用合并函数将二进制指示符序列的集合减小到BIS的更小集合，该合并函数优选地包括逻辑AND函数。5根据权利要求1或3的方法，其中发现在任何频率和/或通道中具有基本相等的修改的傅立叶系数（USK_XK）的最大集合的第一组谱（S）并且将其与剩余的谱分离，所述剩余的谱形成第二。

5、组谱。6根据权利要求5的方法，其中在第二组谱内发现并且分离基本相等的修改的傅立叶系数（USK_XK）的最大集合。7根据权利要求6的方法，其中将谱分离为第一和第二组谱被重复，忽视先前发现的修改的傅立叶系数（USK_XK）的最长集合。8根据权利要求6或7的方法，其中重复将谱分离为第一和第二组的操作I）直到发现修改的傅立叶系数（USK_XK）的最长集合的预定义阈值为止，II）直到执行了预定义次数的分离为第一和第二组谱的操作为止，或III）直到第一和/或第二组谱包含单个序列为止。9根据权利要求1或3的方法，其中发现在任何频率和/或通道中具有基本相等的修改的傅立叶系数（USK_XK）的最大集合的第一组谱。

6、（S）并对其做标记。10根据权利要求9的方法，其中发现在任何频率和/或通道中具有基本相等的修改的傅立叶系数（USK_XK）的最大集合的第二组谱并对其做标记，忽视先前发现的修改的傅立叶系数（USK_XK）的最长集合。11根据权利要求910中任一项的方法，其中发现所述最长集合并且所述组的谱被重排序I）直到发现修改的傅立叶系数（USK_XK）的最长集合的长度的预定义阈值为止，II）直到发现预定义数量的最长集合为止，或III）直到最长集合包含单个序列为止。12根据权利要求1或3的方法，其中发现所发现的修改的傅立叶系数（USK_XK）的图案的长度超出第一预定义阈值（N_THRES1）的所有组的谱（S）或。

7、包含K个最长图案的所有组的谱并且将其与剩余的谱分离，所述剩余的谱形成第二组谱，其中K是整数。13根据权利要求12的方法，其中使用修改的傅立叶系数（USK_XK）的图案的长度的权利要求书CN102067141ACN102067151A2/2页3第二预定义阈值（N_THRES2）或使用J个最长图案来进一步分离根据权利要求18分离的每组谱，其中J是等于或不同于K的整数。14根据权利要求13的方法，其中将谱分离为组的操作被重复进行I）直到发现修改的傅立叶系数（USK_XK）的图案的长度的预定义阈值为止，II）直到执行了预定义次数的分离为第一和第二组谱的操作为止，或III）直到第一和/或第二组谱包含长度。

8、等于1的修改的傅立叶系数（USK_XK）的序列为止。15一种适于使得包括至少一台计算机的计算机系统能够实现根据权利要求1的方法的计算机程序产品。权利要求书CN102067141ACN102067151A1/10页4用于谱DNA分析的方法技术领域0001本发明涉及一种用于执行谱DNA分析的方法，即使用傅立叶变换在谱空间中表示DNA序列。本发明还涉及一种对应的计算机程序产品。背景技术0002过去已经描述了根据DNA序列的DNA谱图方法，对于该主题的早期参考，参看BENSON等人的NUCLEICACIDRESEARCH中1821，P63056310和18（10），30013006,1990。0003。

9、通过将DNA序列转换为二进制指示符（INDICATOR）序列并且然后应用短时傅立叶变换且映射到颜色空间以便使输出可视化来生成DNA谱图。为了允许频域中大量长序列的系统发育学的和生物学的比较，这些序列需要被可视化，以使得相似性是可（容易）检测的，甚至可被人类观察者检测。因此，需要将具有相似的频率图案（PATTERN）的序列聚集在一起的策略。0004在谱域中执行DNA分析的一个重要优点在于，避免了常规的序列到匹配序列的N2缩放（SCALING），N是序列中核苷酸碱基的数量。US6,287,773公开了例如一种基于频域的比较方法，其规模为（SCALEAS）NLOG（N），这可以非常显著地降低针对长序。

10、列的计算时间，所述长序列例如长于10000个核苷酸碱基。0005即使利用本用于DNA分析的谱分析的优点，仍然需要甚至更快和/或更高效的分析工具，因为数据量巨大。例如，人类基因组的完整染色体1是247亿核苷酸长，并且相应地作为（如最近由NDIMITROVA等人的“ANALYSISANDVISUALIZATIONOFDNASPECTROGRAMSOPENPOSSIBILITIESFORGENOMERESEARCH,”INACMMM,SANTABARBARA,CA,OCT2006建议的）所谓的谱视频（SPECTRAVIDEO）来观看DNA谱图也可能是冗长的任务。0006而且，尽管迄今为止进行了许多努。

11、力，但是仍然需要用于方便迅速分析DNA序列信息的系统和方法。而且仍然需要可以识别展示出相似谱特性的在结构上或组成上相似的图案的工具。这样的工具将与设法以线性次序或通过核苷酸外观（APPEARANCE）比对序列的常规的序列比对工具形成对照。0007当前用于序列比对的聚类算法不适合谱分析，在谱分析中我们需要分析各个频率处的内容。标准的聚类方法包括全局距离度量（GLOBALDISTANCEMETRIC），在这种情况下其将被应用在谱图中所考虑的所有频率上。尽管这种方法将能够检测许多频率中的强图案，但是它将筛选出在各个频率中的强图案。然而，在不同频率上的图案之间没有关系以在单个距离度量中考虑它们。在谱分。

12、析中，各单个频率上的强（长）图案是相关的。0008因此，一种用于分析DNA序列的改进的方法将是有利的，并且特别是一种更高效的和/或可靠的方法将是有利的。说明书CN102067141ACN102067151A2/10页5发明内容0009因此，本发明优选地设法单独地或任意组合地减轻、缓和或消除上面所提及的缺点的一个或多个。特别地，可以看作本发明的一个目的的是，提供一种解决上面提及的现有技术的分析DNA序列的问题的方法。0010在本发明的第一方面，该目的和若干其他目的通过提供一种用于分析DNA序列的方法获得，所述方法包括提供DNA序列，基于所述DNA序列通过将DNA序列转换为多个二进制指示符序列并将。

13、短期傅立叶变换（STFT）应用在所述二进制指示符序列上来创建多个谱，每个谱包括对应的频率（K）和傅立叶系数（USK_XK），其中每种傅立叶系数构成通道（X），对于适用于相对于一个或多个通道（X）的傅立叶系数（USK_XK）的频率（K）定义装箱函数（BF），将装箱函数（BF）应用在多个谱的至少一部分上并且由此修改对应的傅立叶系数（USK_XK），以及在所述多个谱的所述部分内发现基本相等的修改的傅立叶系数（USK_XK）。0011本发明特别地但非排他地有利于获得用于向用户提供在大量的DNA序列数据中看到独特的强图案的改进很大的能力的方法。进一步可能的是，提取图案的强度并评估在单个频率或一组频率上哪。

14、一个是最强图案或评估DNA序列中的所有频率上的所有图案来分析。0012本发明可以有利地利用对所有DNA谱的全自动或半自动图案搜索结合注释和/或可视化环境来实现。0013装箱函数（BF）的使用可以允许灵活测量“相似性”，其可以被调适于（ADAPTEDTO）数据集以便检测所有相关图案，从而对付DNA序列中的变化。0014此外，本发明是可扩展的（SCALABLE）并且适合于并行实现，所述并行实现使得搜索大基因组数据空间（例如不同物种的基因组）变得可行。0015该方法可以基于多个大基因组序列的谱图案来高效地和有效地比较这些基因组序列以便导出基因同源性并且因此导出系统发育学关系。0016各序列中的共同谱。

15、图案可以例如标识所述序列中的核苷酸周期性重复并且将帮助在编码和非编码DNA中发现新颖的重复元素（ELEMENT），否则所述新颖的重复元素可能不“可见”，这归因于在周期性间隔中随机排列的核苷酸之后仅特定的核苷酸的周期性。0017在本发明的上下文中，也可以有利地应用其他用于谱分析的方法，例如PCT申请PH008112WO1（律师参考号）、IB2008/051434（PCT申请号）中描述的方法。0018所述装箱函数可以包括截取、上舍入、下舍入、模函数和/或阈值函数，或技术人员可获得的可以结合本发明实现的任何其他相关的装箱函数。0019典型地，装箱函数（BF）针对所有通道（X）而被定义。因此，对于DN。

16、A，可以修改通道XA,T,C和G，但是可替代地，仅通道的子集可以依赖于分析的要求得以修改。0020有利地，在所述多个谱的所述部分内发现基本相等的修改的傅立叶系数（USK_XK）可以包括定量分析修改的傅立叶系数（USK_XK）相对于所述装箱函数（BF）的分布。因此，它可以包括绘制所述分布，例如以将在下文中更详细地解释的柱状图绘制，或以其他类型的图绘制。说明书CN102067141ACN102067151A3/10页60021典型地，依赖于期望的分析的要求，针对一组频率（K_I），例如所有频率，或间隔，连续或不连续地（即分开）重复所述方法。0022应当注意，所述方法同样可以应用于分析RNA序列或氨。

17、基酸序列而不是DNA序列。本发明的应用因此不限于关于DNA序列的分析的应用，而是也可以应用在在生物化学内相关（RELEVANCE）的相似序列（例如RNA序列和氨基酸序列）上。0023我们可以创建用于氨基酸（其中20种）的二进制指示符表示，并且随后我们应用STFT以将BIS序列转换为傅立叶域空间。随后，用于实现本发明的其余过程将是相同的。这里是氨基酸的列表丙氨酸ALAA精氨酸ARGR天门冬酰胺ASNN天门冬氨酸ASPD半胱氨酸CYSC谷氨酰胺GLNQ谷氨酸GLUE甘氨酸GLYG组氨酸HISH异白氨酸ILEI白氨酸LEUL赖氨酸LYSK蛋氨酸METM苯丙氨酸PHEF脯氨酸PROP丝氨酸SERS苏氨。

18、酸THRT色氨酸TRPW酪氨酸TYRY缬氨酸VALV这20种不同的氨基酸可以被映射到红绿蓝（RGB）（或色调饱和度值HSV空间）中的20种不同颜色。这些空间中任一种可以被量化为20种颜色每种氨基酸一个颜色。因此，本发明的教导不限于DNA分析，而是可以利用本领域技术人员容易认识到的相关修改而扩展到RNA和氨基酸分析。0024优选地，使用合并函数可以将二进制指示符序列的集合减小到BIS的更小集合，该合并函数可以优选地包括逻辑AND函数。0025在所述多个谱的所述部分内所发现的基本相等的修改的傅立叶系数（USK_XK）的集合可被定义为构成图案。在一个实施例中，在任何频率和/或通道中具有基本相等的修改。

19、的傅立叶系数（USK_XK）的最大集合的第一组谱（S）可被发现并且与剩余谱分离，剩余谱形成第二组谱。术语“最大集合”的意思是具有最高数量的重新发生的修改的傅立叶系数的集群（COLLECTIVEGROUP）。此外，基本相等的修改的傅立叶系数（USK_XK）的最大说明书CN102067141ACN102067151A4/10页7集合可在第二组谱内被发现并且被分离。而且，谱分离为第一和第二组谱可以重复进行，忽视先前发现的修改的傅立叶系数（USK_XK）的最长集合，从而发现下一个最长集合。可以重复将谱分离为第一和第二组的操作I）直到发现修改的傅立叶系数（USK_XK）的最长集合的预定义阈值为止，II）。

20、直到执行了预定义次数的将谱分离为第一和第二组谱的操作为止，或III）直到第一和/或第二组谱包含单个序列为止，以便提供所述分离的结束。0026在另一个实施例中，在任何频率和/或通道中具有基本相等的修改的傅立叶系数（USK_XK）的最大集合的第一组谱（S）可被发现并被做标记。所述集合可以优选地被显示以供分析。而且，在任何频率和/或通道中具有基本相等的修改的傅立叶系数（USK_XK）的最大集合的第二组谱可被发现并被做标记，忽视先前发现的修改的傅立叶系数（USK_XK）的最长集合。所述集合优选地也可以被显示给用户以供分析。此外，第一组和/或下一组谱可被重排序并且优选地被显示，其中考虑所述标记。这样，在。

21、任何频率和/或通道中最长的图案可被发现。最后，所述最长集合可被发现并且这组谱可被重排序I）直到修改的傅立叶系数（USK_XK）的最长集合的长度的预定义阈值被发现为止，II）直到预定义数量的最长集合被发现为止，或III）直到最长集合包含单个序列为止，以便提供该实施例的过程的结束。0027在又一个实施例中，所发现的修改的傅立叶系数（USK_XK）的图案的长度超出第一预定义阈值（N_THRES1）的所有组谱（S）或包含K个最长图案（K是整数）的所有组谱可被发现并且与剩余谱分离，剩余谱形成第二组谱。所选的各组谱不必是分开的。可以使用用于修改的傅立叶系数（USK_XK）的图案的长度的第二预定义阈值（N_。

22、THRES2）或使用J个最长图案（J是等于或不同于K的整数）来进一步分离这样分离的每个组谱。为了提供所述分离的结束，谱分离为各组的操作可被重复进行I）直到修改的傅立叶系数（USK_XK）的图案的长度的预定义阈值被发现为止，II）直到执行了预定义次数的分离为第一和第二组谱的操作为止，或III）直到第一和/或第二组谱包含长度等于1的修改的傅立叶系数（USK_XK）的序列为止。0028在第二方面，本发明涉及一种适于使得包括至少一个计算机的计算机系统能够实现根据本发明的第一方面的方法的计算机程序产品。0029本发明的该方面特别地但非排他地有利于本发明可以通过使得计算机系统能够执行本发明第二方面的操作的。

23、计算机程序产品来实现。因此，预期通过在计算机系统上安装控制所述光学记录装置的计算机程序产品来改变一些已知的计算机系统以根据本发明进行操作。这种计算机程序产品可以在任何种类的计算机可读介质（例如基于磁性的或光学的介质）上提供或通过基于计算机的网络（例如因特网）提供。0030本发明可以以包括硬件、软件、固件或这些的任意组合的任何适当形式来实现。本发明或本发明的一些特征可以被实现为运行在一个或多个数据处理器和/或数字信号处理器上的计算机软件。本发明的实施例的元件和组件在物理上、功能上和逻辑上可以以任何适当的方式实现。事实上，所述功能可在单个单元、多个单元中实现或实现为其他功能单元的一部分。同样，本发。

24、明可以单个单元中实现，或者可以在物理上和功能上分布在不同的单元和处理器中。0031本发明的这些和其他方面将根据下文描述的实施例而清楚并且参照这些实施例而被阐明。说明书CN102067141ACN102067151A5/10页8附图说明0032现在将参照附图仅通过实例解释本发明，在附图中图1是示范性二进制序列（BIS）图案，图2是四个核苷酸碱基A、T、C和G的来自图1的对应的BIS图案的图，图3是每个碱基的转换的频谱，图4与图3相似，并且在右边指示出，获得了被相应核苷酸碱基的频率分量的大小加权的颜色映射向量的叠加，图5示意性示出从DNA序列的一部分的短时傅立叶变换（STFT）生成单个、彩色谱，图。

25、6与图5相似，并且示出通过沿DNA序列重复进行STFT来生成多个谱，图7是根据本发明的装箱函数（BF）的应用的原理草图，图8是根据本发明的在各个频率处的谱的示意图，图9是与图8相似的图，其示出根据本发明的装箱函数（BF），图10是与图8相似的图，其示出根据本发明的另一个装箱函数（BF），图11是与图8相似的图，其示意性示出装箱函数的应用并绘制为根据本发明的柱状图，图12和图13示出根据本发明的所谓的自顶向下的层次分类（TDHS）的实例，图14和图15示出根据本发明的所谓的独立迭代分类（INDEPENDENTITERATIVESORTING，IIS）的实例，以及图16是根据本发明的方法的流程图。。

26、具体实施方式0033DNA谱图可以以常规方式生成，如下文中将参照图16更详细地描述的。例如，可以使用用于生成DNA谱图的常规算法或技术，其需要下列5个步骤（I）针对所述四个核苷酸碱基形成二进制指示符序列（BIS）UAN、UTN、UCN和UGN。图1中再现了从DNA序列10生成的示范性BIS图案，并且图2中呈现了BIS值的图。0034（II）在BIS上进行离散傅立叶变换（DFT）。每个碱基的频谱是通过使用公式（1）计算每个碱基相应的BIS的DFT而获得的XA,T,C,或G（1）如图3所示，序列UK提供在频率K处的频率内容（FREQUENCYCONTENT）的度量，其等于N/K个样本的基础（UND。

27、ERLYING）周期。N是窗口W中的核苷酸碱基的总数，参看图5和图6。碱基的数量可以是最多300个核苷酸碱基，优选地为最多500个碱基，或者甚至更优选地为700个核苷酸碱基。可替代地，所述周期可以最多为3000个核苷酸碱基，优选地为最多5000个核苷酸碱基，或者甚至更优选地为最多10000个核苷酸碱基。说明书CN102067141ACN102067151A6/10页90035（III）将DTF值映射到RGB颜色。所述4个（DFT）序列在RGB空间中通过下面再现的一组线性方程而被减少到3个序列其中AR,AG,AB,TR,TG,TB,CR,CG,CB和GR,GG,GB分别是核苷酸碱基A、T、C和G。

28、的颜色映射向量。所得的像素颜色XRK,XGK,XBK因此是被如图4右侧所指示的它们各自的核苷酸碱基的频率分量的大小加权的颜色映射向量的叠加。在图5中针对单个谱20示出了DFT值到颜色的映射，并且在图6中针对若干谱20（即谱图30）示出了DFT值到颜色的映射。图5和图6二者在这里为了说明的目的以灰度色调重现。基于频域的U值的其他颜色空间映射也是可能的，例如映射到HSV空间。0036（IV）将像素值归一化。在再现彩色谱图30之前，每个像素的RGB值通常被归一化以使其落在0与1之间。对于本领域技术人员而言，一旦认识到本发明总的原理，许多归一化过程就容易可用。0037（V）短时傅立叶变换（STFT）。。

29、通过各个DNA序列谱20（“条”）的级联（CONCATENATION）形成多个DNA谱20，即谱图30，其中每个条或谱通常描绘局部DNA片段的频谱，如图6所示。短期傅立叶变换（STFT）具有如图6所示沿着DNA序列从5移位到3的窗口W。0038图6中所示的谱图具有60个核苷酸碱基的长度，并且所述窗口W每次被移位一个碱基。在谱图30中的水平标度上，示出了频率K（向下增加），而DNA序列10上的开始位置P_INI在谱图30中的水平标度上示出。0039谱图30的外观（APPEARANCE）非常受STFT窗口W的尺寸、相邻窗口W之间的重叠序列的长度以及颜色映射向量的选择的影响，参看公式（2）。所述窗口。

30、尺寸确定了谱图30中像素值的有效范围。较大的窗口导致展现从较长DNA片段收集的统计数据的谱图。一般地，窗口W的尺寸应当被制造得为感兴趣的重复图案的长度的若干倍大并且为包含感兴趣的图案的区域的尺寸的若干分之一小。为了探查的目的，推荐尝试窗口尺寸的范围。所述窗口重叠确定了两个相邻STFT窗口共同的DNA片段的长度。因此所述重叠越大，频谱从一个STFT窗口到下一个窗口的转变越渐进。图像分辨率较高使得通过图像处理或视觉检查提取特征较为容易。0040观看大量的序列数据需要一种用于信息分析和可视化（VISUALIZATION）的高效方法。为了优化对从非常大的序列导出的谱或包含许多小窗口的谱的观看，所述谱可。

31、被再现为由本发明的发明人示出的视频；NDIMITROVA等人的“ANALYSISANDVISUALIZATIONOFDNASPECTROGRAMSOPENPOSSIBILITIESFORGENOMERESEARCH”,INACMMM,SANTABARBARA,CA,OCT2006，该文献通过整体应用合并于此。0041图7是根据本发明的根据三种不同情况的装箱函数应用的原理草图。参照图3和图8（参看下文），所述四个通道A、T、C和G中的每一个通过坐标频率K、傅立叶系数USK_XK和谱数S定义了倒易K空间中的三维空间。因此，对于一个通道，频率K可以通过三维向量U_1、U_2、U_3、U_4或U_5表。

32、示。本发明通过定义相对于例如一个通道C（通常研究说明书CN102067141ACN102067151A7/10页10多于一个的通道）的装箱函数BF来操作。在图7中通过点状箭头示意性指示装箱函数BF的操作，并且所述五个向量U_1、U_2、U_3、U_4和U_5分别被示意性修改为U_1、U_2、U_3、U_4和U_5。0042在情况A中，装箱函数BF被应用在由向量U_1指示的一个频率上，并且作为装箱函数BF的结果，U_1的傅立叶系数USK_XK被修改并且因此如图所示改变了所述向量。0043在情况B中，装箱函数BF被应用在由向量U_2和U_3指示的两个频率上，并且作为装箱函数BF的结果，U_2和U_。

33、3二者的傅立叶系数USK_XK分别被修改为向量U_2和U_3。在该特定情况下，装箱函数BF具有效果U_2等于U_3。这可以例如是装箱函数BF的下述情况明显改变了值，例如苛刻的下舍入或类似改变。因此，丢失了信息，但是可以执行更容易的和/或改进的分析。0044在情况C中，装箱函数BF被应用在由向量U_4和U_5指示的两个频率上，并且作为装箱函数BF的结果，U_4和U_5二者的傅立叶系数USK_XK分别被修改为向量U_4和U_5。在该特定情况下，装箱函数BF具有在向量空间中转变（TURN）两个向量U_4和U_5的效果。0045图8是根据本发明的在各个频率处的谱的示意图，其具体列出了在该图左部通过行进。

34、索引S向下连续编号的不同谱20的傅立叶系数USK_XK。所述频率K还在图8的顶部被示出。DFT的频率从1到傅立叶变换的最大频率KM行进。如前所述，所述四个核苷酸碱基A、T、C和G构成四个通道，即XA、T、C和G。通常，研究多于一个通道，并且由此与所述搜索模板的相似性可以基于多于一个通道（例如XA和C）的变化程度，并且特别地，所述相似性可以基于所有通道（即XA、T、C和G）的变化程度。为了强调图8中每个条目包括4个不同的通道，第一行（S1）中名称为U1K_X的条目已经被放大（BLOWUP）并且所有四个通道在图8的上部中明确地被写出。0046图9是与图8相似的图，其示出根据本发明的装箱函数BF。基。

35、于DNA序列通过将DNA序列转换为多个二进制指示符序列（BIS）并且将短期傅立叶变换（STFT）应用在所述二进制指示符序列上来获得多个谱S，每个谱包括对应的频率K和傅立叶系数USK_XK，其中每种傅立叶系数构成通道X。0047随后，针对频率K（其中K2）定义装箱函数BF，其适用于相对于相关通道X的傅立叶系数USK_XK。因此，所述装箱函数可以例如包括截取、上舍入、下舍入、模函数和/或阈值函数，或相关于本发明的目的的其他相关的数学函数。在一个实施例中，执行所述截取。典型地，所述装箱函数（BF）针对所有通道X定义，因此XA，T，C和G，但是对于一些应用，一个或例如C和G的子集可以是待分析的通道。在。

36、图9中，装箱函数（BF）被应用在从S1到S的所述多个谱的一部分上，并且由此修改对应的傅立叶系数USK_XK。可替代地，所述装箱函数（BF）可以应用在更小的部分上，例如S1到S2。0048其后，所述多个谱（例如S1以及向上）的所述部分内的基本相等的修改的傅立叶系数USK_XK被发现并且优选地被做标记或打上标签以供进一步分析。因此，发现的意思是例如计数具有修改的傅立叶系数USK_XK的一定值的条目有多少，例如10个。术语“基本相等”的意思是考虑在应用了装箱函数BF之后引入的数值误差。0049图10是与图8相似的图，其示出根据本发明的另一个装箱函数BF。所述方法可以针对一组频率K_I或者并行地或者连。

37、续地（典型地以一定间隔）被重复，但是这组K_I也说明书CN102067141ACN102067151A8/10页11可以在特定的K个值上“跳动”。因此，应当强调，所述频率组或间隔K_I可以包括若干不同的频率间隔，即K_I可以包括K2，K6或K2和K4。因此，K_I可以是从K1到KKM（傅立叶变换的最大频率）的间隔内的任何适当的子组或各子组的组合。0050图11是与图8相似的图，其示意性示出装箱函数BF在多个谱上的应用，但是为了简化起见仅仅针对一个频率K示出了所述应用。在应用了所述装箱函数BF（在这种情况下为简单截取）之后，修改的傅立叶系数的相等值被发现，然后将发生的次数作为装箱值的函数绘制为柱。

38、状图，例如USL_GK6的两次发生和USL_GK9的一次发生等等。0051对于每个频率，“相似的”值（即根据所应用的装箱函数BF为基本相等的）被聚集在一起，并且示出落入每个箱（BIN）中的值的个数的柱状图被建立。针对单独的频率的A、C、G、T的值可以独立地进行比较，或者可以以常见方法（COMMONMEASURE）来组合，所述常见方法考虑所有四个核苷酸上的相似性以发现所述频率中的相似性。图11提供了如何应用装箱函数BF和如何生成柱状图的实例。然后，可以应用频率分类或聚类方法的各种实施例。使用所述装箱函数，针对所有频率的A、T、C和G，生成示出所述“相似”值的柱状图。0052接下来，对于每个频率，。

39、根据所选择的策略选择一个或多个柱状图箱（例如最大的）。在下文中，进一步解释了三个这样的策略自顶向下的层次分类（TDHS）、独立迭代分类（IIS）和格状分类（LS），但是在本发明的上下文和教导内技术人员容易获得其他方法。然后，可以根据所选的策略并考虑柱状图箱来将域（DOMAIN）分割（SPLIT），并且在每个子域中重复所述过程直到达到停止标准为止。0053例如，当最大的箱被选择时，它提供最大数量的序列，所述序列在针对所述核苷酸之一的所述特定频率中共享根据所述装箱函数BF的“相似”值。针对在跨越所有频率的所有柱状图箱中（对于每一个频率，存在单个柱状图）最大值的频率被选择，并且对该柱状图有贡献的序列。

40、被聚集在一起。这样，各序列的整个域被分割成共享在所述频率中的相似性的序列的组和其余组，从而获得两个“群（CLUSTER）”（尽管这不是字面严格意义上的聚类算法，但是可以采用该术语），并且特定选择和处理策略被应用在这两个群的每一个上。接下来，再次建立所述各值的柱状图，或者将计算的柱状图箱更新以反映分割成各群；选择最长的柱状图，并且根据该柱状图再次将所述域分割成两个群。当最长的柱状图的尺寸低于预定义阈值时，当达到用户定义的数量的待提取的长图案时，或者当所述两个群的每一个包含单个序列时，迭代停止。也可以应用其他停止标准。0054图12和图13示出根据本发明的所谓的自顶向下的层次分类（TDHS）的实例。

41、。一旦发现最长的图案，例如K1、C通道，三次值“8”，TDHS算法将窗口或谱的域分割成包含最长图案和剩余图案的域。为了说明这个过程，在右边示出了三个所选通道的柱状图，即K1，AC通道和K2，A通道。利用中间的柱状图中的实线圆，示意性标识了最长图案。0055接下来，在所述两个群的每一个或第一组和第二组中，（下一个）最长图案被发现并且所述群中的每一个再次被分割成或细分成包含长图案和剩余图案的多个群或组。这在图13中被示出，在图13中窗口或谱S1,2和3形成被分割成包含最长图案K2、具有2次出现的装箱值“10”的A通道的谱的组和谱S2的组。0056在图13的左下部中通过“分类三”示出了具有两个分支点。

42、的该层次分类。TDHS分类的第一分支也在图12的左下部被示出。0057当达到最长图案或步骤数的阈值时，或当所述两个群或组的每一个包含单个序列说明书CN102067141ACN102067151A9/10页12时（例如图13中的谱S2），该算法停止。最后，将具有一种图案的层次。可以选择在分离的每个步骤处显示两个群，或仅仅显示具有最长图案的群或组。该策略可能在长图案在先前步骤中被分割时遗漏长图案。TDHS的一种变化是停止分割树的左侧已经包含最长图案的侧。这将导致多叶二叉树。0058图14和图15示出根据本发明的所谓独立迭代分类（IIS）的实例。IIS以图案的尺寸的降序显示了所述域中的所有图案。它首。

43、先选择如用于TDHS分类算法的图12中所示的最长图案，然后IIS算法将包含最长图案的群重排序在顶部并且显示整个域。接下来，IIS选择独立于第一图案的第二（不同的）最长图案（如图14所示，K1,具有两次出现的装箱值“2”的通道A，用实线圆在柱状图中示出（尽管K2，通道A也具有两次出现的装箱值“10”）等等，直到所有图案被发现为止。因此，在图15中，第三最长图案是K2，具有两次出现的装箱值“10”的通道A，如也利用实线圆在柱状图中指示。利用该策略，完全同时存在的图案（在更长的图案中没有间隙）或完全分开（DISJOINT）的图案（没有公共序列）将总是出现。还应当注意，在不同的迭代中所获得的群可以包含。

44、相同的（重叠的）谱。0059而且，所谓的格状分类（LS）算法可以结合本发明实现。开始，对于比给定尺寸N_THRES1长的所有图案（或可替代地对于K个最长的图案），通过选择包括这些图案的行或谱并且放弃其余的行或谱来形成群。随后，在每个群或组中反复（ITERATIVELY）执行相同的选择，直到找不到合适的图案为止，即直到所有的图案都比N_THRES2短（或剩余的所有图案长度都为1）为止。利用该策略，所述群可以是重叠的，并且每个群具有一个子群。与TDHS不同，LS从不遗漏长图案。也利用该策略，完全共存的图案将总是出现。0060TDHS、IIS和LS的所有上述策略可以在以下意义下交互式实现在每个步骤，。

45、所述图案可被可视化并且用户可以决定探究群或组的层次中的哪些分支。0061接下来，所述谱可以在如图6所示的一种被称为分类的视频的新表示中堆叠于彼此之上并且可以被显示。依赖于用户的偏好，所有群可以被示出，或者只有那些在所述算法步骤中包含最强图案的群被示出。0062此外，本发明有助于并行化，这与本领域已知的其他聚类方法（比如层次聚类）不同。为了分类，针对每个频率建立柱状图，这使得容易在若干过程中分割傅立叶值的域并且并行地、在并行系统或分布式系统上或在网格上执行它们。0063最后，本发明提供一种可视化方法（如图6所示），其使得生物学家或临床医生更容易看到关于这些图案的相似性的结果并发现关于这些图案的相。

46、似性的进一步解释。为了这个任务，可以提供可用的基因组注释，比如基因的名称或基因组元素、物种、实验等等。0064图16是根据本发明的方法的流程图。所述方法包括S1提供DNA序列，S2基于所述DNA序列，通过将该DNA序列转换为多个二进制指示符序列（BIS）并且将短期傅立叶变换（STFT）应用在所述二进制指示符序列上来创建多个谱20，每个谱包括对应的频率K和傅立叶系数USK_XK，其中每种傅立叶系数构成通道X，S3对于适用于相对于一个或多个通道X的傅立叶系数USK_XK的频率K，定义装箱函数BF，S4将装箱函数BF应用在所述多个谱的至少一部分上并且由此修改对应的傅立叶系数USK_XK，以及说明书C。

47、N102067141ACN102067151A10/10页13S5在所述多个谱的所述部分内发现基本相等的修改的傅立叶系数USK_XK。0065本发明可以以包括硬件、软件、固件或这些的任何组合的任何适当形式实现。本发明或本发明的一些特征可以被实现为运行在一个或多个数据处理器和/或数字信号处理器上的计算机软件。本发明的实施例的元件和组件在物理上、功能上和逻辑上可以以任何适当的方式实现。事实上，所述功能可在单个单元、多个单元中实现或实现为其他功能单元的一部分。同样，本发明可以单个单元中实现，或者可以在物理上和功能上分布在多个不同的单元和处理器之间。0066尽管已经结合指定的实施例描述了本发明，但是本。

48、发明不期望限于本文所陈述的特定形式。相反地，本发明的范围仅仅由所附权利要求限定。在权利要求中，术语“包括”不排除其他元件或步骤的存在。此外，尽管各个特征可以包含在不同的权利要求中，但是这些特征可以有利地被组合，并且在不同权利要求中包含所述各个特征并不暗示这些特征的组合是不可行的和/或不是有利的。此外，单数引用不排除多个。因此，对“一”、“第一”、“第二”等的引用不排除多个。而且，权利要求中的附图标记不应当被解释为限制范围。说明书CN102067141ACN102067151A1/12页14图1图2说明书附图CN102067141ACN102067151A2/12页15图3说明书附图CN1020。

49、67141ACN102067151A3/12页16图4图5说明书附图CN102067141ACN102067151A4/12页17图6说明书附图CN102067141ACN102067151A5/12页18图7A图7B图7C说明书附图CN102067141ACN102067151A6/12页19图8说明书附图CN102067141ACN102067151A7/12页20图9说明书附图CN102067141ACN102067151A8/12页21图10说明书附图CN102067141ACN102067151A9/12页22图11I图11II说明书附图CN102067141ACN102067151A10/12页23图12图13说明书附图CN102067141ACN102067151A11/12页24图14图15I说明书附图CN102067141ACN102067151A12/12页25图15II图16说明书附图CN102067141A。

展开阅读全文