匹配引擎.pdf

摘要
申请专利号：	CN00804018.4	申请日：	2000.02.16
公开号：	CN1342291A	公开日：	2002.03.27
当前法律状态：	终止	有效性：	无权
法律详情：	专利权的终止(未缴年费专利权终止)授权公告日：2003.11.26\|\|\|专利申请权、专利权的转移(专利权的转移)变更项目:专利权人变更前权利人:PC多媒体公司变更后权利人:斯快尔派公司变更项目:地址变更前:英国约克郡变更后:英国利兹登记生效日:2003.12.25\|\|\|授权\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	PC多媒体公司;
发明人：	迈克尔·特纳; 保罗·扎内利; 西蒙·莫斯
地址：	英国约克郡
优先权：	1999.02.19 GB 9903697.2
专利代理机构：	中原信达知识产权代理有限责任公司	代理人：	方挺;余朦
PDF下载：	PDF下载

内容摘要

本发明披露了一种识别查询项目与数据集内的一个项目或多个项目之间的最佳匹配或最佳匹配组的方法,该方法包括步骤:(i)对数据集内的各项目提供数据表示;(ii)对查询项目提供查询表示;(iii)定义变换空间;(iv)在区域内的任何变换情况下,对于覆盖整个变换空间的多个区域中的各区域,确定查询表示与数据表示之间的匹配概率上限;(v)确定阈值概率;(vi)将各区域的概率上限与阈值概率进行比较;以及(vii)确定其概率上限大于阈值概率的区域,以识别解区域。

权利要求书

1：一种识别查询项目与数据集内一个项目或多个项目之间的最佳匹配或最佳匹配组的方法，该方法包括步骤： (i)对数据集内的各项目提供数据表示； (ii)对查询项目提供查询表示； (iii)定义变换空间； (iv)在区域内的任何变换情况下，对于覆盖整个变换空间的多个区域中的各区域，确定所述查询表示与所述数据表示之间的匹配概率上限； (v)确定阈值概率； (vi)将各区域的概率上限与阈值概率进行比较；以及 (vii)确定其概率上限大于阈值概率的区域以识别解区域。
2：根据权利要求1所述的方法，该方法进一步包括如下步骤：将解区域细分为覆盖解区域的更小区域；确定新上限；确定新阈值概率；以及确定新解区域。
3：根据权利要求1所述的方法，该方法包括重复权利要求2所述的进一步的方法步骤，以识别含有最佳匹配解的解区域或识别含有一组最佳匹配解的一组解区域。
4：根据权利要求1所述的方法，其中所述数据表示是数据项目的拓扑表示，所述查询表示是所述查询项目的拓扑表示。
5：根据权利要求4所述的方法，其中所述数据项目和查询项目的拓扑表示包括节点测量向量集，各节点测量向量与定义项目的各节点的拓扑排列中的节点有关。
6：根据权利要求1所述的方法，其中利用贝叶斯概率理论确定上限。
7：一种用于从数据集中识别一个项目或多个项目的匹配引擎，该匹配引擎包括电子数据处理装置，该电子数据处理装置包括：存储器，用于存储数据集内各项目的数据表示；输入端，用于输入查询项目的查询表示；以及处理器，包括：用于定义变换空间的装置；用于产生覆盖整个变换空间的多个变换空间区域的装置；用于在区域内进行任何变换的情况下对各区域确定所述查询表示与所述数据表示之间匹配的概率上限的装置；用于确定阈值概率的装置；比较装置，用于将各区域的概率上限与阈值概率进行比较；用于识别其概率上限大于阈值概率的解区域的装置；以及用于将查询项目与数据集内的项目之间的匹配的标识符存储到存储器的装置。
8：一种在计算机上运行时能够实现根据权利要求1所述的方法的计算机程序。
9：用于识别数据集内的一个项目或多个项目的计算机程序代码，该代码包括用于实现下列功能的指令： (i)对数据集内各项目提供数据表示集； (ii)提供查询项目的查询表示； (iii)定义变换空间； (iv)在区域内的任何变换情况下，对覆盖变换空间的多个变换空间区域中的各区域，确定所述查询表示与所述数据表示之间匹配概率的上限； (v)确定阈值概率； (vi)将各区域的概率上限与阈值概率进行比较；以及 (vii)确定其概率上限大于阈值概率的解区域以识别解区域。
10：一种用于存储根据权利要求9所述的计算机代码的计算机可读介质。

说明书

匹配引擎
    本发明涉及匹配引擎，具体地说，本发明涉及一种用于识别查询项目与数据集中的一个项目或多个项目之间的最佳匹配或最佳匹配组的引擎。

    当前，存在许多匹配技术。可以将这些当前的匹配技术划分为两大类：基于梯度的方法和穷举搜索。基于梯度的方法例如包括梯度下降、模拟退火、张弛标号、神经元网络以及遗传算法。所有这些技术均采用少量初始最佳推测匹配解并为了获得更好的解对它们进行改进。

    第二种方法是穷举搜索技术，在穷举搜索技术中，通过对解空间进行粗略采样可以对大量匹配解进行检验，并选择最佳解。穷举搜索技术的一个例子是被称为几何散列法的快速访问方法。

    上述两种技术均存在问题。它们速度慢而且不能对非平凡的匹配问题提供良好性能。性能差的原因有许多。基于梯度的方法取决于获得的良好初始解；即初始推测匹配或变换。然而，由于获得良好匹配是此技术的最终目的，所以这种技术未必总可行。穷举搜索方法依赖于用于搜索解空间的消解法。对于匹配，解空间是节点数地指数，这使得在切实可行的时间找到良好解极不可能。

    根据本发明的第一个方面，提供了一种识别查询项目与数据集内的一个项目或多个项目之间的最佳匹配或最佳匹配组的方法，该方法包括步骤：在数据集中提供各项目的数据表示，提供查询项目的查询表示，对覆盖整个变换空间的多个变换空间重叠区域中的各重叠区域提供参数化的变换空间，对区域内包含的任何变换过程中的查询表示与数据表示之间的匹配概率确定上限，确定阈值概率，将各区域的概率上限与阈值概率进行比较，以及确定其概率上限大于阈值概率的变换空间的区域，从而识别解区域。

    根据本发明的匹配引擎方法提供了一种对匹配问题找到更好的解的方法；即识别具有相似特征的对象。该方法包括步骤：通过获得大概率上限，概括所有解前景(solution horizon)的上限；由此保证覆盖整个空间。通过此粗概括，就可以消除解空间的大得难以置信的区域，并通过计算阈值并消除低于该阈值的空间区域来重新概括新上限。为了对匹配问题的多种良好解进行改进，可以重复进行此概括和消除过程。

    一旦通过识别解区域，确定了查询项目与数据集中的项目之间的匹配概率，则数据集中的项目根据进一步的数据被认为是似乎可能的匹配或不是匹配。还可以对数据集中的剩余项目进行估计，以从全部数据集中识别最佳匹配数据项目或最佳匹配数据项目集。

    不再强迫判定解前景，而是在进行处理过程时自然形成。本发明较之传统方法具有许多优势。本发明方法延迟并减轻了判定进行过程，在处理过程中允许保持许多推断，并且这些推断可以进入后续处理过程。由于采用了较少的循环，所以可以明显减少处理过程所需的资源。本发明方法可以容易地处理多维、复杂数据，因为对于维数增加只需简单地相应增加概括区域的大小。本发明方法具有基于概率理论的很强的理论体系。

    此外，本发明方法不仅在模块内提供良好性能，而且它还允许在作为整体的系统内进行阶段性改进。通常，系统处理过程包括传递最佳推测解通过序列模块；即从一个模块输出的最佳推测成为其相邻模块的输入。由于最佳推测解通常不是最佳实际解，所以会传播并增大误差，而不能在后续对误差进行校正。根据本发明，不仅最佳推测、而且所有似是而非的解(即那些大于阈值的解)均从模块之间通过，而无需计算资源。仅在处理过程的后期才使附加信息承受解被排除。结果是采用该方法的系统自然会出现各种良好解。

    本发明方法可以进一步包括如下步骤：将解区域划分为覆盖此解区域的更小区域、确定新上限、确定新阈值概率以及确定新解区域。在含有似是而非解的解空间的解区域内重复进行概括和消除过程会使变换空间内的所有似是而非的解被更准确地识别。

    本发明方法可以包括，为了识别含有查询项目与数据集项目之间的最佳匹配的变换空间的区域，迭代上述进一步方法步骤的步骤。通过重复迭代，该方法可以识别含有最佳解的区域，根据该方法的终止判据，可以识别含有最佳解的一组解区域。

    本发明方法可以应用于数据集内的一个项目，或可以对数据集内的单个项目或对从数据集内选择的项目子集实现该方法。

    当解区域的所有上限超过阈值概率时，本发明方法可以终止。可以直接推断增大阈值以重新启动对剩余解区域的确定过程，或以传统方法对解表示进行记录和/或处理。本发明方法可以包括将基于梯度的技术应用于确定局部最大值的步骤。因为解区域仅含有似是而非的解，所以可以接受其作为最终步骤。

    数据表示可以是数据项目的拓扑表示，而查询表示可以是查询项目的拓扑表示。在使用数据项目和查询项目的空间表示和拓扑表示时，匹配方法实际上是一种图形识别过程。

    数据项目和查询项目的拓扑表示可以包括节点测量向量集，各节点测量向量集与定义项目的各节点的拓扑排列中的节点有关。待搜索的数据项目和待匹配的查询项目可以具有一组拓扑排列节点或空间排列节点定义的属性。各项目的节点测量向量集提供在该匹配方法中所使用项目的表示。然后，通过图形识别实现匹配。该方法通常可以应用于匹配在计算机内存中可以保持的图形。

    利用贝叶斯概率理论可以确定上限。

    根据本发明的再一个方面，提供了一种用于识别查询项目与数据集内的一个项目或多个项目之间的匹配的匹配引擎，该匹配引擎包括：电子数据处理装置，该电子数据处理装置包括：存储器，用于存储数据集内各项目的数据表示集的存储器；输入端，用于输入查询项目的查询表示以及处理器，该处理器包括：用于定义参数化变换空间的装置、用于产生覆盖整个变换空间的多个变换空间重叠区域的装置、用于对各区域确定在区域变换过程中查询表示与数据表示之间的匹配概率的上限的装置、用于确定阈值概率的装置、用于将各区域的概率上限与阈值概率进行比较的比较装置、用于识别概率上限大于阈值概率的解区域的装置、以及用于将根据查询项目与数据集项目之间的匹配的解区域获得的标识符存储到存储器的装置。

    根据本发明的再一个方面，提供一种计算机程序，当该程序在计算机上运行时实现根据本发明第一方面的方法。根据本发明的又一个方面，提供了一种计算机程序，当将该计算机程序载入计算机时提供根据本发明第二方面的匹配引擎。

    根据本发明的再一个方面，提供了一种用于识别数据集中的一个项目或多个项目的计算机程序代码，该代码所包括的指令可以实现的功能包括：在数据集内提供各项目的数据表示，提供查询项目的查询表示，对覆盖整个空间的变换空间的各重叠区域定义参数化变换空间，对区域变换过程中的查询表示与数据表示之间的匹配概率确定上限，确定阈值概率，将各区域的概率上限与阈值概率进行比较以识别确实含有使数据库项目与查询项目匹配的解的解区域。

    根据本发明的再一个方面，提供一种计算机可读介质，计算机可读介质用于存储根据本发明上述方面的计算机程序代码。该介质可以是永久性、半永久性或临时存储器或存储装置，该介质可以是通过有线线路或无线发送的电信号。

    现在将利用实例、参考附图详细说明本发明的实施例，附图包括：

    图1a、图1b、图1c和图1d示出说明根据本发明方法的各步骤的解空间图；以及

    图2示出概括说明本发明软件方面的流程图。

    作为实例，将说明为了将某些相似性判据增加到最大所存在的分子自动匹配问题。在药物开发过程中，这是一个重要问题。化学家具有已知性质的“查询分子”并希望用它搜索对数据库以查找相似分子。这可以被看作优化问题，即从大量可能分子和它们的组合中查找查询项目与项目数据库之间的最佳组合。通过在其表面上以规则间隔设置节点，可以将查询项目分子和数据库分子项目表示为图形，并且测量向量(含有分子的特征属性，例如空间信息和静电信息)可以与各节点有关。因此产生了图形匹配问题。

    在这方面，可以认为术语“节点”是指具有相关测量向量的离散标记对象。此外，可以认为测量向量是指特征值对的列表，例如它可以包括在某些坐标系中的空间位置特征及其数值。

    我们现在更详细地说明此实例问题，出于清楚说明的目的，所以只讨论一次将查询项目只与单个数据库项目匹配的问题。应该注意，本发明适用于使查询项目同时与多个数据库项目匹配，正如我们曾经对单个项目的情况进行说明所理解的那样。

    图1示出此问题的解表面的一系列示意图。x轴表示查询分子与数据库中的分子的可能组合，y轴表示所有不同组合的相似性或良好配合。曲线上的各点表示在可能的变换情况下查询分子与数据库分子的良好配合(即当一个分子相对于其它分子旋转或转换时，认为该曲线概括了分子属性之间的相似性)。波峰和波谷分别表示两种分子结构之间的良好配合和糟糕配合，而目的是找到最高波峰。

    如上所述，可以将传统的优化技术划分为两类：穷举搜索方法和基于梯度的方法。通过在解表面上进行递增跳跃，穷举搜索技术，例如几何散列法和折磐形(gnomonic)投影法试图识别波峰。可以识别的良好解的数目与分段的粗细程度直接相关。尽管从理论上说通过使步进增量趋向于0，可以找到所有良好的解，事实上，所需要的处理资源会相应地以指数增加(通常的处理器速度和存储器要求)。难以在对解的速度与结果的质量之间进行适当折衷选择。

    通常，基于梯度的方法是穷举搜索技术的唯一变换方法。例如，它们包括梯度递降、模拟退火、神经网络、期望最大化(EM)算法以及遗传算法(GA)。在各递增步骤，激活一个递增到局部波峰并识别其位置的例程。找到一个波峰后它会跳过另一个递增并重复此处理过程。然而，与穷举搜索技术相同，其局限性在于，解的质量受制于处理速度。具体地说，解的质量依赖于在解前景中递增开始的位置。在特殊情况下，如果事先知道合理的解就可以建立良好解。处理过程通常从在终止时产生不好解的某些随机位置开始进行。

    由于所有的药物开发过程均基于穷举搜索方法或基于梯度的方法，所以不好的性能使得发现过程耗时且昂贵，因为不好的性能意味必须在实验与计算分析之间进行多次循环以对适当活性的化合物进行改进。

    本发明提出一种阶段性改变技术以加速药物开发过程。具体地说，本发明提供了一种引擎，此引擎用于对大型3D化学数据库内的分子进行搜索并进行比较。事实上，所建立的引擎可以完成比在相同硬件上运行的传统商用程序包速度快不止1500倍的分析。在几秒钟之内而不是在几天之内就可以对大型数据库进行搜索，并开辟了一种真正在台式机上交互计算药物构成的方法。

    此外，本发明给出更好的质量分析，本发明识别更好的分子组以进行实验检验。这样反过来就可以减少开发过程所需的循环次数，以致实现更快速、更高效的药物开发过程。

    本发明提供了一种新匹配方法，这种匹配方法的速度快并且性能良好。此方法基于一种新的根据四个关键因素的图形识别方法。可以将匹配问题定义为一种在两个图形中的各节点之间寻找最佳变换集的过程。该方法中采用的计算过程均以贝叶斯概率理论为基础。该方法的整体性在于，它要求对所有的可能解进行检验。因为数据处理过程是资源驱动的，所以可以实现的计算过程受到有效存储器和所要求的运算速度的限制，正如操作员所定义的那样。

    后面两个因素会产生如何快速、有效地检查解的指数的难题。通过将解采集到一起形成少量(通常是重叠的)子集或可能解的总集，并通过依次对各区域或子集进行估计，可以克服此问题。可以对区域进行多次估计，通过获得含有区域或子集的任何解的上限值和下限值(概率)，与处理资源的限制一致的有效策略使得速度和角度之间保持平衡。

    在已知这些条件的情况下，如果其上限低于最高下限，则将采取的最佳策略是消除区域。这样可以确保保持最佳解。通过重复此操作过程、通过排除子最佳解，可以对解空间的感兴趣区域进行改进。在进行处理时并在处理限制条件允许时，愈加详细地对剩余的解进行重新检验。当所有上限超过下限阈值时，处理过程终止。此时，下限会逐渐增加以重新启动消除过程，或者对剩余变换进行记录并用某些传统方法进行处理。通常，可以采用基于梯度的方法，因为剩余的区域会含有感兴趣的波峰。一旦对查询分子与该分子之间的匹配进行了估计，就可以对数据库中的其它分子进行处理从而估计其良好匹配。

    参考图1a至图1d，在对该方法进行更详细说明前，可以先对该方法一般特征的简要原理进行说明。在图1中，y轴表示良好配合或匹配概率。x轴表示分子之间的所有允许变换的集(例如：旋转、变换)。将待识别匹配的查询分子表示为查询表示。将用于与查询分子进行比较的数据库或数据集中的分子表示为数据表示。曲线100显示在不同变换情况下查询分子表示与数据库分子表示之间匹配的紧密情况。问题是要以切实可行的方式识别曲线上表示似是而非的解的波峰而又不忽略任何似是而非的解。

    首先，将变换集划分为多个覆盖整个变换空间的区域A至H。对于这些区域中的每个区域，利用贝叶斯概率理论，对在区域内的任何变换情况下数据表示与查询表示之间的匹配概率的上限进行计算，并将计算结果示于线110。然后计算阈值概率并用虚线120示出。其概率上限110落在阈值120之下的这些区域，在这种情况下是子集A、C、E、F和H被删除，因为在子集B、D和G内存在明显更好的有效匹配。

    如图1b所示，然后将变换区域B、D和G细分为多个更小的区域B′、B″和B、D′、D″、D和D′以及G′。对各区域确定与查询表示匹配的新概率上限，如线122、线124和线126所示。计算新阈值概率并用线128示出。此外，从解空间中删除落在阈值下面的这些区域，这样只剩下解区域B′、B″和D需要进一步进行处理。在此步骤可以终止处理过程，并保存含有分子给出的识别匹配的解以及其落在解区域B′、B″和D内的变换，这样获得含有最佳配合解的一组区域。根据某些进一步的匹配判据，可以识别该分子为形成可接受匹配的分子。

    另一方面，可以实现该处理过程的进一步重复，如图1c所示。对子集B′和Dv的进一步的概率上限进行计算并与新获得的概率阈值进行比较以识别解区域B′。在最后步骤，利用梯度方法查找局部最大解表示Bv，最大解表示Bv具有被识别与查询分子形成最佳匹配的相应变换。单独对与数据库中剩余分子的匹配进行估计。

    通过上述说明，可以明白本发明适用于使查询项目同时与多个数据库项目匹配的情况。在这种情况下，解表面是各独立数据库项目的解表面的简单并置。的确，在上述相同过程之后，外加对整个并置解表面施加概括过程或消除过程。如果它使得可以更有效地利用计算机资源，则使查询项目同时与多个数据库项目匹配可以获得更有效的方法。

    现在对使用节点的空间排列表示利用该方法提供待匹配的图形的分子的特征性质进行说明。研究用一组节点标记的图形。节点具有相关测量向量集，x＝{x1，...，xN}。

    为了使该图形与另一个图形匹配，对将第一图形内的各节点映射到另一个图形的全局变换集进行研究，并将它表示为w＝{w1，...，wN}。根据上述讨论的第一种情况，目的是找到最佳全局解，即从此图形内各节点到第二个图形的最佳变换集，其中根据第二种情况和第三种情况，所使用的整体、概率理论方法要求：

    w＝arg max？ewP(W＝？|x)    (1)

    其中W是w的可能解的空间。换句话说，对所有解空间进行研究，事先不假定在什么位置进行搜索或多长时间搜索一次。

    请注意，其目的并不是直接定位最佳解，即不是通过主动对W内的解进行搜索或改进，这就是现有的基于梯度技术或穷举搜索技术的方法。相反，通过从W内消除不好解，该方法间接达到了相同目的。这样做时，无保留地对所有解空间进行检验，正如第三种情况所要求的那样。其实现过程如下。

    从检验时开始将各解采集到一起，计算时，一般难以对处于分离状态的各独立解进行处理。这可以通过对含有独立变换wi＝a的所有解，即节点i的变换被固定为wi＝a的所有解(或，更确切地说，在其某些小附近区域内)进行研究实现，但是所有其它节点的变换会发生变化。这些解中任一解的最低上限(即解空间区域)为：

    U(wi＝a)＝maxw′ew′P(wi＝a，w′| x)    (2)

    其中w′表示除了被研究节点之外的所有节点上的变换，W′是此集的所有可能的变换空间。

    其概率上限低于某些比如感兴趣的已知下限值L的任何区域不含有最佳解。因此，从考虑对象中删除这些区域。所以某些迭代次数n的规则为：

    消除含有变换wi＝a的区域，如果：

    U(n)(wi＝a)＜L(n)      (3)

    这就是该方法的关键：可以对解空间区域的概率上限进行计算。(一开始就可以覆盖整个解空间，产生如图1a所示的上限示意图)。然后可以将各区域或子集与下限阈值进行比较。如果上限落在该阈值之下，则可以消除此区域，因为它不会含有良好解。

    现在还未对上限的计算过程进行定义，但是一般情况下此计算过程代价高。为了提供一种切实可行的计算方法，解应该识别G(n)(wi＝a)形式的数量，这样G(n)(wi＝a)＞＝U(n)(wi＝a)，可以在给定时间对它进行计算。换句话说，不是计算最低上限U，而是计算一些上限G。因此，计算资源驱动处理过程并提供易处理的计算方法，该计算方法可以用于提供实时结果。当G尽可能接近U时，该方法可以最佳利用容许计算资源。然后，此消除规则变成：

    消除含有变换wi＝a的区域，如果：

    G(n)(wi＝a)＜L(n)               (4)

    通过将贝叶斯概率理论与不相等规则合并来估计G(n)。为了适应对计算资源的要求，其形成会改变迭代循环。例如，处理一开始，可以粗略地快速估计G(n)，提供粗上限概括(如图1a所示)，但是假定它满足G(n)＞＝U(n)，则只有不好解被消除。

    这样可以释放资源，因此需要时可以对留下的解空间或解子集进行更详细检验。它还允许在下一次迭代时对较低上限进行计算，因为由于在下一个时间步长消除一个区域会影响对重叠区域计算的限制，所以系统内存在较少的干扰。

    仅在保留少数解时处理过程才结束，可以采用更复杂、更强的计算装置用于计算G(n)，这样如果不破坏第四种情况，则G(n)接近L(n)。

    继续进行处理过程直到没有解落在阈值之下。

    在任何时候，通过逐渐增加阈值，可以重新启动处理过程，或者可以以某种方式对剩余变换进行记录和处理。

    实质上，计算G以概括解表面，将解表面与阈值L进行比较以消除不感兴趣的空间区域。已知还没有其它方法采用这种整体概括和消除过程。

    到目前为止讨论的实例方法是利用一个或多个查询化合物或引导化合物作为线索，从化学数据库中检索生物活性化合物。启动点将查询化合物和数据库化合物表示为每次利用一组空间排列节点或拓扑排列节点识别的图形，各节点具有相关测量向量。

    首先对U(wi＝a)进行定义，然后引入不相等以产生G(wi＝a)。

    可以将等式(2)中的概率上限展开，通过应用贝叶斯规则，等式(2)变成：

    U(wi＝a)＝maxw′ew′P(x | wi＝a，w′)P(wi＝a，w′)/p(x)    (5)

    如果非局限性地假定当限制变换w＝{w1，...，wN}时，测量向量x＝{x1，...，xN}是独立的，则此等式变成：

    U(wi＝a)＝p(xi|wi＝a)P(wi＝a)maxw′eW′Pj！＝iP(xj|wj)p(w′|wi＝a，)/p(x)  (6)

    引入不等式以降低计算的复杂程度。一种选择是：

    maxaeA，beBP(a，b)＜＝maxaeAP(a)maxbeBP(b)    (7)

    它给出

    U(wi＝a)＜＝p(xi|wi＝a)P(wi＝a)pj！＝imaxβewjP(xj|wj＝β)P(wj＝β|wi＝a)/p(x)＝G(n)(wi＝a)                                              (8)

    其中Wj为节点j的可能变换集，它降低了由指数到O(N2)计算上限的复杂程度。需要时，可以使用另一个不等式，这样会提高或降低复杂程度。

    等效于等式(4)的等式：

    从表W(n+1)i内消除变换wi＝a，如果：

    G(n)(wi＝a)＜L(n)           (9)

    其中等式(8)中给出G(n)(wi＝a)。

    取对数，该消除规则变成：

    从表W(n+1)i内消除变换wi＝a，如果：

    S(n)(wi＝a)＜logL(n)            (10)

    其中S(n)(wi＝a)由下式给出：

    S(n)(wi＝a)＝log(p(xi|wi＝a)P(wi＝a))+

    Sj！＝imaxβewj(n)logp(xj|wj＝β)P(wj＝β|wi＝a)-c  (11)

    其中c＝log p(x)为常数并且可以将该算法同步或异步地应用于所有节点的所有候选变换。

    应用此方法要求分布模型和等式(11)内的先验值(prior)。为了应用复杂匹配，另一种方法是与其中心离开0高度的直线型分布。在这种情况下，对单个变换的支持是：

    S(n)(wi＝a)＝ksj!＝imaxβewj(n)h(wi＝a，wj＝β)     (12)

    当n＞0时，其中一k为常数并且所有解与一开始消除的数据不相容。在此，h(wi＝a，wj＝β)为二进制相容度，简单地说，就是在时间n在节点i上的变换a是否与节点j上的解β相容。因此，在对节点i进行研究时，实质上是由S(n)(wi＝a)计算与变换一致的节点数。

    该过程可以将等式(12)的算法与几何散列法合并。它包括：存储步骤，在存储步骤，将数据库化合物编码为散列表；复检(recall)步骤，在复检步骤，用查询化合物来访问散列表，并对区域进行检验。最后，增加聚类(clustering)步骤或搜索步骤来仔细分析剩余区域。

    当用计算机程序来实现该方法时，支持下列功能。

    在存储各数据库化合物时需要进行下列步骤：

    产生数据库化合物节点，及其测量向量以包括节点位置和当量；

    利用形心—位置—当量三个一组对各点产生框架(frame)；

    将此框架与全局框架对准并将化合物作为化合物—节点—变换三个一组存储到散列表；

    在复检步骤进行下列步骤：

    产生查询化合物以定义对象节点、其位置和当量；

    利用形心—位置—当量三个一组对各节点产生框架；

    将此框架与全局框架对准并访问散列表，将访问变换指定到各节点；

    将变换矩阵转换为旋转参数并存储到散列表中；

    在等式(12)和等式(10)内采用概括和消除过程以消除难以置信的旋转解；

    聚类剩余的解并通过覆盖化合物来获得各节点的相似性索引记录(score)。

    在建模层对于不同应用对上述说明进行修改。这可以是变更假定的分布形式或者变更采用的测量特征。例如，在分子匹配过程中，采用线性分布，但是在此应用和其它应用中，高斯分布是恰当的，例如可以采用曲率信息。

    参考图2，图2示出实现本发明一个方面的软件的流程图200。首先，在步骤210，从数据库中选择数据分子。然后，以上述节点测量向量集的形式，将数据分子变换为该分子的数据表示(步骤220)。然后产生查询分子表示(步骤230)同样作为节点测量向量集。在后续运行过程中，无需重复此步骤，并且一旦产生了查询表示，就可以存储此查询表示，待需要时使用。

    然后，在步骤240，通过检查查询表示与数据表示之间的可能变换，确定查询表示与数据表示之间的匹配以识别变换空间内的可能解区域。在步骤245重复此步骤以只确定最佳匹配或者最佳匹配组，如上所述。

    然后，在步骤250对最佳匹配或最佳匹配组应用匹配判据以确定查询项目与数据项目是否充分、良好地匹配。如果查询项目与数据项目充分、良好地匹配，则在步骤260存储此数据项目的表示及其匹配良好性，以备进一步参考或处理。然后，在步骤270，将数据库内的剩余项目与查询项目进行比较直到搜索了所有数据库或选择数量的数据库。结果是，可以识别与查询化合物充分匹配的数据库化合物，然后在步骤280输出。可以存储所有试匹配的结果并以匹配良好性顺序进行排列以识别可能化合物谱系。

    在使用不同模型和不同测量值情况下，根据本发明的匹配引擎应用领域广泛。各应用领域的核心问题均是复杂图形的匹配。匹配引擎可以用于可以对视数据集内(例如在医学图像分析中、在可视检查与控制、根据视频或电影的3D重构以及视频或电影中的3D对象监视)的特征(项目)进行识别。在可视数据应用中，可以对可视信号的全部数据集进行搜索以通过使搜索的特征图形与视频信号内出现的图形匹配来识别视频信号的特征。由于该方法具有整体性并覆盖整个数据集，所以不会降低视频信号的清晰度。

    例如，匹配引擎可以用于识别视频信号流内的特定项目，例如，特写。在这种情况下，特写可以是用于产生拓扑查询表示的查询项目。数据项目可以是静止视频帧。利用匹配引擎通过对特写表示的所有可能变换进行研究对视频静止数据项目进行搜索并识别视频静止图像内的特写，可以对视频静止图像内的特写的位置进行识别。在这种情况下，视频静止图像序列可以是数据库项目，反过来利用该引擎可以对数据库项目进行搜索以识别特写在视频图像内的可能位置。根据此实例还可以将匹配引擎应用于对医学造像(视频图像和超声波图像)内的图形进行识别以对病灶特征或组织特征进行定位。

    匹配引擎还可以应用于DNA领域和蛋白序列匹配领域，正如所理解的那样。匹配引擎还可以应用于时间序列分析领域，例如通过使当前图形与旧数据集匹配并使这些匹配与已知文本相关来进行语音识别。

    显然，该方法特别适合于利用计算机程序实现，并且被适当编程的电子数据处理装置可以提供能够实现上述图形匹配方法的搜索引擎。计算机编程技术领域内的普通技术人员有能力对实现在此描述的方法的计算机程序的详细要求进行研究，因此不进行详细说明。