层次结构集成方法和系统.pdf

上传人:a3 文档编号:1025455 上传时间:2018-03-26 格式:PDF 页数:37 大小:1.70MB
返回 下载 相关 举报
摘要
申请专利号:

CN200810110327.9

申请日:

2008.05.30

公开号:

CN101593188A

公开日:

2009.12.02

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20080530|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

日电(中国)有限公司

发明人:

赵 凯; 胡长建

地址:

100007北京市东城区东四十条甲22号南新仓国际大厦B座12层1222室

优先权:

专利代理机构:

北京东方亿思知识产权代理有限责任公司

代理人:

李晓冬

PDF下载: PDF下载
内容摘要

本发明提供了层次结构集成方法和系统。所述方法包括:输入第一层次结构和第二层次结构;合并第一层次结构和第二层次结构的根节点以得到合并层次结构;对合并层次结构按层分块,其中每个块包含一层或多层节点;以及分多个阶段按块集成所述合并层次结构上的异源节点对,以实现所述第一和第二层次结构的集成,其中在每个阶段中,选择合并层次结构上距离相等的异源节点对作为待比较节点对并对所选择的待比较节点对进行比较和集成,并且在不同阶段之间,在先阶段中所选待比较节点对的距离小于在后阶段中所选待比较节点对的距离。利用根据本发明的层次结构集成方法和系统,可以大大提高集成的效率,同时不影响集成的精确度和召回率。

权利要求书

1.  一种用于集成层次结构的方法,包括:
输入第一层次结构和第二层次结构;
合并所述第一层次结构和第二层次结构的根节点以得到合并层次结构;
对所述合并层次结构按层分块,其中每个块包含一层或多层节点;以及
分多个阶段按块集成所述合并层次结构上的异源节点对,以实现所述第一和第二层次结构的集成,
其中在每个所述阶段中,选择所述合并层次结构上距离相等的来自相同块或不同块的异源节点对作为待比较节点对并对所选择的待比较节点对进行比较和集成,并且在不同阶段之间,在先阶段中所选待比较节点对的距离小于在后阶段中所选待比较节点对的距离。

2.
  如权利要求1所述的方法,其中所述异源节点对的距离是指从其中一个节点出发,经过根节点到达另一个节点所经历的块的数目。

3.
  如权利要求1所述的方法,其中所述异源节点对的距离是指从该异源节点对中离根节点较近的节点出发,到达根节点所经历的块的数目。

4.
  如权利要求1所述的方法,其中集成所述待比较节点对的步骤包括:
对所述待比较节点对进行比较以确定该节点对之间的关系;
根据确定的关系确定将对所述节点对执行的操作;以及
对所述节点对执行确定的操作。

5.
  如权利要求1所述的方法,其中所述合并层次结构被分成两个块,第一块由第一层节点构成,第二块由其余层节点构成,并且所述多个阶段由以下三个阶段构成:
第一阶段,选择所述第一块中的异源节点对作为所述待比较节点对;
第二阶段,选择所述第一块与所述第二块之间的异源节点对作为所述待比较节点对;以及
第三阶段,选择所述第二块中的异源节点对作为所述待比较节点对。

6.
  如权利要求4所述的方法,还包括:
对输入的所述第一和第二层次结构上的节点执行预处理,以标记出概念节点,并确定相关的概念,
并且在确定节点对之间的关系的步骤中,如果所述节点对中的节点都是所述概念节点,则根据它们的概念确定该节点对之间的关系。

7.
  如权利要求4所述的方法,其中在确定节点对之间的关系的步骤中,节点对之间的关系是以下三种情况之一:有关系、无关系和关系不确定。

8.
  如权利要求7所述的方法,其中在确定所述节点对之间有关系的情况下,所述关系是以下各种关系之一:相同、相似、包括、被包括、交叉、交叉-覆盖和交叉-被覆盖。

9.
  如权利要求8所述的方法,其中根据确定的节点对之间的关系确定对相应节点对执行以下操作之一:合并操作和父子操作。

10.
  如权利要求7所述的方法,其中在确定所述节点对之间无关系的情况下,确定不执行任何操作,并且该节点对的所有子孙节点均不再参与随后阶段的处理。

11.
  如权利要求7所述的方法,其中在确定所选节点对之间关系不确定的情况下,确定不执行任何操作。

12.
  如权利要求9所述的方法,其中在确定将对所述节点对执行合并操作的情况下,首先确定该节点对中的节点之一是否与另一节点的子孙节点之一匹配,如果匹配,则确定将在该节点和另一节点的匹配的子孙节点之间执行所述合并操作。

13.
  如权利要求12所述的方法,其中所述匹配指以下关系之一:相同、包括和交叉-被覆盖。

14.
  如权利要求6所述的方法,其中所述概念节点的概念是在所述概念节点及其子孙节点中频繁出现的项目。

15.
  如权利要求9所述的方法,其中在对所述节点对A和B执行了合并操作的情况下,对以合并节点为根节点的子层次结构上的所有异源节点对进行集成,并且所述节点A和B的所有子孙节点均不再参与随后阶段的处理。

16.
  如权利要求9所述的方法,其中在以异源节点对中的节点A为子并以节点B为父而执行父子操作的情况下,对以所述父节点B为根节点的子层次结构上的所有异源节点对进行集成,并且所述节点A及其所有子孙节点均不再参与随后阶段的处理。

17.
  如权利要求15或16所述的方法,其中对所述子层次结构上的异源节点对的集成过程包括:
对所述子层次结构按层分块,其中每个块包含一层或多层节点;以及
分多个阶段按块集成所述子层次结构上的异源节点对以实现所述子层次结构内部的集成,
其中在每个所述阶段中,选择所述子层次结构上距离相等的来自相同块或不同块的异源节点对作为待比较节点对并对所选择的待比较节点对进行比较和集成,并且在不同阶段之间,在先阶段中所选待比较节点对的距离小于在后阶段中所选待比较节点对的距离。

18.
  一种用于集成层次结构的系统,包括:
输入装置,用于输入第一层次结构和第二层次结构;
根节点合并装置,用于合并所述第一层次结构和第二层次结构的根节点以得到合并层次结构;
分块装置,用于对所述合并层次结构按层分块,其中每个块包含一层或多层节点;以及
多阶段集成装置,用于分多个阶段按块集成所述合并层次结构上的异源节点对,以实现所述第一和第二层次结构的集成,
其中所述多阶段集成装置包含:
待比较节点对选择单元,用于在每个所述阶段中选择所述合并层次结构上距离相等的来自相同块或不同块的异源节点对作为待比较节点对;以及
节点对集成单元,用于对所述待比较节点对选择单元所选择的待比较节点对进行比较和集成,
其中在不同阶段之间,在先阶段中所选待比较节点对的距离小于在后阶段中所选待比较节点对的距离。

19.
  如权利要求18所述的系统,其中所述异源节点对的距离是指从其中一个节点出发,经过根节点到达另一个节点所经历的块的数目。

20.
  如权利要求18所述的系统,其中所述异源节点对的距离是指从该异源节点对中离根节点较近的节点出发,到达根节点所经历的块的数目。

21.
  如权利要求18所述的系统,其中所述节点对集成单元包括:
关系确定单元,用于对所述待比较节点对选择单元所选的待比较节点对进行比较以确定该节点对之间的关系,
操作确定单元,用于根据所述关系确定单元确定的关系确定将对所述节点对执行的操作,以及
操作执行单元,用于对所述节点对执行所述操作确定单元所确定的操作。

22.
  如权利要求18所述的系统,其中所述分块装置将所述合并层次结构分成两个块,第一块由第一层节点构成,第二块由其余层节点构成,并且所述多阶段集成装置分三个阶段执行所述异源节点对的集成,所述三个阶段包括:
第一阶段,所述待比较节点对选择单元选择所述第一块中的异源节点对作为所述待比较节点对;
第二阶段,所述待比较节点对选择单元选择所述第一块与所述第二块之间的异源节点对作为所述待比较节点对;以及
第三阶段,所述待比较节点对选择单元选择所述第二块中的异源节点对作为所述待比较节点对。

23.
  如权利要求21所述的系统,还包括:
预处理装置,用于对输入的所述第一和第二层次结构上的节点执行预处理,以标记出概念节点,并确定相关的概念,
并且所述关系确定单元进一步包括:
概念节点识别部件,用于识别输入的节点对中的概念节点,并标记这些概念;
概念节点对关系确定部件,用于在所选节点对中的两个节点都是所述概念节点的情况下,根据它们的概念确定该节点对之间的关系;以及
一般节点对关系确定部件,用于确定包含非概念节点的节点对之间的关系。

24.
  如权利要求21所述的系统,其中所述关系确定单元确定所述节点对之间的关系是以下三种情况之一:有关系、无关系和关系不确定。

25.
  如权利要求24所述的系统,其中在确定节点对之间有关系的情况下,所述关系确定单元确定所述节点对之间的关系是以下各种关系之一:相同、相似、包括、被包括、交叉、交叉-覆盖和交叉-被覆盖。

26.
  如权利要求24所述的系统,其中所述操作确定单元根据所述关系确定单元确定有关系的节点对之间的关系确定将对该节点对执行以下操作之一:合并操作和父子操作。

27.
  如权利要求24所述的系统,其中所述多阶段集成装置还包括:
无关系节点对存储器,用于存储在一个阶段中被所述关系确定单元确定为无关系的节点对,并且
其中在随后的阶段中,所述待比较节点对选择单元参考所述无关系节点对存储器,从所选择的所述异源节点对中删除掉所述无关系的节点对及其所有子孙节点组成的节点对,以得到所述待比较节点对。

28.
  如权利要求26所述的系统,其中当所述操作确定单元确定将对节点对执行合并操作时,所述操作确定单元首先确定该节点对中的节点之一是否与另一节点的子孙节点之一匹配,如果匹配,则确定将在该节点和另一节点的匹配的子孙节点之间执行所述合并操作。

29.
  如权利要求26所述的系统,其中所述多阶段集成装置还包括:
子层次结构集成单元,用于在所述操作执行单元对节点对A和B执行了合并操作的情况下,对以合并节点为根节点的子层次结构上的所有异源节点对进行集成,并且
在随后的阶段中,所述待比较节点对选择单元参考所述子层次结构,从所选择的所述异源节点对中删除掉包含所述节点A和B的子孙节点的异源节点对,以得到所述待比较节点对。

30.
  如权利要求26所述的系统,其中所述多阶段集成装置还包括:
子层次结构集成单元,用于在所述操作执行单元以节点A为子并以节点B为父对该节点对执行父子操作的情况下,对以所述父节点B为根节点的子层次结构上的所有异源节点对进行集成,并且
在随后的阶段中,所述待比较节点对选择单元参考所述子层次结构,从所选择的所述异源节点对中删除掉包含所述节点A及其所有子孙节点的异源节点对,以得到所述待比较节点对。

31.
  一种用于集成层次结构的方法,包括:
输入第一层次结构和第二层次结构;
对输入的所述第一和第二层次结构上的节点分别执行预处理,以识别出概念节点,并确定相关的概念;
合并所述第一层次结构和第二层次结构的根节点以得到合并层次结构;以及
参考识别出的所述概念节点及其概念集成所述合并层次结构上的所有异源节点对,以实现所述第一和第二层次结构的集成。

32.
  如权利要求31所述的方法,其中所述集成是分阶段进行的,在每个所述阶段中:
选择所述第一和第二层次结构上的异源节点对作为待比较节点对;
确定所选待比较节点对的关系,其中如果所述节点对中的两个节点都是概念节点,则根据它们的概念确定该节点对的关系;
根据确定的关系确定将对所述节点对执行的操作;以及
对所述节点对执行所确定的操作以实现所述第一和第二层次结构的集成。

33.
  一种用于集成层次结构的方法,包括:
输入第一层次结构和第二层次结构;
合并所述第一层次结构和第二层次结构的根节点以得到合并层次结构;以及
分阶段集成所述合并层次结构上的所有异源节点对,以实现所述第一和第二层次结构的集成,
其中在每个所述阶段中识别并存储无关系的异源节点对,并且无关系的异源节点对的子孙节点所组成的异源节点对均不再参与随后阶段的处理。

34.
  一种用于集成层次结构的系统,包括:
用于输入第一层次结构和第二层次结构的装置;
用于对输入的所述第一和第二层次结构上的节点分别执行预处理,以识别出概念节点,并确定相关的概念的装置;
用于合并所述第一层次结构和第二层次结构的根节点以得到合并层次结构的装置;以及
用于参考识别出的所述概念节点及其概念集成所述合并层次结构上的所有异源节点对,以实现所述第一和第二层次结构的集成的装置。

35.
  一种用于集成层次结构的系统,包括:
用于输入第一层次结构和第二层次结构的装置;
用于合并所述第一层次结构和第二层次结构的根节点以得到合并层次结构的装置;以及
用于分阶段集成所述合并层次结构上的所有异源节点对,以实现所述第一和第二层次结构的集成的装置,
其中在每个所述阶段中识别并存储无关系的异源节点对,并且无关系的异源节点对的子孙节点所组成的异源节点对均不再参与随后阶段的处理。

说明书

层次结构集成方法和系统
技术领域
本发明涉及网络上信息对象的层次结构(hierarchy)的自动集成,更具体而言,本发明提供了用于自上而下地有效集成网络上信息对象的层次结构的方法和系统。
背景技术
计算机已经成为现代生活必不可少的工具,它可以帮助用户找到感兴趣的信息,这在当今大量信息在Web上不断积累的因特网时代尤其明显。然而,信息爆炸在现代社会已经成为一个非常严峻的问题。人们每天要读取和处理大量信息。因此,信息组织和呈现成为一项越来越重要的技术。对于信息,现有技术中用于组织和呈现信息的方法很多,例如,利用列表、层次结构、图等等。例如,Google就利用列表来呈现与查询相关的网页:具体地讲,与查询越相关的网页在列表中的呈现位置越高。
层次结构也已被广泛用于信息组织和呈现。例如,很多网站都可被抽象化为一种层次结构。一般而言,层次结构包含节点和连接节点的边。节点通常具有用于说明其含义的文本,并且有时在节点处附有实例(instance)。例如,图8示出层次结构的一个示例。但是,请注意,该层次结构的节点处没有示出实例。
层次结构的集成是一种将多个层次结构集成为一个层次结构的过程。层次结构集成的结果,即集成后的层次结构,应该覆盖所有层次结构的内容。因此,层次结构的集成是对所有信息的全面组织。通过浏览集成的层次结构,用户可以节省从不同数据源中搜索相关信息的时间。例如,如果可以将两个网站“当当网”(http://www.dangdang.com)和“卓越网”(http://www.joyo.com)集成为一个网站,用户则可以浏览两个网站在同一节点处的特定产品,例如小说。这样一来,用户节省了从当当网和卓越网中分别搜素小说的时间。
鉴于上述层次结构集成的优势,现有技术中已经提出很多方法和系统用来处理这一问题。例如,日本专利申请公开No.平8-255166(专利文献1)和中国专利申请No.200710196522.3都对此有所描述(专利文献2)。
专利文献1公开了一种关键字层次结构集成系统,其用于将用户关键字层次结构与数据库关键字层次结构集成在一起。通过所产生的集成层次结构,可以降低管理成本。具体而言,该日本专利公开了一种深度优先的集成方法:对于两个异源节点(所谓“异源节点”,意思是来自不同层次结构的节点)A和B,考虑它们的子节点,例如A1、A2和B1、B2。如果A1和B1被确定为相同并被集成,则它们的子节点,例如A11、A12和B11、B12被比较。该过程不断迭代,直到不再需要执行进一步的集成。
专利文献2公开了一种一般层次结构集成方法和系统。首先,利用该方法,异源节点被比较以确定关系。候选关系可以是以下关系之一:相同、相似、包括、被包括、交叉、交叉-覆盖、交叉-被覆盖以及无关系。然后,基于关系和映射类型(例如1:1或1:n)来确定适当的集成操作,例如合并操作或父子操作。最后,确定的操作被执行,从而实现层次结构的集成。
如上所述日本专利申请公开No.平8-255166和中国专利申请No.200710196522.3通过引用被整体结合于此,以用于所有目的。
如本领域技术人员所知,在评价层次结构集成方法或系统时有三个标准,即精确度、召回率(recall)和效率。这表明一种好的集成方法应该准确、完整并且快速地集成层次结构。
现有技术在提高集成的精确度和召回率方面进行了很多尝试,但是很少考虑关于效率的问题。例如,上述专利文献1没有考虑效率,并且在两个匹配节点不具有相同深度时会遇到困难。另外,在上述专利文献2中,节点之间的关系只有在层次结构上的任意两个节点都被比较之后才能确定,这需要花费大量时间,并因此导致效率的降低。
因此,非常需要一种层次结构的集成方法和系统,能够在保持高精确度和召回率的同时提高集成效率。
发明内容
鉴于上述现有技术的层次结构集成方案中所具有的问题,作出了本发明。
本发明提出了一种自上而下的多阶段层次结构集成方法和系统,其能够在保持高精确度和召回率的同时提高集成效率。
根据本发明第一方面,提供了一种用于集成层次结构的方法,包括:输入第一层次结构和第二层次结构;合并所述第一层次结构和第二层次结构的根节点以得到合并层次结构;对所述合并层次结构按层分块,其中每个块包含一层或多层节点;以及分多个阶段按块集成所述合并层次结构上的异源节点对,以实现所述第一和第二层次结构的集成,其中在每个所述阶段中,选择所述合并层次结构上距离相等的来自相同块或不同块的异源节点对作为待比较节点对并对所选择的待比较节点对进行比较和集成,并且在不同阶段之间,在先阶段中所选待比较节点对的距离小于在后阶段中所选待比较节点对的距离。所述异源节点对的距离可以指从其中一个节点出发,经过根节点到达另一个节点所经历的块的数目,或者指该异源节点对中离根节点较近的节点到根节点所经历的块的数目。
根据本发明第二方面,提供了一种用于集成层次结构的系统,包括:输入装置,用于输入第一层次结构和第二层次结构;根节点合并装置,用于合并所述第一层次结构和第二层次结构的根节点以得到合并层次结构;分块装置,用于对所述合并层次结构按层分块,其中每个块包含一层或多层节点;以及多阶段集成装置,用于分多个阶段按块集成所述合并层次结构上的异源节点对,以实现所述第一和第二层次结构的集成。其中所述多阶段集成装置包含:待比较节点对选择单元,用于在每个所述阶段中选择所述合并层次结构上距离相等的来自相同块或不同块的异源节点对作为待比较节点对;以及节点对集成单元,用于对所述待比较节点对选择单元所选择的待比较节点对进行比较和集成,其中在不同阶段之间,在先阶段中所选待比较节点对的距离小于在后阶段中所选待比较节点对的距离。
另外,根据本发明第三方面,还提供了另一种用于集成层次结构的方法,包括:输入第一层次结构和第二层次结构;对输入的所述第一和第二层次结构上的节点分别执行预处理,以识别出概念节点,并确定相关的概念;合并所述第一层次结构和第二层次结构的根节点以得到合并层次结构;以及参考识别出的所述概念节点及其概念集成所述合并层次结构上的所有异源节点对,以实现所述第一和第二层次结构的集成。
另外,根据本发明第四方面,还提供了又一种用于集成层次结构的方法,包括:输入第一层次结构和第二层次结构;合并所述第一层次结构和第二层次结构的根节点以得到合并层次结构;以及分阶段集成所述合并层次结构上的所有异源节点对,以实现所述第一和第二层次结构的集成,其中在每个所述阶段中识别并存储无关系的异源节点对,并且无关系的异源节点对的子孙节点所组成的异源节点对均不再参与随后阶段的处理。
根据本发明第五方面,提供了一种用于集成层次结构的系统,包括:用于输入第一层次结构和第二层次结构的装置;用于对输入的所述第一和第二层次结构上的节点分别执行预处理,以识别出概念节点,并确定相关的概念的装置;用于合并所述第一层次结构和第二层次结构的根节点以得到合并层次结构的装置;以及用于参考识别出的所述概念节点及其概念集成所述合并层次结构上的所有异源节点对,以实现所述第一和第二层次结构的集成的装置。
根据本发明第六方面,提供了另一种用于集成层次结构的系统,包括:用于输入第一层次结构和第二层次结构的装置;用于合并所述第一层次结构和第二层次结构的根节点以得到合并层次结构的装置;以及用于分阶段集成所述合并层次结构上的所有异源节点对,以实现所述第一和第二层次结构的集成的装置,其中在每个所述阶段中识别并存储无关系的异源节点对,并且无关系的异源节点对的子孙节点所组成的异源节点对均不再参与随后阶段的处理。
在层次结构的集成过程中,节点之间的比较和集成被逐步(逐个阶段)分块执行。具体地讲,节点的比较和集成过程被分成若干阶段,其中越可能具有关系的节点对被越早地比较和集成。为了尽早识别出有关系的节点,本发明还提出“概念节点”的运用,通过检查和标记概念节点,可以在集成过程中尽早发现匹配的节点。另外,通过检查无关系节点和参考前一阶段的集成结果,本发明可以避免节点之间发生不必要的比较,因为在集成过程中,识别出的无关系的节点对的所有子孙节点或者在前一阶段中已经处理过的部分节点在随后阶段的集成中将被忽略,从而可以节省时间并提高集成速度。另外,本发明还提出对于深度匹配情况的复查,即,为了避免错误的操作,对于两个匹配的节点,将其中一个节点与另一节点的所有子孙节点进行比较以检查是否存在更好的匹配。
通过以上多种措施的采取,本发明相对于现有技术的集成方案,可以大大提高集成的效率,同时不影响集成的精确度和召回率。
附图说明
结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中类似的参考标注指示类似的部分,其中:
图1是根据本发明的层次结构集成系统100的总体框图;
图2是示出图1所示层次结构集成系统100中的多阶段集成装置的一个示例的详细框图;
图3是结合图1和图2示出根据本发明的层次结构集成系统100的操作的流程图;
图4示出根据本发明的多阶段层次结构集成中的分块过程的一个简单示例;
图5示出在标记概念节点的情况下,用于确定节点对关系的关系确定单元的详细框图;
图6是用于说明针对合并操作的深度匹配情况复查过程的流程图;
图7A、图7B-1、图7B-2、图7C-1和图7C-2分别示出根据本发明的多阶段分块层次结构集成过程的示例,其中在合并操作或父子操作之后形成的子层次结构在下一阶段之前被集成;以及
图8是示出层次结构的一个示例的示意图。
具体实施方式
下面将参考附图描述根据本发明的示例性实施例。应当意识到,所描述的实施例仅是用于举例说明的目的,本发明并不限于所描述的具体实施例。
图1是根据本发明的层次结构集成系统100的总体框图。如图所示,层次结构集成系统100主要由输入装置101、预处理装置102、根节点合并装置103、分块装置104和多阶段集成装置105构成。此外,层次结构集成系统100还包括用于存储层次结构的层次结构存储器106以及用于存储最终集成结果的集成层次结构存储器107。首先,输入装置101从层次结构存储器106获取将要进行集成的两个层次结构L1和L2,并将层次结构L1和L2传输到预处理装置102进行预处理。应当注意,预处理装置102在这里作为一个可选部件并入,其用于在集成之前,对层次结构上的节点进行一些可选的预处理,以求提高接下来的集成正确性或效率。例如,对于由中文网页构成的层次结构,节点文本可能首先被切分成词并去除其中的标点符号,然后再进行集成。经预处理的层次结构L1和L2随后进入根节点合并装置103,在根节点合并装置103处,两个层次结构的根节点被首先合并,从而从形式上首先集成为一个合并层次结构。当然,为了便于随后的集成,这里需要对来自不同层次结构的节点进行区分。在随后的描述中,来自不同层次结构的节点被称为“异源节点”,而来自同一层次结构的节点被称为“同源节点”。然后,合并层次结构L′被输入到分块装置104,以对合并层次结构L′上的节点进行分块。在一个实施例中,可以对节点按层分块,其中每一块可以包含合并层次结构L′上一层或多层节点。例如,如随后将详细描述的图7A所示,该合并层次结构被分成三块,其中块1包含第一层节点,块2包含第二和第三层节点,块3包含第四层节点。当然,层次结构的层数以及分块规则并不局限于所示示例,本领域技术人员可以根据实际需求和应用分别设计不同的分块规则。另外,在图7A中,对合并层次结构上的异源节点进行了区分,即以“○”代表来自层次结构L1的节点,以“■”代表来自层次结构L2的节点,并以“●”代表合并节点。返回图1,经分块的合并层次结构L′随后被提供到多阶段集成装置105进行集成。根据本发明,在多阶段集成装置105中,集成是以多阶段的方式按块进行的。具体地讲,在本发明的一个实施例中,集成过程被分成多个阶段,在每个阶段中对来自同一块或不同块的异源节点对进行集成,以最终实现层次结构L1和L2的整体集成。关于多阶段集成的详细过程,随后将结合附图具体描述。
如图1所示,多阶段集成装置105包含待比较节点对选择单元1051、节点对集成单元1052和待比较节点对存储器1053。在每一阶段中,待比较节点对选择单元1051首先确定在该阶段中将处理的一个或多个块,以及所有块中的异源节点对,作为该阶段将集成的待比较节点对。随后将说明,在某些实施例中,可能并非所有异源节点对都被作为待比较节点对进行处理,在选择待比较节点对的步骤中,待比较节点对选择单元1051可以参考先前阶段的集成结果对异源节点对进行选择,删除掉不需要进行比较的多余节点对,从而节省集成时间并提高集成效率。所选择的所有待比较节点对随后被存储在待比较节点对存储器1053中。接下来,节点对集成单元1052对待比较节点对存储器1053中存储的待比较节点对进行比较,确定待比较节点对之间的关系和将对其执行的操作,并通过执行具体操作来实现待比较节点对的集成。随后,多阶段集成装置105的处理进行下一阶段。待比较节点对选择单元1051、节点对集成单元1052和待比较节点对存储器1053分多个阶段重复上述操作,以逐步实现合并层次结构L′上的异源节点对的集成。最终,作为集成结果的集成层次结构L被提供到集成层次结构存储器107并存储在其中。
这里,在进一步详细阐述本发明所提出的多阶段层次结构集成方案之前,首先引入“概念节点”的概念。如前所述,通过识别“概念节点”,可以尽早发现层次结构上的匹配节点,从而提高层次结构的集成效率。
概念节点的识别可以作为预处理装置102所执行的处理的一部分。在预处理装置102中,从输入的每个层次结构上的节点中识别出概念节点,对这些概念节点进行标记,并确定它们各自相应的概念,以用于随后的集成过程。例如,对于某一层次结构上的多个节点“男装→鞋子→(皮鞋|凉鞋|登山鞋)”(其中“A→B”表示A是B的父节点,“A|B”表示A和B互为兄弟节点,括号中是一组有关系的节点,下同)。节点“鞋子”被识别并标记为概念节点,并且其相应概念为“鞋”。
可以设想多种方法用来判断一个节点是否是概念节点。在介绍这些方法之前,首先引入以下两个概念:节点文本的中心语(core)和修饰语(decoration)。每个节点的文本可被分成两个部分,即中心语和修饰语。例如,关于节点“高频放大器”,其中心语为“放大器”而其修饰语为“高频”。如何判断节点文本中的中心语和修饰语属于本领域公知技术,这里不作赘述。一般地讲,节点文本的后一部分为中心语,而前一部分通常为修饰语。
在一个实施例中,简单的方法是可以通过计算词频来判断概念节点。一般而言,概念通常是在节点本身及其子孙节点中频繁出现的词。例如,对于多个节点“男装→鞋子→(皮鞋|凉鞋|登山鞋)”,“鞋子”为概念节点,并且其相应概念为“鞋”。再例如,对于多个节点“男鞋→(皮鞋|凉鞋|休闲鞋)”,“男鞋”为概念节点,并且其相应概念也为“鞋”。更严格地讲,概念可以是某一节点及其大多数子孙节点的中心语。更复杂一点,可以对节点文本进行语义分析。例如,对于多个节点“服装→衬衫|西服|裤子”,虽然“衬衫”和“裤子”在文本上不同于“服装”,但是经过语义分析,可以知道“衬衫”和“裤子”都是“服装”的子概念。因此,“服装”可以被识别为概念节点。
概念节点的识别对于随后的层次结构集成过程具有积极的意义。如随后将描述的,在确定节点对之间的关系时,如果节点对中的两个节点都是概念节点,则可以基于它们的概念来识别节点对之间的关系。也就是说,可以用节点概念代替节点文本来计算它们的关系。例如:如果它们的概念是相同的,则认为节点对之间具有“相同”关系。举例来说,对于两组节点“男装→鞋子→(皮鞋|凉鞋|登山鞋)”和“男鞋→(皮鞋|凉鞋|休闲鞋)”,由于“鞋子”和“男鞋”都是概念节点并且具有相同的概念“鞋”,因此认为节点“鞋子”和“男鞋”匹配,并在它们之间设置“相同”关系。由此可见,通过预先识别概念节点,可以尽早得知存在匹配的节点对,从而简化确定节点对关系的过程并提高层次结构集成的效率。
概念节点的检查和匹配之所以能够提高层次结构集成的效率,简单地讲,可以出于以下原因。考虑两组节点:“男装→鞋子→(皮鞋|凉鞋|登山鞋)”和“(衬衫→(圆领衬衫|尖领衬衫))|(男鞋→(皮鞋|凉鞋|休闲鞋))”。正确的操作应该是将节点“鞋子”与“男鞋”相合并。但是,由于“鞋子”和“男鞋”在文本上存在一点不同,现有技术中的传统方法可能无法将两者立即合并。只有在它们的子节点都经过比较之后才能确定执行合并操作,这是因为传统方法的一般规则是:如果两个节点的大多数子节点都相同,则确定这两个节点是相同的,因而可以合并。但是,在合并之前,不可避免要执行大量比较,例如皮鞋与休闲鞋,登山鞋与凉鞋,鞋子和圆领衬衫,皮鞋与尖领衬衫等,这些比较需要花费大量时间。相对照地,通过预先识别概念节点并知晓其概念,可以在确定节点对关系的过程中尽早发现匹配的节点对,从而提高集成的效率。
图2是示出图1所示层次结构集成系统100中的多阶段集成装置105的一个示例的详细框图。图3是结合图1和图2示出根据本发明的层次结构集成系统100的操作的流程图。
如图2所示,在该示例中,节点对集成单元1052被示为包含三个部件,即关系确定单元201、操作确定单元202和操作执行单元203。并且,节点对集成单元1052还包括节点对关系存储器204,用于存储在每个阶段中由关系确定单元201所确定的所有节点对关系。在该示例中,来自待比较节点对存储器1053的所有待比较节点对首先被输入到关系确定单元201以确定所有节点对的关系。在每一阶段,节点对之间的关系被首先分为三类,即有关系、无关系和关系不确定。在确定有关系的情况下,节点对之间的关系可以被确定为以下关系之一:相同、相似、包括、被包括、交叉、交叉-覆盖和交叉-被覆盖。这里,确定节点对之间关系的过程可以采取本领域公知的技术实现,这里不作赘述。在节点对之间被确定为无关系的情况下,无关系的节点对被记录在无关系节点对存储器1054中,并且无关系节点对存储器1054中所存储的所有无关系节点对在随后阶段的处理中被待比较节点对选择单元1051用作参考,从而使得被确定为无关系的节点对的所有子孙节点组成的节点对都不再参与随后阶段的集成处理。显而易见,无关系节点对的识别可以简化随后阶段的集成处理,从而提高层次结构集成的整体效率。例如,考虑两组节点“高频放大器→(500HZ |600~1000HZ |1000HZ以上)”以及“低频放大器→(100HZ以下|100~200HZ |300~300HZ)”。两个父节点“高频放大器”和“低频放大器”由于含义相反而被确定为无关系,因此它们的子节点,例如“500HZ”和“100HZ”将不再被比较,因为这些子节点之间显然也是无关系的。因此,它们的所有子孙节点在随后阶段的比较集成中将被忽略。这样做,可以有利地节省处理时间并加速集成过程。
关于无关系节点对的判断,用户可以根据实际应用需求制定适当的比较规则。例如,可以设定两个节点在满足如下条件之一时被确定为无关系:
(1)两个节点均为概念节点,但是它们的概念是不同的并且节点文本的相似度为0,例如节点对“放大器”和“电源”;
(2)两个节点的中心语是相同的,但修饰语是反义词,例如节点对“高频放大器”和“低频放大器”;以及
(3)一个节点是合并节点。例如,考虑来自不同层次结构L1和L2的两组节点“比较器|(放大器→(300HZ以下|300HZ以上))”和“二级管|(放大器→(100-200HZ |200HZ以上))”。如果两个“放大器”节点被合并成一个节点,则确定来自层次结构L1的节点“比较器”与合并节点“放大器”无关系。因此,在随后的阶段中,在来自层次结构L1的节点“比较器”和来自层次结构L2的“放大器”节点的子节点“100-200HZ”和“200HZ以上”之间不再进行比较。
另外,在关系确定单元201确定节点对之间的关系不确定的情况下,在该阶段不对该节点对执行任何操作,而留待随后的阶段进行进一步的判断。关于阶段对关系的确定并不局限于上述规则和示例,本领域技术人员可以设想其他规则用于确定节点对之间的关系。在获知某一阶段中所有待比较节点对之间的关系之后,确定的关系可以被存储在节点对关系存储器204中。
参考图3,其结合图1和图2示出根据本发明的层次结构集成系统100的操作的流程图。过程300开始于步骤301,其中输入装置101从层次结构存储器106获取第一层次结构L1和第二层次结构L2。在步骤302中,预处理装置102对获取的第一层次结构L1和第二层次结构L2上的节点进行预处理。如前所述,所述预处理过程例如是将节点文本切分成词、去除文本中的标点符号、识别概念节点等等。然后,在步骤303中,根节点合并装置103将第一层次结构L1和第二层次结构L2的根结合合并为一个根节点,从而得到合并层次结构L′。在步骤304中,分块装置104对合并层次结构L′上的节点按层分块,其中每一块可以包含合并层次结构L′上的一层或多层节点。如前所述,经分块的合并层次结构L′被输入多阶段集成装置105以执行多阶段的层次结构集成过程。在图3中,所述多阶段的层次结构集成过程由步骤305-310的循环构成。针对其中一个阶段,例如第n阶段,首先,在步骤305中,待比较节点对选择单元1051选择该阶段(第n阶段)将被执行集成处理的一个或多个块,并选择这些块中的异源节点对作为待比较节点对。关于各阶段所处理的块以及待比较节点对的选择,随后将参考附图进一步详细描述。然后,在步骤306中,由关系确定单元201确定所选择的待比较节点对的关系,并由操作确定单元202根据所确定的关系确定将对相应节点对执行的操作(步骤307)。然后,在步骤308中,操作执行单元203对节点对执行操作确定单元202所确定的操作。在某些实施例中,根据确定的不同关系,对节点对所执行的操作可以是合并操作和父子操作之一。在执行完对该阶段所有待比较节点对的操作之后,即在完成该阶段的集成之后,在步骤309中判断是否对合并层次结构L′上所有块的处理都已完成。如果是,则获得最终的集成层次机构L,并且过程300结束。如果对合并层次结构L′的多阶段集成处理尚未完成,则前进至下一阶段(步骤310)以重复上述步骤305-310的操作,直到对所有块的处理均已完成为止。如前所述,下一阶段的集成处理可以参考前一阶段的比较和集成结果。例如,对于在前一阶段被确定为无关系的节点对,它们的所有子孙节点都不再参与随后阶段的比较集成操作。
返回图2,如图所示,所述多阶段集成装置105还可以包括子层次结构集成单元1055,该单元1055作为一个可选模块并入,用以示出本发明的一个优选示例。但是,从随后的描述显而易见,本发明并不局限于该示例,多阶段集成装置105可以采取其他方式实现层次结构的集成。
在图2所示示例中,假设经过某一阶段的处理,操作执行单元203对合并层次结构上的某一节点对执行了合并操作或父子操作,在此情况下,可以在进入下一阶段之前,由子层次结构集成单元1055首先对经过合并操作或父子操作所形成的子层次结构sub-L首先进行集成。对于子层次结构sub-L的集成可以采取本领域已知的现有技术,也可以采用本发明所公开的多阶段集成方式。在采取根据本发明的多阶段集成方式的情况下,对子层次结构sub-L的分块可以与原合并层次结构L′的整体分块保持一致,也可以采取独立于合并层次结构L′的不同的分块方式。在对子层次结构sub-L上异源节点进行集成之后,待比较节点对选择单元1051可以参考子层次结构sub-L来调整下一阶段将被处理的待比较节点对。类似于在处理无关系节点对时的情况,通过参考子层次结构sub-L,待比较节点对选择单元1051可以根据上一阶段的集成处理结果从预期应该处理的下一阶段的待比较节点对中删除掉部分已经处理过或者显然无关系的节点对,从而节省集成处理的时间并提高效率。关于子层次结构sub-L的集成以及待比较节点对的选择随后将参考图7A、图7B和图7C所示的示例来进一步描述。
如上所述,本发明提供了层次结构的多阶段分块集成方案。下面首先对分块过程进行介绍。图4示出根据本发明的多阶段层次结构集成中的分块过程的一个简单示例。
首先,在图4中,在阶段0输入两个层次结构L1和L2,它们分别以R1和R2为根节点。在该示例中,层次结构L1包含两层节点(不包括根节点),而层次结构L2包含三层节点。这里为了区分异源节点,来自层次结构L1和L2的节点分别以不同标记“○”和“■”示出。在阶段1,两个层次结构L1和L2的根节点R1和R2并合并为根节点R,从而得到合并层次结构L′。并且在阶段1中,对合并层次结构L′上的节点进行分块。在图4所示示例中,合并层次结构L′被分成两块,即第一块包含所有第一层节点,而第二块包含第二、三层节点。当然,如前所述,对于合并层次结构L′的分块方式并不局限于所示示例。根据实际应用的不同,可以采取其他分块规则对合并层次结构L′进行分块,例如可以将合并层次结构L′分成三块,其中每一块包含一层节点。在图4所示示例中,对于合并层次结构L′的多阶段集成被分成了三个阶段,即阶段1、阶段2和阶段3。
作为示例,在每个阶段中,待比较节点对的选择可以遵循如下规则:在每个阶段中,选择合并层次结构L′上距离相等的异源节点对作为待比较节点对,并且在不同阶段之间,在先阶段中所选待比较节点对的距离小于在后阶段中所选待比较节点对的距离。在一个实施例中,异源节点对的距离可以是从一个节点出发,经过根节点到达另一个节点所经历的块的数目。当然,关于异源节点对的定义并不局限于以上示例。在另一实施例中,异源节点对的距离也可以是从该异源节点对中离根节点较近的节点出发,到达根节点所经历的块的数目。以上对于节点对距离的定义均为示例性的,用户可以根据系统应用的需要对节点对距离自行定义。
例如,在图4中,假设相邻块之间的距离为1,则由来自层次结构L1上的节点A1和来自层次结构L2上的节点B1构成的异源节点对之间的距离为2(起点块和终点块被计算在内)。同理,处于同一块内的节点对A2和B1之间的距离、A1和B2之间的距离以及A2和B2之间的距离也均为2。节点对A1和B21之间的距离为3,节点对A1和B211的距离也为3。节点对A11和B21之间的距离为4,节点对A11和B211之间的距离也为4。当然,对于阶段的划分以及待比较节点对的选择并不局限于所述规则,本领域技术人员可以设想根据实际需求设计其他规则。
在图4所示示例中,根据上述规则,在三个阶段中所选的待比较节点对分别如下表所示:
(表1)

  阶段  待比较节点对  节点对距离  1  (A1,B1)(A1,B2)(A2,B1)(A2,B2)  2  2  (A1,B21)(A1,B22)(A1,B211)  (A2,B21)(A2,B22)(A2,B211)  (B1,A11)(B2,A11)  3

  3 (A11,B21)(A11,B22)(A11,B211)  4

在如上示例中,假设每一阶段均未发现有关系的节点对,因而每一阶段都没有对节点执行任何操作,例如合并操作或父子操作。该示例仅仅是为了简化描述待比较节点对的分阶段选择过程而示出。但是,在各个阶段中,如果发现有关系的节点对并对节点对执行了相应的合并操作或父子操作,则合并层次结构上的节点之间的位置关系以及节点在块中的位置都可能发生变化,从而使得待比较节点对的选择将参考上一阶段的集成结果作出。有关具体的分阶段按块集成过程将随后参考图7A、图7B和图7C所示示例来具体描述。
图5示出在标记概念节点的情况下,用于确定节点对关系的关系确定单元的详细框图。如前所述,概念节点的识别可以作为预处理装置102所执行的处理的一部分。在预处理装置102中,从层次结构上的节点中识别出概念节点,对概念节点进行标记并记录其相应概念。
在图5所示示例中,关系确定单元201包括概念节点识别部件501、概念节点对关系确定部件502和一般节点对关系确定部件503。对于来自待比较节点对存储器1053的待比较节点对,概念节点识别部件501首先识别其中的概念节点。如果待比较节点对中的两个节点都是概念节点,则概念节点对关系确定部件502基于之前记录的相应节点的概念来确定该节点对的关系。对于包含非概念节点的待比较节点对,则由一般节点对关系确定部件503确定节点对之间的关系。如前所述,通过区分概念节点和非概念节点,可以尽早发现层次结构上的匹配节点,从而提高层次结构的集成效率。
图6是用于说明针对合并操作的深度匹配情况复查过程的流程图。该过程主要针对节点对之间的合并操作。当操作确定单元202确定两个节点将被执行合并操作的时候,为了避免操作错误,本发明建议不要立即执行合并操作,而是首先将其中一个节点与另一节点的所有子孙节点进行比较,以复查是否有更好的操作存在。之所以需要在合并之前进行复查是出于以下方面的考量。
考量分别来自层次结构L1和L2的两组节点:“玩具→益智”和“玩具→益智/魔术/幼儿→(益智|魔术|幼儿)”。理想地,两组节点中的节点“益智”应该被合并。但是,由于层次结构L1的节点“益智”首先与层次结构L2的“益智/魔术/幼儿”匹配,因此如果直接使用自上而下的集成方法,这两个节点将被合并。但是,这样的操作是错误的。为了执行更准确的操作,当确定要执行“合并”操作时,该操作没有被立即执行,而是系统首先判断这两个节点之一是否与另一节点的子孙节点之一也发生匹配。如果是,则将合并操作设置到该节点与该子孙节点之间。例如,在上述情况下,系统检查“益智”是否与“益智/魔术/幼儿”的子孙节点之一匹配。在该示例中,层次结构L1的“益智”与层次结构L2的“益智/魔术/幼儿→益智”中的“益智”匹配,因此将在这两个节点之间执行合并操作。本领域技术人员容易理解,通过复查可以获得更准确的集成结果并且避免错误操作,从而可以提高集成效率。
图6的流程图详细示出一般的复查过程,其中O1表示操作1。首先,在步骤601中,输入节点对A-B和已经确定的A-B之间的操作O1。在步骤602中,判断操作O1是否是合并操作。如果是,则在步骤604和606中分别判断节点A是否与节点B的任意子孙节点匹配,或者节点B是否与节点A的任意子孙节点匹配。如果在步骤602中确定操作O1不是合并操作,则在步骤603中输出节点对A-B和相应的操作O1。在此情况下,不需要对节点对A-B进行深度复查而直接确定节点对之间的合并操作。如果在步骤604中确定节点A与节点B的子孙节点B1匹配,则将合并操作设置在节点A和节点B1之间。同理,如果在步骤606中确定节点B与节点A的子孙节点A1匹配,则将合并操作设置在节点B和节点A1之间。如果在步骤604和606中确定节点A和B都不与对方的子孙节点匹配,则在步骤608中输出节点对A-B和相应的操作O1。在此情况下,仍然在节点A-B之间设置合并操作。
下面,将参考图7A、图7B和图7C来详细描述根据本发明的多阶段按块集成过程的示例。应该理解,图中所示示例仅仅是出于举例说明的目的而给出的,其用于说明根据本发明的多阶段按块集成过程的基本思想和原理。但是,本发明并不局限于所示示例,其中的分块过程、多阶段集成过程、子层次结构集成过程都可以由用户根据实际需要自行设计。
在该示例中,图7A示出一个经根节点合并后的合并层次结构,其中来自不同层次结构的异源节点用不同符号示出。在图7A所示示例中,该层次结构例如被分成三块,即块1、块2和块3。块1包含第一层节点,块2包含第二、三层节点块3包含第四层节点。注意,图7A所示合并层次结构可能包含更多层次以及更多分块,但是为了描述简明,图中没有详细示出。图7B-1和图7B-2示出合并操作后的层次结构的一个示例。在该示例中,来自不同层次结构的节点A1与B11被合并,从而得到图7B-1和图7B-2所示的变化后的合并层次结构。图7B-1和图7B-2之间的差别在于对于以合并节点B11(A1)为根节点的子层次结构的分块方式不同。在图7B-1所示示例中,子层次结构被分成三块,即块1′、块2′和块3′,它们分别包含子层次结构上第一、第二和第三层节点,而在图7B-2所示示例中,子层次结构被分成两块,即块1′和块2′,其中块1′包含子层次结构的第一层节点,块2′包含子层次结构的第二和第三层节点。图7C-1和图7C-2示出父子操作后的层次结构的一个示例。在该示例中,来自不同层次结构的节点A1与B11被执行父子操作,其中以节点B11为父节点并以节点A1为子节点。类似于图7B-1和图7B-2,图7C-1和图7C-2之间的差别也在于对于子层次结构的分块方式不同。当然,对于子层次结构的分块方式并不局限于图中所示示例,子层次结构的分块方式可以延用原整体层次结构的分块方式,也可以由用户根据实际需求另行设计。
根据本发明,在一个实施例中,当在某一阶段对节点对执行了操作(例如,合并操作或父子操作)之后,没有立即进入下一阶段,而是在下一阶段的处理之前首先对经操作形成的子层次结构进行集成。对于子层次结构的集成可以采取根据本发明的多阶段按块集成方式,也可以采取本领域公知的其他层次结构集成方式。在进入下一阶段之后,待比较节点对的选择将参考前一阶段生成的子层次结构,从而删除了部分已经过子层次结构集成的节点,从而达到缩短集成时间和提高集成速度的效果。
具体而言,在图7A中,按照前文所述的分块规则作出如下表所示的待比较节点对选择:
(表2)
  阶段  待比较节点对  节点对距离  1  (A1,B1)(A1,B2)(A2,B1)(A2,B2)  2  2  (A1,B11)(A1,B12)(A1,B111)  (A2,B11)(A2,B12)(A2,B111)  (B1,A11)(B1,A12)(B1,A21)(B1,A22)(B1,A111)  (B1,A112)  (B2,A11)(B2A12)(B2,A21)(B2,A22)(B2,A111)  (B2,A112)  3  3  (A11,B11)(A11,B12)(A11,B111)  (A12,B11)(A12,B12)(A12,B111)  (A21,B11)(A21,B12)(A21,B111)  (A22,B11)(A22,B12)(A22,B111)  (A111,B11)(A111,B12)(A111,B111)  (A112,B11)(A112,B12)(A112,B111)  (A1,B1111)(A1,B1112)(A2,B1111)(A2,B1112)  (B1,A1111)(B1,A1112)(B2,A1111)(B2,A1112)  4  4  (A11,B1111)(A11,B1112)(A12,B1111)(A12,  B1112)(A21,B1111)(A21,B1112)  (A22,B1111)(A22,B1112)(A111,B1111)(A111,  B1112)(A112,B1111)(A112,B1112)  (B11,A1111)(B11,A1112)(B12,A1111)(B12,  A1112)(B111,A1111)(B111,A1112)  5  5  (A1111,B1111)(A1111,B1112)(A1112,B1111)  (A1112,B1112)  6

然后,参考图7B-1所示合并操作的示例,在第2阶段中,来自不同层次结构的异源节点A1与B11被合并,从而得到以合并节点A1(B11)为根节点的子层次结构。子层次结构被再次分块。在图7B-1所示示例的情况下,对于子层次结构的分块以及待比较节点选择如下表所示:
(表3)
  阶段  待比较节点对  节点对距离  1′  (A11,B111)(A12,B111)  2  2′  (A11,B1111)(A11,B1112)(A12,B1111)(A12,  B1112)  (B111,A111)(B111,A112)  3  3′  (A111,B1111)(A111,B1112)(A112,B1111)(A112,  B1112)  (B111,A1111)(B111,A1112)  4  4′  (B1111,A1111)(B1112,A1111)(B1111,A1112)  (B1112,A1112)  5

在对子层次结构进行集成之后,在表2中的随后阶段(例如第3、4和5阶段)中的待比较节点对的选择将参考上一阶段(即第2阶段)中子层次结构的集成结果。具体而言,根据一个实施例,在随后的阶段中,子层次结构上的根节点以下的所有子孙节点都不再参与随后阶段的处理,即在图7B-1所示示例中,包含层次结构上的节点A11、A12,B111、A111、A112、B1111、B1112、A1111和A1112的节点对在随后阶段的处理中都不再被选为待比较节点对,这是因为在层次结构上有关这些节点的关系已经在之前的阶段中被讨论过。当然,对于待比较节点对的过滤和选择并不局限于上述规则。
事实上,经过以上子层次结构的集成,表2将转变为表2’
(表2’)
  阶段  待比较节点对  节点对距离  3  (A21,B12)(A22,B12)  4

图7B-2所示示例的集成操作与图7B-1类似,这里不再赘述。
参考图7C-1和图7C-2,它们示出在节点A1和节点B11之间执行了父子操作之后的集成操作的示例。如图7C-1所示,在以B11为根节点的子层次结构上,其待比较节点对的选择如下表所示:
(表4)
  阶段  待比较节点对  节点对距离  1′ (A1,B111)  2  2′ (A1,B1111)(A1,B1112)(B111,A11)(B111,A12)  3  3′ (A11,B1111)(A11,B1112)(A12,B1111)(A12, B1112) (B111,A111)(B111,A112)(B111,A1111)(B111, A1112)  4  4′ (B1111,A111)(B1111,A112)(B1112,A111)(B1112, A112)(B1111,A1111)(B1111,A1112)(B1112, A1111)(B1112,A1112)  5

在对子层次结构进行集成之后,在表2中的随后阶段(例如第3、4和5阶段)中的待比较节点对的选择将参考上一阶段(即第2阶段)中子层次结构的集成结果。具体而言,根据一个实施例,在随后的阶段中,作为子节点被操作的节点及其所有子孙节点都不再参与随后阶段的处理,即在图7C-1所示示例中,包含层次结构上的节点A1、A11、A12、A111、A112、A111和A1112的节点对在随后阶段的处理中都不再被选为待比较节点对,这是因为在层次结构上有关这些节点的关系已经在之前的阶段中被讨论过。当然,对于待比较节点对的过滤和选择并不局限于上述规则。
图7C-2所示示例的集成操作与图7C-1类似,这里不再赘述。
以上已经参考附图对根据本发明实施例的多阶段分块层次结构集成方法和系统进行了详细描述。根据以上描述可以看出,本发明具有以下效果:
在层次结构的集成过程中,节点之间的比较和集成被逐步(逐个阶段)执行。具体地讲,节点的比较和集成过程被分成若干阶段,其中越可能具有关系的节点对被越早地比较和集成。为了尽早识别出有关系的节点,本发明还提出“概念节点”的运用,通过检查和标记概念节点,可以在集成过程中尽早发现匹配的节点。另外,通过检查无关系节点和参考前一阶段的集成结果,本发明可以避免节点之间发生不必要的比较,因为在集成过程中,识别出的无关系的节点对的所有子孙节点或者在前一阶段中已经处理过的部分节点在随后阶段的集成中将被忽略,从而可以节省时间并提高集成速度。另外,本发明还提出对于深度匹配情况的复查,即,为了避免错误的操作,对于两个匹配的节点,将其中一个节点与另一节点的所有子孙节点进行比较以检查是否存在更好的匹配。
通过以上多种措施的采取,本发明相对于现有技术的集成方案,可以大大提高集成的效率,同时不影响集成的精确度和召回率。
上面参考附图描述了根据本发明的具体实施例。但是,本发明并不限于图中示出的特定配置和处理。并且,为了简明起见,这里省略对这些已知方法技术的详细描述。
在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明的元素可以实现为硬件、软件、固件或者它们的组合,并且可以用在它们的系统、子系统、部件或者子部件中。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

层次结构集成方法和系统.pdf_第1页
第1页 / 共37页
层次结构集成方法和系统.pdf_第2页
第2页 / 共37页
层次结构集成方法和系统.pdf_第3页
第3页 / 共37页
点击查看更多>>
资源描述

《层次结构集成方法和系统.pdf》由会员分享,可在线阅读,更多相关《层次结构集成方法和系统.pdf(37页珍藏版)》请在专利查询网上搜索。

本发明提供了层次结构集成方法和系统。所述方法包括:输入第一层次结构和第二层次结构;合并第一层次结构和第二层次结构的根节点以得到合并层次结构;对合并层次结构按层分块,其中每个块包含一层或多层节点;以及分多个阶段按块集成所述合并层次结构上的异源节点对,以实现所述第一和第二层次结构的集成,其中在每个阶段中,选择合并层次结构上距离相等的异源节点对作为待比较节点对并对所选择的待比较节点对进行比较和集成,并且。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1