基于语义相关的XML文档关键字检索排序方法.pdf

摘要
申请专利号：	CN201110007177.0	申请日：	2011.01.13
公开号：	CN102081660A	公开日：	2011.06.01
当前法律状态：	授权	有效性：	有权
法律详情：	专利权的转移IPC(主分类):G06F 17/30变更事项:专利权人变更前权利人:西北工业大学变更后权利人:江苏中威重工机械有限公司变更事项:地址变更前权利人:710072 陕西省西安市友谊西路127号变更后权利人:226600 江苏省南通市海安县海安开发区海防路变更事项:专利权人变更后权利人:西北工业大学登记生效日:20140813\|\|\|授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20110113\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	西北工业大学
发明人：	陈群; 王鹏; 娄颖; 崔海文; 李霞; 张立军; 李战怀
地址：	710072 陕西省西安市友谊西路127号
优先权：
专利代理机构：	西北工业大学专利中心 61204	代理人：	顾潮琪
PDF下载：	PDF下载

内容摘要

本发明公开了一种基于语义相关的XML文档关键字检索排序方法，依次解析XML文档，计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度，优化检索时间，对所输入的查询关键字进行单词归根处理，在倒排索引中取出关键字对应的主题节点信息以及相关度信息，对距离关键字最近的主题进行检索，对检索结果进行相关度从高到低排序，对距离关键字次近的主题进行检索，根据结果的Dewey码返回信息片段给用户。本发明针对XML数据独有的结构语义特点，提出了SRank相关度检索模型及方法，可以提高检索结果的准确率。

权利要求书

1：一种基于语义相关的 XML 文档关键字检索排序方法，其特征在于包括下述步骤： 1) 采用有序标签树模型作为 XML 文档模型，采用深度优先法遍历树模型，解析 XML 文档，采用 Porter Stemming 算法对全部单词进行归根处理，确定所有主题节点，使用 Dewey 编码的方式对主题进行编码；所述的主题节点是以其为根的树中包含以另外一个节点为根的子树的节点； 2) 计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度，所述的属性节点是以其为根的子树只包含文本内容的节点，计算方法如下：主题节点与属性节点的语意相关度用他们之间的距离的倒数来表示，属性节点与关键字的语义相关度其中 perc(k， er) 表示在以 er 为根节点的 XML 树中以 La 为标签的属性中包含关键字 k 的比例， freq(La) 表示以 er 为标签的所有 XML 子树中包含以 La 为标签的属性的个数， freq(k， La) 表示以 er 为标签的所有 XML 子树中包含以 La 为标签的属性的个数，并且该属性包含关键字 k ； 3) 将关键字对应的最低主题节点位置信息和步骤 2) 所计算出的主题节点与属性节点以及属性节点与关键字的语意相关度封装在一起保存在倒排索引中，并对位置信息中的 Dewey 码建立 B+ 树索引，通过该索引结构优化检索时间； 4) 用户输入查询关键字，对所输入的查询关键字采用 Porter Stemming 算法进行单词归根处理； 5) 在倒排索引中取出关键字对应的主题节点信息以及相关度信息，关键字的倒排索引中保存包含这个关键字的一系列主题位置，以及关键字与属性节点、属性节点与主题节点如果一个节的语意相关度，倒排表按照包含这个节点的最低主题节点的 Dewey 码 LED 排序，点是属性节点，那么它的 LED 为其父节点的 Dewey 码； 6) 对距离关键字最近的主题进行检索，如果一个 LED 包含了所有的关键字，那么这个 LED 将被作为一个结果计算其相关度，计算方法如下： k 表示返回属性关键字， sc(k′， La) 表示查询条件， k′表示条件值关键字， La 表示条件属性关键字；如果一个 LED 没有包含所有的关键字，那么将该 LED 的父节点加入到查询队列中； 7) 对检索结果进行相关度从高到低排序，当检索完所有结果或者达到用户要求的 K 个结果时算法结束，并输出结果； 8) 对距离关键字次近的主题进行检索，重复步骤 6) 和步骤 7) ； 9) 根据结果的 Dewey 码返回信息片段给用户。

说明书

基于语义相关的 XML 文档关键字检索排序方法
    【技术领域】
     本发明属于可扩充标记语言 (XML) 关键字检索技术领域，具体涉及一种 XML 文档关键字检索排序方法。背景技术
     作为一种互联网上和企业应用中信息描述和信息交换的国际标准， XML(eXtensible Markup Language) 具有语义标示、易扩展、开放性和互操作性等诸多优点。随着 XML 技术的推广和 XML 数据的不断增大，针对 XML 文档的信息检索技术已经成为信息检索和数据库等相关领域的研究热点。
     传统的信息检索技术主要是针对文本文档和 HTML 文档。XML 文档区别于文本和 HTML 文档的重要特征是其包含了丰富的语义和结构信息，这些信息有助于判断 XML 文档与用户信息需求之间的相关性。另一方面，与文本和 HTML 检索不同， XML 信息检索要求返回的是以 XML 文档中某个元素 (Element) 为根结点的片段，不必返回整个文档，提高了检索效率。与 XML 文档查询语言比如 XQuery， XPath， XQL 等相比，基于关键字的 XML 信息检索技术的主要优势就是用户不需要学习复杂的查询语言，也不需要对 XML 文档的结构有深入的了解，用户仅仅需要输入相应的关键字即可。因此，基于关键字的 XML 信息检索技术在现阶段有着更多的需求和更好的应用前景。
     目前，基于 XML 关键字检索的方法大都是基于 LCA(Lowest Common Ancestor) 的思想 ( 如 V.Hristidis， N.Koudas， Y.Papakonstantinou， and D.Srivastava.Keyword Proximity Search inXML Trees.In IEEE Trans.Knowl.Data Eng.2006 ， 18(4) ； pages525-539.)，首先定位 LCA 结点 ( 包含所有关键字 )，然后再返回以该 LCA 结点为根结点的片段。文献 “L.Guo， F.Shao， C.Botev， and J.Shanmugasundaram.XRank ： Ranked keyword search over xml documents.In SIGMOD， 2003 ； pages 16-27.”中 XRANK 提出的 ELCA(Exclusive LCA) 就是借助 LCA 的思想来解决关键字完全匹配问题。文献 “Y.Xu and Y.Papakonstantinou.Efficient keyword search for smallest lcas in xml databases.In SIGMOD， 2005， pages 527-538.”提出了 SLCA(Smallest Lowest Common Ancestor)，即最小最低公共祖先的概念，以 SLCA 为根节点的子树被定义为包含所有关键字，并且任意一棵它的子树都不包含所有关键字的子树。文献 “Guoliang.Li， Jianhua Feng， Jianyong Wang and Lizhu Zhou Effective keyword search for valuable LCAs over XMLdocument in CIKM pages 30-41， 2007.” 提出了 VLCA(Valuable Lowest Common Ancestor) 的概念，如果构成 LCA 的关键字结点是同构的，那么此 LCA 就是一个 VLCA。文献 “Y.Xu and Y.Papakonstantinou.Efficient LCA based Keyword Search in XML Data.In EDBT， 2008.” 结合 XRANK 和 SLCA 给出了一种可以更有效地计算 ELCA 的算法 -IS(Indexed 但仍 Stack)。虽然上述方法在 LCA 思想基础上提出了各自判断查询结果的相关性的方法，未能准确的反映出 XML 的结构语义对查询结果相关度的影响，效果并不理想。
     例如图 1 中显示了 XML 文档的树形结构，记录了一个会议的名字、主席以及收录的论文等信息。每个节点用其标签标示，标签上面的数字是它的 Dewey 编码。如果用户输入查询 Q ＝ {chen， XML} 则按照 SLCA 的思想，结果包含以节点 0.0 为根和以 0.1.1 为根和的子树，而没有以节点 0.1 为根的子树。发明内容
     为了克服现有技术未能准确的反映出 XML 的结构语义对查询结果相关度的影响的不足，本发明提供一种基于语义相关的 XML 文档关键字检索排序方法，较好的解决了检索目标与用户信息需求的一致性问题，并确保了查询结果的信息完整性。
     本发明解决其技术问题所采用的技术方案包含以下步骤：
     1) 本方法采用有序标签树模型作为 XML 文档模型。对树模型遍历拥有多种形式，本方法采用深度优先法遍历树模型，解析 XML 文档。采用 Porter Stemming 算法对全部单词进行归根处理。确定所有主题节点，使用 Dewey 编码的方式对主题进行编码。所述的主题节点是以其为根的树中包含以另外一个节点为根的子树的节点。
     2) 计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度。
     所述的属性节点是以其为根的子树只包含文本内容的节点。计算方法如下：
     主题节点与属性节点的语意相关度用他们之间的距离的倒数来表示，属性节点与关键字的语义相关度其中 perc(k， er) 表示在以 er 为根节点的 XML 树中以 La 为标签的属性中包含关键字 k 的比例， freq(La) 表示以 er 为标签的所有 XML 子树中包含以 La 为标签的属性的个数， freq(k， La) 表示以 er 为标签的所有 XML 子树中包含以 La 为标签的属性的个数，并且该属性包含关键字 k。
     3) 将关键字对应的最低主题节点 ( 该节点为主题节点，并且在该节点与关键字之间不存在另外的主题节点 ) 位置信息和步骤 2) 所计算出的主题节点与属性节点以及属性节点与关键字的语意相关度封装在一起保存在倒排索引中，并对位置信息中的 Dewey 码建立 B+ 树索引，通过该索引结构优化检索时间。
     4) 用户输入查询关键字。对所输入的查询关键字采用 Porter Stemming 算法进行单词归根处理。
     5) 在倒排索引中取出关键字对应的主题节点信息以及相关度信息。关键字的倒排索引中保存包含这个关键字的一系列主题位置，以及关键字与属性节点、属性节点与主题节点的语意相关度。倒排表按照包含这个节点的最低主题节点的 Dewey 码排序 (Dewey codes of the Lowest element node， LED)。如果一个节点是属性节点，那么它的 LED 为其父节点的 Dewey 码。
     6) 对距离关键字最近的主题进行检索，如果一个 LED 包含了所有的关键字，那么这个 LED 将被作为一个结果计算其相关度。计算方法如下： k 表示返回属性关键字， sc(k′， La) 表示查询条件， k′表示条件值关键字， La 表示条件属性关键字。如果一个 LED 没有包含所有的关键字，那么将该 LED 的父节点加入到查询队列中。7) 对检索结果进行相关度从高到低排序，当检索完所有结果 ( 即索引为空 ) 或者达到用户要求的 K 个结果时算法结束，并输出结果。
     8) 对距离关键字次近的主题进行检索，重复步骤 6) 和步骤 7)。
     9) 根据结果的 Dewey 码返回信息片段给用户。
     本发明的有益效果是：本发明在深入分析用户信息需求和 XML 结构语义的基础上，同时结合传统检索中 tf-idf 相关度计算模型，针对 XML 数据独有的结构语义特点，提出了 SRank 相关度检索模型及方法。如果将这种方法应用于 XML 文档关键字检索领域，可以提高检索结果的准确率。
     下面结合附图和实施例对本发明进一步说明。附图说明
     图 1 为一个 XML 树形表示，原始 Dewey 编码。图 2 为一个 XML 树形表示，主题 Dewey 编码。图 3 为本发明工作流程图。具体实施方式
     与本发明有关的一些概念和定义：
     定义 1. 主题节点：对于节点 n，如果以 n 为根的树 T(n) 中包含另外一个以 m 节点为根的子树 T(m)，则 n 为主题节点。
     定义 2. 属性节点：对于节点 n，如果以 n 为根的子树只包含文本值的内容，则n为属性节点。
     定义 3. 条件属性关键字：条件属性关键字是一类属性节点的名字，它表明了用户的查询条件。例如，查询 Q ＝ {article、 title、 XML}，表明用户想查找 title 中包含 XML 关键字的 article 信息，其中 title 是条件属性关键字。
     定义 4. 返回属性关键字：表明用户查询返回的关键字。例如，查询 Q ＝ {article、 XML、 author}，表明用户想查找关于 XML 的 article 的 auhor 信息，其中 author 是条件属性关键字。
     定义 5. 条件值关键字：查询条件的文本值关键字。例如，查询 Q ＝ {article、 title、 XML} 其中 XML 为条件值关键字。
     与本发明有关的一些性质：
     性质 1. 如果关键字出现的属性与主题的距离越近，那么这个属性与主题的相关度越高。
     性质 2. 对于一个主题，关键字 k 出现在不同类的属性中，如果关键字出现在某类属性下的比例越高，则关键字与该属性相关度越高。
     性质 3. 对于不同的检索结果，查询中的关键字出现的次数越多，则与用户的相关性越高。
     本发明提出了基于语义相关的 XML 文档关键字检索排序方法，较好的解决了检索目标与用户信息需求的一致性问题。已有一些研究利用 XML 数据的结构判断查询结果是否相关，所采用的判断方法比较简单，效果并不理想。我们主要从两个层次深入的研究了这个问题。第一个层次考虑用户的查询目标与查询结果的主题一致性问题，所关注的是用户的查询目标主题。 XML 数据中的信息片段代表特定主题，而信息片段根节点的标签是对这种主题的描述。当用户的查询目标与查询结果实体一致时，用户的查询目标与返回信息片段根节点描述的实体是相同的。一方面，我们考虑关键字与主题的相关度来推断用户的查询主题，通过对查询对象的数据统计分析，计算出关键字与各个主题的关联程度，关联程度作为影响推断用户查询主题的因素之一；另一方面，我们利用关键字所代表的实体与返回结果根节点之间的距离来进行判断，当距离越近时，我们认为查询目标实体与查询结果实体更一致。
     本发明还解决了传统与关键字 LCA 为根节点的子树作为返回结果的信息部完整性问题。以关键字 LCA 为根节点的子树作为返回结果是当前 XML 数据关键字检索的主要思想，这种方法可以获取包含所有输入关键字的最小信息片段，但在一些情况下，关键字 LCA 为根的子树所包含的信息是不完整的。例如：当用户信息需求为一篇有关针对 XML 数据查询的文章时，所输入的关键字为 “XML，查询” 。如果一篇文章的题目同时包含这两个关键字的时候，这篇文章极可能与用户需求一致，而根据关键字 LCA 的思想，将返回 “XML，查询” 的 LCA( 文章的题目 ) 为根的信息片段，用户的信息需求是一篇文章，文章题目作为返回结果的信息是不完整的。针对这个缺陷，我们提出了主题的概念，从关键字查询的特点和 XML 数据的结构分析，提出 XML 文档中的信息片段满足一定的结构才是主题，而主题能够确保所包含信息的完整性，查询结果都是以主题为单位，这样就确保了查询结果的信息完整性。为了利用包含在文档中的丰富的语义信息来计算关键字与各个主题的关联程度，进而计算返回结果与用户查询目标的相关度，本方法经过以下几个步骤：
     1) 采用有序标签树模型作为 XML 文档模型，采用深度优先法遍历树模型，解析 XML 文档。采用 Porter Stemming 算法对全部单词进行归根处理。根据定义 1 确定所有主题节点，使用 Dewey 编码的方式对主题进行编码，如图 2 所示。
     2) 计算主题节点与属性节点 ( 定义 2) 的语义相关度、属性节点与关键字的语义相关度。计算方法如下：在图 1 中， name、 chair、 title 和 auhor 节点都是属性节点，根据定义，他们只包含文本信息； paper、 conference 和 bib 都是主题节点，以为以这些节点为根的子树里面包含了更小的子树。属性节点与其所在主题节点的相关度用他们之间
     的距离的倒数来表示，为例如关键字 paper 与 paper 节点 (0.0.1) 的相关度属性与关键字的语义相关度，而 title 关键字与 paper 节点 (0.0.1) 的相关度为其中 perc(k， er) 表示在以 er 为根节点的 XML 树中，以 La 为标签的属性中，包含关键字 k 的比例。freq(La) 表示以 er 为标签的所有 XML 子树中包含以 La 为标签的属性的个数。freq(k， La) 表示以 er 为标签的所有 XML 子树中包含以 La 为标签的属性的个数，并且该属性包含关键字 k。
     3) 将关键字对应的最低主题节点 ( 该节点为主题节点，并且在该节点与关键字之间不存在另外的主题节点 ) 位置信息和步骤 2) 所计算出的主题节点与属性节点以及属性节点与关键字的语意相关度封装在一起保存在倒排索引中，并对位置信息中的 Dewey 码建立 B+ 树索引，通过该索引结构优化检索时间。4) 用户输入查询关键字。对所输入的查询关键字采用 Porter Stemming 算法进行单词归根处理。
     5) 在倒排索引中取出关键字对应的主题节点信息以及相关度信息。关键字的倒排索引中保存包含这个关键字的一系列主题位置，以及关键字与属性节点、属性节点与主题节点的语意相关度。倒排表按照包含这个节点的最低主题节点的 Dewey 码排序 (Dewey codes of the Lowest element node， LED)。如果一个节点是属性节点，那么它的 LED 为其父节点的 Dewey 码。
     6) 对距离关键字最近的主题进行检索，如果一个 LED 包含了所有的关键字，那么这个 LED 将被作为一个结果计算其相关度。计算方法如下： k 表示返回属性关键字 ( 定义 4)， sc(k′， La) 表示查询条件， k′表示条件值关键字 ( 定义 5)， La 表示条件属性关键字 ( 定义 3)。如果一个 LED 没有包含所有的关键字，那么将该 LED 的父节点加入到查询队列中。
     7) 对检索结果进行相关度从高到低排序，当检索完所有结果 ( 即索引为空 ) 或者达到用户要求的 K 个结果时算法结束，并输出结果。
     8) 对距离关键字次近的主题进行检索，重复步骤 6) 和步骤 7)。
     9) 根据结果的 Dewey 码返回信息片段给用户。

资源描述

《基于语义相关的XML文档关键字检索排序方法.pdf》由会员分享，可在线阅读，更多相关《基于语义相关的XML文档关键字检索排序方法.pdf（9页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN102081660A43申请公布日20110601CN102081660ACN102081660A21申请号201110007177022申请日20110113G06F17/3020060171申请人西北工业大学地址710072陕西省西安市友谊西路127号72发明人陈群王鹏娄颖崔海文李霞张立军李战怀74专利代理机构西北工业大学专利中心61204代理人顾潮琪54发明名称基于语义相关的XML文档关键字检索排序方法57摘要本发明公开了一种基于语义相关的XML文档关键字检索排序方法，依次解析XML文档，计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度，优化检索时间，对。

2、所输入的查询关键字进行单词归根处理，在倒排索引中取出关键字对应的主题节点信息以及相关度信息，对距离关键字最近的主题进行检索，对检索结果进行相关度从高到低排序，对距离关键字次近的主题进行检索，根据结果的DEWEY码返回信息片段给用户。本发明针对XML数据独有的结构语义特点，提出了SRANK相关度检索模型及方法，可以提高检索结果的准确率。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书5页附图2页CN102081665A1/1页21一种基于语义相关的XML文档关键字检索排序方法，其特征在于包括下述步骤1采用有序标签树模型作为XML文档模型，采用深度优先法遍历树模型。

3、，解析XML文档，采用PORTERSTEMMING算法对全部单词进行归根处理，确定所有主题节点，使用DEWEY编码的方式对主题进行编码；所述的主题节点是以其为根的树中包含以另外一个节点为根的子树的节点；2计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度，所述的属性节点是以其为根的子树只包含文本内容的节点，计算方法如下主题节点与属性节点的语意相关度用他们之间的距离的倒数来表示，属性节点与关键字的语义相关度其中PERCK，ER表示在以ER为根节点的XML树中以LA为标签的属性中包含关键字K的比例，FREQLA表示以ER为标签的所有XML子树中包含以LA为标签的属性的个数，FREQK。

4、，LA表示以ER为标签的所有XML子树中包含以LA为标签的属性的个数，并且该属性包含关键字K；3将关键字对应的最低主题节点位置信息和步骤2所计算出的主题节点与属性节点以及属性节点与关键字的语意相关度封装在一起保存在倒排索引中，并对位置信息中的DEWEY码建立B树索引，通过该索引结构优化检索时间；4用户输入查询关键字，对所输入的查询关键字采用PORTERSTEMMING算法进行单词归根处理；5在倒排索引中取出关键字对应的主题节点信息以及相关度信息，关键字的倒排索引中保存包含这个关键字的一系列主题位置，以及关键字与属性节点、属性节点与主题节点的语意相关度，倒排表按照包含这个节点的最低主题节点的DE。

5、WEY码LED排序，如果一个节点是属性节点，那么它的LED为其父节点的DEWEY码；6对距离关键字最近的主题进行检索，如果一个LED包含了所有的关键字，那么这个LED将被作为一个结果计算其相关度，计算方法如下K表示返回属性关键字，SCK，LA表示查询条件，K表示条件值关键字，LA表示条件属性关键字；如果一个LED没有包含所有的关键字，那么将该LED的父节点加入到查询队列中；7对检索结果进行相关度从高到低排序，当检索完所有结果或者达到用户要求的K个结果时算法结束，并输出结果；8对距离关键字次近的主题进行检索，重复步骤6和步骤7；9根据结果的DEWEY码返回信息片段给用户。权利要求书CN10208。

6、1660ACN102081665A1/5页3基于语义相关的XML文档关键字检索排序方法技术领域0001本发明属于可扩充标记语言XML关键字检索技术领域，具体涉及一种XML文档关键字检索排序方法。背景技术0002作为一种互联网上和企业应用中信息描述和信息交换的国际标准，XMLEXTENSIBLEMARKUPLANGUAGE具有语义标示、易扩展、开放性和互操作性等诸多优点。随着XML技术的推广和XML数据的不断增大，针对XML文档的信息检索技术已经成为信息检索和数据库等相关领域的研究热点。0003传统的信息检索技术主要是针对文本文档和HTML文档。XML文档区别于文本和HTML文档的重要特征是其包。

7、含了丰富的语义和结构信息，这些信息有助于判断XML文档与用户信息需求之间的相关性。另一方面，与文本和HTML检索不同，XML信息检索要求返回的是以XML文档中某个元素ELEMENT为根结点的片段，不必返回整个文档，提高了检索效率。与XML文档查询语言比如XQUERY，XPATH，XQL等相比，基于关键字的XML信息检索技术的主要优势就是用户不需要学习复杂的查询语言，也不需要对XML文档的结构有深入的了解，用户仅仅需要输入相应的关键字即可。因此，基于关键字的XML信息检索技术在现阶段有着更多的需求和更好的应用前景。0004目前，基于XML关键字检索的方法大都是基于LCALOWESTCOMMONA。

8、NCESTOR的思想如VHRISTIDIS，NKOUDAS，YPAPAKONSTANTINOU，ANDDSRIVASTAVAKEYWORDPROXIMITYSEARCHINXMLTREESINIEEETRANSKNOWLDATAENG2006，184；PAGES525539，首先定位LCA结点包含所有关键字，然后再返回以该LCA结点为根结点的片段。文献“LGUO，FSHAO，CBOTEV，ANDJSHANMUGASUNDARAMXRANKRANKEDKEYWORDSEARCHOVERXMLDOCUMENTSINSIGMOD，2003；PAGES1627”中XRANK提出的ELCAEXCLUSI。

9、VELCA就是借助LCA的思想来解决关键字完全匹配问题。文献“YXUANDYPAPAKONSTANTINOUEFFICIENTKEYWORDSEARCHFORSMALLESTLCASINXMLDATABASESINSIGMOD，2005，PAGES527538”提出了SLCASMALLESTLOWESTCOMMONANCESTOR，即最小最低公共祖先的概念，以SLCA为根节点的子树被定义为包含所有关键字，并且任意一棵它的子树都不包含所有关键字的子树。文献“GUOLIANGLI，JIANHUAFENG，JIANYONGWANGANDLIZHUZHOUEFFECTIVEKEYWORDSEARCHF。

10、ORVALUABLELCASOVERXMLDOCUMENTINCIKMPAGES3041，2007”提出了VLCAVALUABLELOWESTCOMMONANCESTOR的概念，如果构成LCA的关键字结点是同构的，那么此LCA就是一个VLCA。文献“YXUANDYPAPAKONSTANTINOUEFFICIENTLCABASEDKEYWORDSEARCHINXMLDATAINEDBT，2008”结合XRANK和SLCA给出了一种可以更有效地计算ELCA的算法ISINDEXEDSTACK。虽然上述方法在LCA思想基础上提出了各自判断查询结果的相关性的方法，但仍未能准确的反映出XML的结构语义对查。

11、询结果相关度的影响，效果并不理想。0005例如图1中显示了XML文档的树形结构，记录了一个会议的名字、主席以及收录的说明书CN102081660ACN102081665A2/5页4论文等信息。每个节点用其标签标示，标签上面的数字是它的DEWEY编码。如果用户输入查询QCHEN，XML则按照SLCA的思想，结果包含以节点00为根和以011为根和的子树，而没有以节点01为根的子树。发明内容0006为了克服现有技术未能准确的反映出XML的结构语义对查询结果相关度的影响的不足，本发明提供一种基于语义相关的XML文档关键字检索排序方法，较好的解决了检索目标与用户信息需求的一致性问题，并确保了查询结果的信。

12、息完整性。0007本发明解决其技术问题所采用的技术方案包含以下步骤00081本方法采用有序标签树模型作为XML文档模型。对树模型遍历拥有多种形式，本方法采用深度优先法遍历树模型，解析XML文档。采用PORTERSTEMMING算法对全部单词进行归根处理。确定所有主题节点，使用DEWEY编码的方式对主题进行编码。所述的主题节点是以其为根的树中包含以另外一个节点为根的子树的节点。00092计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度。0010所述的属性节点是以其为根的子树只包含文本内容的节点。计算方法如下0011主题节点与属性节点的语意相关度用他们之间的距离的倒数来表示，属性节。

13、点与关键字的语义相关度其中PERCK，ER表示在以ER为根节点的XML树中以LA为标签的属性中包含关键字K的比例，FREQLA表示以ER为标签的所有XML子树中包含以LA为标签的属性的个数，FREQK，LA表示以ER为标签的所有XML子树中包含以LA为标签的属性的个数，并且该属性包含关键字K。00123将关键字对应的最低主题节点该节点为主题节点，并且在该节点与关键字之间不存在另外的主题节点位置信息和步骤2所计算出的主题节点与属性节点以及属性节点与关键字的语意相关度封装在一起保存在倒排索引中，并对位置信息中的DEWEY码建立B树索引，通过该索引结构优化检索时间。00134用户输入查询关键字。对所。

14、输入的查询关键字采用PORTERSTEMMING算法进行单词归根处理。00145在倒排索引中取出关键字对应的主题节点信息以及相关度信息。关键字的倒排索引中保存包含这个关键字的一系列主题位置，以及关键字与属性节点、属性节点与主题节点的语意相关度。倒排表按照包含这个节点的最低主题节点的DEWEY码排序DEWEYCODESOFTHELOWESTELEMENTNODE，LED。如果一个节点是属性节点，那么它的LED为其父节点的DEWEY码。00156对距离关键字最近的主题进行检索，如果一个LED包含了所有的关键字，那么这个LED将被作为一个结果计算其相关度。计算方法如下K表示返回属性关键字，SCK，L。

15、A表示查询条件，K表示条件值关键字，LA表示条件属性关键字。如果一个LED没有包含所有的关键字，那么将该LED的父节点加入到查询队列中。说明书CN102081660ACN102081665A3/5页500167对检索结果进行相关度从高到低排序，当检索完所有结果即索引为空或者达到用户要求的K个结果时算法结束，并输出结果。00178对距离关键字次近的主题进行检索，重复步骤6和步骤7。00189根据结果的DEWEY码返回信息片段给用户。0019本发明的有益效果是本发明在深入分析用户信息需求和XML结构语义的基础上，同时结合传统检索中TFIDF相关度计算模型，针对XML数据独有的结构语义特点，提出了S。

16、RANK相关度检索模型及方法。如果将这种方法应用于XML文档关键字检索领域，可以提高检索结果的准确率。0020下面结合附图和实施例对本发明进一步说明。附图说明0021图1为一个XML树形表示，原始DEWEY编码。0022图2为一个XML树形表示，主题DEWEY编码。0023图3为本发明工作流程图。具体实施方式0024与本发明有关的一些概念和定义0025定义1主题节点对于节点N，如果以N为根的树TN中包含另外一个以M节点为根的子树TM，则N为主题节点。0026定义2属性节点对于节点N，如果以N为根的子树只包含文本值的内容，则N为属性节点。0027定义3条件属性关键字条件属性关键字是一类属性节点的。

17、名字，它表明了用户的查询条件。例如，查询QARTICLE、TITLE、XML，表明用户想查找TITLE中包含XML关键字的ARTICLE信息，其中TITLE是条件属性关键字。0028定义4返回属性关键字表明用户查询返回的关键字。例如，查询QARTICLE、XML、AUTHOR，表明用户想查找关于XML的ARTICLE的AUHOR信息，其中AUTHOR是条件属性关键字。0029定义5条件值关键字查询条件的文本值关键字。例如，查询QARTICLE、TITLE、XML其中XML为条件值关键字。0030与本发明有关的一些性质0031性质1如果关键字出现的属性与主题的距离越近，那么这个属性与主题的相关度。

18、越高。0032性质2对于一个主题，关键字K出现在不同类的属性中，如果关键字出现在某类属性下的比例越高，则关键字与该属性相关度越高。0033性质3对于不同的检索结果，查询中的关键字出现的次数越多，则与用户的相关性越高。0034本发明提出了基于语义相关的XML文档关键字检索排序方法，较好的解决了检索目标与用户信息需求的一致性问题。已有一些研究利用XML数据的结构判断查询结果是否相关，所采用的判断方法比较简单，效果并不理想。我们主要从两个层次深入的研究了这个说明书CN102081660ACN102081665A4/5页6问题。第一个层次考虑用户的查询目标与查询结果的主题一致性问题，所关注的是用户的查。

19、询目标主题。XML数据中的信息片段代表特定主题，而信息片段根节点的标签是对这种主题的描述。当用户的查询目标与查询结果实体一致时，用户的查询目标与返回信息片段根节点描述的实体是相同的。一方面，我们考虑关键字与主题的相关度来推断用户的查询主题，通过对查询对象的数据统计分析，计算出关键字与各个主题的关联程度，关联程度作为影响推断用户查询主题的因素之一；另一方面，我们利用关键字所代表的实体与返回结果根节点之间的距离来进行判断，当距离越近时，我们认为查询目标实体与查询结果实体更一致。0035本发明还解决了传统与关键字LCA为根节点的子树作为返回结果的信息部完整性问题。以关键字LCA为根节点的子树作为返回。

20、结果是当前XML数据关键字检索的主要思想，这种方法可以获取包含所有输入关键字的最小信息片段，但在一些情况下，关键字LCA为根的子树所包含的信息是不完整的。例如当用户信息需求为一篇有关针对XML数据查询的文章时，所输入的关键字为“XML，查询”。如果一篇文章的题目同时包含这两个关键字的时候，这篇文章极可能与用户需求一致，而根据关键字LCA的思想，将返回“XML，查询”的LCA文章的题目为根的信息片段，用户的信息需求是一篇文章，文章题目作为返回结果的信息是不完整的。针对这个缺陷，我们提出了主题的概念，从关键字查询的特点和XML数据的结构分析，提出XML文档中的信息片段满足一定的结构才是主题，而主题。

21、能够确保所包含信息的完整性，查询结果都是以主题为单位，这样就确保了查询结果的信息完整性。0036为了利用包含在文档中的丰富的语义信息来计算关键字与各个主题的关联程度，进而计算返回结果与用户查询目标的相关度，本方法经过以下几个步骤00371采用有序标签树模型作为XML文档模型，采用深度优先法遍历树模型，解析XML文档。采用PORTERSTEMMING算法对全部单词进行归根处理。根据定义1确定所有主题节点，使用DEWEY编码的方式对主题进行编码，如图2所示。00382计算主题节点与属性节点定义2的语义相关度、属性节点与关键字的语义相关度。计算方法如下在图1中，NAME、CHAIR、TITLE和AU。

22、HOR节点都是属性节点，根据定义，他们只包含文本信息；PAPER、CONFERENCE和BIB都是主题节点，以为以这些节点为根的子树里面包含了更小的子树。属性节点与其所在主题节点的相关度用他们之间的距离的倒数来表示，例如关键字PAPER与PAPER节点001的相关度为而TITLE关键字与PAPER节点001的相关度为属性与关键字的语义相关度，其中PERCK，ER表示在以ER为根节点的XML树中，以LA为标签的属性中，包含关键字K的比例。FREQLA表示以ER为标签的所有XML子树中包含以LA为标签的属性的个数。FREQK，LA表示以ER为标签的所有XML子树中包含以LA为标签的属性的个数，并且。

23、该属性包含关键字K。00393将关键字对应的最低主题节点该节点为主题节点，并且在该节点与关键字之间不存在另外的主题节点位置信息和步骤2所计算出的主题节点与属性节点以及属性节点与关键字的语意相关度封装在一起保存在倒排索引中，并对位置信息中的DEWEY码建立B树索引，通过该索引结构优化检索时间。说明书CN102081660ACN102081665A5/5页700404用户输入查询关键字。对所输入的查询关键字采用PORTERSTEMMING算法进行单词归根处理。00415在倒排索引中取出关键字对应的主题节点信息以及相关度信息。关键字的倒排索引中保存包含这个关键字的一系列主题位置，以及关键字与属性节点。

24、、属性节点与主题节点的语意相关度。倒排表按照包含这个节点的最低主题节点的DEWEY码排序DEWEYCODESOFTHELOWESTELEMENTNODE，LED。如果一个节点是属性节点，那么它的LED为其父节点的DEWEY码。00426对距离关键字最近的主题进行检索，如果一个LED包含了所有的关键字，那么这个LED将被作为一个结果计算其相关度。计算方法如下K表示返回属性关键字定义4，SCK，LA表示查询条件，K表示条件值关键字定义5，LA表示条件属性关键字定义3。如果一个LED没有包含所有的关键字，那么将该LED的父节点加入到查询队列中。00437对检索结果进行相关度从高到低排序，当检索完所有结果即索引为空或者达到用户要求的K个结果时算法结束，并输出结果。00448对距离关键字次近的主题进行检索，重复步骤6和步骤7。00459根据结果的DEWEY码返回信息片段给用户。说明书CN102081660ACN102081665A1/2页8图1图2说明书附图CN102081660ACN102081665A2/2页9图3说明书附图CN102081660A。

展开阅读全文