结构化文档管理装置、方法以及程序.pdf

上传人:b*** 文档编号:6208907 上传时间:2019-05-21 格式:PDF 页数:37 大小:13.09MB
返回 下载 相关 举报
摘要
申请专利号:

CN201280002749.9

申请日:

2012.09.20

公开号:

CN103827860A

公开日:

2014.05.28

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120920|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

株式会社东芝; 东芝解决方案株式会社

发明人:

黑田洋介; 服部雅一

地址:

日本东京都

优先权:

专利代理机构:

永新专利商标代理有限公司 72002

代理人:

王成坤;胡建新

PDF下载: PDF下载
内容摘要

本发明实施方式的结构化文档管理装置对所输入的查询中所含的层次条件和与以层次条件指定的结构化文档的要素相对的谓语条件进行解析,提取保存各要素的变量中的制约条件和变量间的依存关系。通过本方法提取制约条件时,以缓和为不仅包含原来成为对象的要素也包含成为对象的要素以外的要素的形式,取得与结构有关的制约条件。以能够尽可能早期地应用缓和了的制约条件的方式移动了谓语后,插入对缓和了的条件进行补充的谓语条件。

权利要求书

权利要求书
1.  一种结构化文档管理装置,包括:
结构化文档受理部,受理具有层次化后的逻辑结构的结构化文档的输入;
结构化文档存储部,存储所输入的所述结构化文档数据;
查询数据受理部,受理查询数据的输入;
句子结构解析部,解析所输入的查询数据的句子结构,取得句子结构解析树,该句子结构解析树是以成为定义成各变量仅被代入一次的静态单赋值的方式所分解的句子结构解析树;
制约条件取得部,从由所述句子结构解析部获得的句子结构解析树,取得制约条件,该制约条件包含各句子结构解析树的变量需要满足的层次条件及变量的值的条件;
句子结构解析树改写部,基于由所述制约条件取得部获得的制约条件,将所述查询数据改写为通过所述制约条件能够对作为对象的所述结构化文档进行筛选的形态;以及
查询执行部,将由所述句子结构解析树改写部改写过的所述查询数据作为输入,输出检索结果。

2.  如权利要求1所述的结构化文档管理装置,
所述制约条件取得部对所述制约条件追加所述变量需要满足的层次条件和由同一要素名规定的其他的层次条件,
所述句子结构解析树改写部,基于追加过的所述制约条件改写所述查询数据时,对于所述制约条件,附加能够求出与追加其他层次条件之前的制约条件相同的结果的其他条件。

3.  如权利要求1所述的结构化文档管理装置,
所述句子结构解析树改写部使基于由所述制约条件取得部获得的所述制约条件的改写结果为与原来的查询数据相同的语法格式。

4.  一种结构化文档管理方法,
受理具有层次化后的逻辑结构的结构化文档的输入,
存储所输入的所述结构化文档数据,
受理查询数据的输入,
解析所输入的查询数据的句子结构,取得句子结构解析树,该句子结构解析树是以成为定义成各变量仅被代入一次的静态单赋值的方式所分解的句子结构解析树,
从所述句子结构解析树,取得制约条件,该制约条件包含各句子结构解析树的变量需要满足的层次条件及变量的值的条件,
基于所述制约条件,将所述查询数据改写为通过所述制约条件能够对作为对象的所述结构化文档进行筛选的形态,
将所述改写过的所述查询数据作为输入,输出检索结果。

5.  一种结构化文档管理程序,用于使计算机执行以下各部:
结构化文档受理部,受理具有层次化后的逻辑结构的结构化文档的输入;
结构化文档存储部,存储所输入的所述结构化文档数据;
查询数据受理部,受理查询数据的输入;
句子结构解析部,解析所输入的查询数据的句子结构,取得句子结构解析树,该句子结构解析树以成为定义成各变量仅被代入一次的静态单赋值的方式所分解的句子结构解析树;
制约条件取得部,从由所述句子结构解析部获得的句子结构解析树,取得制约条件,该制约条件包含各句子结构解析树的变量需要满足的层次条件及变量的值的条件;
句子结构解析树改写部,基于由所述制约条件取得部获得的制约条件,将所述查询数据改写为通过所述制约条件能够对作为对象的所述结构化文档进行筛选的形态;以及
查询执行部,将由所述句子结构解析树改写部改写过的所述查询数据作为输入,输出检索结果。

说明书

说明书结构化文档管理装置、方法以及程序
技术领域
本发明的实施方式涉及结构化文档管理装置、方法以及程序。
背景技术
以往,已知用于对以XML(Extensible Markup Language:可扩展标记语言)等记述的结构化文档数据进行存储、检索的结构化文档管理装置。为了进行结构化文档管理装置中的结构化文档数据的检索,制定了如RDBMS(Relational Database Management System:关系型数据库管理系统)中的查询语言SQL那样的、与XML数据相对的查询语言X Query(XML Query Language),并且在多数结构化文档管理装置受到支持。
X Query是用于如数据库那样处理XML数据集合的语言,提供用于进行符合条件的数据集合的取出、汇总、分析的手段。XML数据具有亲子、兄弟等的要素组合后的层次化的逻辑结构(层次结构),因此能够在条件中指定与该层次结构有关的条件(结构条件)。
对XML是否满足指定的结构条件进行检索的技术由代表性的XML数据的parse处理即SAX(Simple API for XML)等来提供。但是,在SAX中,对于成为检索对象的结构化文档(在此,为XML),仅能从上位层次向下位层次访问。为此,有在下位层次指定的筛选条件时,只要未搜索到下位层次就不能应用筛选条件。为此,需要从最上位向下位层次对整个结构化文档进行搜索,直到有筛选条件为止。
为了使结构化文档管理装置中的检索处理变得高速,希望尽可能早期地应用筛选条件,并希望削减在检索中生成的中间数据。为此,也存在仅对于用索引处理筛选出的结构化文档集合检索结构条件的技术。但是,该技术对于查询由多个子查询构成的嵌套查询并不应对。
此外,在嵌套查询中,如跨过子查询来早期应用筛选条件那样地 进行了各种各样的尝试。例如,存在以下技术:在关系数据库模型中,以图形的形式定义构成查询的子查询间的关系,定义能够在图形间移动谓语的条件,如果是可能的情况,则将谓语移动到其他子查询从而谋求最优化。
现有技术文献
专利文献
专利文献1:日本特开2007-226452号公报
专利文献2:日本特开2010-79646号公报
非专利文献
非专利文献1:Query Optimization by Predicate Move-Around(1994)
非专利文献2:Shifting Predicates to Inner Sub-expressions for X Query Optimization(2006)
发明内容
发明要解决的课题
但是,关系数据库模型与结构化文档的数据模型不同,没有层次结构、要素间的顺序关系这一问题,不支持与要素相对应的识别符(ID)。为此,存在关系数据库中的查询改写的探讨对于结构化文档无法应用的情况。
另外,在结构化文档即XML的查询中,将与称为视图的虚拟的XML文档相对应的条件在制作视图之前及之后复制并应用,从而也能够避免徒劳的对结构化文档的视图的要素进行检索的情况。但是,除了对象限定于视图以外,简单地在制作视图的阶段将成为对象的条件全部地复制到能够应用的地方并应用,因此在多个地方评价同一条件。并且,在存在能够复制的多个条件时,无条件地对谓语条件的逻辑和进行复制,因此存在谓语条件的筛选的效果不充分的问题。本发明要解决的课题是,以提供能够高速地进行检索的结构化文档管理装置、方法及程序为目的。
用于解决课题的手段
实施方式的结构化文档管理装置包括:结构化文档数据受理部,受理具有层次化后的逻辑结构的结构化文档数据的输入;结构化文档数据存储部,存储所输入的所述结构化文档数据;查询数据受理部,受理查询数据的输入;句子结构解析部,解析所输入的查询数据的句子结构,取得句子结构解析树,该句子结构解析树是指,以成为定义成各变量仅被代入一次的静态单赋值的方式所分解的句子结构解析树;制约条件取得部,从由所述句子结构解析部获得的句子结构解析树,取得制约条件,该制约条件包含各句子结构解析树的变量需要满足的层次条件及变量的值的条件;句子结构解析树改写部,基于由所述制约条件取得部获得的制约条件,将所述查询数据改写为通过所述制约条件能够对作为对象的所述结构化文档进行筛选的形态;以及查询执行部,将由所述句子结构解析树改写部改写过的所述查询数据作为输入,输出检索结果。
附图说明
图1是表示实施方式中的结构化文档管理系统的系统构筑例的模式图。
图2是实施方式中的服务器以及客户终端的模块构成图。
图3是表示实施方式中的服务器以及客户终端的概略构成的框图。
图4是表示实施方式中的结构化文档DB中登记的结构化文档数据的一例的说明图。
图5是表示实施方式中的结构化文档DB中登记的结构化文档数据的一例的说明图。
图6是表示实施方式中的结构化文档DB中登记的结构化文档数据的一例的说明图。
图7是表示实施方式中的查询数据的一例的说明图。
图8是表示实施方式中的检索处理的流程的流程图。
图9是表示对于实施方式中的查询数据进行了句子结构解析处理的结果的说明图。
图10是表示实施方式中的制约条件取得处理的流程的流程图。
图11是表示实施方式中的从输入向输出的制约条件取得处理的流程的流程图。
图12是表示实施方式中的从输出向输入的制约条件取得处理的流程的流程图。
图13是表示对于实施方式中的查询数据进行从输入向输出的制约条件取得处理所获得的制约条件的列表的说明图。
图14是表示对于实施方式中的查询数据进行从输入向输出的制约条件取得处理所获得的路径信息列表的说明图。
图15是表示对于实施方式中的查询数据进行从输入向输出的制约条件取得处理所获得的制约条件取得对象变量列表的说明图。
图16是表示对于实施方式中的查询数据进行从输出向输入的制约条件取得处理所获得的制约条件的列表的说明图。
图17是表示实施方式中的改写时所利用的改写模板的一例的说明图。
图18是表示实施方式中的结构解析树改写处理的流程的流程图。
图19是表示对于实施方式中的查询数据进行结构解析树改写处理所获得的句子结构解析树的说明图。
图20是表示对于实施方式中的查询数据进行了检索的结果的说明图。
具体实施方式
以下,参照附图,说明实施方式的结构化文档管理装置、方法以及程序。
图1是表示实施方式涉及的结构化文档管理系统的系统构筑例的模式图。在此,作为实施方式的结构化文档管理系统,设想如图1所示那样、通过LAN(Local Area Network:局域网)等网络2在结构化文档管理装置即服务器计算机(以下,称为服务器。)1上连接有多台客户计算机(以下,称为客户终端。)3的服务器客户系统。
图2是服务器1以及客户终端3的模块构成图。服务器1及客户 终端3例如具有利用了通常的计算机的硬件构成。即,服务器1以及客户终端3包括:进行信息处理的CPU(Central Processing Unit:中央处理单元)101、存储了BIOS等的读出专用存储器即ROM(Read Only Memory:只读存储器)102、将各种数据能够改写地存储的RAM(R∧m Access Memory:随机存取存储器)103、作为各种数据库发挥功能并且保存各种程序的HDD(Hard Disk Drive:硬盘驱动器)104、使用存储介质110保管信息或向外部发布信息或从外部获取信息所用的CD-ROM驱动器等介质驱动装置105、经由网络2与外部的其他计算机通信从而传达信息所用的通信控制装置106、对操作者显示处理经过、结果等的CRT(Cathode Ray Tube:阴极射线管)、LCD(Liquid Cristal Display:液晶显示器)等显示部107、以及操作者对CPU101输入命令、信息等所用的键盘、鼠标等输入部108等,总线控制器109对在这些各部间收发的数据进行协调并工作。
在这种服务器1及客户终端3中,用户接通电源时,CPU101使ROM102内的装载这一程序起动,从HDD104中将OS(Operating System:操作系统)这一管理计算机的硬件和软件的程序读入到RAM103中,使该OS起动。这种OS根据用户的操作起动程序、或读入信息、或进行保存。作为OS中的代表的OS,已知有Windows(注册商标)、UNIX(注册商标)等。将在这些OS上工作的程序叫做应用程序。此外,应用程序不限于在规定的OS上工作的应用程序,也可以是使OS承担后述的各种处理的一部分的执行的应用程序,也可以作为构成规定的应用软件、OS等的一组程序文件的一部分而被包含的应用程序。
在此,服务器1将结构化文档管理程序作为应用程序存储在HDD104中。在该意义上,HDD104作为存储结构化文档管理程序的存储介质发挥功能。另外,一般而言,在服务器1的HDD104中安装的应用程序记录于CD-ROM、DVD等各种光盘、各种光磁盘、软盘等各种磁盘、半导体存储器等各种方式的介质等的储介质110中而提供。为此,CD-ROM等光信息记录介质、FD等磁性介质等具有可搬性的存储介质110也能够成为存储结构化文档管理程序的存储介质。 并且,结构化文档管理程序也可以经由例如通信控制装置106从外部取入并安装于HDD104。
当在OS上工作的结构化文档管理程序起动后,按照该结构化文档管理程序,服务器1的CPU101执行各种运算处理并集中控制各部。另一方面,当在OS上工作的应用程序起动后,按照该应用程序,客户终端3的CPU101执行各种运算处理并集中控制各部。以下对服务器1及客户终端3的CPU101执行的各种运算处理中的、实施方式的结构化文档管理系统中的特征性的处理进行说明。
图3是表示本实施方式中的服务器1及客户终端3的概略构成的框图。如图3所示,客户终端3作为通过应用程序实现的功能构成,包括结构化文档登记部11和检索部12。
结构化文档登记部11用于将从输入部108输入的结构化文档数据、预先在客户终端3的HDD104中存储的结构化文档数据登记在后述的服务器1的结构化文档数据库(结构化文档DB)21。该结构化文档登记部11将保存请求与应当登记的结构化文档数据一起发送至服务器1。
图4~图6表示结构化文档DB中登记的结构化文档数据的一例。作为用于记述结构化文档数据的代表性的语言,举出XML(Extensible Markup Language)。图4~图6所示的三个结构化文档数据以XML记述。在XML中,将构成文档结构的各个部分称为“要素”(元素:Element),要素使用标志(tag)来记述。具体而言,以表示要素的开始的标志(开始标志)、表示结束的标志(结束标志)这两个标志夹着数据,来表现一个要素。此外,以开始标志和结束标志夹入的文本数据是以该开始标志和结束标志表示的一个要素所包含的文本要素。但是,在结构化文档的最上位存在未作为标志来记述的文档要素,文档要素之下一定只存在一个要素。
在图4所示的例子中,结构化文档D1在文档要素之下存在以<book>这一标志包围的要素。该<book>要素包含year属性和以<title>、<author>、<section>的各标志包围的多个子要素。<title>要素具有“Data On The Web”等文本要素。<author>要素包含以 <last>、<first>的顺序表示的两个子要素。<section>要素包含以多个<p>的标志包围的子要素。
图5、图6所示的例子也以与图4同样的形式具有要素,仅仅<author>要素、<section>要素的数目及要素具有的值不同。
返回到图3,检索部12按照由用户从输入部108输入的指示,作成记述用于从结构化文档DB21检索所期望的数据的检索条件等的查询数据,并将包含该查询数据的检索请求发送至服务器1。另外,检索部12接受由服务器1发送来的与该检索请求对应的结果数据,并将其显示在显示部107上。
另一方面,服务器1作为通过结构化文档管理程序实现的功能构成,包括保存处理部22和检索处理部23。另外,服务器1包括利用了HDD104等存储装置的结构化文档DB21。
保存处理部22包括:保存接口部24,接受来自客户终端3的保存请求,将从客户终端3发送来的结构化文档数据保存于结构化文档DB21。
保存接口部24(结构化文档受理部)受理结构化文档数据的输入,将结构化文档数据保存于结构化文档DB21(结构化文档存储部)。
检索处理部23进行如下处理:接受来自客户终端3的检索请求,从结构化文档DB21找出符合由查询数据所指定的条件的数据,并将该找出的数据作为结果数据返回。该检索处理部23包括检索接口部26、句子结构解析部27、制约条件取得部28、句子结构解析树改写部29以及查询执行部30。
检索接口部26受理查询数据的输入(查询数据受理部),并调出对受理到的查询数据的句子结构进行解析并制作句子结构解析树31的句子结构解析部27。
句子结构解析部27对从客户终端3发送并经由检索接口部26输入的查询数据(以下,称为输入查询数据。)进行句子结构解析,以必须将一个运算的单位代入到X Query中的for语句或let语句的变量中的方式对输入查询数据进行分解并生成改写过句子结构解析树31。即,所谓句子结构解析树31,是以为了变量仅被代入一次而定义的 静态单赋值的方式所分解的句子结构。
制约条件取得部28作为制约条件取得部发挥功能,在由句子结构解析部27所输出的句子结构解析树31内,将保存对结构化文档装置内的全部的结构化文档的文档要素的集合进行指定的“/”的变量为起点,对关联的全部的运算进行搜索,缓和结构化文档中的层次条件,并且提取并输出各变量中的制约条件32。
句子结构解析树改写部29作为句子结构解析树改写部发挥功能,基于由制约条件取得部28所输出的制约条件32,对由句子结构解析部27输出的句子结构解析树31进行改写。改写过的句子结构解析树31与输入查询数据同样的、按照X Query的语法的形式输出。
查询执行部30作为查询执行部发挥功能,对于结构化文档数据的数据集合执行从句子结构解析树改写部29输出的改写查询数据,并输出获得的结果数据33。
检索接口部26将从查询执行部30输出的结果数据作为检索的结果数据返送给客户终端3。
此外,在本实施方式中,以由X Query记述的查询数据进行说明。在XML中,有由W3C提出的X Query这一查询语言,X Query基本上能够以Prolog部和其以外的FLWOR(for-let-where-order by-return)这一句子结构模式来说明。以下,说明X Query的语言规格。Prolog部由在一个X Query的开头仅存在一个并在X Query间通用来使用的声明变量和声明函数构成。声明变量的句子结构为“declare variable变量:=式子”。除了无论从X Query内的何处起都能够参照这一点以外,变量声明与后述的let语句相同。
声明函数的句子结构是“declare function函数名(参数声明){式子}”,参数声明部中记述任意数的变量和类型。声明函数无论从XQuery内的何处都能够调用。for的句子结构是“for变量in式子”。for语句具有将满足式子的序列的要素代入到变量来循环这一意思。在此,所谓序列,是平面列表。let的句子结构是“let变量:=式子”。每当一次循环,let语句对满足式子的序列进行保存。where的句子结构是“where式”。where语句限制以for语句重复的循环, 在不满足式子的情况下,跳出循环。
order by的句子结构是“order by式子”。order by语句通过由式子指定的关键字将通过for-let-where获得的结果分类。return的句子结构是“return式子”。return语句能够记述包含变量的任意的XML数据。式子中能够记述FLWOR语句。
另外,当for语句、let语句等式子中再次记述有FLWOR语句时,称为嵌套查询。变量的句子结构是“$字符串”。除了通过嵌套查询等二重声明的情况以外,具有相同字符串的变量看作相同。
作为对XML数据的要素间的层次条件进行指定的运算,X Query中有如下运算。
·表示“/”要素间是亲子关系的运算符
·表示“//”要素间是祖先子孙关系的运算符
此外,“/”、“//”的左边什么都没有时,DB、程序侧以默认表示的XML或XML集合的文档要素成为对象。在本实施方式中,指的是结构化文档DB的结构化文档集合。
图7是表示X Query的查询数据的一例的说明图。为了易于理解,图7的各行中分配以[]包围的行编号。图7的意思是“列出姓为‘Suciu’并且名为‘Dan’的作者,在1999年以前出版的书中的、书的标题、作者名、在书的内容中包含有‘XML’的节”,示出如下所述的查询数据Q1。
Q1:[L1]表示,通过for语句对于结构化文档DB21的各结构化文档数据,取得位于文档要素下面的层次的“book”这一要素,并代入到变量$h进行循环。[L2]的let语句成为嵌套查询,表示将[L3]~[L7]的FLWOR语句的结果保存到变量$i中。[L3]表示对于在通过[L1]的循环所代入的变量$h中所保存的要素,取得其子要素即“author”这一要素,代入到变量$x进行循环。[L4]、[L5]表示对于在通过[L3]的循环所代入的变量$x中所保存的要素,取得其子要素即“last”、“first”这一要素,代入到变量$u、$v。[L6]对于与循环变量$x对应的变量$u、$v,仅让变量$u具有的值与“Suciu”相等并且$v具有的值与“Dan”相等的部分循环。[L7]表示仅返送满足[L6] 的$x。
[L8]表示与[L2]同样的let语句成为嵌套查询,将[L9]~[L11]的FLWOR语句的结果保存到变量$j中。[L9]对于通过[L1]的循环代入的变量$h中所保存的要素,取得其子要素即“section”这一要素的子要素即“p”这一要素,代入到变量$a进行循环。[L10]表示对于循环变量$a,仅使变量$a具有的值包含“XML”这一值的部分循环。[L11]表示仅返送满足[L10]的$a。
[L12]和[L13]是let语句,表示,对于保存于变量$h的要素,取得作为属性的“year”和作为子要素的“title”这一要素,并作为序列代入到各个变量$k、$l中。[L14]表示,对于与循环变量$h对应的变量$i、$k,在变量$i的序列中存在要素并且仅使$k具有的数值与1999相等或比1999小的部分循环。[L15]表示将至此求出的$l、$i、$j这三个变量所指的值填入到以<item>开始的XML的指定位置,生成新的XML,并作为结果返送。
图8是表示服务器1的检索处理部23的检索处理的流程的流程图。首先,检索接口部26受理从客户终端3经由网络2中转所发送的查询数据的输入(步骤S1)。
接着,句子结构解析部27对与输入查询数据有关的句子结构进行解析,生成句子结构解析树(步骤S2)。句子结构解析中,构成查询数据的各要素被分解为以一个运算单位将构成X Query的全部的运算保存于for语句或let语句。另外,where、order by、return语句以仅将一个变量作为输入的方式被改写。
但是,式子的开头以“/”或“//”开始的结构条件的情况下,分解为仅将开头的“/”或“//”作为式子而保存的let语句(以下,称为起点语句)和将该let语句的输出变量作为输入变量的式子。另外,通过开头是“变量”并且后续为“/”或“//”所指定的层次条件连续排列的情况下,归纳为一个运算,保存于for语句或let语句。并且,嵌套查询存在的情况下,嵌套查询的FLWOR语句所记述的声明函数以X Query的Prolog部记述,并被改写为以交付到嵌套查询的母查询的变量作为参数的形式将所记述的声明函数的函数记述于原位置的函 数调用的形式。
图9是通过句子结构解析部27对图7的查询数据实施了句子结构解析的结果。以[L1]到[L27]的27行来记述。图9的[L1]~[L10]将图7中的[L3]~[L7]的嵌套查询分割作为声明函数udf1。图7中的[L3]的变量$h是以嵌套查询的母查询中的for语句[L1]代入的变量,因此在声明函数中作为参数输入变量$h1。
在句子结构解析中,以一个运算单位进行分割并保存在let语句中,以在where语句中仅输入变量的方式进行改写,因此图7中的[L6]在图9中被改写为[L5]~[L8]。
另外,图9的[L11]~[L16]分割出图7中的[L9]~[L11]的嵌套查询作为声明函数udf2。句子结构解析中,以在where语句中仅输入变量的方式进行改写,因此图7中的[L10]在图9中被改写为[L13]~[L14]。
图9的[L17]~[L18]将使开头的“/”单独作为let语句来对图7中的[L1]进行分割并代入到变量$g的起点语句和后续的式子的剩余的部分分解成将变量$g作为输入的for语句。图9中的[L19]及[L20]与图7中的[L2]及[L8]相应,成为作为将各个嵌套查询分割为声明函数后的udf1、udf2而调用的形式。
图9中的[L23]、[L24]及[L26]是将图7中的[L14]改写后的语句,按一个运算单位分解成let语句,where语句仅成为输入变量。图9中的[L25]及[L27]与图7中的[L15]相应,return语句仅成为变量,生成XML的式子被改写为let语句。
句子结构解析部27的句子结构解析处理结束时,接着,制约条件取得部28对句子结构解析部27的处理结果进行解析,缓和结构化文档中的层次条件,并且取得各变量中的制约条件(步骤S4)。
在此,所谓的制约条件,是将该变量需要满足的条件的全部或一部分排列的条件。在本实施方式中,关于某变量,将包含保存于该变量的要素的文档集合应当满足的条件作为制约条件记述。例如,变量中保存有Bool型的值的情况下,记述为了其值变为TRUE所需的条件。
此时排列有多个条件时,制约条件取得部28将条件缓和为对各条件间中的结构化文档内的层次条件的依存关系予以无视的形式。例如,以构成制约条件的两个条件出现的结构条件/A/B/C、/A/B/D是与以/A/B指定的要素集合内的同一的B相对的子要素C及D时,以虽然缓和该条件而具有相同的要素名但与不同的B的要素相对的子要素C及D也成立的方式来缓和条件。由此,成为仅在制约条件中也包含本来为对象外的文档,但对于此,通过对XML的要素ID进行利用的运算来消除。
图10是表示制约条件取得的流程的流程图。制约条件取得部28首先从作为输入被赋予的句子结构解析树取得全部的起点语句(let的语句),提取起点语句的输出变量,保存于列表R。接着,制约条件取得部28准备成为最终输出的制约条件的列表CA、改写对象列表FA、路径信息的列表P。在此,所谓的路径信息,是仅以从“/”或“//”开始的一个或多个结构条件表示该变量表示的要素的信息(步骤S21)。
接着,制约条件取得部28对步骤S21取得的要素进行检查,判断输出变量的列表R是否为空(步骤S22)。
输出变量的列表R不为空时(步骤S22:否),制约条件取得部28从输出变量的列表R取得开头的要素即变量$r并将其从列表删除后,将$r插入到列表L。并且,将$r的路径信息插入到路径信息列表P。(步骤S23)。
接着,制约条件取得部28将列表L及路径信息列表P作为输入实施从运算的输入向输出的制约条件取得处理,并输出保存制约条件的列表C、制约条件取得对象变量列表T、对列表T的变量中的、成为where语句的输入的变量进行保存的列表W、对列表T的变量的路径信息进行保存的列表P(步骤S24)。
关于步骤24的处理,以图11的流程图记述详细。接着,将在步骤S24的处理中取得的四个列表C、T、W、P作为输入,制约条件取得部28实施从输出向输入的制约条件取得处理,并输出改写对象变量列表F、制约信息列表C、路径信息列表P(步骤S25)。
关于步骤25的处理,以图12的流程图记述详细。接着,制约条件取得部28将在步骤S25获得的制约信息列表C和路径信息列表P内的各要素分别插入到制约条件的列表CA、FA(步骤S26)。接着,再次返回到步骤22,重复处理。
另一方面,在步骤S22的判断中输出变量的列表R为空时(步骤S22为是),制约条件取得部28将通过至此的处理所取得的制约条件的列表CA、PA、输出路径信息列表P,结束制约条件取得处理。
图11是表示通过图10的步骤24实施的从输入向输出的制约条件取得处理的流程的流程图。从输入向输出的制约条件取得处理中,首先,制约条件取得部28接受在图10的步骤23取得的列表L、路径信息列表P作为输入,准备在步骤S24中说明的三个制约条件的列表C、制约条件取得对象变量列表T、对列表T的变量中的成为where语句的输入的变量进行保存的列表W、保存FLWOR语句的列表N作为输出用的空的列表(步骤S31)。接着,制约条件取得部28判断L是否为空(步骤S32)。
在所输入的列表L为空时(步骤S32:否),制约条件取得部28取得L最后尾的要素即变量$l并将其从列表中删除(步骤S33)。接着,制约条件取得部28判断$l是否存在于制约条件取得对象变量列表T中(步骤S34)。
$l不存在于制约条件取得对象变量列表T中时(步骤S32:否),制约条件取得部28取得将数$作为输入的for、let、where、order by、return语句列表N(步骤S35)。接着,制约条件取得部28判断文列表N是否为空(步骤S36)。
N不为空时(步骤S36:是),制约条件取得部28取得N的开头的要素即语句n并将其从列表删除,取得语句n的输出变量$p(步骤S37)。接着,制约条件取得部28判断语句n是否为结构条件K(步骤S38)。
语句n为结构条件时(步骤S38:是),制约条件取得部28对$p的制约条件C($p)追加$l的制约条件C($l)作为条件。接着,制约条件取得部28根据结构条件K和列表P,将$p的路径信息追加至 列表P。并且,将$p追加至L和T(步骤S44)。接着,制约条件取得部28返回到步骤S36,继续进行接下来的处理。
另一方面,语句n不为结构条件时(步骤S38:否),制约条件取得部28判断语句n是否为声明函数的调用(步骤S39)。
语句n为声明函数的调用时(步骤S39:是),制约条件取得部28取得与$l的参数的位置相同的声明函数的参数$i,对$i的制约条件C($i)追加$l的制约条件C($l)作为条件。接着,制约条件取得部28将$i追加至L和T(步骤S45)。接着,制约条件取得部28返回到步骤S36,继续进行接下来的处理。
另一方面,步骤S39的判断中语句n不为声明函数的调用时(步骤S39:否),制约条件取得部28判断语句n是否为常量和$l的比较函数(步骤S40)。
语句n为比较函数时(步骤S40:是),制约条件取得部28对$p的制约条件C($p)追加$l的制约条件C($l)和比较式的制约条件C(比较式)来作为条件。接着,制约条件取得部28将$p追加至L和T(步骤S46)。接着,制约条件取得部28返回到步骤S36,继续进行接下来的处理。
另一方面,步骤S40的判断中语句n不为比较函数时(步骤S40:否),制约条件取得部28判断语句n是否为and运算(步骤S41)。
语句n为and运算时(步骤S41:是),制约条件取得部28将$p追加至L和T(步骤S47)。接着,制约条件取得部28返回到步骤S36,继续进行接下来的处理。
另一方面,步骤S41的判断中语句n不为and运算时(步骤S41:否),制约条件取得部28判断语句n是否为声明函数内的return语句(步骤S42)。
语句n为声明函数内的return语句时(步骤S42:是),制约条件取得部28取得声明函数的调用源(calling source)的语句的输出变量$u,对$u的制约条件C($u)追加C($l)。接着,将$u追加至L和T(步骤S48)。接着,制约条件取得部28返回到步骤S36,继续进行接下来的处理。
另一方面,步骤S42的判断中语句n不为声明函数内的return语句时(步骤S42:否),制约条件取得部28判断语句n是否为where语句(步骤S43)。
语句n为where语句时(步骤S43:是),制约条件取得部28将$l追加至W(步骤S49)。接着,返回到步骤S36,继续进行接下来的处理。
另一方面,步骤S43的判断中语句n不为where语句时(步骤S43:否),制约条件取得部28返回到步骤S36,继续进行接下来的处理。
另一方面,步骤S36的判断中N为空时(步骤S36:是),制约条件取得部28返回到步骤S32,继续进行接下来的处理。
另一方面,步骤S34的判断中$l存在于T时(步骤S34:是),制约条件取得部28返回到步骤S32,继续进行接下来的处理。
另一方面,步骤S32的判断中L为空时(步骤S32为是),制约条件取得部28输出通过至此的处理所取得的C、T、W、P,使从上位向下位的制约条件取得处理结束。
图12是表示通过图10的步骤S25实施的从输出向输入的制约条件取得处理的流程的流程图。从输出向输入的制约条件取得处理中,首先,制约条件取得部28接受作为输入在图10的步骤S24中所取得的列表C、T、W、P作为输入,准备步骤S25中说明了的列表F和仅在内部使用的式子的输入变量列表V作为输出用的空的列表(步骤S71)。接着,制约条件取得部28判断W是否为空(步骤S72)。
W不为空时(步骤S72:否),制约条件取得部28取得W的最后尾的要素即变量$w并将其从列表删除,取得将$w作为输出的FLWOR语句n和语句n的输入变量的列表V。(步骤S73)。接着,制约条件取得部28判断V是否为空或语句n是否不存在(步骤S74)。
V也不为空并且语句n存在时(步骤S74:否),制约条件取得部28判断语句n是否为and运算(步骤S75)。
语句n为and运算时(步骤S75:是),制约条件取得部28取得and运算的两个输入变量$v1、$v2(步骤S81)。接着,制约条件取得 部28判断$v1是否存在于T(步骤S82)。
$v存在于T时(步骤S82:是),制约条件取得部28将$v1追加至W(步骤S83)。接着,判断$v2是否存在于T(步骤S84)。
$v2存在于T时(步骤S84:是),制约条件取得部28将$v2追加至W(步骤S85)。接着,制约条件取得部28从V删除$v1、$v2(步骤S86)。接着,制约条件取得部28返回到步骤S72,继续进行接下来的处理。
另一方面,$v2不存在于T时(步骤S84:否),制约条件取得部28返回到步骤S72,继续进行接下来的处理。
另一方面,$v1不存在于T时(步骤S82:No),制约条件取得部28返回到步骤S72,继续进行接下来的处理。
另一方面,步骤S75的语句n不为and运算时(步骤S75:否),制约条件取得部28取得V的开头的变量$i并将其从V中删除(步骤S76)。接着,制约条件取得部28判断$i是否存在于T(步骤S77)。
$i存在于T时(步骤S77:是),制约条件取得部28将$w的制约条件C($w)的内容展开并追加至$i的制约条件C($i)。接着,制约条件取得部28将$i追加至W(步骤S78)。接着,制约条件取得部28判断$i是否为起点语句的输出变量或声明函数的输入变量(步骤S79)。
$i为起点语句的输出变量或声明函数的输入变量时(步骤S79:是),制约条件取得部28将$w追加至F(步骤S80)。接着,制约条件取得部28返回至步骤S74,继续进行接下来的处理。
另一方面,步骤S79的判断中$i不为起点语句的输出变量并且也不是声明函数的输入变量时(步骤S79:否),制约条件取得部28返回至步骤S74,继续进行接下来的处理。
另一方面,步骤S77的判断中$i不存在于T时(步骤S77:否),制约条件取得部28返回至步骤S74,继续进行接下来的处理。
另一方面,步骤S74的判断中V为空或语句n不存在时(步骤S74:是),制约条件取得部28返回到步骤S72,继续进行接下来的处理。
另一方面,步骤S72的判断中W为空时(步骤S72:是),制约条件取得部28对于F内的各变量$f有关的制约条件C($f),从条件起到没有比较条件以外为止,将制约条件展开(步骤S87)。接着,制约条件取得部28输出通过至此的处理所取得的C、F、P,使从下位向上位的制约条件取得处理结束。
在此,参照图10~图15对利用图9中例示的句子结构解析结果进行了制约条件取得处理时的处理的概要进行说明。
制约条件取得部28首先接受图9的句子结构解析结果作为输入,搜索全部的语句并取得图9的[L17]作为起点语句,将输出变量$g保存于列表R。接着,制约条件取得部28准备空的列表CA、FA、P(步骤S21)。接着,制约条件取得部28从列表R取出开头的要素即$g(=变量$r)并将其从R删除,将$g保存于检查列表L。并且,制约条件取得部28将$g的路径信息P($g)=/保存于列表P(步骤S22、S23)。接着,将检查列表L和路径信息P作为输入,进行从输入向输出的制约条件取得处理(步骤S24)。
在此,关于步骤S24用图11详细地进行叙述。首先,制约条件取得部28接受作为输入而保存有$g的列表L和保存有P($g)的信息的路径信息P作为输入,准备C、T、W、N作为空列表(步骤S31)。
接着,制约条件取得部28从检查列表L取出变量$g并将其删除,$g不存在于T,因此将$g作为输入的语句[L18]被保存于N(步骤S32~S35)。
接着,制约条件取得部28从N取得语句[L18]并将其删除,取得输出变量$h(步骤S36,S37)。接着,制约条件取得部28由于[L18]是对层次结构进行指定的结构条件,因此对C($h)追加C($g),根据[L18]的结构条件$g/book和P($g)=/,作为$h的路径信息P($h)=/book保存于P。并且,制约条件取得部28将$h保存于L和T(步骤S38,S44)。
接着,制约条件取得部28由于N为空,因此从检查列表L中取出$h并将其删除,取得将$h作为输入的语句即L19~L22并保存于N(步骤S36,S32~S35)。接着,制约条件取得部28由于N的开头的 L19是声明函数的调用,因此取得与$h相应的声明函数的参数变量$h1,对$h1的制约条件C($h1)追加$h的制约条件C($h)。并且,制约条件取得部28将$h1追加至L和T(步骤S36~S39,S45)。
接着,制约条件取得部28由于N的开头的L20是声明函数的调用,因此取得与$h相应的声明函数的参数变量$h2,对$h2的制约条件C($h2)追加$h的制约条件C($h)。并且,制约条件取得部28将$h2追加至L和T(步骤S36~S39,S45)。
接着,制约条件取得部28由于N的开头的L21是结构条件,因此对C($k)追加C($h),根据[L21]的结构条件$h/@year和P($h),将路径信息P($k)=/book/@year保存于P。并且,制约条件取得部28将$k保存于L和T(步骤S36~S38,S44)。
接着,制约条件取得部28由于N的开头的L22是结构条件,因此对C($l)追加C($h),将路径信息P($l)=/book/title保存于P。并且,制约条件取得部28将$l保存于L和T(步骤S36~S38,S44)。
接着,制约条件取得部28由于N为空因此从L中取得变量$l,取得将$l作为输入的语句L25并保存于N(步骤S36,S32~S35)。接着,制约条件取得部28由于N的开头的L25不满足步骤S37~S43的任一条件,因此再次从L取得变量$k并将$k删除,取得将$k作为输入的语句L23并保存于N(步骤S36~S43,S36,S32~S35)。
接着,制约条件取得部28由于N的开头的L23是比较式,因此对L23的输出变量$m的制约条件追加变量$k的制约条件C($k)∧($k<=1999)。并且,制约条件取得部28将$m追加至L和T(步骤S36~S40,S46)。
接着,制约条件取得部28由于N为空,因此从L取得$m,取得将$m作为输入的语句L24并保存于N(步骤S36,S32~S35)。
接着,制约条件取得部28由于N的开头的L24是and运算,因此将输出变量$n追加至L和T(步骤S36~S41,S47)。
接着,制约条件取得部28由于N为空,因此从L取得$n,取得将$n作为输入的语句L26并保存于N(步骤S36,S32~S35)。接着, 由于L26为where语句,因此将$n追加至W(步骤S36~S43,S49)。
接着,制约条件取得部28由于N为空,因此从L取得$h2,取得将$h2作为输入的语句L12并保存于N(步骤S36,S32~S35)。接着,制约条件取得部28由于N的开头的L12是结构条件,因此对输出变量$a的制约条件C($a)追加C($h2),将路径信息P($a)=/book/section/p保存于P。并且,制约条件取得部28将$a保存于L和T(步骤S36~S38,S44)。
接着,制约条件取得部28由于N为空,因此从L取得变量$a,取得将$a作为输入的语句L13、L15(步骤S36,S32~S35)。制约条件取得部28由于N的开头的要素L13是比较式,因此对L13的输出变量$b的制约条件追加变量$a的制约条件C($a)∧(Contains($a,“XML”))。并且,制约条件取得部28将$b追加至L和T(步骤S36~S40,S46)。
接着,制约条件取得部28由于N的开头要素L15是声明函数的return语句,因此取得调用源的语句L20的输出变量$j,对$j的制约条件C($j)追加C($a)。接着,制约条件取得部28对L和T追加$j(步骤S36~S42,S48)。
接着,制约条件取得部28由于N为空,因此从L取得变量$j,取得将$j作为输入的语句L25(步骤S36,S32~S35)。接着,制约条件取得部28由于N的开头的L25不满足步骤S37~S43中的任一条件,因此再次从L取得变量$b并删除,取得将$b作为输入的语句L14(步骤S36~S43,S36,S32~S35)。接着,制约条件取得部28由于L14为where语句,因此将$b追加至W(步骤S36~S43,S49)。
接着,制约条件取得部28由于N为空,因此从L取得变量$h1,取得将$h1作为输入的语句L2并保存于N(步骤S36,S32~S35)。接着,制约条件取得部28由于N的开头的L2是结构条件,因此对输出变量$x的制约条件C($x)追加C($h1),将路径信息P($x)=/book/author保存于P。并且制约条件取得部28将$x保存于L和T(步骤S36~S38,S44)。
接着,制约条件取得部28由于N为空,因此从L取得变量$x 并删除,取得将$x作为输入的语句L3、L4、L9(步骤S36,S32~S35)。
接着,制约条件取得部28由于N的开头的L3为结构条件,因此对输出变量$u的制约条件C($u)追加C($x),将路径信息P($u)=/book/author/last保存于P。并且,制约条件取得部28将$u保存于L和T(步骤S36~S38,S44)。
接着,制约条件取得部28由于N的开头的L4是结构条件,因此对输出变量$v的制约条件C($v)追加C($x),将路径信息P($v)=/book/author/first保存于P。并且,制约条件取得部28将$v保存于L和T(步骤S36~S38,S44)。
接着,制约条件取得部28由于N的开头的L9是声明函数的return语句,因此取得调用源的语句L19的输出变量$i,对$i的制约条件C($i)追加C($x)。接着,制约条件取得部28对L和T追加$i(步骤S36~S42,S48)。
接着,制约条件取得部28由于N为空,因此从L取得变量$i,取得将$i作为输入的语句L24(步骤S36,S32~S35)。接着,制约条件取得部28由于L24是and运算,因此将输出变量$n追加至L和T(步骤S36~S41,S47)。
接着,制约条件取得部28由于N为空,因此从L取得$n并删除。制约条件取得部28由于$n存在于T,因此再次返回到L,从L取得$v并删除,取得将$v作为输入的语句L6并保存于N(步骤S36,S32~S34,S32~S35)。
接着,制约条件取得部28由于N的开头的要素L6是比较式,因此对L6的输出变量$z的制约条件追加变量$v的制约条件C($v)∧($v=“Dan”)。并且,制约条件取得部28将$z追加至L和T(步骤S36~S40,S46)。
接着,制约条件取得部28由于N为空,因此从L取得变量$z,取得将$z作为输入的语句L7(步骤S36,S32~S35)。接着,制约条件取得部28由于L7为and运算,因此将输出变量$w追加至L和T(步骤S36~S41,S47)。
接着,制约条件取得部28由于N为空,因此从L取得变量$w,取得将$w作为输入的语句L8(步骤S36,S32~S35)。接着,制约条件取得部28由于L8为where语句,因此将$z追加至W(步骤S36~S43,S49)。
接着,制约条件取得部28由于N为空,因此从L取得变量$u,取得将$u作为输入的语句L5(步骤S36,S32~S35)。接着,制约条件取得部28由于N的开头的要素L5是比较式,因此对L5的输出变量$y的制约条件追加变量$u的制约条件C($u)∧($u=“Suciu”)。并且,制约条件取得部28将$y追加至L和T(步骤S36~S40,S46)。
接着,制约条件取得部28由于N为空,因此从L取得变量$y并删除,取得将$y作为输入的语句L7(步骤S36,S32~S35)。接着,制约条件取得部28由于L7为and运算,因此将输出变量$w追加至L和T(步骤S36~S41,S47)。
接着,制约条件取得部28由于N为空,因此从L取得$w并删除。由于$w存在于T,因此再次返回到L(步骤S36,S32~S34)。接着,制约条件取得部28由于L为空,因此使从输入向输出的制约条件取得处理结束。制约条件取得部28输出包含变量$n、$b、$w的列表W、图13所示制约信息列表C、图14所示路径信息列表P、图15所示制约条件取得对象变量列表T,并返回至图10的步骤S24。
接着,制约条件取得部28将W、C、P、T作为输入,进行从输出向输入的制约条件取得处理(步骤S25)。
在此,关于步骤S25,用图12详细地叙述。制约条件取得部28首先接受W、C、P、T作为输入,准备空的列表F、V(步骤S71)。
接着,制约条件取得部28从W的最后尾取出$w并从W删除,取得将$w作为输出的语句[L7]和保存了变量$y、$z的列表V(步骤S72~S73)。接着,制约条件取得部28由于语句[L7]是具有参数的and运算并且两个输入变量$y、$z都存在于T,因此在W中保存$y、$z(步骤S74,S75,S81~S86)。
接着,制约条件取得部28从W取出$z并从W删除,取得将$z作为输出的语句[L6]和保存了变量$v的列表V(步骤S72~S73)。 接着,制约条件取得部28由于语句[L6]不是and运算,因此取得输入变量$v,从V删除变量$v。制约条件取得部28由于$v存在于T,因此对制约条件C($v)追加C($z)。此时,C($z)展开成图13的[13]的“=”右侧的形式并被追加,因此展开为C($v)=C($v)∧($v=“Dan”),并且展开为C($v)=($v=“Dan”)。接着,制约条件取得部28将$v追加至W(步骤S73~S78)。接着,制约条件取得部28由于$v不是起点语句的输出变量或声明函数的输入变量并且V为空,因此返回到步骤S72(步骤S79,S74)。
接着,制约条件取得部28从W取得变量$v并将其从W删除,取得将$v作为输出的语句[L4]和保存了变量$x的列表V(步骤S72~S73)。接着,由于语句[L4]是and运算,因此取得输入变量$x。由于$x存在于T,因此对制约条件C($x)追加C($v)。此时,将C($v)展开并追加,因此展开为C($x)=C($h1)∧($v=“Dan”)。并且,制约条件取得部28对W追加$x,返回到步骤72(步骤S74~S79,S74)。
接着,制约条件取得部28从W取得变量$x并将其从W删除,取得将$x作为输出的语句[L2]和保存了变量$h1的列表V(步骤S72~S73)。[L2]将C($x)并追加至C($h1),作为C($h1)=C($h)∧($v=“Dan”)。并且,制约条件取得部28对W追加$h1。制约条件取得部28由于$h1是声明函数的输入变量,因此将$h1追加至F,返回到步骤72(步骤S74~S80,S74)。
接着,制约条件取得部28从W取得变量$h1并将其从W删除,由于不存在将$h1作为输出的语句,因此返回到步骤72(步骤S72~S74)。
接着,制约条件取得部28从W取得变量$y并将其从W删除,取得将$y作为输出的语句[L5]和保存了变量$u的列表V(步骤S72~S73)。接着,由于语句[L5]不是and运算,因此取得输入变量$u。由于$u存在于T,因此对制约条件C($u)追加C($y)。此时,将C($y)展开并追加至C($u),因此成为C($u)=C($x)∧($u=“Suciu”)。并且,制约条件取得部28对W追加$u,返回到步骤72 (步骤S74至~S79,S74)。
接着,制约条件取得部28从W取得变量$u并将去从W删除,取得将$u作为输出的语句[L3]和保存了变量$x的列表V(步骤S72~S73)。接着,由于语句[L3]不是and运算,因此取得输入变量$x。由于$x存在于T,因此对制约条件C($x)追加C($u)。此时,由于将C($u)展开并追加,因此成为C($x)=C($h1)∧($v=“Dan”)∧($u=“Suciu”)。并且,制约条件取得部28对W追加$x,返回到步骤72(步骤S74~S79,S74)。
接着,制约条件取得部28从W取得变量$x并将其从W删除,取得将$x作为输出的语句[L2]和保存了变量$h1的列表V(步骤S72~S73)。接着,由于语句[L2]不是and运算,因此取得输入变量$h1。由于$h1存在于T,因此对制约条件C($h1)追加C($x)。此时,将C($x)展开并追加,因此成为C($h1)=C($h)∧($v=“Dan”)∧($u=“Suciu”)。并且,制约条件取得部28对W追加$h1。由于$h1是声明函数的输入变量,因此将$h1追加至F,返回到步骤72(步骤S74~S80,S74)。
接着,制约条件取得部28从W取得变量$b并将其从W删除,取得将$b作为输出的语句[L13]和保存了变量$a的列表V(步骤S72~S73)。接着,语句[L13]不是and运算,因此取得输入变量$a。由于$a存在于T,因此对制约条件C(a)追加C($b)。此时,将C($b)展开并追加,因此成为C($a)=C($h2)∧(contains($a,“XML”))。并且,制约条件取得部28对W追加$a,返回到步骤72(步骤S74~S79,S74)。
接着,制约条件取得部28从W变量取得$a并将其从W删除,取得将$a作为输出的语句[L12]和保存了变量$h2的列表V(步骤S72~S73)。接着,由于语句[L12]不是and运算,因此取得输入变量$h2。由于$h2存在于T,因此对制约条件C(h2)追加C($a)。此时由于将C($a)展开并追加,因此成为C($h2)=C($h)∧(contains($a,“XML”))。并且,制约条件取得部28对W追加$h2,对F追加$a,返回到步骤72(步骤S74~S80,S74)。
接着,制约条件取得部28从W变量取得$h2并将其从W删除,由于不存在将$h2作为输出的语句,因此返回到步骤72(步骤S72~S74)。
接着,制约条件取得部28从W取出$n并将其从W删除,取得将$n作为输出的语句[L24]和保存了变量$i、$m的列表V(步骤S72~S73)。接着,制约条件取得部28由于语句[L24]是具有参数的and运算并且两个输入变量$i、$m都存在于T,因此对W保存$i、$m(步骤S74,S75,S81~S86)。
接着,制约条件取得部28从W取出$m并将其从W删除,取得将$m作为输出的语句[L23]和保存了变量$k的列表V(步骤S72~S73)。接着,由于语句[L23]不是and运算,因此取得输入变量$k。由于$k存在于T,因此对制约条件C($k)追加C($y)。此时由于将C($m)展开并追加,因此成为C($k)=C($h)∧C($k<=1999)。并且,对W追加$k,返回到步骤72(步骤S74~S79,S74)。
接着,制约条件取得部28从W取得变量$k并将其从W删除,取得将$k作为输出的语句[L21]和保存了变量$h的列表V(步骤S72~S73)。接着,由于语句[L21]不是and运算,因此取得输入变量$h。由于$h存在于T,因此对制约条件C($h)追加C($k)。此时,由于将C($k)展开并追加,因此成为C($h)=C($g)∧C($k<=1999)。并且,制约条件取得部28对W追加$h,返回到步骤72(步骤S74~S79,S74)。
接着,制约条件取得部28从W取得变量$h并将其从W删除,取得将$h作为输出的语句[L18]和保存了变量$g的列表V(步骤S72~S73)。接着,由于语句[L18]不是and运算,因此取得输入变量$g。由于$g存在于T,因此对制约条件C($g)追加C($h)。此时由于将C($h)展开并追加,因此成为C($g)=C($k<=1999)。并且,对W追加$g。制约条件取得部28由于$g是起点语句的输出变量,因此将$h追加至F,返回到步骤72(步骤S74~S80,S74)。
接着,制约条件取得部28从W取得变量$g并将其从W删除,取得将$g作为输出的语句[L17]和空的列表V(步骤S72~S73)。 制约条件取得部28由于V为空因此,返回到步骤72(步骤S74)。
接着,制约条件取得部28从W取出$i并将其从W删除,取得将$i作为输出的语句[L19]和保存了变量$h的列表V(步骤S72~S73)。接着,由于语句[L19]不是and运算,因此取得输入变量$h。由于$h存在于T,因此对制约条件C($h)追加C($i)。此时,由于将C($i)展开并追加,因此成为C($h)=C($g)∧C($k<=1999)∧C($u=“Suciu”)∧C($v=“Dan”)。并且,制约条件取得部28对W追加$h,返回到步骤72(步骤S74~S79,S74)。
接着,制约条件取得部28从W取得变量$h并将其从W删除,取得将$h作为输出的语句[L18]和保存了变量$g的列表V(步骤S72~S73)。接着,由于语句[L18]不是and运算,因此取得输入变量$g。由于$g存在于T,因此对制约条件C($g)追加C($h)。此时由于将C($h)展开并追加,因此成为C($g)=C($k<=1999)∧C($u=“Suciu”)∧C($v=“Dan”)。并且,制约条件取得部28对W追加$g。由于$g是起点语句的输出变量,因此将$h追加至F,返回到步骤72(步骤S74~S80,S74)。
接着,制约条件取得部28从W取得变量$g并将其从W删除,取得将$g作为输出的语句[L17]和空的列表V(步骤S72~S73)。制约条件取得部28由于V为空,因此返回到步骤72(步骤S74)。
接着,制约条件取得部28由于W为空,因此,展开在F中登记了的三个变量$x、$a、$h的制约条件C($x)、C($a)、C($h),知道仅成为比较条件为止。C($g)仅变为比较条件,因为通过传播该条件而仅成为比较条件(步骤S72,S87)。以上,使从输出向输入的制约条件取得处理结束。将包含变量$x、$a、$h的列表F和图16所示制约信息列表C、图14所示路径信息列表P输出,返回到图10的步骤S25。
接着,制约条件取得部28将在S25获得的制约信息列表C、路径信息列表P的要素分别追加至CA、PA。由于CA、PA是空列表,因此与C、P一致(步骤S26)。
接着,制约条件取得部28由于R为空,因此使制约条件取得处 理(步骤S22)。输出包含变量$x、$a、$h的列表F、图16所示制约信息列表CA、图14所示路径信息列表PA,返回到图8的步骤S3。
制约条件取得部28的制约条件取得处理结束时,接着,句子结构解析树改写处理部29接受制约条件取得处理的输出,进行基于制约条件的句子结构解析树改写处理(步骤S4)。句子结构解析树改写处理部29以如下方式进行改写:为了在X Query的处理的最初实施而使所获得的制约条件移动,并且,在制约条件的原来的位置,取得通过移动了的式子获得的要素的集合与从最上位起对结构化文档搜索来的要素的集合的ID之积,由此取得与改写前相同的结果。参照图17~图18对句子结构解析树改写处理部29的改写处理的一例进行说明。
图17是在图18的流程图中利用的改写用的模板的一例。图17具有“模板名(テンプレート名)”、“基准模板(ベーステンプレート)”、“参数”的项目。“模板名”是唯一地指定模板的名字。“基准模板”是作为制作的语句的基准的模板,[A]~[E]是能够变更的参数部分。[参数]是对填入到基准模板中的值的内容进行记述的地方,以“[F]:G”的格式记述多个。[F]是基准模板中的与[A]~[E]相应的场所的名字,G对代入到该[F]的值进行了说明。在图17中,TP1的模板对在基准模板中以“declare variable”开始的两个声明变量的语句进行记述。以[]包围的部分是与[Y]相对的过滤条件的X Query的语法。[$X]/fn:root(.)是对于保存于$X的各要素取得结构化文档的最上位的文档要素的函数。TP1被交付比较条件式d作为输入,将d中记述的变量$e的结构条件P($e)、d内的比较运算符、d内的比较常量分别作为[Y]、[Z]、[V]来对待。TP2的模板由一个let语句构成,$[X]intersect$[Y]是使$[X]和$[Y]的各要素集合的集合积保留的运算。TP3的模板由一个let语句构成,是对于输入列表E的各要素[$e[1]...$e[n]]全部,通过intersect运算使集合积保留的语句。Σ表现i从2起到n为止的重复。TP4的模板是在语句的途中埋入的过滤表现,对于在位于TP4左的变量中保存的各要素,取得结构化文档的最上位的文档要素,使$[X] 和集合积保留。
图18是表示句子结构解析树改写的流程的流程图。句子结构解析树改写处理部29首先接受作为输入被赋予的改写对象变量列表F、与F内的变量相对的制约信息列表C、路径信息列表P,准备空的列表A、B、D、E。(步骤S101)。接着,句子结构解析树改写处理部29判断P是否为空(步骤S102)。
P不为空时(步骤S102:否),句子结构解析树改写处理部29取得P的开头的要素即路径式子P($1)并将其从P中删除(步骤S103)。接着,判断$1是否存在于F(步骤S104)。
$1存在于F时(步骤S104:是),句子结构解析树改写处理部29从C取得$1的制约条件C($1)(步骤S105)。接着,句子结构解析树改写处理部29判断在A内是否存在制约条件与C($1)一致的变量(步骤S106)。
A内不存在制约条件与C($1)一致的变量时(步骤S106:否),句子结构解析树改写处理部29将$1追加至A,取得将在C($1)内的列表B不存在的条件汇集的列表D。接着,句子结构解析树改写处理部29将D的全部要素取到B中(步骤S107)。
接着,取得D的开头的要素d,句子结构解析树改写处理部29从D删除d(步骤S108)。句子结构解析树改写处理部29对图18的模板TP1的参数应用条件d作为输入并追加至查询。接着,句子结构解析树改写处理部29将记述了d的语句置换为应用于图18的模板TP2的语句(步骤S109)。接着,句子结构解析树改写处理部29判断D是否为空(步骤S110)。
D为空时(步骤S110:是),句子结构解析树改写处理部29判断E的要素数是否为2以上(步骤S111)。
E的要素数为2以上时(步骤S111:是),句子结构解析树改写处理部29对图18的模板TP3作为参数应用列表E作为输入并追加到查询中。将追加后的结果的输出变量作为$3(步骤S112)。接着,句子结构解析树改写处理部29移动到步骤S113,继续进行处理。
另一方面,E的要素数为1时(步骤S111:否),句子结构解析 树改写处理部29将E的开头要素作为$3(步骤S116)。接着,句子结构解析树改写处理部29移动到步骤S113,继续进行处理。
接着,句子结构解析树改写处理部29取得输出$1的式子c(步骤S113)。接着,句子结构解析树改写处理部29判断式子c的输入变量$4是否为起点语句的输出变量(步骤S114)。
另一方面,式子c的输入变量$4为起点语句的输出变量时(步骤S114:是),句子结构解析树改写处理部29将$4改写为$3(步骤S115)。接着,移动到步骤S118,继续进行处理。
另一方面,式子c的输入变量$4不是起点语句的输出变量时(步骤S114:否),句子结构解析树改写处理部29在图18的模板TP4中对参数应用$3作为输入,追加到式子c的输入变量$4之后(步骤S117)。接着,移动到步骤S118,继续进行处理。
接着,使E为空(步骤S113),句子结构解析树改写处理部29返回到步骤S102,继续进行接下来的处理。
另一方面,D不为空时(步骤S110:否),句子结构解析树改写处理部29返回到步骤S108,继续进行接下来的处理。
另一方面,A内存在制约条件与C($1)一致的变量时(步骤S106:是),句子结构解析树改写处理部29返回到步骤S102,继续进行接下来的处理。
另一方面,$1不存在于F时(步骤S104:否),句子结构解析树改写处理部29返回到步骤S102,继续进行接下来的处理。
另一方面,步骤S102的判断中P为空时(步骤S102为是),句子结构解析树改写处理部29使句子结构解析树改写处理结束。
在此,参照图17~图18对用包含变量$x、$a、$h的列表F、图16所示制约信息列表C、图14所示路径信息列表P进行句子结构解析树改写处理时的处理的概要进行说明。
首先,句子结构解析树改写处理部29接受包含变量$x、$a、$h的列表F、图16所示制约信息列表C、图14所示路径信息列表P作为输入,准备A、B、D、E作为空的列表(步骤S101)。接着,句子结构解析树改写处理部29从P的开头接受P($h),并将其从P中删 除(步骤S102~S103)。
接着,句子结构解析树改写处理部29因为$h存在于F,所以取得$h的制约条件C($h)(步骤S104,步骤S102~S105)。
接着,由于列表A为空,因此句子结构解析树改写处理部29对A追加C($h)的制约条件($k<=1999)、($v=“Dan”)、($u=“Suciu”),由于列表B为空($k<=1999),因此取得将($v=“Dan”)、($u=“Suciu”)作为要素的列表D(步骤S106~S107)。
接着,句子结构解析树改写处理部29取得D的开头的要素($k<=1999)并将其从D中删除(步骤S108)。接着,句子结构解析树改写处理部29对图17的TP1交付($k<=1999)作为输入,对查询追加两个声明变量的语句。TP1的[Y]被代入$k的路径信息P($k)的结构条件“/book/@year”,[Z]被代入比较运算符“<=”,[V]被代入值“1999”,[X]、[W]中以避免被至此出现的变量名覆盖的方式代入新变量$1、$1_root。追加后的语句与图19的[L1]、[L2]相应。接着,句子结构解析树改写处理部29将$1_root追加至列表E。并且,句子结构解析树改写处理部29对图17的TP2交付($k<=1999)作为输入,改写记述有$k<=1999的语句。TP2的[X]被代入保存条件$k<=1999的变量$m,[Y]被代入$k,$z被代入$1。图9的[L23]被改写为图19的[L33](步骤S108~S109)。
接着,关于D的剩余的要素($v=“Dan”)、($u=“Suciu”),也同样地应用步骤S109的处理。对($v=“Dan”)应用了TP1的结果与图19的[L3]、[L4]相应,应用了TP2的结果与图19的[L16]相应。另外,对($u=“Suciu”)应用了TP1的结果与图19的[L5]、[L6]相应,应用了TP2的结果与图19的[L15]相应。E被追加$2_root、$3_root(步骤S110,步骤S108~S109)。
接着,由于D为空并且E的要素数为3,因此句子结构解析树改写处理部29对图17的TP3交付列表E作为输入,追加一个声明变量的语句。TP3的[n]被代入E的要素数3,e[1]到e[3]被代入E的各要素$1_root、$2_root、$3_root,[X]被代入避免被至此 出现的变量名覆盖的方式代入新变量$4_root。应用了TP3的结果与图19的[L9]相应(步骤S110~S112)。
接着,由于输出$h的式子与图9的[L18]相应并且[L18]的输入变量$g是起点语句的输出变量,因此句子结构解析树改写处理部29将$g改写为$4_root。改写后的结果与图19的[L28]相应(步骤S113~S115)。
接着,句子结构解析树改写处理部29使E为空,从P的开头取出P($k)(步骤S118,S102~S103)。由于P($k)及P($l)的变量$k、$l不存在于F,因此跳出处理(步骤S104,S102~S103)。接着,句子结构解析树改写处理部29从P的开头接受P($a)并从P删除(步骤S104)。
接着,句子结构解析树改写处理部29因为$a存在于F,所以取得$a的制约条件C($a)(步骤S104~S105)。
接着,A内的变量$h的制约信息C($h)与C($a)不一致,因此句子结构解析树改写处理部29对A追加$a。接着,句子结构解析树改写处理部29取得将C($a)内的B中不存在的条件(Contains($a,“XML”))作为要素的列表D。接着,句子结构解析树改写处理部29将D的要素即条件(Contains($a,“XML”))追加至B(步骤S106~S107)。
接着,句子结构解析树改写处理部29取得D的开头的要素(Contains($a,“XML”))并将其从D删除(步骤S108)。接着,句子结构解析树改写处理部29对图17的TP1交付(Contains($a,“XML”))作为输入,对查询追加两个声明变量的语句。TP1的[Y]被代入$a的路径信息P($a)的结构条件“/book/section/p”,[Z]被代入比较运算符“contains()”,[V]被代入值“‘XML’”,[X]、[W]以避免被至此出现的变量名覆盖的方式被代入新变量$5、$5_root。追加后的语句与图19的[L8]、[L9]相应。接着,句子结构解析树改写处理部29将$5_root追加至列表E。并且,句子结构解析树改写处理部29对图17的TP2交付(Contains($a,“XML”))作为输入,对记述有(Contains($a,“XML”))的语句进行改写。 TP2的[X]被代入保存(Contains($a,“XML”))的变量$b,[Y]被代入$a,$z被代入$5。图9的[L13]被改写为图19的[L23](步骤S108~S109)。
接着,D为空并且E的要素数为1,因此句子结构解析树改写处理部29由于输出$a的式子取得图9的[L12]并且[L12]的输入变量$h2不是起点语句的输出变量,因此对图17的TP4交付$5_root作为输入,将所获得的式子追加至图9的[L12]的输入变量$h2之后。TP4的[X]被代入变量$5_root,追加的式与图19的[L22]相应(步骤S110~S111,S116,S113~S114,S117)。
接着,句子结构解析树改写处理部29使E为空,从P的开头接受P($x)并将其从P中删除(步骤S104)。
接着,句子结构解析树改写处理部29因为$x存在于F,所以取得$x的制约条件C($x)(步骤S104~S105)。
接着,句子结构解析树改写处理部29由于A内的变量$h的制约信息C($h)与C($x)一致,因此返回到步骤S102,从P的开头接受P($u)并将其从P中删除(步骤S106,S102~S103)。P($u)及残留于P的P($v)的变量$u、$v都不存在于F,因此返回到步骤S102。由于P变为空,因此使句子结构解析树改写处理结束(步骤S104,S102~S104,S102)。将图19的X Query作为句子结构解析树输出,返回到图8的步骤S4。
句子结构解析树改写部29的句子结构解析树改写处理结束时,改写过的句子结构解析树被输出。句子结构解析树以能够再现X Query的语法的形式来表现。接着,通过查询执行部30,进行执行改写过的句子结构解析树在此为X Query处理(步骤S5)。被改写后也保持X Query的形式,因此查询执行处理能够以任意的X Query处理系统执行。
查询执行部30的查询执行处理结束时,最后通过检索接口部26,查询执行部30的输出作为结果数据返送至客户终端3(步骤S6)。
图20是对于图4~图6的结构化文档装置内的文档集合执行将图7所例示的X Query改写后的图19的X Query的结果。通过[L1]~ [L6]及[L9],最初在结构化文档集合中作为满足制约条件的对象,仅对图4、图5的结构化文档筛选对象。对于筛选过的结构化文档,从[L27]起实施处理。并且,满足[L15]~[L17]的结构化文档仅成为图4。为此,结果是,作为将图4的<title>、<author>要素及满足[L24]条件的图4内的<p>要素组合后的XML而输出。
以上,如举出具体的例子说明那样,根据本实施方式,服务器1将结构化文档数据保存于结构化文档DB21。另外,服务器1在结构化文档数据的检索时,对来自客户终端3的输入查询数据进行句子结构解析,将输入查询数据生成一个语句由单一的运算式构成的句子结构解析树,按从输入向输出、从输出向输入的方向对所获得的句子结构解析树进行搜索,由此取得与对象结构化文档集合有关的制约条件。以构成制约条件的各条件的层次结构互不依存的方式来缓和条件。由此,在对所获得的制约条件进行改写时,能够简单地以互相独立的形式作为声明变量来记述。取与改写前的输入变量和要素的ID有关的积,由此缓和后的条件能够取得与原来的条件相同的结果。通过这种改写,能够改写为在包含嵌套查询的这种复杂的X Query中,也能够在较早的阶段对成为对象的结构化文档集合进行筛选。并且,在要求严密条件时,通过取要素的ID的积,从而能够避免对相同的条件式进行二次评价。为此,对于早期筛选过的结构化文档集合实施X Query的处理即可,因此能够高速地执行检索。
此外,在实施方式中,按使改写结果与输入相同的查询的语法进行改写,但本提案并不限定于此。例如即使是改写为结构化文档检索装置生成执行计划所用的内部形式的形式,也能够应用,此时使缓和了的制约条件的执行顺序包含JOIN(结合运算)、ORDERBY(分类运算)的查询整体的最优化是可能的。另外,取得结构化文档的最上位要素并通过在X Query的句子结构中存在的INTERSECT运算,记述了筛选,但本提案并不限定于此。例如如专利文献2那样、将结构化文档的要素列表作为输入,并准备仅对于在列表内存在的结构化文档实施运算的函数,因此即使不利用INTERSECT运算也能够实现同等的功能。
另外,在实施方式中,为了无视构成制约条件的各条件间产生的结构化文档内的层次结构的依存关系而进行了缓和,但本提案并不限定于此。例如也可以将无视依存关系的结构条件仅限定为一部分层次结构条件。另外,也可以将层次结构条件的亲子关系缓和为祖先子孙关系或,以指定任意的要素名的方式进行缓和。并且,作为用于缓和制约条件的信息,也可以使用XML的概要信息即DTD、XML SCHEMA的利用等。
并且,在实施方式中,作为指定多个条件的运算符,仅关于and条件进行了记述,但本提案并不限定于此。通过使制约条件与or对应,由此对于包含or条件的情况,也能够进行同样地处理。
以上说明了的实施方式中的服务器1的功能例如通过计算机的运算装置即CPU101执行作为应用程序安装的结构化文档管理程序来实现。
实施方式中的服务器1执行的结构化文档管理程序例如以能够安装的形式或能够执行的形式的文件记录于CD-ROM、软盘(FD)、CD-R、DVD(Digital Versatile Disc)等计算机可读取的记录介质110来提供。
另外,也可以构成为将实施方式中的服务器1执行的结构化文档管理程序保存于与因特网等网络2连接的计算机上,经由网络2中转下载从而提供。另外,也可以构成为经由因特网等网络2中转来提供或发布实施方式中的服务器1执行的结构化文档管理程序。并且,也可以构成为将实施方式中的服务器1执行的结构化文档管理程序预先装入ROM102等来提供。
第一实施方式中的服务器1执行的结构化文档管理程序为包含保存接口部24、检索接口部26、句子结构解析部27、制约条件取得部28、句子结构解析树改写部29、查询执行部30等的模块构成,作为实际的硬件,CPU(处理器)101从HDD104等读出并执行结构化文档管理程序,由此上述各部被装载到主存储装置(例如RAM103)上,在主存储装置上生成保存接口部24、检索接口部26、句子结构解析部27、制约条件取得部28、句子结构解析树改写部29、查询执 行部30等。
通过以上所述的实施方式涉及的结构化文档管理系统,对输入查询数据进行句子结构解析,提取结构化文档内的要素的层次结构条件和值的条件作为制约条件。此时对结构化文档的要素满足的层次条件进行缓和,将条件缓和为也包含通过原来的层次条件未获得的要素的形式。为此,能够以缓和了的条件能够在嵌套子查询间移动的形式进行改写。缓和了的条件应用取要素识别符的积集合的谓语条件,从而为了取得与原来的条件相同的结果而进行改写。由此,能够早期地应用对结构化文档集合的筛选,因此能够高速地执行检索。
此外,对本发明的几个实施方式进行说明,但这些实施方式作为例子表示,无意限定发明的范围。这些新的实施方式能够通过其他各种方式实施,在不脱离发明的主旨的范围内,能够进行各种省略、置换、变更。这些实施方式及其变形包含于发明的范围及要旨,并且包含于权利要求书所记载的发明及其均等的范围内。
符号说明
1服务器
24保存接口部
26检索接口部
27句子结构解析部
28制约条件取得部
29句子结构解析树改写部
30查询执行部

结构化文档管理装置、方法以及程序.pdf_第1页
第1页 / 共37页
结构化文档管理装置、方法以及程序.pdf_第2页
第2页 / 共37页
结构化文档管理装置、方法以及程序.pdf_第3页
第3页 / 共37页
点击查看更多>>
资源描述

《结构化文档管理装置、方法以及程序.pdf》由会员分享,可在线阅读,更多相关《结构化文档管理装置、方法以及程序.pdf(37页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103827860 A (43)申请公布日 2014.05.28 CN 103827860 A (21)申请号 201280002749.9 (22)申请日 2012.09.20 G06F 17/30(2006.01) (71)申请人 株式会社东芝 地址 日本东京都 申请人 东芝解决方案株式会社 (72)发明人 黑田洋介 服部雅一 (74)专利代理机构 永新专利商标代理有限公司 72002 代理人 王成坤 胡建新 (54) 发明名称 结构化文档管理装置、 方法以及程序 (57) 摘要 本发明实施方式的结构化文档管理装置对所 输入的查询中所含的层次条件和与以层次条件指 。

2、定的结构化文档的要素相对的谓语条件进行解 析, 提取保存各要素的变量中的制约条件和变量 间的依存关系。 通过本方法提取制约条件时, 以缓 和为不仅包含原来成为对象的要素也包含成为对 象的要素以外的要素的形式, 取得与结构有关的 制约条件。以能够尽可能早期地应用缓和了的制 约条件的方式移动了谓语后, 插入对缓和了的条 件进行补充的谓语条件。 (85)PCT国际申请进入国家阶段日 2013.03.06 (86)PCT国际申请的申请数据 PCT/JP2012/074011 2012.09.20 (87)PCT国际申请的公布数据 WO2014/045362 JA 2014.03.27 (51)Int.。

3、Cl. 权利要求书 2 页 说明书 21 页 附图 13 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书21页 附图13页 (10)申请公布号 CN 103827860 A CN 103827860 A 1/2 页 2 1. 一种结构化文档管理装置, 包括 : 结构化文档受理部, 受理具有层次化后的逻辑结构的结构化文档的输入 ; 结构化文档存储部, 存储所输入的所述结构化文档数据 ; 查询数据受理部, 受理查询数据的输入 ; 句子结构解析部, 解析所输入的查询数据的句子结构, 取得句子结构解析树, 该句子结 构解析树是以成为定义成各变量仅被代入一次的静态。

4、单赋值的方式所分解的句子结构解 析树 ; 制约条件取得部, 从由所述句子结构解析部获得的句子结构解析树, 取得制约条件, 该 制约条件包含各句子结构解析树的变量需要满足的层次条件及变量的值的条件 ; 句子结构解析树改写部, 基于由所述制约条件取得部获得的制约条件, 将所述查询数 据改写为通过所述制约条件能够对作为对象的所述结构化文档进行筛选的形态 ; 以及 查询执行部, 将由所述句子结构解析树改写部改写过的所述查询数据作为输入, 输出 检索结果。 2. 如权利要求 1 所述的结构化文档管理装置, 所述制约条件取得部对所述制约条件追加所述变量需要满足的层次条件和由同一要 素名规定的其他的层次条件。

5、, 所述句子结构解析树改写部, 基于追加过的所述制约条件改写所述查询数据时, 对于 所述制约条件, 附加能够求出与追加其他层次条件之前的制约条件相同的结果的其他条 件。 3. 如权利要求 1 所述的结构化文档管理装置, 所述句子结构解析树改写部使基于由所述制约条件取得部获得的所述制约条件的改 写结果为与原来的查询数据相同的语法格式。 4. 一种结构化文档管理方法, 受理具有层次化后的逻辑结构的结构化文档的输入, 存储所输入的所述结构化文档数据, 受理查询数据的输入, 解析所输入的查询数据的句子结构, 取得句子结构解析树, 该句子结构解析树是以成 为定义成各变量仅被代入一次的静态单赋值的方式所分。

6、解的句子结构解析树, 从所述句子结构解析树, 取得制约条件, 该制约条件包含各句子结构解析树的变量需 要满足的层次条件及变量的值的条件, 基于所述制约条件, 将所述查询数据改写为通过所述制约条件能够对作为对象的所述 结构化文档进行筛选的形态, 将所述改写过的所述查询数据作为输入, 输出检索结果。 5. 一种结构化文档管理程序, 用于使计算机执行以下各部 : 结构化文档受理部, 受理具有层次化后的逻辑结构的结构化文档的输入 ; 结构化文档存储部, 存储所输入的所述结构化文档数据 ; 查询数据受理部, 受理查询数据的输入 ; 句子结构解析部, 解析所输入的查询数据的句子结构, 取得句子结构解析树,。

7、 该句子结 构解析树以成为定义成各变量仅被代入一次的静态单赋值的方式所分解的句子结构解析 权 利 要 求 书 CN 103827860 A 2 2/2 页 3 树 ; 制约条件取得部, 从由所述句子结构解析部获得的句子结构解析树, 取得制约条件, 该 制约条件包含各句子结构解析树的变量需要满足的层次条件及变量的值的条件 ; 句子结构解析树改写部, 基于由所述制约条件取得部获得的制约条件, 将所述查询数 据改写为通过所述制约条件能够对作为对象的所述结构化文档进行筛选的形态 ; 以及 查询执行部, 将由所述句子结构解析树改写部改写过的所述查询数据作为输入, 输出 检索结果。 权 利 要 求 书 C。

8、N 103827860 A 3 1/21 页 4 结构化文档管理装置、 方法以及程序 技术领域 0001 本发明的实施方式涉及结构化文档管理装置、 方法以及程序。 背景技术 0002 以往, 已知用于对以XML (Extensible Markup Language : 可扩展标记语言) 等记述 的结构化文档数据进行存储、 检索的结构化文档管理装置。为了进行结构化文档管理装置 中的结构化文档数据的检索, 制定了如 RDBMS (Relational Database Management System : 关系型数据库管理系统) 中的查询语言 SQL 那样的、 与 XML 数据相对的查询语言 。

9、X Query (XML Query Language) , 并且在多数结构化文档管理装置受到支持。 0003 X Query 是用于如数据库那样处理 XML 数据集合的语言, 提供用于进行符合条件 的数据集合的取出、 汇总、 分析的手段。 XML数据具有亲子、 兄弟等的要素组合后的层次化的 逻辑结构 (层次结构) , 因此能够在条件中指定与该层次结构有关的条件 (结构条件) 。 0004 对 XML 是否满足指定的结构条件进行检索的技术由代表性的 XML 数据的 parse 处 理即 SAX(Simple API for XML) 等来提供。但是, 在 SAX 中, 对于成为检索对象的结构化。

10、 文档 (在此, 为XML) , 仅能从上位层次向下位层次访问。 为此, 有在下位层次指定的筛选条件 时, 只要未搜索到下位层次就不能应用筛选条件。 为此, 需要从最上位向下位层次对整个结 构化文档进行搜索, 直到有筛选条件为止。 0005 为了使结构化文档管理装置中的检索处理变得高速, 希望尽可能早期地应用筛选 条件, 并希望削减在检索中生成的中间数据。 为此, 也存在仅对于用索引处理筛选出的结构 化文档集合检索结构条件的技术。但是, 该技术对于查询由多个子查询构成的嵌套查询并 不应对。 0006 此外, 在嵌套查询中, 如跨过子查询来早期应用筛选条件那样地进行了各种各样 的尝试。例如, 存。

11、在以下技术 : 在关系数据库模型中, 以图形的形式定义构成查询的子查询 间的关系, 定义能够在图形间移动谓语的条件, 如果是可能的情况, 则将谓语移动到其他子 查询从而谋求最优化。 0007 现有技术文献 0008 专利文献 0009 专利文献 1 : 日本特开 2007-226452 号公报 0010 专利文献 2 : 日本特开 2010-79646 号公报 0011 非专利文献 0012 非专利文献 1 : Query Optimization by Predicate Move-Around(1994) 0013 非专利文献 2 : Shifting Predicates to Inne。

12、r Sub-expressions for X Query Optimization(2006) 发明内容 0014 发明要解决的课题 说 明 书 CN 103827860 A 4 2/21 页 5 0015 但是, 关系数据库模型与结构化文档的数据模型不同, 没有层次结构、 要素间的顺 序关系这一问题, 不支持与要素相对应的识别符 (ID) 。 为此, 存在关系数据库中的查询改写 的探讨对于结构化文档无法应用的情况。 0016 另外, 在结构化文档即XML的查询中, 将与称为视图的虚拟的XML文档相对应的条 件在制作视图之前及之后复制并应用, 从而也能够避免徒劳的对结构化文档的视图的要素 进。

13、行检索的情况。 但是, 除了对象限定于视图以外, 简单地在制作视图的阶段将成为对象的 条件全部地复制到能够应用的地方并应用, 因此在多个地方评价同一条件。 并且, 在存在能 够复制的多个条件时, 无条件地对谓语条件的逻辑和进行复制, 因此存在谓语条件的筛选 的效果不充分的问题。本发明要解决的课题是, 以提供能够高速地进行检索的结构化文档 管理装置、 方法及程序为目的。 0017 用于解决课题的手段 0018 实施方式的结构化文档管理装置包括 : 结构化文档数据受理部, 受理具有层次化 后的逻辑结构的结构化文档数据的输入 ; 结构化文档数据存储部, 存储所输入的所述结构 化文档数据 ; 查询数据。

14、受理部, 受理查询数据的输入 ; 句子结构解析部, 解析所输入的查询 数据的句子结构, 取得句子结构解析树, 该句子结构解析树是指, 以成为定义成各变量仅被 代入一次的静态单赋值的方式所分解的句子结构解析树 ; 制约条件取得部, 从由所述句子 结构解析部获得的句子结构解析树, 取得制约条件, 该制约条件包含各句子结构解析树的 变量需要满足的层次条件及变量的值的条件 ; 句子结构解析树改写部, 基于由所述制约条 件取得部获得的制约条件, 将所述查询数据改写为通过所述制约条件能够对作为对象的所 述结构化文档进行筛选的形态 ; 以及查询执行部, 将由所述句子结构解析树改写部改写过 的所述查询数据作为。

15、输入, 输出检索结果。 附图说明 0019 图 1 是表示实施方式中的结构化文档管理系统的系统构筑例的模式图。 0020 图 2 是实施方式中的服务器以及客户终端的模块构成图。 0021 图 3 是表示实施方式中的服务器以及客户终端的概略构成的框图。 0022 图 4 是表示实施方式中的结构化文档 DB 中登记的结构化文档数据的一例的说明 图。 0023 图 5 是表示实施方式中的结构化文档 DB 中登记的结构化文档数据的一例的说明 图。 0024 图 6 是表示实施方式中的结构化文档 DB 中登记的结构化文档数据的一例的说明 图。 0025 图 7 是表示实施方式中的查询数据的一例的说明图。。

16、 0026 图 8 是表示实施方式中的检索处理的流程的流程图。 0027 图 9 是表示对于实施方式中的查询数据进行了句子结构解析处理的结果的说明 图。 0028 图 10 是表示实施方式中的制约条件取得处理的流程的流程图。 0029 图 11 是表示实施方式中的从输入向输出的制约条件取得处理的流程的流程图。 0030 图 12 是表示实施方式中的从输出向输入的制约条件取得处理的流程的流程图。 说 明 书 CN 103827860 A 5 3/21 页 6 0031 图 13 是表示对于实施方式中的查询数据进行从输入向输出的制约条件取得处理 所获得的制约条件的列表的说明图。 0032 图 14。

17、 是表示对于实施方式中的查询数据进行从输入向输出的制约条件取得处理 所获得的路径信息列表的说明图。 0033 图 15 是表示对于实施方式中的查询数据进行从输入向输出的制约条件取得处理 所获得的制约条件取得对象变量列表的说明图。 0034 图 16 是表示对于实施方式中的查询数据进行从输出向输入的制约条件取得处理 所获得的制约条件的列表的说明图。 0035 图 17 是表示实施方式中的改写时所利用的改写模板的一例的说明图。 0036 图 18 是表示实施方式中的结构解析树改写处理的流程的流程图。 0037 图 19 是表示对于实施方式中的查询数据进行结构解析树改写处理所获得的句子 结构解析树的。

18、说明图。 0038 图 20 是表示对于实施方式中的查询数据进行了检索的结果的说明图。 具体实施方式 0039 以下, 参照附图, 说明实施方式的结构化文档管理装置、 方法以及程序。 0040 图 1 是表示实施方式涉及的结构化文档管理系统的系统构筑例的模式图。在 此, 作为实施方式的结构化文档管理系统, 设想如图 1 所示那样、 通过 LAN(Local Area Network : 局域网) 等网络 2 在结构化文档管理装置即服务器计算机 (以下, 称为服务器。 ) 1 上连接有多台客户计算机 (以下, 称为客户终端。 ) 3 的服务器客户系统。 0041 图 2 是服务器 1 以及客户终。

19、端 3 的模块构成图。服务器 1 及客户终端 3 例如具有 利用了通常的计算机的硬件构成。即, 服务器 1 以及客户终端 3 包括 : 进行信息处理的 CPU (Central Processing Unit : 中央处理单元) 101、 存储了 BIOS 等的读出专用存储器即 ROM (Read Only Memory : 只读存储器) 102、 将各种数据能够改写地存储的 RAM(R m Access Memory : 随机存取存储器) 103、 作为各种数据库发挥功能并且保存各种程序的 HDD(Hard Disk Drive : 硬盘驱动器) 104、 使用存储介质 110 保管信息或向。

20、外部发布信息或从外部获 取信息所用的 CD-ROM 驱动器等介质驱动装置 105、 经由网络 2 与外部的其他计算机通信从 而传达信息所用的通信控制装置 106、 对操作者显示处理经过、 结果等的 CRT (Cathode Ray Tube : 阴极射线管) 、 LCD(Liquid Cristal Display : 液晶显示器) 等显示部 107、 以及操作 者对 CPU101 输入命令、 信息等所用的键盘、 鼠标等输入部 108 等, 总线控制器 109 对在这些 各部间收发的数据进行协调并工作。 0042 在这种服务器 1 及客户终端 3 中, 用户接通电源时, CPU101 使 RO。

21、M102 内的装载这 一程序起动, 从 HDD104 中将 OS(Operating System : 操作系统) 这一管理计算机的硬件和 软件的程序读入到 RAM103 中, 使该 OS 起动。这种 OS 根据用户的操作起动程序、 或读入信 息、 或进行保存。作为 OS 中的代表的 OS, 已知有 Windows(注册商标) 、 UNIX(注册商标) 等。 将在这些 OS 上工作的程序叫做应用程序。此外, 应用程序不限于在规定的 OS 上工作的应 用程序, 也可以是使 OS 承担后述的各种处理的一部分的执行的应用程序, 也可以作为构成 规定的应用软件、 OS 等的一组程序文件的一部分而被包含。

22、的应用程序。 0043 在此, 服务器 1 将结构化文档管理程序作为应用程序存储在 HDD104 中。在该意义 说 明 书 CN 103827860 A 6 4/21 页 7 上, HDD104 作为存储结构化文档管理程序的存储介质发挥功能。另外, 一般而言, 在服务器 1 的 HDD104 中安装的应用程序记录于 CD-ROM、 DVD 等各种光盘、 各种光磁盘、 软盘等各种磁 盘、 半导体存储器等各种方式的介质等的储介质 110 中而提供。为此, CD-ROM 等光信息记 录介质、 FD 等磁性介质等具有可搬性的存储介质 110 也能够成为存储结构化文档管理程序 的存储介质。并且, 结构化。

23、文档管理程序也可以经由例如通信控制装置 106 从外部取入并 安装于 HDD104。 0044 当在 OS 上工作的结构化文档管理程序起动后, 按照该结构化文档管理程序, 服务 器 1 的 CPU101 执行各种运算处理并集中控制各部。另一方面, 当在 OS 上工作的应用程序 起动后, 按照该应用程序, 客户终端 3 的 CPU101 执行各种运算处理并集中控制各部。以下 对服务器 1 及客户终端 3 的 CPU101 执行的各种运算处理中的、 实施方式的结构化文档管理 系统中的特征性的处理进行说明。 0045 图 3 是表示本实施方式中的服务器 1 及客户终端 3 的概略构成的框图。如图 3。

24、 所 示, 客户终端3作为通过应用程序实现的功能构成, 包括结构化文档登记部11和检索部12。 0046 结构化文档登记部11用于将从输入部108输入的结构化文档数据、 预先在客户终 端 3 的 HDD104 中存储的结构化文档数据登记在后述的服务器 1 的结构化文档数据库 (结构 化文档 DB) 21。该结构化文档登记部 11 将保存请求与应当登记的结构化文档数据一起发 送至服务器 1。 0047 图4图6表示结构化文档DB中登记的结构化文档数据的一例。 作为用于记述结 构化文档数据的代表性的语言, 举出 XML(Extensible Markup Language) 。图 4 图 6 所 。

25、示的三个结构化文档数据以 XML 记述。在 XML 中, 将构成文档结构的各个部分称为 “要素” (元素 : Element) , 要素使用标志 (tag) 来记述。具体而言, 以表示要素的开始的标志 (开始 标志) 、 表示结束的标志 (结束标志) 这两个标志夹着数据, 来表现一个要素。此外, 以开始标 志和结束标志夹入的文本数据是以该开始标志和结束标志表示的一个要素所包含的文本 要素。 但是, 在结构化文档的最上位存在未作为标志来记述的文档要素, 文档要素之下一定 只存在一个要素。 0048 在图 4 所示的例子中, 结构化文档 D1 在文档要素之下存在以 book 这一标志 包围的要素。。

26、该 book 要素包含 year 属性和以 title 、 author 、 section 的各标志包围的多个子要素。 title 要素具有 “Data On The Web” 等文本要素。 author 要素包含以 last 、 first 的顺序表示的两个子要素。 section 要素包含以多个 p 的标志包围的子要素。 0049 图 5、 图 6 所示的例子也以与图 4 同样的形式具有要素, 仅仅 author 要素、 section 要素的数目及要素具有的值不同。 0050 返回到图3, 检索部12按照由用户从输入部108输入的指示, 作成记述用于从结构 化文档 DB21 检索所期望。

27、的数据的检索条件等的查询数据, 并将包含该查询数据的检索请 求发送至服务器 1。另外, 检索部 12 接受由服务器 1 发送来的与该检索请求对应的结果数 据, 并将其显示在显示部 107 上。 0051 另一方面, 服务器 1 作为通过结构化文档管理程序实现的功能构成, 包括保存处 理部 22 和检索处理部 23。另外, 服务器 1 包括利用了 HDD104 等存储装置的结构化文档 DB21。 说 明 书 CN 103827860 A 7 5/21 页 8 0052 保存处理部 22 包括 : 保存接口部 24, 接受来自客户终端 3 的保存请求, 将从客户 终端 3 发送来的结构化文档数据保。

28、存于结构化文档 DB21。 0053 保存接口部 24(结构化文档受理部) 受理结构化文档数据的输入, 将结构化文档 数据保存于结构化文档 DB21(结构化文档存储部) 。 0054 检索处理部 23 进行如下处理 : 接受来自客户终端 3 的检索请求, 从结构化文档 DB21 找出符合由查询数据所指定的条件的数据, 并将该找出的数据作为结果数据返回。该 检索处理部 23 包括检索接口部 26、 句子结构解析部 27、 制约条件取得部 28、 句子结构解析 树改写部 29 以及查询执行部 30。 0055 检索接口部26受理查询数据的输入 (查询数据受理部) , 并调出对受理到的查询数 据的句。

29、子结构进行解析并制作句子结构解析树 31 的句子结构解析部 27。 0056 句子结构解析部 27 对从客户终端 3 发送并经由检索接口部 26 输入的查询数据 (以下, 称为输入查询数据。 ) 进行句子结构解析, 以必须将一个运算的单位代入到 X Query 中的for语句或let语句的变量中的方式对输入查询数据进行分解并生成改写过句子结构 解析树 31。即, 所谓句子结构解析树 31, 是以为了变量仅被代入一次而定义的静态单赋值 的方式所分解的句子结构。 0057 制约条件取得部 28 作为制约条件取得部发挥功能, 在由句子结构解析部 27 所输 出的句子结构解析树 31 内, 将保存对结。

30、构化文档装置内的全部的结构化文档的文档要素 的集合进行指定的 “” 的变量为起点, 对关联的全部的运算进行搜索, 缓和结构化文档中 的层次条件, 并且提取并输出各变量中的制约条件 32。 0058 句子结构解析树改写部 29 作为句子结构解析树改写部发挥功能, 基于由制约条 件取得部28所输出的制约条件32, 对由句子结构解析部27输出的句子结构解析树31进行 改写。改写过的句子结构解析树 31 与输入查询数据同样的、 按照 X Query 的语法的形式输 出。 0059 查询执行部 30 作为查询执行部发挥功能, 对于结构化文档数据的数据集合执行 从句子结构解析树改写部 29 输出的改写查询。

31、数据, 并输出获得的结果数据 33。 0060 检索接口部26将从查询执行部30输出的结果数据作为检索的结果数据返送给客 户终端 3。 0061 此外, 在本实施方式中, 以由 X Query 记述的查询数据进行说明。在 XML 中, 有 由 W3C 提出的 X Query 这一查询语言, X Query 基本上能够以 Prolog 部和其以外的 FLWOR (for-let-where-order by-return) 这一句子结构模式来说明。以下, 说明 X Query 的语言 规格。 Prolog部由在一个X Query的开头仅存在一个并在X Query间通用来使用的声明变 量和声明函数。

32、构成。声明变量的句子结构为 “declare variable 变量 : 式子” 。除了无论 从 X Query 内的何处起都能够参照这一点以外, 变量声明与后述的 let 语句相同。 0062 声明函数的句子结构是 “declare function 函数名 (参数声明) 式子 ” , 参数声 明部中记述任意数的变量和类型。声明函数无论从 XQuery 内的何处都能够调用。for 的句 子结构是 “for 变量 in 式子” 。for 语句具有将满足式子的序列的要素代入到变量来循环这 一意思。在此, 所谓序列, 是平面列表。let 的句子结构是 “let 变量 : 式子” 。每当一次 循环,。

33、 let 语句对满足式子的序列进行保存。where 的句子结构是 “where 式” 。where 语句 限制以 for 语句重复的循环, 在不满足式子的情况下, 跳出循环。 说 明 书 CN 103827860 A 8 6/21 页 9 0063 order by 的句子结构是 “order by 式子” 。order by 语句通过由式子指定的关键 字将通过 for-let-where 获得的结果分类。return 的句子结构是 “return 式子” 。return 语句能够记述包含变量的任意的 XML 数据。式子中能够记述 FLWOR 语句。 0064 另外, 当for语句、 let语。

34、句等式子中再次记述有FLWOR语句时, 称为嵌套查询。 变 量的句子结构是 “$ 字符串” 。除了通过嵌套查询等二重声明的情况以外, 具有相同字符串 的变量看作相同。 0065 作为对 XML 数据的要素间的层次条件进行指定的运算, X Query 中有如下运算。 0066 表示 “” 要素间是亲子关系的运算符 0067 表示 “” 要素间是祖先子孙关系的运算符 0068 此外,“” 、“” 的左边什么都没有时, DB、 程序侧以默认表示的 XML 或 XML 集 合的文档要素成为对象。在本实施方式中, 指的是结构化文档 DB 的结构化文档集合。 0069 图7是表示X Query的查询数据的。

35、一例的说明图。 为了易于理解, 图7的各行中分 配以 包围的行编号。图 7 的意思是 “列出姓为 Suciu 并且名为 Dan 的作者, 在 1999 年以前出版的书中的、 书的标题、 作者名、 在书的内容中包含有 XML 的节” , 示出如下所述 的查询数据 Q1。 0070 Q1 :L1 表示, 通过 for 语句对于结构化文档 DB21 的各结构化文档数据, 取得位 于文档要素下面的层次的 “book” 这一要素, 并代入到变量 $h 进行循环。 L2 的 let 语句 成为嵌套查询, 表示将 L3 L7 的 FLWOR 语句的结果保存到变量 $i 中。 L3 表示对 于在通过 L1 的。

36、循环所代入的变量 $h 中所保存的要素, 取得其子要素即 “author” 这一要 素, 代入到变量 $x 进行循环。 L4 、L5 表示对于在通过 L3 的循环所代入的变量 $x 中 所保存的要素, 取得其子要素即 “last” 、“first” 这一要素, 代入到变量 $u、 $v。 L6 对于 与循环变量 $x 对应的变量 $u、 $v, 仅让变量 $u 具有的值与 “Suciu” 相等并且 $v 具有的值 与 “Dan” 相等的部分循环。 L7 表示仅返送满足 L6 的 $x。 0071 L8 表示与 L2 同样的 let 语句成为嵌套查询, 将 L9 L11 的 FLWOR 语句 的。

37、结果保存到变量 $j 中。 L9 对于通过 L1 的循环代入的变量 $h 中所保存的要素, 取得 其子要素即 “section” 这一要素的子要素即 “p” 这一要素, 代入到变量 $a 进行循环。 L10 表示对于循环变量 $a, 仅使变量 $a 具有的值包含 “XML” 这一值的部分循环。 L11 表示仅 返送满足 L10 的 $a。 0072 L12 和 L13 是 let 语句, 表示, 对于保存于变量 $h 的要素, 取得作为属性的 “year” 和作为子要素的 “title” 这一要素, 并作为序列代入到各个变量 $k、 $l 中。 L14 表示, 对于与循环变量$h对应的变量$i。

38、、 $k, 在变量$i的序列中存在要素并且仅使$k具有 的数值与 1999 相等或比 1999 小的部分循环。 L15 表示将至此求出的 $l、 $i、 $j 这三个 变量所指的值填入到以 item 开始的 XML 的指定位置, 生成新的 XML, 并作为结果返送。 0073 图 8 是表示服务器 1 的检索处理部 23 的检索处理的流程的流程图。首先, 检索接 口部 26 受理从客户终端 3 经由网络 2 中转所发送的查询数据的输入 (步骤 S1) 。 0074 接着, 句子结构解析部 27 对与输入查询数据有关的句子结构进行解析, 生成句子 结构解析树 (步骤 S2) 。句子结构解析中, 。

39、构成查询数据的各要素被分解为以一个运算单位 将构成 X Query 的全部的运算保存于 for 语句或 let 语句。另外, where、 order by、 return 语句以仅将一个变量作为输入的方式被改写。 说 明 书 CN 103827860 A 9 7/21 页 10 0075 但是, 式子的开头以 “” 或 “” 开始的结构条件的情况下, 分解为仅将开头的 “” 或 “” 作为式子而保存的 let 语句 (以下, 称为起点语句) 和将该 let 语句的输出变 量作为输入变量的式子。另外, 通过开头是 “变量” 并且后续为 “” 或 “” 所指定的层 次条件连续排列的情况下, 归纳。

40、为一个运算, 保存于 for 语句或 let 语句。并且, 嵌套查询 存在的情况下, 嵌套查询的 FLWOR 语句所记述的声明函数以 X Query 的 Prolog 部记述, 并 被改写为以交付到嵌套查询的母查询的变量作为参数的形式将所记述的声明函数的函数 记述于原位置的函数调用的形式。 0076 图 9 是通过句子结构解析部 27 对图 7 的查询数据实施了句子结构解析的结果。 以 L1 到 L27 的 27 行来记述。图 9 的 L1 L10 将图 7 中的 L3 L7 的嵌套 查询分割作为声明函数 udf1。图 7 中的 L3 的变量 $h 是以嵌套查询的母查询中的 for 语 句 L。

41、1 代入的变量, 因此在声明函数中作为参数输入变量 $h1。 0077 在句子结构解析中, 以一个运算单位进行分割并保存在let语句中, 以在where语 句中仅输入变量的方式进行改写, 因此图 7 中的 L6 在图 9 中被改写为 L5 L8 。 0078 另外, 图 9 的 L11 L16 分割出图 7 中的 L9 L11 的嵌套查询作为声明 函数udf2。 句子结构解析中, 以在where语句中仅输入变量的方式进行改写, 因此图7中的 L10 在图 9 中被改写为 L13 L14 。 0079 图 9 的 L17 L18 将使开头的 “” 单独作为 let 语句来对图 7 中的 L1 进。

42、 行分割并代入到变量$g的起点语句和后续的式子的剩余的部分分解成将变量$g作为输入 的 for 语句。图 9 中的 L19 及 L20 与图 7 中的 L2 及 L8 相应, 成为作为将各个嵌 套查询分割为声明函数后的 udf1、 udf2 而调用的形式。 0080 图 9 中的 L23 、L24 及 L26 是将图 7 中的 L14 改写后的语句, 按一个运算 单位分解成 let 语句, where 语句仅成为输入变量。图 9 中的 L25 及 L27 与图 7 中的 L15 相应, return 语句仅成为变量, 生成 XML 的式子被改写为 let 语句。 0081 句子结构解析部27的。

43、句子结构解析处理结束时, 接着, 制约条件取得部28对句子 结构解析部 27 的处理结果进行解析, 缓和结构化文档中的层次条件, 并且取得各变量中的 制约条件 (步骤 S4) 。 0082 在此, 所谓的制约条件, 是将该变量需要满足的条件的全部或一部分排列的条件。 在本实施方式中, 关于某变量, 将包含保存于该变量的要素的文档集合应当满足的条件作 为制约条件记述。例如, 变量中保存有 Bool 型的值的情况下, 记述为了其值变为 TRUE 所需 的条件。 0083 此时排列有多个条件时, 制约条件取得部 28 将条件缓和为对各条件间中的结构 化文档内的层次条件的依存关系予以无视的形式。例如,。

44、 以构成制约条件的两个条件出现 的结构条件 A B C、 A B D 是与以 A B 指定的要素集合内的同一的 B 相对 的子要素 C 及 D 时, 以虽然缓和该条件而具有相同的要素名但与不同的 B 的要素相对的子 要素 C 及 D 也成立的方式来缓和条件。由此, 成为仅在制约条件中也包含本来为对象外的 文档, 但对于此, 通过对 XML 的要素 ID 进行利用的运算来消除。 0084 图 10 是表示制约条件取得的流程的流程图。制约条件取得部 28 首先从作为输入 被赋予的句子结构解析树取得全部的起点语句 (let的语句) , 提取起点语句的输出变量, 保 存于列表 R。接着, 制约条件取得。

45、部 28 准备成为最终输出的制约条件的列表 CA、 改写对象 说 明 书 CN 103827860 A 10 8/21 页 11 列表 FA、 路径信息的列表 P。在此, 所谓的路径信息, 是仅以从 “” 或 “” 开始的一个 或多个结构条件表示该变量表示的要素的信息 (步骤 S21) 。 0085 接着, 制约条件取得部 28 对步骤 S21 取得的要素进行检查, 判断输出变量的列表 R 是否为空 (步骤 S22) 。 0086 输出变量的列表R不为空时 (步骤S22 : 否) , 制约条件取得部28从输出变量的列表 R 取得开头的要素即变量 $r 并将其从列表删除后, 将 $r 插入到列表。

46、 L。并且, 将 $r 的路径 信息插入到路径信息列表 P。 (步骤 S23) 。 0087 接着, 制约条件取得部 28 将列表 L 及路径信息列表 P 作为输入实施从运算的输 入向输出的制约条件取得处理, 并输出保存制约条件的列表 C、 制约条件取得对象变量列表 T、 对列表 T 的变量中的、 成为 where 语句的输入的变量进行保存的列表 W、 对列表 T 的变量 的路径信息进行保存的列表 P(步骤 S24) 。 0088 关于步骤 24 的处理, 以图 11 的流程图记述详细。接着, 将在步骤 S24 的处理中取 得的四个列表 C、 T、 W、 P 作为输入, 制约条件取得部 28 。

47、实施从输出向输入的制约条件取得 处理, 并输出改写对象变量列表 F、 制约信息列表 C、 路径信息列表 P(步骤 S25) 。 0089 关于步骤 25 的处理, 以图 12 的流程图记述详细。接着, 制约条件取得部 28 将在 步骤 S25 获得的制约信息列表 C 和路径信息列表 P 内的各要素分别插入到制约条件的列表 CA、 FA(步骤 S26) 。接着, 再次返回到步骤 22, 重复处理。 0090 另一方面, 在步骤 S22 的判断中输出变量的列表 R 为空时 (步骤 S22 为是) , 制约条 件取得部28将通过至此的处理所取得的制约条件的列表CA、 PA、 输出路径信息列表P, 结。

48、束 制约条件取得处理。 0091 图 11 是表示通过图 10 的步骤 24 实施的从输入向输出的制约条件取得处理的流 程的流程图。从输入向输出的制约条件取得处理中, 首先, 制约条件取得部 28 接受在图 10 的步骤23取得的列表L、 路径信息列表P作为输入, 准备在步骤S24中说明的三个制约条件 的列表 C、 制约条件取得对象变量列表 T、 对列表 T 的变量中的成为 where 语句的输入的变 量进行保存的列表 W、 保存 FLWOR 语句的列表 N 作为输出用的空的列表 (步骤 S31) 。接着, 制约条件取得部 28 判断 L 是否为空 (步骤 S32) 。 0092 在所输入的列表 L 为空时 (步骤 S32 : 否) , 制约条件取得部 28 取得 L 最后尾的要 素即变量 $l 并将其从列表中删除 (步骤 S33) 。接着, 制约条件取得部 28 判断 $l 是否存在 于制约条件取得对象变量列表 T 中 (步骤 S34) 。 0093 $l不存在于制约条件取得对象变量列表T中时 (步骤S32 : 否) , 制约条件取得部28 取得将数 $ 作为输入的 for。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1