基于本体的大规模发布订阅流水线匹配方法.pdf

上传人:Y0****01 文档编号:971838 上传时间:2018-03-22 格式:PDF 页数:16 大小:659.74KB
返回 下载 相关 举报
摘要
申请专利号:

CN200910097139.1

申请日:

2009.03.23

公开号:

CN101510213A

公开日:

2009.08.19

当前法律状态:

终止

有效性:

无权

法律详情:

未缴年费专利权终止IPC(主分类):G06F 17/30申请日:20090323授权公告日:20100721终止日期:20130323|||授权|||实质审查的生效|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

杭州电子科技大学

发明人:

胡昔祥

地址:

310018浙江省杭州市江干区下沙高教园区2号大街

优先权:

专利代理机构:

杭州求是专利事务所有限公司

代理人:

杜 军

PDF下载: PDF下载
内容摘要

本发明涉及基于本体的大规模发布订阅流水线匹配方法。现有的匹配方法无法满足大规模发布订阅中间件系统的性能要求。本发明方法首先建立RDF事件图模型和RDF订阅图模式,然后以RDF事件图和RDF订阅图模式中每条弧作为基本语义匹配单元,建立订阅语句模式索引,再将RDF事件图与RDF订阅图模式的基本语义单元匹配过程分解成以下六个流水线活动过程,组成匹配流水线,具体是:读入带类型语句、类型约束匹配、谓词约束匹配、结点映射、状态检查、输出匹配结果。本发明方法提高了基于本体的大规模发布订阅中间件系统的匹配效率,且其性能不受系统订阅数量显著影响,同时消除了不同订阅图模式之间不必要的冗余匹配。

权利要求书

1、  基于本体的大规模发布订阅流水线匹配方法,其特征在于该方法的具体步骤是:
步骤(1)建立事件/订阅的本体模型:采用RDF本体描述语言,将事件表示成RDF事件图、将订阅表示成RDF订阅图模式,在RDF事件图和RDF订阅图模式中,每个结点都有唯一的常量或变量标识以及结点所属概念类的类型标识,每条弧都有一个常量标识表示其所属概念类的属性标识;
步骤(2)预处理事件/订阅:分解RDF事件图和RDF订阅图模式,以RDF事件图和RDF订阅图模式中每条弧作为基本语义匹配单元,具体是:
①将RDF事件图分解成带类型语句的集合,带类型语句是由对应弧的两端结点常量标识、结点类型标识、以及弧的属性标识组成的五元组,并将带类型语句缓存到一个缓冲队列中;
②将RDF订阅图模式分解成订阅语句模式的集合,订阅语句模式是由对应弧的两端结点变量标识、受约束变量的谓词约束条件表达式、结点类型标识、以及弧的属性标识组成的六元组,即订阅语句模式包含了结点间的类型约束和受约束变量的谓词约束条件表达式;
步骤(3)建立订阅语句模式索引:将所有订阅语句模式组织成三层索引存储结构,其中:第一层索引使用哈希表结构,以订阅语句模式的弧标识作为哈希键值,对应的哈希表项指向第二层索引;第二层索引使用哈希表结构,以订阅语句模式的起始结点类型和终止结点类型作为哈希键值,对应的哈希表项指向第三层索引;第三层采用链表结构来存储具有相同类型约束的订阅语句模式,并存储订阅语句模式所属RDF订阅图模式的编号;
步骤(4)组建匹配流水线:将RDF事件图与RDF订阅图模式的匹配过程分解成以下六个流水线活动过程,每个活动由分工明确的线程负责处理,线程之间相互协同,从而组成匹配流水线;具体过程是:
①读入带类型语句:从缓冲队列中读取带类型语句,将其传给下一处理流程;
②类型约束匹配:根据输入的带类型语句,分别以带类型语句中的弧标识和两端结点类型标识为索引键值,搜索三层索引存储结构,过滤出类型约束相匹配的订阅语句模式,将其传给下一处理流程;
③谓词约束匹配:对于输入的订阅语句模式和带类型语句,用带类型语句的结点常量替换订阅语句模式的对应变量,计算谓词约束条件表达式,过滤出谓词约束条件计算结果为真的订阅语句模式,将其传给下一处理流程;
④结点映射:根据输入的订阅语句模式,生成从其变量结点到与其匹配的带类型语句的常量结点的映射;具体是:若订阅语句模式的起始结点是RDF订阅图模式的主结点,则可以直接生成对应的起始结点映射和终止结点映射;若订阅语句模式结点不是RDF订阅图模式的主结点,只有当起始结点映射记录已经存在时,才生成对应的终止结点映射记录,将其传给下一处理流程;
⑤状态检查:采用多维数组来记录和维护RDF订阅图模式的结点映射状态,当结点映射被RDF订阅图模式中与结点关联的所有订阅语句模式共享时,该结点映射为饱和状态,记录RDF订阅图模式中已获得饱和状态的结点映射集合;
⑥输出匹配结果:当RDF订阅图模式中每个结点都存在一个无冲突的饱和状态的结点映射时,判定该RDF订阅图模式被匹配成功,并以增量的方式输出被匹配成功的RDF订阅图模式。

说明书

基于本体的大规模发布订阅流水线匹配方法
技术领域
本发明属于计算机技术领域,涉及一种基于本体的大规模发布订阅流水线匹配方法。该方法将本体技术和并行计算技术引入发布订阅中间件系统,以提高大规模发布订阅中间件系统的匹配准确性和时间效率。
背景技术
发布订阅中间件系统非常适合因特网大规模信息分发、移动计算、网格计算等分布式异构平台松散通信的需求,有着广泛的应用前景。传统的发布订阅中间件系统有基于主题、基于内容、基于XML等形式,他们大多数依赖于特定的事件类型和简单的匹配机制,如:关键字匹配、属性值的谓词比较、XPath树模式匹配等。而基于本体的发布订阅中间件系统可以结合事件/订阅本体模型,提供事件/订阅的语义匹配,从而极大地提高匹配的准确性,同时也使用户能更方便地表达其订阅兴趣。在基于本体的发布订阅中间件系统中,RDF是表达语义的基础。为了表达事件/订阅的语义信息,通常采用RDF图来表示事件,称为RDF事件图。用建立在RDF图上的图模式来表达用户订阅条件,称为RDF订阅图模式。因而,基于本体的发布订阅中间件系统的匹配方法实质上就是一种RDF图模式匹配方法。尤其是,在大规模发布订阅中间件系统中,存在着大量带有谓词约束的RDF订阅图模式。如何高效、快速地进行RDF订阅图模式的匹配成为基于本体的大规模发布订阅中间件系统面临的主要挑战。
目前,已有一些RDF图模式匹配方法,如:汪锦岭等人提出基于扩展元语句(extended meta-statement)数组和匹配状态树的方法。该方法为每个RDF订阅图模式维护一棵独立的匹配状态树,匹配过程需要重复遍历匹配状态树的所有状态结点,并计算和生成新的状态结点。最后根据每棵匹配状态树的最终状态,来判断哪些RDF订阅图模式被匹配成功。该匹配方法的缺点是匹配时间会随着系统订阅数量增加而急剧增长。另外,Milenko等人提出一种基于全局RDF图模式的匹配方法,该方法将系统中所有RDF订阅图模式合并成一个全局的RDF订阅图模式。显然该方法只适合订阅数量较少或订阅中变量个数有限的情况,因为当每个RDF订阅图模式包含有较多变量时,由于变量标识和约束条件的多样性和差异性,合并这些RDF订阅图模式是非常困难和费时的。综合来看,已有的匹配方法远远无法满足大规模发布订阅中间件系统的性能要求。因此,需要发展一种更加高效、快速、不受系统订阅数量显著影响的、适合大规模发布订阅中间件系统的匹配方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种高效、快速、不受系统订阅数量显著影响的基于本体的大规模发布订阅流水线匹配方法。
本发明方法的具体步骤是:
步骤(1)建立事件/订阅的本体模型:采用RDF本体描述语言,将事件表示成RDF事件图、将订阅表示成RDF订阅图模式,在RDF事件图和RDF订阅图模式中,每个结点都有唯一的常量或变量标识以及结点所属概念类的类型标识,每条弧都有一个常量标识表示其所属概念类的属性标识。
步骤(2)预处理事件/订阅:分解RDF事件图和RDF订阅图模式,以RDF事件图和RDF订阅图模式中每条弧作为基本语义匹配单元,具体是:
①将RDF事件图分解成带类型语句的集合,带类型语句是由对应弧的两端结点常量标识、结点类型标识、以及弧的属性标识组成的五元组,并将带类型语句缓存到一个缓冲队列中;
②将RDF订阅图模式分解成订阅语句模式的集合,订阅语句模式是由对应弧的两端结点变量标识、受约束变量的谓词约束条件表达式、结点类型标识、以及弧的属性标识组成的六元组,即订阅语句模式包含了结点间的类型约束和受约束变量的谓词约束条件表达式;
步骤(3)建立订阅语句模式索引:将所有订阅语句模式组织成三层索引存储结构,其中:第一层对订阅语句模式的弧标识建立索引;第二层对订阅语句模式的两端结点类型对建立索引;第三层对订阅语句模式的谓词约束条件表达式建立索引;
步骤(4)组建匹配流水线:将RDF事件图与RDF订阅图模式的匹配过程分解成以下六个流水线活动过程,每个活动由分工明确的线程负责处理,线程之间相互协同,从而组成匹配流水线。具体过程是:
①读入带类型语句:从缓冲队列中读取带类型语句,将其传给下一处理流程;
②类型约束匹配:根据输入的带类型语句,查询订阅语句模式的三层索引存储结构,过滤出类型约束匹配的所有订阅语句模式,将其传给下一处理流程;
③谓词约束匹配:用带类型语句的结点常量替换订阅语句模式的变量,并执行谓词约束条件表达式,找出谓词约束条件表达式计算结果为真的订阅语句模式,将其传给下一处理流程;
④结点映射:根据输入的订阅语句模式,生成从其变量结点到与其匹配的带类型语句的常量结点的映射;具体是:若订阅语句模式的起始结点是RDF订阅图模式的主结点,则可以直接生成对应的起始结点映射和终止结点映射;否则只有当起始结点映射记录已经存在时,才可以生成对应的终止结点映射记录,将其传给下一处理流程;
⑤状态检查:记录和维护RDF订阅图模式的结点映射状态,当结点映射被RDF订阅图模式中与结点关联的所有订阅语句模式共享时,称该结点映射为饱和状态;并记录RDF订阅图模式中已获得饱和状态的结点映射集合;
⑥输出匹配结果:当RDF订阅图模式中每个结点都存在一个无冲突的饱和状态的结点映射时,可判定该RDF订阅图模式被匹配成功,并以增量的方式输出被匹配成功的RDF订阅图模式。
本发明方法利用匹配流水线提高了基于本体的大规模发布订阅中间件系统的匹配效率,且其性能不受系统订阅数量显著影响,同时消除了不同订阅图模式之间不必要的冗余匹配。另外,本发明方法支持以增量的方式输出匹配结果。综合而言,本发明方法适合大规模发布订阅中间件系统的语义匹配和性能要求。
附图说明
图1为本发明一具体实施例的RDF订阅图模式的示意图;
图2为由图1转换的三层索引存储结构的示意图;
图3为匹配流水线中的读入带类型语句处理过程流程图;
图4为匹配流水线中的类型约束匹配处理过程流程图;
图5为匹配流水线中的谓词约束匹配处理过程流程图;
图6为匹配流水线中的结点映射处理过程流程图;
图7为匹配流水线中的状态检查处理过程流程图;
图8为匹配流水线中的输出匹配结果处理过程流程图。
具体实施方式
一种基于本体的大规模发布订阅流水线匹配方法包括以下步骤:
步骤(1)建立事件/订阅的本体模型:采用RDF本体描述语言,将事件/订阅表示成RDF事件图或RDF订阅图模式的形式,具体是:
①RDF事件图:RDF语言以三元组(Subject,property,Object)的形式来表达客观事实,每个三元组称为一个RDF陈述语句。其中,主语(Subject)是被描述资源的URI引用,谓词(property)是某属性的URI引用,宾语(Object)为该属性的值,可以是URI引用或文本。如果用结点来表示主语和宾语,用有向弧来表示谓词,则一个或多个RDF语句可以表示成一个有向标记图,称为RDF图。在本发明方法中,每个事件都以RDF图的形式来表示,且图中每个结点都有唯一的结点常量标识和一个表示其所属本体概念类的类型标识,称为RDF事件图。
②RDF订阅图模式:是在RDF事件图的基础上,描述每个结点需要满足的约束条件。RDF订阅图模式的形式,如图1所示,图中每个结点都有唯一的变量标识和一个表示其所属本体概念类的类型标识,以及受约束变量的谓词约束条件表达式,变量名以*为前缀,类型标识和变量标识之间用“:”分开。
步骤(2)预处理事件/订阅:分解RDF事件图和RDF订阅图模式,以RDF事件图和RDF订阅图模式中每条弧作为基本语义匹配单元,具体是:
①对于RDF事件图,从其主结点开始,按照广度优先的顺序遍历RDF事件图中每条弧,将RDF事件图中每条弧及其两端结点转换成对应的基本语义匹配单元,也就是如下带类型语句:
t(Subject,property,Object)∧ts(SubjectClass,property,ObjectClass)
其中Subject是RDF事件图中弧的起始结点常量标识,Object是RDF事件图中弧的终止结点常量标识,property是RDF事件图中弧的常量标识,SubjectClass是Subject结点所属本体概念类的类型标识,ObjectClass是Object结点所属本体概念类的类型标识。t(Subject,property,Object)表示一个简单RDF陈述语句;ts(SubjectClass,property,ObjectClass)表示一个类型约束,即两个结点所属本体概念类型间的约束关系;
将RDF事件图分解获得的带类型语句缓存到缓冲队列中,下面用tsQueue表示带类型语句缓冲队列;
②对于RDF订阅图模式,同样从其主结点开始,按照广度优先的顺序遍历RDF订阅图模式中每条弧,将RDF订阅图模式中每条弧及其两端结点转换成对应的基本语义匹配单元,也就是如下订阅语句模式:
Subject’,Object’:t(Subject’,property’,Object’)∧ts(SubjectClass’,property’,ObjectClass’)∧θ(Object’)
其中Subject’是RDF订阅图模式中弧的起始结点变量标识,Object’是RDF订阅图模式中弧的终止结点变量标识,property’是RDF订阅图模式中弧的常量标识,SubjectClass’是Subject’结点所属本体概念类的类型标识,ObjectClass’是Object’结点所属本体概念类的类型标识。t(Subject’,property’,Object’)表示一个简单RDF陈述语句;ts(SubjectClass’,property’,ObjectClass’)表示一个类型约束,即两个结点所属本体概念类型间的约束关系;θ(Object’)是结点变量Object’的谓词约束条件表达式;
步骤(3)建立订阅语句模式索引:将所有订阅语句模式组织成三层索引存储结构,用GM表示,如图2所示;第一层索引使用哈希表结构,以订阅语句模式的弧标识作为哈希键值,对应的哈希表项指向第二层索引。第二层索引也使用哈希表结构,以订阅语句模式的起始结点类型和终止结点类型作为哈希键值,对应的哈希表项指向第三层索引。第三层采用链表结构来存储订阅语句模式的谓词约束条件表达式,包括其所属RDF订阅图模式的标识。
步骤(4)组建匹配流水线,将RDF事件图与RDF订阅图模式的匹配过程分解成以下六个流水线活动过程,每个活动由分工明确的线程负责处理,线程之间相互协同,从而组成匹配流水线。具体是:
①读入带类型语句:从缓冲队列tsQueue中读取RDF事件图的带类型语句,用TS表示,将其传给下一处理流程;详细处理流程如图3所示;
②类型约束匹配:根据输入的带类型语句TS,分别以带类型语句TS中的弧标识property和两端结点类型标识(SubjectClass,ObjectClass)为索引键值,搜索三层索引存储结构GM,过滤出类型约束相匹配的订阅语句模式,用PS表示,将其传给下一处理流程;详细处理流程如图4所示;
③谓词约束匹配:对于输入的订阅语句模式PS和带类型语句TS,用带类型语句的结点常量TS.object替换订阅语句模式的对应变量PS.object’,计算谓词约束条件表达式PS.θ(TS.object),过滤出谓词约束条件计算结果为真的订阅语句模式,将其传给下一处理流程;详细处理流程如图5所示;
④结点映射:根据输入的订阅语句模式PS和带类型语句TS,生成从PS变量结点到TS常量结点的映射;具体是:若订阅语句模式PS.Subject’结点是RDF订阅图模式的主结点,则可以直接生成对应的结点映射(PS.Subject’←TS.Subject)和(PS.Object’←TS.Object);否则只有当结点映射记录(PS.Subject’←TS.Subject)已经存在时,才可以生成结点映射记录(PS.Object’←TS.Object);将其传给下一处理流程;详细处理流程如图6所示;
⑤映射状态检查:采用多维数组来维护RDF订阅图模式的结点映射状态,多维数组结构形如VertexMap[PS.ID][PS.Subject’][TS.Subject],其中数组一维下标PS.ID表示结点所属的RDF订阅图模式的编号,数组二维下标PS.Subject’表示订阅语句模式的变量结点,数组三维下标TS.Subject’表示带类型语句的常量结点,数组记录项VertexMap[PS.ID][PS.Subject’][TS.Subject]表示已匹配成功并共享该结点映射(PS.Subject’←TS.Subject)的订阅语句模式集合;
当共享结点映射(PS.Subject’←TS.Subject)的已匹配订阅语句模式个数等于RDF订阅图模式中该结点PS.Subject’所关联的弧个数时,则称该结点映射为饱和映射;详细处理流程如图7所示。
⑥输出匹配结果:为了便于判断每个RDF订阅图模式的匹配状态,采用数组MatchedVertex[PS.ID]记录每个RDF订阅图模式已获得饱和映射的结点集合。当RDF订阅图模式中每个结点都存在一个无冲突的饱和映射,即MatchedVertex[PS.ID]=Vertex[PS.ID]时,其中Vertex[PS.ID]表示RDF订阅图模式的结点集合,则可判定该RDF订阅图模式PS.ID被匹配成功,并以增量的方式输出被匹配成功的RDF订阅图模式PS.ID;详细处理流程如图8所示。

基于本体的大规模发布订阅流水线匹配方法.pdf_第1页
第1页 / 共16页
基于本体的大规模发布订阅流水线匹配方法.pdf_第2页
第2页 / 共16页
基于本体的大规模发布订阅流水线匹配方法.pdf_第3页
第3页 / 共16页
点击查看更多>>
资源描述

《基于本体的大规模发布订阅流水线匹配方法.pdf》由会员分享,可在线阅读,更多相关《基于本体的大规模发布订阅流水线匹配方法.pdf(16页珍藏版)》请在专利查询网上搜索。

本发明涉及基于本体的大规模发布订阅流水线匹配方法。现有的匹配方法无法满足大规模发布订阅中间件系统的性能要求。本发明方法首先建立RDF事件图模型和RDF订阅图模式,然后以RDF事件图和RDF订阅图模式中每条弧作为基本语义匹配单元,建立订阅语句模式索引,再将RDF事件图与RDF订阅图模式的基本语义单元匹配过程分解成以下六个流水线活动过程,组成匹配流水线,具体是:读入带类型语句、类型约束匹配、谓词约束匹。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1