《基于DS证据理论的不确定性数据世系查询处理方法.pdf》由会员分享,可在线阅读,更多相关《基于DS证据理论的不确定性数据世系查询处理方法.pdf(12页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102651028 A(43)申请公布日 2012.08.29CN102651028A*CN102651028A*(21)申请号 201210099515.2(22)申请日 2012.04.09G06F 17/30(2006.01)(71)申请人云南大学地址 650091 云南省昆明市翠湖北路2号(72)发明人岳昆 刘惟一 杨彦超 王源田凯琳(74)专利代理机构昆明慧翔专利事务所 53112代理人程韵波 周一康(54) 发明名称基于D-S证据理论的不确定性数据世系查询处理方法(57) 摘要本发明涉及一种基于D-S证据理论的不确定性数据世系查询处理方法,以涉及不确定性数。
2、据表的选择、投影和连接查询操作为代表,从描述SPJ查询操作的世系表达式出发,获取每个输入数据项对结果数据项的基本概率赋值;接着,基于D-S证据理论中的证据组合规则,计算多个输入数据项的不确定性对各结果数据项不确定性的联合影响,得到各结果数据项的概率赋值;然后,通过对各结果数据项的概率赋值进行规范化处理,计算各结果数据项的信念值和似然值,从而度量结果数据项的不确定性,与直接基于输入不确定性数据的可能世界实例所得到的结果相一致,可基于此对世系查询结果进行验证评估。(51)Int.Cl.权利要求书4页 说明书6页 附图1页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书 4 页 说。
3、明书 6 页 附图 1 页1/4页21.一种基于D-S证据理论的不确定性数据世系查询处理方法,其特征在于:首先,以涉及两张不确定性数据表的选择、投影和连接查询操作为代表,从描述SPJ查询操作的世系表达式出发,获取每个输入数据项对结果数据项的基本概率赋值;接着,基于D-S证据理论中的Dempster证据组合规则,计算多个输入数据项的不确定性对各结果数据项不确定性的联合影响,得到各结果数据项的概率赋值;然后,通过对各结果数据项的概率赋值进行规范化处理,计算各结果数据项的信念值和似然值,从而度量结果数据项的不确定性,与直接基于输入不确定性数据的可能世界实例所得到的结果相一致,具体步骤为:(1)获取输。
4、入数据项的基本概率赋值设A和B是包含元组级不确定性的输入数据表,形如的SPJ查询操作表示:A和B的连接结果之上对属性c进行投影(c),得到包括属性c的结果数据表R,r1,r2,rl为R中的数据项(用元组标识表示),:ABR为世系函数,(rj)为rj(1jl)的世系表达式,表示为A和B中数据项的布尔公式,以A作为证据数据表,A中的一个数据项包括同一实体或事件的多个可能取值,即A对R的一个证据,a1,a2,an为A中的数据项,ai中第k个可能取值aik的概率值,记为pik(1in,k1),其中n为A中数据项个数即元组数;类似地,b1,b2,bn为B中的数据项,bx中第y个可能取值bxy的概率值记为。
5、pxy(1xn,y1),其中n为B中数据项个数,用mi(rj)表示证据证据ai对结果rj的基本概率赋值;若aikbxy(rj),则mi(rj)pikpxy;若则其中表示R中其他的数据项子集,(2)计算结果数据项的概率赋值基于D-S证据理论中的Demspter证据组合规则,将对应于任意两个不同证据的基本概率赋值mi(rj)和mi(rj)进行组合(1i,in,ii;rj,rjr1,r2,rl),针对结果数据项rrjrj,用m(r)表示对基本概率赋值mi(rj)和mi(rj)进行组合的结果,且(公式1)其中,为证据组合算子,满足交换律和结合律,因此,按照m1,m2,mn,的顺序根据公式1进行组合运算。
6、,得到A和B中所有输入数据项的不确定性对结果r的联合影响,n为证据表A中数据项的个数,(3)度量结果数据项的不确定性若表示基于世系表达式来推断结果R中数据项的不确定性时,作为证据的输入数据项之间存在冲突,因此,为了计算r(rr1,r2,rl)的信念值,将空集所丢失的概率赋值组合结果按比例补到非空结果集上,引入规范化因子对m(r)权 利 要 求 书CN 102651028 A2/4页3进行规范化处理,使得对于所有的m(r)仍有接着,计算结果数据项rj(1jl)的信念值Bel(rj)m(rj)K-1和似然值,分别表示在R中rj为真的信任程度和非假的信任程度,进而,利用信念值和似然值构成的区间来度量。
7、结果数据项rj的不确定性,表示为U(rj)Bel(rj),Pl(rj),(4)结果有效性验证评估不确定性数据的可能世界模型,以穷举的方式从不确定数据源演化出诸多确定的数据库实例,称为可能世界实例,由输入的不确定性数据项,给出仅包括rj(1jl)的可能世界实例、以及包括rj及其他数据项的可能世界实例,其概率值分别为Lj和Uj;可以得到结论Bel(rj)Lj,Uj,说明了用U(r)度量结果数据项的不确定性是合理的,以上步骤(1)(4)中,从世系表达式出发,得到输入数据项对结果数据项的基本概率赋值,考虑了未知信息,不需假设“先验知识完备”;基于Dempster证据组合规则计算结果数据项的概率赋值,反。
8、映了世系所涉及不确定性数据项之间的内在关系,并得到了输入数据不确定性对查询结果不确定性的联合影响。2.根据权利要求1所述的基于D-S证据理论的不确定性数据世系查询处理方法,其特征在于:针对交通肇事指控的世系查询处理方法,(1)不确定性数据和世系查询给定“目击调查”笔录和车管所“驾驶记录”的不确定性数据,分别如表1和表2所示,表1中的“目击调查”笔录数据包括两个证据数据项,分别为“张三”和“李四”的目击调查笔录,“可信度”反映证据数据可能取值的概率,“目击调查”与“驾驶记录”表通过“车牌号”属性进行连接;表1目击调查表2驾驶记录针对SPJ查询“驾驶员”,查询结果“指控(Suspect)”及世系表。
9、达式如表3所示,其中,(41)(21,1)(31,1)表示结果数据项41通过目击者21的第1个可能取值与驾驶员31进行连接得到,(42)(21,2)(22,1)(32,1)表示结果数据项42通过目击者21的第2个可能取值与22的第1个可能取值进行合并、再与驾驶员32进行连接得到,为目击者22的其他目击信息集合,m2()1-0.71.00.3。“?”权 利 要 求 书CN 102651028 A3/4页4表示需要计算结果数据项的可信度;表3指控(2)获取输入数据项的基本概率赋值设m1和m2分别为证据21和22的基本概率赋值函数,则由表1中的“目击调查”和表2中的“驾驶记录”数据可得:根据世系表达。
10、式,由(21,1)(31,1)(41),则m1(41)0.81.00.8;由(21,2)(32,1),(22,1)(32,1)(42),则m1(42)0.21.00.2,m2(42)0.71.00.7;由于目击者“李四”的笔录信息不完备,因此m2()1-0.71.00.3,为目击者22的其他目击信息集合,(3)计算结果数据项的概率赋值由Demspter证据组合规则,将基本概率赋值进行组合,对于两个基本概率赋值函数结果数据项的所有交集4142、41、4242和42,按照m1()m2()分别计算其相应的概率赋值(m为将m1和m2进行组合后的概率赋值函数):m(41)m1(41)m2()m(41)0。
11、.80.30.24m(4242)m1(42)m2(42)m(42)0.20.70.14m(42)m1(42)m2()m(42)0.20.30.06列入表4,表4基本概率赋值的组合基于公式1的组合方法,计算得到与世系查询处理结果中各数据项所对应的概率赋值:m(41)0.24,m2(42)0.14+0.060.20(4)度量结果数据项的不确定性说明目击调查记录中的两个证据对于得到指控驾驶员而言存在冲突,因此引入规范化因子对m()进行规范化处理:指控驾驶员“王五”和“赵六”的信念值分别为:Bel(41)m(41)K-10.24/0.440.545,Bel(42)m(42)K-10.20/0.44权 。
12、利 要 求 书CN 102651028 A4/4页50.455指控驾驶员“王五”和“赵六”的似然值分别为:因此,指控驾驶员“王五”和“赵六”的不确定性分别为:U(41)Bel(41),Pl(41)0.545,0.545,U(42)Bel(42),Pl(42)0.455,0.455(5)结果有效性验证评估“目击调查”表的可能世界为 (21,1),(21,2),(22,1),(21,1),(22,1),(21,2),(22,1),各可能世界实例的概率分别为P(21,1)0.80.30.24,P(21,2)0.20.30.06,P(22,1)0,P(21,1),(22,1)0.80.70.56,P(。
13、21,2),(22,1)0.20.70.14,由于“驾驶记录”表中各数据项的可信度为1.0,则指控驾驶员“王五”和“赵六”的可能性分别为:P(21,1)P(41)P(21,1)+P(21,1),(22,1),即0.24P(41)0.8,P(21,2)+P(21,2),(22,1)P(42)P(21,2)+P(21,2),(22,1)+P(21,1),(22,1),即0.20P(41)0.76由于Bel(41)0.5450.24,0.8和Bel(42)0.4550.20,0.761,验证了用U(41)和U(42)分别度量指控驾驶员“王五”和“赵六”的不确定性是合理的。权 利 要 求 书CN 10。
14、2651028 A1/6页6基于 D-S 证据理论的不确定性数据世系查询处理方法一、 技术领域 :0001 本发明公开了一种基于D-S证据理论的不确定性数据世系查询处理方法,涉及基于D-S证据理论进行数据中不确定性的表示和推理、追踪数据处理过程中不确定性的来源、回答世系查询的方法。属于数据库技术及信息处理技术领域。二、 背景技术0002 随着技术的进步和人们对数据采集和处理技术理解的不断深入,不确定性数据(Uncertain Data)得到了广泛的重视,普遍存在于经济、物流、金融、电信和科学计算等领域中,且扮演着关键角色。概率数据库中的数据本身带有不确定性(例如概率、区间等),查询结果也带有不。
15、确定性,这也是不确定性数据与确定性数据的最大区别。0003 世系(Lineage或Provenance)是指数据产生、并随时间推移而演变的整个过程,在科学数据和传感器数据管理、隐私保护和数字图书馆等领域中,基于世系可追踪数据及其不确定性的来源,响应用户对数据历史和不确定性的查询、提高传感器数据查询效率和准确度、返回隐私保护数据的分析结果、评价数据质量和可靠性。不确定性数据的世系,可以作为考察数据不确定性来源以及演变过程的一项重要技术。0004 世系表达式记录了数据处理和演化的过程,世系查询处理根据世系表达式和输入的不确定性数据来计算处理结果的不确定性,用以追踪不确定性数据处理和演化过程中不确定。
16、性的来源,不确定性的推理是世系查询处理的关键。基于世系信息可避免穷举所有可能世界,从而提高处理效率,为此,需要建立有效的世系表示及相应的不确定性推理机制,公知的世系查询处理方法基于布尔公式或图型结构表示世系,反映所涉及数据间的相关性,并基于概率论计算查询结果的不确定性。高明等(,2010,33(3):373-389)分析了不确定性数据世系管理的现状和挑战;黄冬梅等(,2011)基于带世系的不确定性数据管理系统ULDB,根据世系函数查找不确定性海洋监测数据的来源;高明(,2011)基于树型结构给出了不确定性数据世系的近似描述及目标数据不确定性的评价方法;岳昆等(,2011,34(10):1897。
17、-1906)针对世系查询处理,提出了基于概率图模型的不确定性数据世系表示方法。0005 公知的世系查询处理方法中,不确定性的计算以概率论为基础(需要完备的概率空间),建立在给定不确定性数据具有完备先验概率这一假设之上,未考虑实际中不确定性数据本身不完整或部分数据缺失的特点,影响了结果的准确性。为此,公知的方法将D-S证据理论用于不确定性数据的管理中,不是采用概率、而是引入信任函数来度量不完备数据中的不确定性。李芳等(,2009,29(11):3092-3094)将D-S证据理论与决策树分类技术相结合,提出了不确定性数据的分类算法;姜小华(,2009)基于证据理论扩展了ULDB系统,提出了元组置。
18、信度的概念和主观非确定性数据的表示、空值的处理、以及相应的数据查询和更新方法。但是,这些方法未涉及世系查询处理及其中的不确定性推理。0006 本发明以不确定性的推理为核心,以世系表达式和输入的不确定性数据为出发说 明 书CN 102651028 A2/6页7点,将数据项及其概率值分别作为得到处理结果数据项的证据及其信任度,提出了将输入数据项的概率值转换为D-S证据理论中基本概率赋值的方法,建立了基于D-S证据理论的结果数据项概率赋值、信念值及似然值的计算方法,给出了利用信念值和似然值描述世系查询结果不确定性的机制,以及结果有效性的验证策略。此方法为不确定性数据的查询优化、结果推断、质量评价等基。
19、于世系的相关应用提供了一种新的理论依据和技术基础。三、 发明内容0007 本发明的目的在于提供一种基于D-S证据理论的不确定性数据世系查询处理方法。针对不确定性数据本身不完整或部分信息缺失的特点,基于D-S证据理论,不需假设“先验知识完备”,将数据项及其概率值分别作为结果数据项对应的证据及其信任度,建立基于证据组合规则进行数据中不确定性推理的方法、利用信念值和似然值度量世系查询结果不确定性的机制,给出结果有效性的验证策略,以更符合实际的方式得到准确的世系查询处理结果,为不确定性数据的查询优化、结果推断和质量评价等奠定基础。0008 2、本发明按以下步骤完成0009 本发明工艺流程为:首先,以涉。
20、及两张不确定性数据表的选择、投影和连接(记为SPJ)查询操作为代表,从描述SPJ查询操作的世系表达式出发,获取每个输入数据项对结果数据项的基本概率赋值;接着,基于D-S证据理论中的Dempster证据组合规则,计算多个输入数据项的不确定性对各结果数据项不确定性的联合影响,得到各结果数据项的概率赋值;然后,通过对各结果数据项的概率赋值进行规范化处理,计算各结果数据项的信念值和似然值,从而度量结果数据项的不确定性,与直接基于输入不确定性数据的可能世界实例所得到的结果相一致,可基于此对世系查询结果进行验证评估。0010 (1)获取输入数据项的基本概率赋值0011 设A和B是包含元组级不确定性的输入数。
21、据表,形如的SPJ查询操作表示:A和B的连接结果之上对属性c进行投影(c),得到包括属性c的结果数据表R。r1,r2,rl为R中的数据项(用元组标识表示)。:ABR为世系函数,(rj)为rj(1jl)的世系表达式,表示为A和B中数据项的布尔公式。以A作为证据数据表,A中的一个数据项包括同一实体或事件的多个可能取值(各取值间用“|”分开),即A对R的一个证据。a1,a2,an为A中的数据项,ai中第k个可能取值aik的概率值(也称可信度)记为pik(1in,k1),其中n为A中数据项个数(即元组数)。0012 类似地,b1,b2,bn为B中的数据项,bx中第y个可能取值bxy的概率值记为pxy(。
22、1xn,y1),其中n为B中数据项个数(即元组数)。0013 用mi(rj)表示证据证据ai对结果rj的基本概率赋值。0014 若aikbxy(rj),则mi(rj)pikpxy;0015 若则其中表示R中其他的数据项子说 明 书CN 102651028 A3/6页8集(即未知信息)。0016 (2)计算结果数据项的概率赋值0017 基于D-S证据理论中的Demspter证据组合规则,将对应于任意两个不同证据的基本概率赋值mi(rj)和mi(rj)进行组合(1i,in,ii;rj,rjr1,r2,rl)。针对结果数据项rrjrj,用m(r)表示对基本概率赋值mi(rj)和mi(rj)进行组合的。
23、结果,且0018 (公式1)0019 其中,为证据组合算子,满足交换律和结合律,因此,按照m1,m2,mn(n为证据表A中数据项的个数)的顺序根据(公式1)进行组合运算,得到A和B中所有输入数据项的不确定性对结果r的联合影响。0020 (3)度量结果数据项的不确定性0021 若表示基于世系表达式来推断结果R中数据项的不确定性时,作为证据的输入数据项之间存在冲突。因此,为了计算r(rr1,r2,rl)的信念值,将空集所丢失的概率赋值组合结果按比例补到非空结果集上,引入规范化因子对m(r)进行规范化处理,使得对于所有的m(r)仍有0022 接着,计算结果数据项rj(1jl)的信念值Bel(rj)m。
24、(rj)K-1和似然值,分别表示在R中rj为真的信任程度和非假的信任程度。进而,利用信念值和似然值构成的区间来度量结果数据项rj的不确定性,表示为U(rj)Bel(rj),Pl(rj。0023 (4)结果有效性验证评估0024 不确定性数据的可能世界模型,以穷举的方式从不确定数据源演化出诸多确定的数据库实例(称为可能世界实例)。由输入的不确定性数据项,给出仅包括rj(1jl)的可能世界实例、以及包括rj及其他数据项的可能世界实例,其概率值分别为Lj和Uj;可以得到结论Bel(rj)Lj,Uj,说明了用U(r)度量结果数据项的不确定性是合理的。0025 以上步骤(1)(4)中,从世系表达式出发,。
25、得到输入数据项对结果数据项的基本概率赋值,考虑了未知信息,不需假设“先验知识完备”;基于Dempster证据组合规则计算结果数据项的概率赋值,反映了世系所涉及不确定性数据项之间的内在关系,并得到了输入数据不确定性对查询结果不确定性的联合影响。0026 3、与公知技术相比本发明具有的优点及积极效果0027 (1)不需假设不确定性数据“先验知识完备”,直接针对任意给定的不确定性数据进行不确定性推理,进而追踪数据处理过程中不确定性的来源、推断处理结果的可能性。与公知的基于概率论的方法相比,更具一般性和通用性。0028 (2)定量地反映了作为证据的输入数据项之间的内在关系,度量输入数据不确定性对结果数。
26、据不确定性的联合影响,提供了一种更精细、更符合实际的世系查询处理机制。与公知的建立在数据项独立假设之上的世系管理方法相比,能得到更准确的不确定性推理结果。说 明 书CN 102651028 A4/6页90029 (3)以信念值和似然值构成的区间表示世系查询结果的不确定性,能清晰地体现输入数据中先验知识是否完备对查询结果的影响。与公知的基于概率论的查询结果不确定性表示方法相比,具有更好弹性和可解释性。0030 总之,建立了一种无论先验知识是否完备均适用的不确定性数据世系查询处理方法,体现了世系本身的特征和世系管理的潜在需求。成熟的D-S证据理论为不确定性数据中不确定性的推理提供了一种有效的支撑技。
27、术,为不确定性数据世系查询处理提供了一种新的建模手段和计算方法,也为查询优化、结果推断和数据质量评价等基于世系的相关应用和不确定性数据管理领域亟待解决的关键问题提供了有力的技术支持。四、 附图说明0031 图1本发明的技术路线图。包括以下三个部分:获取作为证据的输入数据项的基本概率赋值、计算结果数据项的概率赋值和度量结果数据项的不确定性。五、 具体实施方式0032 实施例:针对交通肇事指控的世系查询处理方法0033 (1)不确定性数据和世系查询0034 给定“目击调查(Witness)”笔录和车管所“驾驶记录(Driver)”的不确定性数据,分别如表1和表2所示。表1中的“目击调查(Witne。
28、ss)”笔录数据包括两个证据数据项,分别为“张三”和“李四”的目击调查笔录,“可信度”反映证据数据可能取值的概率。“目击调查”与“驾驶记录”表通过“车牌号”属性进行连接。0035 表1目击调查(Witness)0036 0037 针对SPJ查询“驾驶员”,查询结果“指控(Suspect)”及世系表达式如表3所示。其中,(41)(21,1)(31,1)表示结果数据项41通过目击者21的第1个可能取值与驾驶员31进行连接得到,(42)(21,2)(22,1)(32,1)表示结果数据项42通过目击者21的第2个可能取值与22的第1个可能取值进行合并、再与驾驶员32进行连接得到。为目击者22的其他目击。
29、信息集合,m2()1-0.71.00.3。“?”表示需要计算结果数据项的可信度。0038 表3指控(Suspect)说 明 书CN 102651028 A5/6页100039 0040 (2)获取输入数据项的基本概率赋值0041 设m1和m2分别为证据21和22的基本概率赋值函数,则由表1中的“目击调查”和表2中的“驾驶记录”数据可得:0042 根据世系表达式,由(21,1)(31,1)(41),则m1(41)0.81.00.8;由(21,2)(32,1),(22,1)(32,1)(42),则m1(42)0.21.00.2,m2(42)0.71.00.7。0043 由于目击者“李四” (即22。
30、)的笔录信息不完备,因此m2()1-0.71.00.3,为目击者22的其他目击信息集合。0044 (3)计算结果数据项的概率赋值0045 由Demspter证据组合规则,将基本概率赋值进行组合。对于两个基本概率赋值函数结果数据项的所有交集4142、41、4242和42,按照m1()m2()分别计算其相应的概率赋值(m为将m1和m2进行组合后的概率赋值函数):0046 0047 m(41)m1(41)m2()m(41)0.80.30.240048 m(4242)m1(42)m2(42)m(42)0.20.70.140049 m(42)m1(42)m2()m(42)0.20.30.060050 如。
31、表4所示。0051 表4基本概率赋值的组合0052 0053 基于(公式1)的组合方法,计算得到与世系查询处理结果中各数据项(即指控驾驶员)所对应的概率赋值:0054 m(41)0.24,m2(42)0.14+0.060.200055 (4)度量结果数据项的不确定性0056 说明目击调查记录中的两个证据对于得到指控驾驶员而言存在冲突,因此引入规范化因子对m()进行规范化处理:0057 指控驾驶员“王五”(即41)和“赵六”(即42)的信念值分别为:0058 Bel(41)m(41)K-10.24/0.440.545,Bel(42)m(42)K-10.20/0.440.4550059 指控驾驶员“王五”和“赵六”的似然值分别为:说 明 书CN 102651028 A10。