《一种实时移动空间关键字近似TOPK查询方法.pdf》由会员分享,可在线阅读,更多相关《一种实时移动空间关键字近似TOPK查询方法.pdf(12页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103020319 A(43)申请公布日 2013.04.03CN103020319A*CN103020319A*(21)申请号 201310011084.4(22)申请日 2013.01.11G06F 17/30(2006.01)(71)申请人江苏大学地址 212013 江苏省镇江市学府路301号(72)发明人邹志文 寇爱军 陈继明(74)专利代理机构南京知识律师事务所 32207代理人卢亚丽(54) 发明名称一种实时移动空间关键字近似Top-k查询方法(57) 摘要本发明公开了一种实时移动空间关键字近似Top-k查询方法,是一种基于集合蕴含方法进行空间对象剪枝的近。
2、似Top-k查询方法,首先将空间数据对象按照剪切规则进行处理,将大量与结果不相关的数据对象剪枝,并将剩余的对象作为下一步运算的总体,然后将这一总体区域化,按照抽样方法进行处理,最终按照用户的精度要求获取适合查询的结果。本发明能够在不计算出所有查询结果的情况下,根据用户的需要提前返回用户需要的查询结果,避免了冗余操作,提高了检索的效率和质量,可应用于实时移动空间关键字查询领域。(51)Int.Cl.权利要求书1页 说明书8页 附图2页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书 1 页 说明书 8 页 附图 2 页1/1页21.一种实时移动空间关键字近似Top-k查询方法,。
3、其特征在于包括以下步骤:Step1查询点q发送查询关键字、,给服务器,服务器执行剪枝方法,获得候选集合CR;Step2设t-1时刻,将CR中的数据对象随机划分成L个子域,记录每个子域中对象数量mj,根据,及确定样本容量|S|,服务器随机产生|S|-k个1L之间的自然数,记为Y1,Y2,Y|S|-k,对任意Yi(1i|S|-k),其中1jL,对任意j(1jL),服务器计算产生的随机数中等于j的个数并记为sj,并根据历史信息计算阈值,即其中,t-1表示抽样后返回该时刻的查询结果,并向Zj子域发送(mj,sj,),1jL;Step3当子域Zj接收到服务器发送的(mj,sj,)时,该子域向服务器发送t。
4、-1时刻按降序排列的数据及对应对象ID,每个子域计算中大于等于的个数,并向服务器传送数据信息;Step4服务器接收各子域数据后,输出该时刻前k个最大值及其对应的数据对象。若查询q关键字已经修改,转Step1,若收到可用数据继续执行。2.如权利要求1所述的一种实时移动空间关键字近似Top-k查询方法,其特征在于所述剪枝方法是基于多核子蕴含方法,具体步骤如下:初始化数据集合A+,A-,A0,如果e是一个对象且e不属于集合v*,初始化阈值;(1)当w(e)w(v*),并满足性质一时,将对象e插入到数据集合A+中;并重新修改阈值(2)当w(e)w(v*),并满足性质一时,将对象e插入到数据集合A+中;。
5、并重新修改说 明 书CN 103020319 A3/8页5阈值0018 (2)当w(e),q.k=2,在v1,v2,v3,v4的右边的括号里的数字表示查询关键字q.与该对象描述信息的关联系数,它是采用文本关联函数trq(v.)动态计算而来的。通过评分函数q(.)获取的查询结果为,其中v2,v3的评分值分别为0.478(=0.11/0.23)、0.54(=0.13/0.24)。当q移动到q位置时,查询结果为,其中v2,v4的评分值分别为0.478和0.48。0050 定义3单核蕴含区域Dome,f:在二维空间u中,对于给定的点e,f,若e单核蕴含f,当且仅当满足条件:0051 Dome,feu|。
6、dw(z,e)dw(z,f) (3)0052 定义4多核子蕴含区域:存在点集合v*DS,v*的多核子蕴含区域定义为:0053 0054 设DSv*DS0DS+DS-,其中DS+包含的所有点都高于集合v*中的权重,集合DS-表示其包含的所有对象的权重都要低于集合v*中的所有对象的权重,集合DS0表示其包含的所有对象的权重等于集合v*中对象的权重。通过式(4),将多核子蕴含区域定义为式(5)的形式,即假如v*的近邻点v的权重高于它,则将v的多核子蕴含区域加入到v*的多核子蕴含区域;若小于w(v*)的权重,则将v的多核子蕴含区域剪切掉,若相等则形成一条直线。0055 0056 空间中一个点的多核子蕴。
7、含区域单元通过该点的权重构建该点的影响区域。图2显示了一个数据集v1,v2,v3,v4,v*,其中v*是查询点q的最优解集合。阴影区域是集合v*的多核子蕴含区域单元。在问题模型中,一个数据对象v的权重w(v)由文本的关联度(数据对象的描述信息与查询关键字之间的关联)决定。w(v)仅当服务器接收到查询请求q被接受时计算获取的,因此在本发明设定的研究模型中,w(v)的不能预先计算。0057 图2的阴影区域表示集合v*的多核子蕴含区域(v*),表示在区域(v*)中的点到集合v*的核子连通距离都要小于集合DS中不属于该区域的点的核子连通距离。可以得出DS+v2,v3,DS-v1,v4。如图2所示,因此。
8、,v*的多核子蕴含区域可以表示为:0058 以上步骤中近似取值相关理论证明如下:说 明 书CN 103020319 A5/8页70059 定理1设t时刻,D为一个任意数据分布的数据集合,Top(k,Dt)=i1,i2,.,ik则的近似频率那么存在任意一个随机样本S,对于任意0,满足0060 0061 对于任意01,有0062 证明:利用切尔诺夫界证明这个定理。由于候选集集合CR的标号集G=1,2,n,使得(1+)d(j)d(i),1jn。即对任意数据分布的数据对象集合,对其包含的数据信息的抽样满足独立的泊松实验条件。设由于随机变量DS(ir)的期望为|S|PD(i),由切尔诺夫界推出则知式(6。
9、)成立,同理可证式(7)成立。0063 由定理1得,随着样本数的增加,发生偏离其期望倍的概率越小。若且样本数|S|不够充分大,使得成立。当1k时,样本S输出的近似Top-k必然不满足故相对误差大于0064 定理2设时,若成立,其中01。0065 证明:由定理1中的式(7)知,已知且则因此,成立。0066 推论设存在1k,当随机抽取的样本满足时,成立。0067 证明:由于是的递减函数,当1k且时,显然成立。即当时,随机样本输出的近似Top-k满足的概率大于等于1-。因此可以选取适当的,在|S|(1-)PD(i1)1的条件下,使得取到最小值。说 明 书CN 103020319 A6/8页80068。
10、 本发明具有有益效果。本发明基于多核子蕴含方法的剪枝方法,可用于多个空间对象同时剪枝,并且提出的方法可以根据用户的不同需求,按照用户不同的输入,返回不同精度的查询结果,使得本发明的方法更灵活,适用性更广泛。附图说明0069 图1是关键字查询实例,图1(a)是对象关联系数,图1(b)是描述信息和距离0070 图2是多核子蕴含区域举例。0071 图3(a)是是剪切规则一。0072 图3(b)是剪切规则二、三和剪切规则四。0073 图4是本发明方法步骤流程图。具体实施例0074 下面结合附图对本发明的技术方案做进一步详细说明。0075 输入:A+,A-,A0赋予数据集0076 输出:候选集合CR00。
11、77 0078 说 明 书CN 103020319 A7/8页90079 18.否则0080 19.读取e的孩子结点;0081 20.在孩子结点的每个入口结点e,将e为根的子树中,取出以集合v*与点e的最小边界矩形蕴含的点出堆;0082 21.返回候选集合CR.0083 通过实例说明性质1和性质2的剪切效果。如图2所示,令v*为对安全区域有影响的数据对象集合,阴影区域记为,则A+v2,A-v1,当前未被访问的对象v3,v4,设v3DS+,v4DS-,由于存在关系由性质1可知,v3不在临时安全区域中;因为存在关系由性质2知,v4也不在中。0084 本发明通过实例剪切规则14的实现方法。如图3(a。
12、)所示,A+v1,A-v2,然后检验当前未被访问到的对象v3,设v3DS-,由于满足关系由规则1可知,v3不影响。如图3(b)所示,阴影区域记为,此时A+v3,A0v2,当前未被访问到的对象v1,v4,设v1DS-,v4DS0,由于存在关系由规则2得,对象v1不影响。由于存在关系由规则3得,v4不影响。同样道理,由于存在关系由规则4得,v4不影响。通过上面的内容知AA+A-A0,最终得到集合A称为影响的集合。客户端不需要提供安全区域的形状就可以通过使用条件判断当前查询点q是否属于该安全区域。0085 下面对整个流程举例说明:0086 设定数据集合DS含有3000个数据对象,分别记为v1,v2,。
13、v3000,根据定义2中的评分函数公式可以得到查询点q与数据对象的关联系数,并且在服务器上预先构建初始化的基于关联系数的数据对象倒排表。0087 由于各子域执行过程是一致的,为了便于说明,设定t=2,举例说明标号为1的子域执行流程:0088 Step1查询点发送数据:e=3,f=4、=0.118,=0.05,k=2给服务器,服务器端根据输入信息,进行处理,设定查询关键字集合此时的评分为0.46,那么所有关联系数低于0.46的数据对象将被全部剪枝,最终获得候选集合,假设此时数据对象个数为1600;说 明 书CN 103020319 A8/8页100089 Step2在t=2时刻,将候选集合的数据。
14、对象划分成5个子域,并分别编号为1,2,5。设定标号为1的子域中对象数量为320,根据,及编号为1的子域中的对象的感知数据来确定样本容量为203,服务器产生201个15之间的自然数,记为Y1,Y2,Y201,那么服务器产生随机数j=2的概率为320-203/3000-2,此时设定满足公式的对象个数为120,此时根据定义1计算出连通距离,并带入公式计算此时刻阈值,然后向标号为1的子域发送参数(320,120,);0090 Step3当标号为1的子域接收到服务器发送的参数信息时,该子域向服务器发送t=1时刻按降序排列的数据及对应对象ID,并向服务器传送。0091 Step4服务器接收子域1的数据后。
15、,输出该时刻前2个最大值及其对应的数据对象;当查询关键字产生变化,转Step1,若收到可用数据继续执行。0092 上面的例子说明,该方法不仅可以通过剪枝操作裁剪掉大量权重低的数据对象,与此同时,还能作近似处理。可以看出,由3000个数据对象,产生了候选集合对象数为1600,当=0.118,=0.05时,样本容量为203,即当抽样的大小仅占全部数据对象的13%时,就能满足算法输出的近似Top-k结果的平均相对误差小于/(1+)0.118/(1+0.118)的概率大于0.95.即该方法仅需要少量的样本就可以满足(,)的误差要求,从而可以节省大量的通信开销。说 明 书CN 103020319 A10。