《一种减小财政数据库储存量的方法.pdf》由会员分享,可在线阅读,更多相关《一种减小财政数据库储存量的方法.pdf(8页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN102354319A43申请公布日20120215CN102354319ACN102354319A21申请号201110285664322申请日20110923G06F17/3020060171申请人浙江工商大学地址310018浙江省杭州市下沙高教园区学正街18号72发明人刘东升琚春华许翀寰陈庭贵74专利代理机构杭州天正专利事务所有限公司33201代理人王兵黄美娟54发明名称一种减小财政数据库储存量的方法57摘要本发明涉及减小财政数据库存储量的方法,首先将从财政和税务处提取的实时数据进行预处理,然后对经过预处理的数据进行基于小波变换的数据压缩,得到能够反应数据重要特征的小波概。
2、要,最后将小波概要中的小波系数进行存储,进而可以重构实时数据。本发明有效地降低了现行地方财政和税务在数据预处理方面的巨额成本,应用这种方法能够实现在保存财政和税务数据完整信息的前提下,大大减少了数据存储和传输的大小,具有良好的实用价值。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书4页附图1页CN102354328A1/2页21减小财政数据库储存量的方法,包括以下步骤1压缩数据节点阈值过滤假设数据流是稳定的,将数据流中不断到来的数据作为第1层,在相同的时间内到来的数据序列中平均由N个数据组成,则这N个数据组成一个数据节点,第1层的数据节点数有其中M为数据流的。
3、总数据个数;2数据预处理对实时数据流进行噪声处理,主要是对数据序列进行空缺值处理。假设数据序列的属性个数为M,如果空缺属性个数则认为该条数据流是噪声,直接过滤;反之,将空缺属性补充为所有该属性所有取值的平均值;3压缩处理将第1层每N个数据组成的子序列进行浓缩,提炼成第2层中的一个数据节点,记该子序列为DI,该数据节点为PI,则PI中保存了DI的概要信息。随着新数据的不断到来,第2层上的数据节点不断增加,当第2层上的数据节点个数时,将最老的N个数据节点进行归并,合并成第3层上的1个数据节点,并计算数据节点的概要信息,以此逐层向上,从而使得该数据流总是被压缩成一组分层次的数据节点,最后构造一棵能够。
4、存储小波系数的误差树;误差树中,节点CI对应小波系数,叶节点XIJ对应原始数据。对一给定的误差树T和T中的内节点CK,令LEAVESK表示以CK为根的子树的叶节点集合,LEFTLEAVESK表示CK的左子树的叶节点集合,RIGHTLEAVESK表示CK的右子树的叶节点集合,PATHK为T中从CK或XIJ到根的路径上全体非零系数的集合。设AK是LEFTLEAVESK中数据的均值,BK是RIGHTLEAVESK中数据的均值,则CKAKBK/2,而C1是全部数据的均值;包括以下步骤首先数据流XIXI1,XI2,XIQ,将XIXI1,XI2,XIQ中的数据两两分对求其均值和均值与第二个数据的差值,则差。
5、值就是第2层的数据节点,也是相应的小波系数C2K;其次计算误差树中第3层的小波系数。令LEAVESK表示以CK为根的子树的叶节点集合,LEFTLEAVESK表示CK的左子树的叶节点集合,RIGHTLEAVESK表示CK的右子树的叶节点集合。设AK是LEFTLEAVESK中数据的均值,BK是RIGHTLEAVESK中数据的均值,则C3KAKBK/2;最后依次继续计算,直至误差树的最高层的小波系数,它也等于全部数据的平均值;4小波系数的筛选其遵循的原则一是绝对值大的系数的缺失会对相关的数据值的重构有更大的影响;二是从误差树上易知,越接近根的系数用于重构时影响的数据越多,具有更高的重要性。本发明运用。
6、误差平方和SUMOFSQUAREDERRORSSE来进行小波系数的筛选,其中D表示压缩之前的数据序列,D表示压缩之后的数据序列,XI是数据序列D的第I个数据,XI是数据序列D的第I个数;设对子序列XIXI1,XI2,XIQ,提取得到的数据节点PI概要信息表示成四元组其中TTXN,N|D|,T为该数据节点的时间戳,表示D中最后一个数据的到达时刻,N为D中数据个数,为D中数据的均值。对D进行DWT变换,分量中保权利要求书CN102354319ACN102354328A2/2页3存变换得到的RN个最重要的小波系数,R取使最小的前R个。对子序列XI进行小波变换,对小波系数进行规范化,分量中保存得到的N。
7、个系数中最重要的R个系数,因为系数重要性的衡量基于SSE最小化,所以中应保留R个绝对值最大的系数。权利要求书CN102354319ACN102354328A1/4页4一种减小财政数据库储存量的方法技术领域0001本发明涉及数据库储存量压缩技术领域,具体涉及一种基于小波变换的财政数据库压缩方法。特别是适用处理财政和税务的大容量的实时数据。技术背景0002许多应用场合的数据都以连续的流的形式出现,被称为数据流,如证券交易、信用卡交易、商场购物交易、网站点击流、电话呼叫记录等应用中所产生的连续不断的数据。其主要特点为1数据流动态增长,长度可能无限;2对流中的数据只能一次扫描,利用一次扫描建立数据流的。
8、近似概要结构,其后的处理只能依赖该概要结构。0003财政方面的实时数据通常具有数量大、数据流量突发性高等特点,如何保存如此庞大的实时数据以及如何访问这些保存的历史数据一直是个难题。因为这些实时数据过于巨大,如果简单的将所有的数据保存下来,不但占用很大的物理空间,而且使得以后再查询特定历史时间的数据时效率会大大折扣。0004因为我们是对财政数据进行实时采集,所以得到的都是基于时间序列的数据,这些数据具有时间属性,但是它的时态关系和时态数据库系统相比要简单一些,主要是说其时间是序列化的。用户可能对那些在较小范围变化的数据兴趣不大,仅较为关注默写变化剧烈的拐点数据。其实,只要这些被丢弃的数据在一定的。
9、误差范围内不影响过程历史数据的重构,数据压缩完全可以通过采用丢弃一些数据的方法来减少对存储资源的需求。0005数据压缩完全可以通过采用丢弃一些数据的方法减少存储资源,同时丢弃的这些数据必须保证在一定的误差控制中不影响对历史数据的重构,方便之后对历史数据的查询处理。目前,数据压缩的方法有很多,但是本质上不外乎完全可逆的冗余度压缩和实际上不可逆的熵压缩两类。冗余度压缩常用于磁盘文件、数据通信和气象卫星云图等不允许在压缩过程中有丝毫损失的场合中。但它的压缩比通常只有几倍,远远不能满足数字视听应用的要求。在实践的数字视听设备中,差不多都采用压缩比更高、但实际有损的熵压缩技术。只要作为最终用户的人觉察不。
10、出或者能够容忍这些失真,就允许对数字音像信号进一步压缩以换取更高的编码效率。但是这些方法的压缩比不高,存储数据的空间有限,常常导致数据失真。发明内容0006本发明的目的在于克服现有技术的不足之处,提出一种压缩比高、数据失真少的减小财政数据库储存量的方法。0007本发明所述的减小财政数据库储存量的方法,包括以下步骤00081压缩数据节点阈值过滤假设数据流是稳定的,将数据流中不断到来的数据作为第1层,在相同的时间内到来的数据序列中平均由N个数据组成,则这N个数据组成一个数据节点,第1层的数据节点数有其中M为数据流的总数据个数;说明书CN102354319ACN102354328A2/4页50009。
11、2数据预处理对实时数据流进行噪声处理,主要是对数据序列进行空缺值处理。假设数据序列的属性个数为M,如果空缺属性个数则认为该条数据流是噪声,直接过滤;反之,将空缺属性补充为所有该属性所有取值的平均值;00103压缩处理将第1层每N个数据组成的子序列进行浓缩,提炼成第2层中的一个数据节点,记该子序列为DI,该数据节点为PI,则PI中保存了DI的概要信息。随着新数据的不断到来,第2层上的数据节点不断增加,当第2层上的数据节点个数时,将最老的N个数据节点进行归并,合并成第3层上的1个数据节点,并计算数据节点的概要信息,以此逐层向上,从而使得该数据流总是被压缩成一组分层次的数据节点,最后构造一棵能够存储。
12、小波系数的误差树;0011误差树中,节点CI对应小波系数,叶节点XIJ对应原始数据。对一给定的误差树T和T中的内节点CK,令LEAVESK表示以CK为根的子树的叶节点集合,LEFTLEAVESK表示CK的左子树的叶节点集合,RIGHTLEAVESK表示CK的右子树的叶节点集合,PATHK为T中从CK或XIJ到根的路径上全体非零系数的集合。设AK是LEFTLEAVESK中数据的均值,BK是RIGHTLEAVESK中数据的均值,则CKAKBK/2,而C1是全部数据的均值;0012包括以下步骤0013首先数据流XIXI1,XI2,XIQ,将XIXI1,XI2,XIQ中的数据两两分对求其均值和均值与第。
13、二个数据的差值,则差值就是第2层的数据节点,也是相应的小波系数C2K;0014其次计算误差树中第3层的小波系数。令LEAVESK表示以CK为根的子树的叶节点集合,LEFTLEAVESK表示CK的左子树的叶节点集合,RIGHTLEAVESK表示CK的右子树的叶节点集合。设AK是LEFTLEAVESK中数据的均值,BK是RIGHTLEAVESK中数据的均值,则C3KAKBK/2;0015最后依次继续计算,直至误差树的最高层的小波系数,它也等于全部数据的平均值;00164小波系数的筛选其遵循的原则一是绝对值大的系数的缺失会对相关的数据值的重构有更大的影响;二是从误差树上易知,越接近根的系数用于重构时。
14、影响的数据越多,具有更高的重要性。本发明运用误差平方和SUMOFSQUAREDERRORSSE来进行小波系数的筛选,其中D表示压缩之前的数据序列,D表示压缩之后的数据序列,XI是数据序列D的第I个数据,XI是数据序列D的第I个数;0017设对子序列XIXI1,XI2,XIQ,提取得到的数据节点PI概要信息表示成四元组其中TTXN,N|D|,T为该数据节点的时间戳,表示D中最后一个数据的到达时刻,N为D中数据个数,为D中数据的均值。对D进行DWT变换,分量中保存变换得到的RN个最重要的小波系数,R取使最小的前R个。对子序列XI进行小波变换,对小波系数进行规范化,分量中保存得到的N个系数中最重要的。
15、R个系数,因为系数重要性的衡量基于SSE最小化,所以中应保留R个绝对值最大的系数。说明书CN102354319ACN102354328A3/4页60018本发明方法只需要对数据流进行一次扫描就可得到小波系数,最后仅存储少量的小波系数来表征数据流。它能够在保证数据压缩高效率的前提下尽可能正确无误的恢复历史的数据。0019小波变换方法利用变换后生成的少量小波系数近似模拟原始数据,在数据库和数据处理领域,通过对原始数据集进行小波变换,保存部分重要的小波系数,把这些小波系数作为原始数据的压缩表示,进而能够近似地还原出原始数据集合。0020本发明的有益效果在于0021能够在保留数据主要信息的前提下大大减。
16、少数据存储空间,压缩比高、数据失真小,具有良好的实际应用价值。附图说明0022图1是本发明方法的具体实现流程图。具体实施方式0023下面结合附图说明和具体实施方式对本发明做进一步详细说明。0024本发明提出的减小财政数据库储存量的方法,包括以下步骤00251压缩数据节点阈值过滤假设数据流是稳定的,将数据流中不断到来的数据作为第1层,在相同的时间内到来的数据序列中平均由N个数据组成,则这N个数据组成一个数据节点,第1层的数据节点数有其中M为数据流的总数据个数。00262数据预处理对实时数据流进行噪声处理,主要是对数据序列进行空缺值处理。假设数据序列的属性个数为M,如果空缺属性个数则认为该条数据流。
17、是噪声,直接过滤。反之,将空缺属性补充为所有该属性所有取值的平均值。00273压缩处理将第1层每N个数据组成的子序列进行浓缩,提炼成第2层中的一个数据节点,记该子序列为DI,该数据节点为PI,则PI中保存了DI的概要信息。随着新数据的不断到来,第2层上的数据节点不断增加,当第2层上的数据节点个数时,将最老的N个数据节点进行归并,合并成第3层上的1个数据节点,并计算数据节点的概要信息,以此逐层向上,从而使得该数据流总是被压缩成一组分层次的数据节点,最后构造一棵能够存储小波系数的误差树。0028误差树中,节点CI对应小波系数,叶节点XIJ对应原始数据。对一给定的误差树T和T中的内节点CK,令LEA。
18、VESK表示以CK为根的子树的叶节点集合,LEFTLEAVESK表示CK的左子树的叶节点集合,RIGHTLEAVESK表示CK的右子树的叶节点集合,PATHK为T中从CK或XIJ到根的路径上全体非零系数的集合。设AK是LEFTLEAVESK中数据的均值,BK是RIGHTLEAVESK中数据的均值,则CKAKBK/2,而C1是全部数据的均值。0029包括以下步骤0030首先数据流XIXI1,XI2,XIQ,将XIXI1,XI2,XIQ中的数据两两分对求其均值和均值与第二个数据的差值,则差值就是第2层的数据节点,也是相应的小波系数C2K。说明书CN102354319ACN102354328A4/4。
19、页70031其次计算误差树中第3层的小波系数。令LEAVESK表示以CK为根的子树的叶节点集合,LEFTLEAVESK表示CK的左子树的叶节点集合,RIGHTLEAVESK表示CK的右子树的叶节点集合。设AK是LEFTLEAVESK中数据的均值,BK是RIGHTLEAVESK中数据的均值,则C3KAKBK/2。0032最后依次继续计算,直至误差树的最高层的小波系数,它也等于全部数据的平均值。00334小波系数的筛选其遵循的原则一是绝对值大的系数的缺失会对相关的数据值的重构有更大的影响;二是从误差树上易知,越接近根的系数用于重构时影响的数据越多,具有更高的重要性。本发明运用误差平方和SUMOFS。
20、QUAREDERRORSSE来进行小波系数的筛选,其中D表示压缩之前的数据序列,D表示压缩之后的数据序列,XI是数据序列D的第I个数据,XI是数据序列D的第I个数,设对子序列XIXI1,XI2,XIQ,提取得到的数据节点PI概要信息表示成四元组其中TTXN,N|D|,T为该数据节点的时间戳,表示D中最后一个数据的到达时刻,N为D中数据个数,为D中数据的均值。对D进行DWT变换,分量中保存变换得到的RN个最重要的小波系数,R取使最小的前R个。对子序列XI进行小波变换,对小波系数进行规范化,分量中保存得到的N个系数中最重要的R个系数,因为系数重要性的衡量基于SSE最小化,所以中应保留R个绝对值最大的系数。说明书CN102354319ACN102354328A1/1页8图1说明书附图CN102354319A。