一种提供数据的方法及装置.pdf

上传人:r7 文档编号:623441 上传时间:2018-02-26 格式:PDF 页数:12 大小:2.79MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310153297.0

申请日:

2013.04.27

公开号:

CN104123303A

公开日:

2014.10.29

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20130427|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

阿里巴巴集团控股有限公司

发明人:

邓中华; 王赛; 朋新宇

地址:

英属开曼群岛大开曼岛资本大厦一座四层847号邮箱

优先权:

专利代理机构:

北京同达信恒知识产权代理有限公司 11291

代理人:

郭润湘

PDF下载: PDF下载
内容摘要

本申请公开了一种提供数据的方法及装置,用以解决现有技术中浪费数据仓库的计算资源,提供数据的效率较低的问题。该方法预先在数据仓库的IDS中保存通用指标数据,当数据仓库接收到用户发送的数据获取请求时,直接从IDS预先保存的通用指标数据中查找该数据获取请求中携带的指标标识信息对应的通用指标数据,并提供给用户。通过上述方法,数据仓库在向用户提供通用指标数据时,可直接将预先保存在IDS中的通用指标数据提供给用户,而无需将源数据从最底层的ODS开始逐层向上处理得到指标数据,再提供给用户,因此可有效节省数据仓库的计算资源,也提高了提供数据的效率。

权利要求书

1.  一种提供数据的方法,其特征在于,包括:
预先对数据仓库中保存的源数据进行统计,得到通用指标数据,将得到的通用指标数据保存在所述数据仓库的主题宽表层IDS中;
当所述数据仓库接收数据获取请求时,确定所述数据获取请求中携带的指标标识信息;并
根据所述指标标识信息,在所述IDS保存的通用指标数据中,查找所述指标标识信息对应的通用指标数据;以及
将查找到的通用指标数据提供给发送所述数据获取请求的用户。

2.
  如权利要求1所述的方法,其特征在于,将得到的通用指标数据保存在所述数据仓库的IDS中,具体包括:
预先在所述IDS中设置业务主题表,以及各业务主题表与指标标识信息的从属关系;
确定得到的通用指标数据的指标标识信息所属的业务主题表,并将所述通用指标数据保存在确定的业务主题表中;
在所述IDS保存的通用指标数据中,查找所述指标标识信息对应的通用指标数据,具体包括:
根据在所述IDS中预设的各业务主题表,以及各业务主题表与各指标标识信息的从属关系,查找所述数据获取请求中携带的指标标识信息所属的业务主题表;并
在查找到的业务主题表中的各通用指标数据中,查找与所述数据获取请求中携带的指标标识信息对应的通用指标数据。

3.
  如权利要求2所述的方法,其特征在于,一个指标标识信息包括一个原子指标标识信息、若干个指标修饰词以及一个时间信息;
预先对数据仓库中保存的源数据进行统计,得到通用指标数据,具体包括:
针对一个指标标识信息,根据预先针对该指标标识信息中包含的原子指标 标识信息设定的统计算法,并基于预先针对该指标标识信息中包含的时间信息和每个指标修饰词设定的统计条件,对源数据进行统计,得到该指标标识信息对应的通用指标数据。

4.
  如权利要求1所述的方法,其特征在于,预先对所述IDS中保存的至少一个通用指标数据进行统计,得到个性化指标数据,并保存在应用层ADS中;
所述方法还包括:
当在IDS中未查找到所述数据获取请求中携带的指标标识信息对应的通用指标数据时,在所述ADS中查找所述指标标识信息对应的个性化指标数据。

5.
  如权利要求1所述的方法,其特征在于,预先在所述IDS中保存属性数据;
所述方法还包括:
当所述数据仓库接收到的数据获取请求中携带属性标识信息时,所述数据仓库根据所述属性标识信息,在所述IDS保存的属性数据中,查找所述属性标识信息对应的属性数据;并
将查找到的属性数据提供给发送所述数据获取请求的用户。

6.
  一种提供数据的装置,其特征在于,包括:
主题宽表层IDS,用于预先对源数据进行统计,得到通用指标数据并保存;
接收模块,用于接收数据获取请求,并确定所述数据获取请求中携带的指标标识信息;
查找模块,用于根据所述指标标识信息,在所述IDS保存的通用指标数据中,查找所述指标标识信息对应的通用指标数据;
提供模块,用于将查找到的通用指标数据提供给发送所述数据获取请求的用户。

7.
  如权利要求6所述的装置,其特征在于,所述IDS具体用于,保存预先设置的业务主题表,以及各业务主题表与指标标识信息的从属关系;确定得 到的通用指标数据的指标标识信息所属的业务主题表,并将所述通用指标数据保存在确定的业务主题表中;
所述查找模块具体用于,根据在所述IDS中预设的各业务主题表,以及各业务主题表与各指标标识信息的从属关系,查找所述数据获取请求中携带的指标标识信息所属的业务主题表;在查找到的业务主题表中的各通用指标数据中,查找与所述数据获取请求中携带的指标标识信息对应的通用指标数据。

8.
  如权利要求7所述的装置,其特征在于,所述IDS保存的一个指标标识信息包括一个原子指标标识信息、若干个指标修饰词以及一个时间信息;
所述IDS具体用于,针对一个指标标识信息,根据预先针对该指标标识信息中包含的原子指标标识信息设定的统计算法,并基于预先针对该指标标识信息中包含的时间信息和每个指标修饰词设定的统计条件,对源数据进行统计,得到该指标标识信息对应的通用指标数据。

9.
  如权利要求6所述的装置,其特征在于,所述装置还包括:
应用层ADS,用于预先对所述IDS中保存的至少一个通用指标数据进行统计,得到个性化指标数据并保存;
所述查找模块还用于,当在IDS中未查找到所述数据获取请求中携带的指标标识信息对应的通用指标数据时,在所述ADS中查找所述指标标识信息对应的个性化指标数据。

10.
  如权利要求6所述的装置,其特征在于,所述IDS还用于,保存属性数据;
所述查找模块还用于,当所述接收模块接收到的所述数据获取请求中携带属性标识信息时,根据所述属性标识信息,在所述IDS保存的属性数据中,查找所述属性标识信息对应的属性数据;
所述提供模块还用于,将查找到的属性数据提供给发送所述数据获取请求的用户。

说明书

一种提供数据的方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种提供数据的方法及装置。
背景技术
目前,数据仓库主要分为四层:源数据层(ODS)、视图层(BDS)、主题宽表层(IDS)、应用层(ADS)。这四层的逻辑层级关系从上到下依次是:ADS、IDS、BDS、ODS。
在现有技术中,当用户根据其需要获取某些指标数据时,数据仓库需要先从ODS中提取出相应的源数据,再通过BDS对提取的源数据进行数据清洗,然后通过IDS根据用户的需要对清洗后的数据进行计算和汇总,得到用户所需的指标数据,最后通过ADS将用户所需的指标数据提供给能给用户。
其中,指标数据是指对数据仓库中的某些源数据按照某个维度进行计算统计得到的数据,如,根据数据仓库中最近1个月内的交易数据(源数据),统计最近一个月内的订单金额,该订单金额就是得到的指标数据。
然而,在现有技术中,无论各用户要获取的指标数据是否相同,数据仓库均需要从最底层的ODS开始,依次经过ODS、BDS、IDS、ADS才能将相应的指标数据提供给用户,这显然会浪费数据仓库大量的计算资源,也降低了提供数据的效率。
发明内容
本申请实施例提供一种提供数据的方法及装置,用以解决现有技术中浪费数据仓库的计算资源,提供数据的效率较低的问题。
本申请实施例提供的一种提供数据的方法,包括:
预先对数据仓库中保存的源数据进行统计,得到通用指标数据,将得到的通用指标数据保存在所述数据仓库的主题宽表层IDS中;
当所述数据仓库接收数据获取请求时,确定所述数据获取请求中携带的指标标识信息;并
根据所述指标标识信息,在所述IDS保存的通用指标数据中,查找所述指标标识信息对应的通用指标数据;以及
将查找到的通用指标数据提供给发送所述数据获取请求的用户。
本申请实施例提供的一种提供数据的装置,包括:
主题宽表层IDS,用于预先对源数据进行统计,得到通用指标数据并保存;
接收模块,用于接收数据获取请求,并确定所述数据获取请求中携带的指标标识信息;
查找模块,用于根据所述指标标识信息,在所述IDS保存的通用指标数据中,查找所述指标标识信息对应的通用指标数据;
提供模块,用于将查找到的通用指标数据提供给发送所述数据获取请求的用户。
本申请实施例提供一种提供数据的方法及装置,该方法预先在数据仓库的IDS中保存通用指标数据,当数据仓库接收到用户发送的数据获取请求时,直接从IDS预先保存的通用指标数据中查找该数据获取请求中携带的指标标识信息对应的通用指标数据,并提供给用户。通过上述方法,数据仓库在向用户提供通用指标数据时,可直接将预先保存在IDS中的通用指标数据提供给用户,而无需将源数据从最底层的ODS开始逐层向上处理得到指标数据,再提供给用户,因此可有效节省数据仓库的计算资源,也提高了提供数据的效率。
附图说明
图1为本申请实施例提供的数据仓库提供数据的过程;
图2为本申请实施例提供的提供数据的装置结构示意图。
具体实施方式
为了节省数据仓库的计算资源,也提高数据仓库提供数据的效率,本申请实施例中预先将通用指标数据保存在IDS中,当提供通用指标数据时,可直接将IDS保存的相应通用指标数据提供给用户。
下面结合附图对本申请优选的实施方式进行详细说明。
图1为本申请实施例提供的数据仓库提供数据的过程,具体包括以下步骤:
S101:预先对数据仓库中保存的源数据进行统计,得到通用指标数据,将得到的通用指标数据保存在数据仓库的IDS中。
在本申请实施例中,数据仓库可预先对保存在ODS中的源数据进行统计,得到通用指标数据,并保存在IDS中。
具体的,可预先在IDS中设置业务主题表,以及各业务主题表与指标标识信息的从属关系,对源数据进行统计并得到通用指标数据后,则可确定得到的通用指标数据的指标标识信息所属的业务主题表,并将得到的通用指标数据保存在确定的业务主题表中。
其中,由于数据仓库的源数据中大多是用户的操作数据,如用户的付款操作、退款操作、注册操作、登录操作、点击操作等,而操作数据中均会携带相应的操作类型信息,因此,在IDS中预设业务主题表时,对于一个业务主题表,可将该业务主题表与至少一种操作类型信息相关联,但一种操作类型信息只与唯一的一个业务主题表相关联,即,对不同的操作类型信息按照其所属的业务主题表进行严格的划分。
例如,预设的业务主题表为交易主题表,将付款操作和退款操作这两个操作类型信息设置为与该交易主题表相关联。需要说明的是,一旦设置了付款操作和退款操作与该交易主题表相关联,这两个操作类型信息就不再与其他的业务主题表(如浏览主题表)相关联。
采用上述方法设置了各业务主题表与操作类型信息的关联关系后,则可针 对预设的每个业务主题表,确定与该业务主题表相关联的操作类型信息,将根据携带确定的操作类型信息的源数据统计得到的各通用指标数据对应的指标标识信息确定为该业务主题表下的指标标识信息。
继续沿用上例,由于付款操作与交易主题表相关联,根据携带的操作类型信息为付款操作的源数据统计得到的通用指标数据对应的指标标识信息包括付款订单数和付款金额,因此,付款订单数和付款金额所属的业务主题表就是交易主题表。类似的,由于退款操作与交易主题表相关联,根据携带的操作类型信息为退款操作的源数据统计得到的通用指标数据对应的指标标识信息包括退款订单数和退款金额,因此,退款订单数和退款金额所属的业务主题表也是交易主题表。
这样,每个通用指标数据也按照相应的操作类型信息而被严格划分到业务主题表下。
进一步的,在IDS中预设了业务主题表、相关联的操作类型信息以及各业务主题表下的指标标识信息后,则可在IDS的各业务主题表中保存相应指标标识信息对应的通用指标数据。
考虑到实际应用场景中存在诸多相似的通用指标数据,例如,最近7天的申请退款订单数、最近30天的申请退款订单数、最近7天的投诉退款订单数等,如果针对每个通用指标数据都设置相应的统计算法来统计通用指标数据,则后续一旦相应的源数据发生变化,那么所有这些相似的通用指标数据对应的统计算法均要发生改变,这就会使后续对统计算法的变更较为繁琐复杂,而且,一旦漏掉对某个通用指标数据的统计算法的变更,将会导致通用指标数据出错。
因此,为了提高后续变更统计算法的效率,提高统计通用指标数据的准确性,本申请实施例中的通用指标标识信息包括一个原子指标标识信息、若干个指标修饰词以及一个时间信息,并预先为原子指标标识信息设定统计算法,为指标修饰词以及时间信息设定统计条件。相应的,对源数据进行统计,得到通 用指标数据的方法可以是:数据仓库针对一个指标标识信息,根据预先针对该指标标识信息中包含的原子指标标识信息设定的统计算法,并基于预先针对该指标标识信息中包含的时间信息和每个指标修饰词设定的统计条件,对源数据进行统计,得到该指标标识信息对应的通用指标数据。
继续沿用上例,由于与交易主题表相关联的操作类型信息包括退款操作,因此,可将原子指标标识信息设置为“退款订单数”、“退款订单金额”等,指标修饰词可设置为“申请”、“投诉”等,时间信息可设置为“最近7天内”、“最近30天内”等。
为原子指标标识信息“退款订单数”设定的统计算法可以是统计携带操作类型信息为退款操作的源数据的数量;为原子指标标识信息“退款订单金额”设定的统计算法可以是统计各携带操作类型信息为退款操作的源数据中包含的金额之和。
为指标修饰词“申请”设定的统计条件可以是携带操作类型信息为退款,且退款类型为申请退款的源数据;为指标修饰词“投诉”设定的统计条件可以是携带操作类型信息为退款,且退款类型为投诉退款的源数据。
为时间信息“最近7天内”设定的统计条件可以是生成时间为最近7天以内的源数据;为时间信息“最近30天内”设定的统计条件可以是生成时间为最近30天以内的源数据。
则对于指标标识信息“最近7天内的申请退款订单数”,其原子指标标识信息即为“退款订单数”,指标修饰词即为“申请”,时间信息即为“最近7天内”,因此,数据仓库采用针对原子指标标识信息“退款订单数”设定的统计算法,基于针对指标修饰词“申请”和时间信息“最近7天内”设定的统计条件,统计携带操作类型信息为退款操作、且退款类型为申请退款、且最近7天内生成的源数据的数量,作为指标标识信息“最近7天内的申请退款订单数”对应的通用指标数据保存在IDS中。
类似的,“最近30天内的申请退款订单数”对应的通用指标数据即为对携 带操作类型信息为退款操作、且退款类型为申请退款、且生成时间为最近30天内的源数据的数量进行统计的结果。
这样,一个指标标识信息对应的通用指标数据的统计算法就继承了该指标标识信息包含的原子指标标识信息对应的统计算法,如上例中“最近7天内的申请退款订单数”和“最近30天内的申请退款订单数”的统计算法均继承了包含的原子指标标识信息“退款订单数”的统计算法,如果后续源数据发生变化,只需对原子指标标识信息“退款订单数”对应的统计算法进行变更即可,而无需对“最近7天内的申请退款订单数”和“最近30天内的申请退款订单数”的统计算法均进行变更,实现了对相似指标标识信息(包含相同原子指标标识信息)对应的通用指标数据的统计算法的统一,可有效提高后续变更统计算法的效率,提高提供指标数据的准确性。
另外,对于时间信息,还可设定其对应的统计周期,则数据仓库针对包含该时间信息的指标标识信息,按照该时间信息对应的统计周期进行周期的统计该指标标识信息对应的通用指标数据。如,对于时间信息“最近7天内”和“最近30天内”,可设定这两个时间信息对应的统计周期均为1天,则数据仓库对于“最近7天内的申请退款订单数”和“最近30天内的申请退款订单数”这两个指标标识信息,每天对这两个指标标识信息对应的通用指标数据进行统计,并保存在IDS中。
S102:当数据仓库接收数据获取请求时,确定该数据获取请求中携带的指标标识信息。
在本申请实施例中,用户要获取指标数据时,先向数据仓库发送数据获取请求,其中,该数据获取请求中携带用户所要获取的指标数据对应的指标标识信息,该指标标识信息可以是指标名称,也可以是指标英文字段。例如,当要获取的指标数据为最近7天的申请退款订单数时,则可向数据仓库发送携带指标标识信息为“最近7天的申请退款订单数”的数据获取请求。
相应的,数据仓库接收到该数据获取请求后,则确定其中携带的指标标识 信息,以便后续向用户提供相应的指标数据。
S103:根据该指标标识信息,在IDS保存的通用指标数据中,查找该指标标识信息对应的通用指标数据。
在本申请实施例中,由于已经预先将各通用指标数据保存在了IDS中的各业务主题表中,因此,在IDS中查找该指标标识信息对应的通用指标数据时,可先根据在IDS中预设的各业务主题表,以及各业务主题表与各指标标识信息的从属关系,查找数据获取请求中携带的该指标标识信息所属的业务主题表,再在查找到的业务主题表中的各通用指标数据中,查找与该指标标识信息对应的通用指标数据。
S104:将查找到的通用指标数据提供给发送该数据获取请求的用户。
从IDS中查找到数据获取请求中携带的指标标识信息对应的通用指标数据后,数据仓库则将查找到的通用指标数据提供给用户。
通过上述方法,数据仓库可直接将预先保存在IDS中的通用指标数据提供给用户,而无需从最底层的ODS开始逐层向上对源数据进行处理得到指标数据,再提供给用户,因此可有效节省数据仓库的计算资源,也提高了提供数据的效率。
并且,上述方法严格按照操作类型信息定义了业务主题表,以及业务主题下的各指标标识信息,每个指标标识信息对应的通用指标数据的统计算法又继承了该指标标识信息中包含的原子指标标识信息对应的统计算法,实现了业务主题、指标标识信息以及统计算法的统一,可有效提高统计的指标数据的准确性。
此外,本申请实施例中数据仓库还可支持通用指标数据的订制,也即,对于IDS中保存的某个通用指标数据,数据仓库除了在接收到用户发送的针对该通用指标数据的数据获取请求时,将该通用指标数据提供给用户以外,还可以将该通用指标数据提供给订制了该通用指标数据的用户,而无需在接收到数据获取请求时才提供。
如,对于一个企业中的部门A和部门B,如果部门A订制了指标标识信息a对应的通用指标数据,部门B订制了指标标识信息b对应的通用指标数据,则数据仓库根据保存的部门A与指标标识信息a的订制关系以及部门B与指标标识信息b的订制关系,可将IDS中保存的指标标识信息a对应的通用指标数据自动提供给部门A,将指标标识信息b对应的通用指标数据自动提供给部门B。如果后续该企业将部门A和部门B合并成了一个部门C,则可将数据仓库中保存的部门A与指标标识信息a的订制关系以及部门B与指标标识信息b的订制关系变更为部门C与指标标识信息a和b的订制关系,数据仓库则可将指标标识信息a和b对应的通用指标数据提供给部门C,而无需部门C重新开发获取数据的模型。
较佳的,在本申请实施例中,可在IDS中保存通用性较强的指标标识信息对应的通用指标数据,而对于一些个性化、且可直接基于IDS中保存的通用指标数据统计得到的个性化指标数据,则可保存在ADS中。具体的,可预先对IDS中保存的至少一个通用指标数据进行统计,得到个性化指标数据,并保存在ADS中。则在图1所示的步骤S103中,数据仓库如果在IDS中未查找到数据获取请求中携带的指标标识信息对应的通用指标数据时,则可在ADS中查找该指标标识信息对应的个性化指标数据。
例如,由于“最近7天内的申请退款订单数”以及“最近7天内的支付订单数”对应的指标数据具有较强的通用性,因此可将这两个通用指标数据保存在IDS中,而“最近7天内的申请退款率”对应的指标数据则个性化较强,而且,可直接基于“最近7天内的申请退款订单数”与“最近7天内的支付订单数”的比值得到,因此,可将“最近7天内的申请退款率”对应的个性化指标数据保存在ADS中。
具体的,同样可在ADS中设置指标标识信息“最近7天内的申请退款率”,并针对该指标标识信息设定其对应的统计算法为IDS中保存的“最近7天内的申请退款订单数”与“最近7天内的支付订单数”对应的通用指标数据的比值, 则数据仓库可直接将已经保存在IDS中的“最近7天内的申请退款订单数”与“最近7天内的支付订单数”对应的通用指标数据的比值作为“最近7天内的申请退款率”对应的个性化指标数据,并保存在ADS中。
考虑到实际应用中最近7天内的申请退款订单并不一定是最近7天内的支付订单(如用户在8天前支付了一个订单,但在5天前对该订单申请了退款,则这个订单是最近7天内的申请退款订单,但不是最近7天内的支付订单),因此,为了提高ADS中保存的“最近7天内的申请退款率”对应的个性化指标数据的准确性,在上例中,可在IDS中保存“最近7天内的支付订单中的申请退款订单数”对应的通用指标数据,则,在ADS中设置指标标识信息“最近7天内的申请退款率”之后,可针对该指标标识信息设定其对应的统计算法为IDS中保存的“最近7天内的支付订单中的申请退款订单数”与“最近7天内的支付订单数”对应的通用指标数据的比值。
相应的,当数据仓库接收到的数据获取请求中携带的指标标识信息为“最近7天内的申请退款率”时,则在IDS中未查找到相应的通用指标数据,因此在ADS中查找,并将查找到的个性化指标数据提供给用户。类似的,ADS中保存的个性化指标数据也可以根据订制关系进行自动提供,这里就不再一一赘述。
进一步的,对于一个指标数据而言,其通用性和个性化是相对而言的,如果获取(或者订制)该指标数据的用户较多,或者该指标数据经常被获取,那么可认为这个指标数据的通用性较强,就是通用指标数据,反之,如果获取(或者订制)该指标数据的用户较少,或者该指标数据很少被获取,那么可认为这个指标数据的个性化较强,就是个性化指标数据。因此,数据仓库可对IDS和ADS中保存的各通用指标数据和个性化指标数据的获取情况进行监控,并根据监控结果对该指标数据的保存位置进行调整。
如,针对一个指标数据,监控在指定时间段内获取该指标数据的用户的数量,或者,监控该指标数据在指定时间段内被获取的次数,如果获取该指标数 据的用户的数量小于设定数量阈值,或者,该指标数据被获取的次数小于设定次数阈值,则可将其作为个性化指标数据保存在ADS中(如果该指标数据已经保存在ADS中,则可保持其保存位置不变),反之,如果获取该指标数据的用户的数量不小于设定数量阈值,该指标数据被获取的次数也不小于设定次数阈值,则可将其作为通用指标数据保存在IDS中(若该指标数据已经保存在IDS中,则可保持其保存位置不变),甚至,如果获取该指标数据的用户数量长时间小于设定数量阈值,该指标数据被获取的次数长时间小于设定次数阈值,则可删除该指标数据以及该指标数据对应的指标标识信息。也即,IDS和ADS中保存的指标数据可以互相转移,仅从这一点上来说,本申请实施例中IDS和ADS的划分界限是模糊的。
更进一步的,对于用户要获取的一个指标标识信息对应的指标数据,如果数据仓库在IDS和ADS中均未查找到该指标标识信息对应的指标数据,则数据仓库可提示用户本次获取该指标数据失败,并记录该指标标识信息。对于记录的同一个指标标识信息,如果记录该指标标识信息的次数已经超过指定次数,则数据仓库可向数据库管理员发出提示信息,以提示数据库管理员将记录的该指标标识信息划分到某一个业务主题下,并为其设定统计算法(包括原子指标标识信息的统计算法、指标修饰词和时间信息的统计条件),并将该指标标识信息对应的指标数据保存在IDS或ADS中。
需要说明的是,无论是否在IDS和ADS中查找到用户要获取的指标数据,数据仓库均要禁止用户直接从ODS或BDS中获取数据,以保证业务主题、指标标识信息、指标数据的统计算法的统一性。
另外,数据仓库的源数据中除了包括用户的操作数据以外,还包括用户、商品、店铺、公司等属性数据,如用户的属性数据包括用户的用户级别、用户联系方式、地址、是否会员等属性数据。这些属性数据大多无需进行统计汇总,可直接提供给用户,因此,本发明实施例中还可预先在IDS中保存属性数据。当数据仓库接收到的数据获取请求中携带属性标识信息时,数据仓库还可根据 该属性标识信息,在IDS保存的属性数据中,查找该属性标识信息对应的属性数据,并将查找到的属性数据提供给发送该数据获取请求的用户。
其中,与通用指标数据类似的,本申请实施例中针对在IDS中预设的一个业务主题表,可先定义该业务主题表下的业务实体,再确定该业务实体下的各属性标识信息,并在查找时,在相应业务主题表下的相应业务实体的属性数据中,查找该数据获取请求中携带的属性标识信息对应的属性数据。当然,与个性化指标数据类似的,也可将属性数据保存在ADS中,这里就不再一一赘述。
以上为本申请实施例提供的提供数据的方法,基于同样的思路,本申请实施例还提供一种提供数据的装置,如图2所示。
图2为本申请实施例提供的提供数据的装置结构示意图,具体包括:
主题宽表层IDS201,用于预先对源数据进行统计,得到通用指标数据并保存;
接收模块202,用于接收数据获取请求,并确定所述数据获取请求中携带的指标标识信息;
查找模块203,用于根据所述指标标识信息,在所述IDS201保存的通用指标数据中,查找所述指标标识信息对应的通用指标数据;
提供模块204,用于将查找到的通用指标数据提供给发送所述数据获取请求的用户。
所述IDS201具体用于,保存预先设置的业务主题表,以及各业务主题表与指标标识信息的从属关系;确定得到的通用指标数据的指标标识信息所属的业务主题表,并将所述通用指标数据保存在确定的业务主题表中;
所述查找模块203具体用于,根据在所述IDS201中预设的各业务主题表,以及各业务主题表与各指标标识信息的从属关系,查找所述数据获取请求中携带的指标标识信息所属的业务主题表;在查找到的业务主题表中的各通用指标数据中,查找与所述数据获取请求中携带的指标标识信息对应的通用指标数据。
所述IDS201保存的一个指标标识信息包括一个原子指标标识信息、若干个指标修饰词以及一个时间信息;
所述IDS201具体用于,针对一个指标标识信息,根据预先针对该指标标识信息中包含的原子指标标识信息设定的统计算法,并基于预先针对该指标标识信息中包含的时间信息和每个指标修饰词设定的统计条件,对源数据进行统计,得到该指标标识信息对应的通用指标数据。
所述装置还包括:
应用层ADS205,用于预先对所述IDS201中保存的至少一个通用指标数据进行统计,得到个性化指标数据并保存;
所述查找模块203还用于,当在IDS201中未查找到所述数据获取请求中携带的指标标识信息对应的通用指标数据时,在所述ADS205中查找所述指标标识信息对应的个性化指标数据。
所述IDS201还用于,保存属性数据;
所述查找模块203还用于,当所述接收模块202接收到的所述数据获取请求中携带属性标识信息时,根据所述属性标识信息,在所述IDS201保存的属性数据中,查找所述属性标识信息对应的属性数据;
所述提供模块204还用于,将查找到的属性数据提供给发送所述数据获取请求的用户。
具体的上述提供数据的装置可以位于数据仓库中。
本申请实施例提供一种提供数据的方法及装置,该方法预先在数据仓库的IDS中保存通用指标数据,当数据仓库接收到用户发送的数据获取请求时,直接从IDS预先保存的通用指标数据中查找该数据获取请求中携带的指标标识信息对应的通用指标数据,并提供给用户。通过上述方法,数据仓库在向用户提供通用指标数据时,可直接将预先保存在IDS中的通用指标数据提供给用户,而无需将源数据从最底层的ODS开始逐层向上处理得到指标数据,再提供给用户,因此可有效节省数据仓库的计算资源,也提高了提供数据的效率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和 变型在内。

一种提供数据的方法及装置.pdf_第1页
第1页 / 共12页
一种提供数据的方法及装置.pdf_第2页
第2页 / 共12页
一种提供数据的方法及装置.pdf_第3页
第3页 / 共12页
点击查看更多>>
资源描述

《一种提供数据的方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种提供数据的方法及装置.pdf(12页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN104123303A43申请公布日20141029CN104123303A21申请号201310153297022申请日20130427G06F17/3020060171申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼岛资本大厦一座四层847号邮箱72发明人邓中华王赛朋新宇74专利代理机构北京同达信恒知识产权代理有限公司11291代理人郭润湘54发明名称一种提供数据的方法及装置57摘要本申请公开了一种提供数据的方法及装置,用以解决现有技术中浪费数据仓库的计算资源,提供数据的效率较低的问题。该方法预先在数据仓库的IDS中保存通用指标数据,当数据仓库接收到用户发送的数据获取请。

2、求时,直接从IDS预先保存的通用指标数据中查找该数据获取请求中携带的指标标识信息对应的通用指标数据,并提供给用户。通过上述方法,数据仓库在向用户提供通用指标数据时,可直接将预先保存在IDS中的通用指标数据提供给用户,而无需将源数据从最底层的ODS开始逐层向上处理得到指标数据,再提供给用户,因此可有效节省数据仓库的计算资源,也提高了提供数据的效率。51INTCL权利要求书2页说明书8页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书8页附图1页10申请公布号CN104123303ACN104123303A1/2页21一种提供数据的方法,其特征在于,包括预先对数据仓库中。

3、保存的源数据进行统计,得到通用指标数据,将得到的通用指标数据保存在所述数据仓库的主题宽表层IDS中;当所述数据仓库接收数据获取请求时,确定所述数据获取请求中携带的指标标识信息;并根据所述指标标识信息,在所述IDS保存的通用指标数据中,查找所述指标标识信息对应的通用指标数据;以及将查找到的通用指标数据提供给发送所述数据获取请求的用户。2如权利要求1所述的方法,其特征在于,将得到的通用指标数据保存在所述数据仓库的IDS中,具体包括预先在所述IDS中设置业务主题表,以及各业务主题表与指标标识信息的从属关系;确定得到的通用指标数据的指标标识信息所属的业务主题表,并将所述通用指标数据保存在确定的业务主题。

4、表中;在所述IDS保存的通用指标数据中,查找所述指标标识信息对应的通用指标数据,具体包括根据在所述IDS中预设的各业务主题表,以及各业务主题表与各指标标识信息的从属关系,查找所述数据获取请求中携带的指标标识信息所属的业务主题表;并在查找到的业务主题表中的各通用指标数据中,查找与所述数据获取请求中携带的指标标识信息对应的通用指标数据。3如权利要求2所述的方法,其特征在于,一个指标标识信息包括一个原子指标标识信息、若干个指标修饰词以及一个时间信息;预先对数据仓库中保存的源数据进行统计,得到通用指标数据,具体包括针对一个指标标识信息,根据预先针对该指标标识信息中包含的原子指标标识信息设定的统计算法,。

5、并基于预先针对该指标标识信息中包含的时间信息和每个指标修饰词设定的统计条件,对源数据进行统计,得到该指标标识信息对应的通用指标数据。4如权利要求1所述的方法,其特征在于,预先对所述IDS中保存的至少一个通用指标数据进行统计,得到个性化指标数据,并保存在应用层ADS中;所述方法还包括当在IDS中未查找到所述数据获取请求中携带的指标标识信息对应的通用指标数据时,在所述ADS中查找所述指标标识信息对应的个性化指标数据。5如权利要求1所述的方法,其特征在于,预先在所述IDS中保存属性数据;所述方法还包括当所述数据仓库接收到的数据获取请求中携带属性标识信息时,所述数据仓库根据所述属性标识信息,在所述ID。

6、S保存的属性数据中,查找所述属性标识信息对应的属性数据;并将查找到的属性数据提供给发送所述数据获取请求的用户。6一种提供数据的装置,其特征在于,包括主题宽表层IDS,用于预先对源数据进行统计,得到通用指标数据并保存;接收模块,用于接收数据获取请求,并确定所述数据获取请求中携带的指标标识信权利要求书CN104123303A2/2页3息;查找模块,用于根据所述指标标识信息,在所述IDS保存的通用指标数据中,查找所述指标标识信息对应的通用指标数据;提供模块,用于将查找到的通用指标数据提供给发送所述数据获取请求的用户。7如权利要求6所述的装置,其特征在于,所述IDS具体用于,保存预先设置的业务主题表,。

7、以及各业务主题表与指标标识信息的从属关系;确定得到的通用指标数据的指标标识信息所属的业务主题表,并将所述通用指标数据保存在确定的业务主题表中;所述查找模块具体用于,根据在所述IDS中预设的各业务主题表,以及各业务主题表与各指标标识信息的从属关系,查找所述数据获取请求中携带的指标标识信息所属的业务主题表;在查找到的业务主题表中的各通用指标数据中,查找与所述数据获取请求中携带的指标标识信息对应的通用指标数据。8如权利要求7所述的装置,其特征在于,所述IDS保存的一个指标标识信息包括一个原子指标标识信息、若干个指标修饰词以及一个时间信息;所述IDS具体用于,针对一个指标标识信息,根据预先针对该指标标。

8、识信息中包含的原子指标标识信息设定的统计算法,并基于预先针对该指标标识信息中包含的时间信息和每个指标修饰词设定的统计条件,对源数据进行统计,得到该指标标识信息对应的通用指标数据。9如权利要求6所述的装置,其特征在于,所述装置还包括应用层ADS,用于预先对所述IDS中保存的至少一个通用指标数据进行统计,得到个性化指标数据并保存;所述查找模块还用于,当在IDS中未查找到所述数据获取请求中携带的指标标识信息对应的通用指标数据时,在所述ADS中查找所述指标标识信息对应的个性化指标数据。10如权利要求6所述的装置,其特征在于,所述IDS还用于,保存属性数据;所述查找模块还用于,当所述接收模块接收到的所述。

9、数据获取请求中携带属性标识信息时,根据所述属性标识信息,在所述IDS保存的属性数据中,查找所述属性标识信息对应的属性数据;所述提供模块还用于,将查找到的属性数据提供给发送所述数据获取请求的用户。权利要求书CN104123303A1/8页4一种提供数据的方法及装置技术领域0001本申请涉及计算机技术领域,特别涉及一种提供数据的方法及装置。背景技术0002目前,数据仓库主要分为四层源数据层(ODS)、视图层(BDS)、主题宽表层(IDS)、应用层(ADS)。这四层的逻辑层级关系从上到下依次是ADS、IDS、BDS、ODS。0003在现有技术中,当用户根据其需要获取某些指标数据时,数据仓库需要先从O。

10、DS中提取出相应的源数据,再通过BDS对提取的源数据进行数据清洗,然后通过IDS根据用户的需要对清洗后的数据进行计算和汇总,得到用户所需的指标数据,最后通过ADS将用户所需的指标数据提供给能给用户。0004其中,指标数据是指对数据仓库中的某些源数据按照某个维度进行计算统计得到的数据,如,根据数据仓库中最近1个月内的交易数据(源数据),统计最近一个月内的订单金额,该订单金额就是得到的指标数据。0005然而,在现有技术中,无论各用户要获取的指标数据是否相同,数据仓库均需要从最底层的ODS开始,依次经过ODS、BDS、IDS、ADS才能将相应的指标数据提供给用户,这显然会浪费数据仓库大量的计算资源,。

11、也降低了提供数据的效率。发明内容0006本申请实施例提供一种提供数据的方法及装置,用以解决现有技术中浪费数据仓库的计算资源,提供数据的效率较低的问题。0007本申请实施例提供的一种提供数据的方法,包括0008预先对数据仓库中保存的源数据进行统计,得到通用指标数据,将得到的通用指标数据保存在所述数据仓库的主题宽表层IDS中;0009当所述数据仓库接收数据获取请求时,确定所述数据获取请求中携带的指标标识信息;并0010根据所述指标标识信息,在所述IDS保存的通用指标数据中,查找所述指标标识信息对应的通用指标数据;以及0011将查找到的通用指标数据提供给发送所述数据获取请求的用户。0012本申请实施。

12、例提供的一种提供数据的装置,包括0013主题宽表层IDS,用于预先对源数据进行统计,得到通用指标数据并保存;0014接收模块,用于接收数据获取请求,并确定所述数据获取请求中携带的指标标识信息;0015查找模块,用于根据所述指标标识信息,在所述IDS保存的通用指标数据中,查找所述指标标识信息对应的通用指标数据;0016提供模块,用于将查找到的通用指标数据提供给发送所述数据获取请求的用户。0017本申请实施例提供一种提供数据的方法及装置,该方法预先在数据仓库的IDS中说明书CN104123303A2/8页5保存通用指标数据,当数据仓库接收到用户发送的数据获取请求时,直接从IDS预先保存的通用指标数。

13、据中查找该数据获取请求中携带的指标标识信息对应的通用指标数据,并提供给用户。通过上述方法,数据仓库在向用户提供通用指标数据时,可直接将预先保存在IDS中的通用指标数据提供给用户,而无需将源数据从最底层的ODS开始逐层向上处理得到指标数据,再提供给用户,因此可有效节省数据仓库的计算资源,也提高了提供数据的效率。附图说明0018图1为本申请实施例提供的数据仓库提供数据的过程;0019图2为本申请实施例提供的提供数据的装置结构示意图。具体实施方式0020为了节省数据仓库的计算资源,也提高数据仓库提供数据的效率,本申请实施例中预先将通用指标数据保存在IDS中,当提供通用指标数据时,可直接将IDS保存的。

14、相应通用指标数据提供给用户。0021下面结合附图对本申请优选的实施方式进行详细说明。0022图1为本申请实施例提供的数据仓库提供数据的过程,具体包括以下步骤0023S101预先对数据仓库中保存的源数据进行统计,得到通用指标数据,将得到的通用指标数据保存在数据仓库的IDS中。0024在本申请实施例中,数据仓库可预先对保存在ODS中的源数据进行统计,得到通用指标数据,并保存在IDS中。0025具体的,可预先在IDS中设置业务主题表,以及各业务主题表与指标标识信息的从属关系,对源数据进行统计并得到通用指标数据后,则可确定得到的通用指标数据的指标标识信息所属的业务主题表,并将得到的通用指标数据保存在确。

15、定的业务主题表中。0026其中,由于数据仓库的源数据中大多是用户的操作数据,如用户的付款操作、退款操作、注册操作、登录操作、点击操作等,而操作数据中均会携带相应的操作类型信息,因此,在IDS中预设业务主题表时,对于一个业务主题表,可将该业务主题表与至少一种操作类型信息相关联,但一种操作类型信息只与唯一的一个业务主题表相关联,即,对不同的操作类型信息按照其所属的业务主题表进行严格的划分。0027例如,预设的业务主题表为交易主题表,将付款操作和退款操作这两个操作类型信息设置为与该交易主题表相关联。需要说明的是,一旦设置了付款操作和退款操作与该交易主题表相关联,这两个操作类型信息就不再与其他的业务主。

16、题表(如浏览主题表)相关联。0028采用上述方法设置了各业务主题表与操作类型信息的关联关系后,则可针对预设的每个业务主题表,确定与该业务主题表相关联的操作类型信息,将根据携带确定的操作类型信息的源数据统计得到的各通用指标数据对应的指标标识信息确定为该业务主题表下的指标标识信息。0029继续沿用上例,由于付款操作与交易主题表相关联,根据携带的操作类型信息为付款操作的源数据统计得到的通用指标数据对应的指标标识信息包括付款订单数和付款说明书CN104123303A3/8页6金额,因此,付款订单数和付款金额所属的业务主题表就是交易主题表。类似的,由于退款操作与交易主题表相关联,根据携带的操作类型信息为。

17、退款操作的源数据统计得到的通用指标数据对应的指标标识信息包括退款订单数和退款金额,因此,退款订单数和退款金额所属的业务主题表也是交易主题表。0030这样,每个通用指标数据也按照相应的操作类型信息而被严格划分到业务主题表下。0031进一步的,在IDS中预设了业务主题表、相关联的操作类型信息以及各业务主题表下的指标标识信息后,则可在IDS的各业务主题表中保存相应指标标识信息对应的通用指标数据。0032考虑到实际应用场景中存在诸多相似的通用指标数据,例如,最近7天的申请退款订单数、最近30天的申请退款订单数、最近7天的投诉退款订单数等,如果针对每个通用指标数据都设置相应的统计算法来统计通用指标数据,。

18、则后续一旦相应的源数据发生变化,那么所有这些相似的通用指标数据对应的统计算法均要发生改变,这就会使后续对统计算法的变更较为繁琐复杂,而且,一旦漏掉对某个通用指标数据的统计算法的变更,将会导致通用指标数据出错。0033因此,为了提高后续变更统计算法的效率,提高统计通用指标数据的准确性,本申请实施例中的通用指标标识信息包括一个原子指标标识信息、若干个指标修饰词以及一个时间信息,并预先为原子指标标识信息设定统计算法,为指标修饰词以及时间信息设定统计条件。相应的,对源数据进行统计,得到通用指标数据的方法可以是数据仓库针对一个指标标识信息,根据预先针对该指标标识信息中包含的原子指标标识信息设定的统计算法。

19、,并基于预先针对该指标标识信息中包含的时间信息和每个指标修饰词设定的统计条件,对源数据进行统计,得到该指标标识信息对应的通用指标数据。0034继续沿用上例,由于与交易主题表相关联的操作类型信息包括退款操作,因此,可将原子指标标识信息设置为“退款订单数”、“退款订单金额”等,指标修饰词可设置为“申请”、“投诉”等,时间信息可设置为“最近7天内”、“最近30天内”等。0035为原子指标标识信息“退款订单数”设定的统计算法可以是统计携带操作类型信息为退款操作的源数据的数量;为原子指标标识信息“退款订单金额”设定的统计算法可以是统计各携带操作类型信息为退款操作的源数据中包含的金额之和。0036为指标修。

20、饰词“申请”设定的统计条件可以是携带操作类型信息为退款,且退款类型为申请退款的源数据;为指标修饰词“投诉”设定的统计条件可以是携带操作类型信息为退款,且退款类型为投诉退款的源数据。0037为时间信息“最近7天内”设定的统计条件可以是生成时间为最近7天以内的源数据;为时间信息“最近30天内”设定的统计条件可以是生成时间为最近30天以内的源数据。0038则对于指标标识信息“最近7天内的申请退款订单数”,其原子指标标识信息即为“退款订单数”,指标修饰词即为“申请”,时间信息即为“最近7天内”,因此,数据仓库采用针对原子指标标识信息“退款订单数”设定的统计算法,基于针对指标修饰词“申请”和时间信息“最。

21、近7天内”设定的统计条件,统计携带操作类型信息为退款操作、且退款类型为申请退款、且最近7天内生成的源数据的数量,作为指标标识信息“最近7天内的申请退款订说明书CN104123303A4/8页7单数”对应的通用指标数据保存在IDS中。0039类似的,“最近30天内的申请退款订单数”对应的通用指标数据即为对携带操作类型信息为退款操作、且退款类型为申请退款、且生成时间为最近30天内的源数据的数量进行统计的结果。0040这样,一个指标标识信息对应的通用指标数据的统计算法就继承了该指标标识信息包含的原子指标标识信息对应的统计算法,如上例中“最近7天内的申请退款订单数”和“最近30天内的申请退款订单数”的。

22、统计算法均继承了包含的原子指标标识信息“退款订单数”的统计算法,如果后续源数据发生变化,只需对原子指标标识信息“退款订单数”对应的统计算法进行变更即可,而无需对“最近7天内的申请退款订单数”和“最近30天内的申请退款订单数”的统计算法均进行变更,实现了对相似指标标识信息(包含相同原子指标标识信息)对应的通用指标数据的统计算法的统一,可有效提高后续变更统计算法的效率,提高提供指标数据的准确性。0041另外,对于时间信息,还可设定其对应的统计周期,则数据仓库针对包含该时间信息的指标标识信息,按照该时间信息对应的统计周期进行周期的统计该指标标识信息对应的通用指标数据。如,对于时间信息“最近7天内”和。

23、“最近30天内”,可设定这两个时间信息对应的统计周期均为1天,则数据仓库对于“最近7天内的申请退款订单数”和“最近30天内的申请退款订单数”这两个指标标识信息,每天对这两个指标标识信息对应的通用指标数据进行统计,并保存在IDS中。0042S102当数据仓库接收数据获取请求时,确定该数据获取请求中携带的指标标识信息。0043在本申请实施例中,用户要获取指标数据时,先向数据仓库发送数据获取请求,其中,该数据获取请求中携带用户所要获取的指标数据对应的指标标识信息,该指标标识信息可以是指标名称,也可以是指标英文字段。例如,当要获取的指标数据为最近7天的申请退款订单数时,则可向数据仓库发送携带指标标识信。

24、息为“最近7天的申请退款订单数”的数据获取请求。0044相应的,数据仓库接收到该数据获取请求后,则确定其中携带的指标标识信息,以便后续向用户提供相应的指标数据。0045S103根据该指标标识信息,在IDS保存的通用指标数据中,查找该指标标识信息对应的通用指标数据。0046在本申请实施例中,由于已经预先将各通用指标数据保存在了IDS中的各业务主题表中,因此,在IDS中查找该指标标识信息对应的通用指标数据时,可先根据在IDS中预设的各业务主题表,以及各业务主题表与各指标标识信息的从属关系,查找数据获取请求中携带的该指标标识信息所属的业务主题表,再在查找到的业务主题表中的各通用指标数据中,查找与该指。

25、标标识信息对应的通用指标数据。0047S104将查找到的通用指标数据提供给发送该数据获取请求的用户。0048从IDS中查找到数据获取请求中携带的指标标识信息对应的通用指标数据后,数据仓库则将查找到的通用指标数据提供给用户。0049通过上述方法,数据仓库可直接将预先保存在IDS中的通用指标数据提供给用户,而无需从最底层的ODS开始逐层向上对源数据进行处理得到指标数据,再提供给用户,说明书CN104123303A5/8页8因此可有效节省数据仓库的计算资源,也提高了提供数据的效率。0050并且,上述方法严格按照操作类型信息定义了业务主题表,以及业务主题下的各指标标识信息,每个指标标识信息对应的通用指。

26、标数据的统计算法又继承了该指标标识信息中包含的原子指标标识信息对应的统计算法,实现了业务主题、指标标识信息以及统计算法的统一,可有效提高统计的指标数据的准确性。0051此外,本申请实施例中数据仓库还可支持通用指标数据的订制,也即,对于IDS中保存的某个通用指标数据,数据仓库除了在接收到用户发送的针对该通用指标数据的数据获取请求时,将该通用指标数据提供给用户以外,还可以将该通用指标数据提供给订制了该通用指标数据的用户,而无需在接收到数据获取请求时才提供。0052如,对于一个企业中的部门A和部门B,如果部门A订制了指标标识信息A对应的通用指标数据,部门B订制了指标标识信息B对应的通用指标数据,则数。

27、据仓库根据保存的部门A与指标标识信息A的订制关系以及部门B与指标标识信息B的订制关系,可将IDS中保存的指标标识信息A对应的通用指标数据自动提供给部门A,将指标标识信息B对应的通用指标数据自动提供给部门B。如果后续该企业将部门A和部门B合并成了一个部门C,则可将数据仓库中保存的部门A与指标标识信息A的订制关系以及部门B与指标标识信息B的订制关系变更为部门C与指标标识信息A和B的订制关系,数据仓库则可将指标标识信息A和B对应的通用指标数据提供给部门C,而无需部门C重新开发获取数据的模型。0053较佳的,在本申请实施例中,可在IDS中保存通用性较强的指标标识信息对应的通用指标数据,而对于一些个性化。

28、、且可直接基于IDS中保存的通用指标数据统计得到的个性化指标数据,则可保存在ADS中。具体的,可预先对IDS中保存的至少一个通用指标数据进行统计,得到个性化指标数据,并保存在ADS中。则在图1所示的步骤S103中,数据仓库如果在IDS中未查找到数据获取请求中携带的指标标识信息对应的通用指标数据时,则可在ADS中查找该指标标识信息对应的个性化指标数据。0054例如,由于“最近7天内的申请退款订单数”以及“最近7天内的支付订单数”对应的指标数据具有较强的通用性,因此可将这两个通用指标数据保存在IDS中,而“最近7天内的申请退款率”对应的指标数据则个性化较强,而且,可直接基于“最近7天内的申请退款订。

29、单数”与“最近7天内的支付订单数”的比值得到,因此,可将“最近7天内的申请退款率”对应的个性化指标数据保存在ADS中。0055具体的,同样可在ADS中设置指标标识信息“最近7天内的申请退款率”,并针对该指标标识信息设定其对应的统计算法为IDS中保存的“最近7天内的申请退款订单数”与“最近7天内的支付订单数”对应的通用指标数据的比值,则数据仓库可直接将已经保存在IDS中的“最近7天内的申请退款订单数”与“最近7天内的支付订单数”对应的通用指标数据的比值作为“最近7天内的申请退款率”对应的个性化指标数据,并保存在ADS中。0056考虑到实际应用中最近7天内的申请退款订单并不一定是最近7天内的支付订。

30、单(如用户在8天前支付了一个订单,但在5天前对该订单申请了退款,则这个订单是最近7天内的申请退款订单,但不是最近7天内的支付订单),因此,为了提高ADS中保存的“最近7天内的申请退款率”对应的个性化指标数据的准确性,在上例中,可在IDS中保存“最近7天内的支付订单中的申请退款订单数”对应的通用指标数据,则,在ADS中设置指标标识信息“最近7天内的申请退款率”之后,可针对该指标标识信息设定其对应的统计算法为IDS说明书CN104123303A6/8页9中保存的“最近7天内的支付订单中的申请退款订单数”与“最近7天内的支付订单数”对应的通用指标数据的比值。0057相应的,当数据仓库接收到的数据获取。

31、请求中携带的指标标识信息为“最近7天内的申请退款率”时,则在IDS中未查找到相应的通用指标数据,因此在ADS中查找,并将查找到的个性化指标数据提供给用户。类似的,ADS中保存的个性化指标数据也可以根据订制关系进行自动提供,这里就不再一一赘述。0058进一步的,对于一个指标数据而言,其通用性和个性化是相对而言的,如果获取(或者订制)该指标数据的用户较多,或者该指标数据经常被获取,那么可认为这个指标数据的通用性较强,就是通用指标数据,反之,如果获取(或者订制)该指标数据的用户较少,或者该指标数据很少被获取,那么可认为这个指标数据的个性化较强,就是个性化指标数据。因此,数据仓库可对IDS和ADS中保。

32、存的各通用指标数据和个性化指标数据的获取情况进行监控,并根据监控结果对该指标数据的保存位置进行调整。0059如,针对一个指标数据,监控在指定时间段内获取该指标数据的用户的数量,或者,监控该指标数据在指定时间段内被获取的次数,如果获取该指标数据的用户的数量小于设定数量阈值,或者,该指标数据被获取的次数小于设定次数阈值,则可将其作为个性化指标数据保存在ADS中(如果该指标数据已经保存在ADS中,则可保持其保存位置不变),反之,如果获取该指标数据的用户的数量不小于设定数量阈值,该指标数据被获取的次数也不小于设定次数阈值,则可将其作为通用指标数据保存在IDS中(若该指标数据已经保存在IDS中,则可保持。

33、其保存位置不变),甚至,如果获取该指标数据的用户数量长时间小于设定数量阈值,该指标数据被获取的次数长时间小于设定次数阈值,则可删除该指标数据以及该指标数据对应的指标标识信息。也即,IDS和ADS中保存的指标数据可以互相转移,仅从这一点上来说,本申请实施例中IDS和ADS的划分界限是模糊的。0060更进一步的,对于用户要获取的一个指标标识信息对应的指标数据,如果数据仓库在IDS和ADS中均未查找到该指标标识信息对应的指标数据,则数据仓库可提示用户本次获取该指标数据失败,并记录该指标标识信息。对于记录的同一个指标标识信息,如果记录该指标标识信息的次数已经超过指定次数,则数据仓库可向数据库管理员发出。

34、提示信息,以提示数据库管理员将记录的该指标标识信息划分到某一个业务主题下,并为其设定统计算法(包括原子指标标识信息的统计算法、指标修饰词和时间信息的统计条件),并将该指标标识信息对应的指标数据保存在IDS或ADS中。0061需要说明的是,无论是否在IDS和ADS中查找到用户要获取的指标数据,数据仓库均要禁止用户直接从ODS或BDS中获取数据,以保证业务主题、指标标识信息、指标数据的统计算法的统一性。0062另外,数据仓库的源数据中除了包括用户的操作数据以外,还包括用户、商品、店铺、公司等属性数据,如用户的属性数据包括用户的用户级别、用户联系方式、地址、是否会员等属性数据。这些属性数据大多无需进。

35、行统计汇总,可直接提供给用户,因此,本发明实施例中还可预先在IDS中保存属性数据。当数据仓库接收到的数据获取请求中携带属性标识信息时,数据仓库还可根据该属性标识信息,在IDS保存的属性数据中,查找该属性标识信息对应的属性数据,并将查找到的属性数据提供给发送该数据获取请求的用户。0063其中,与通用指标数据类似的,本申请实施例中针对在IDS中预设的一个业务主说明书CN104123303A7/8页10题表,可先定义该业务主题表下的业务实体,再确定该业务实体下的各属性标识信息,并在查找时,在相应业务主题表下的相应业务实体的属性数据中,查找该数据获取请求中携带的属性标识信息对应的属性数据。当然,与个性。

36、化指标数据类似的,也可将属性数据保存在ADS中,这里就不再一一赘述。0064以上为本申请实施例提供的提供数据的方法,基于同样的思路,本申请实施例还提供一种提供数据的装置,如图2所示。0065图2为本申请实施例提供的提供数据的装置结构示意图,具体包括0066主题宽表层IDS201,用于预先对源数据进行统计,得到通用指标数据并保存;0067接收模块202,用于接收数据获取请求,并确定所述数据获取请求中携带的指标标识信息;0068查找模块203,用于根据所述指标标识信息,在所述IDS201保存的通用指标数据中,查找所述指标标识信息对应的通用指标数据;0069提供模块204,用于将查找到的通用指标数据。

37、提供给发送所述数据获取请求的用户。0070所述IDS201具体用于,保存预先设置的业务主题表,以及各业务主题表与指标标识信息的从属关系;确定得到的通用指标数据的指标标识信息所属的业务主题表,并将所述通用指标数据保存在确定的业务主题表中;0071所述查找模块203具体用于,根据在所述IDS201中预设的各业务主题表,以及各业务主题表与各指标标识信息的从属关系,查找所述数据获取请求中携带的指标标识信息所属的业务主题表;在查找到的业务主题表中的各通用指标数据中,查找与所述数据获取请求中携带的指标标识信息对应的通用指标数据。0072所述IDS201保存的一个指标标识信息包括一个原子指标标识信息、若干个。

38、指标修饰词以及一个时间信息;0073所述IDS201具体用于,针对一个指标标识信息,根据预先针对该指标标识信息中包含的原子指标标识信息设定的统计算法,并基于预先针对该指标标识信息中包含的时间信息和每个指标修饰词设定的统计条件,对源数据进行统计,得到该指标标识信息对应的通用指标数据。0074所述装置还包括0075应用层ADS205,用于预先对所述IDS201中保存的至少一个通用指标数据进行统计,得到个性化指标数据并保存;0076所述查找模块203还用于,当在IDS201中未查找到所述数据获取请求中携带的指标标识信息对应的通用指标数据时,在所述ADS205中查找所述指标标识信息对应的个性化指标数据。

39、。0077所述IDS201还用于,保存属性数据;0078所述查找模块203还用于,当所述接收模块202接收到的所述数据获取请求中携带属性标识信息时,根据所述属性标识信息,在所述IDS201保存的属性数据中,查找所述属性标识信息对应的属性数据;0079所述提供模块204还用于,将查找到的属性数据提供给发送所述数据获取请求的用户。说明书CN104123303A108/8页110080具体的上述提供数据的装置可以位于数据仓库中。0081本申请实施例提供一种提供数据的方法及装置,该方法预先在数据仓库的IDS中保存通用指标数据,当数据仓库接收到用户发送的数据获取请求时,直接从IDS预先保存的通用指标数据。

40、中查找该数据获取请求中携带的指标标识信息对应的通用指标数据,并提供给用户。通过上述方法,数据仓库在向用户提供通用指标数据时,可直接将预先保存在IDS中的通用指标数据提供给用户,而无需将源数据从最底层的ODS开始逐层向上处理得到指标数据,再提供给用户,因此可有效节省数据仓库的计算资源,也提高了提供数据的效率。0082本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CDROM、光学。

41、存储器等)上实施的计算机程序产品的形式。0083本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和或方框图来描述的。应理解可由计算机程序指令实现流程图和或方框图中的每一流程和或方框、以及流程图和或方框图中的流程和或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能的装置。0084这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可。

42、读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能。0085这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能的步骤。0086尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。0087显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。说明书CN104123303A111/1页12图1图2说明书附图CN104123303A12。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1