一种面向复杂数据仓库环境的优化策略自动生成方法.pdf

摘要
申请专利号：	CN200910083489.2	申请日：	2009.05.06
公开号：	CN101556604A	公开日：	2009.10.14
当前法律状态：	终止	有效性：	无权
法律详情：	未缴年费专利权终止IPC(主分类):G06F 17/30申请日:20090506授权公告日:20110323终止日期:20140506\|\|\|授权\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	北京大学
发明人：	隋琪; 王腾蛟; 杨冬青
地址：	100871北京市海淀区颐和园路5号
优先权：
专利代理机构：	北京路浩知识产权代理有限公司	代理人：	胡小永
PDF下载：	PDF下载

内容摘要

本发明提出的一种面向复杂数据仓库环境的优化策略自动生成方法，包括以下步骤：(1)生成诊断点图，诊断点图根据诊断点的语义链接组成；(2)根据诊断点距离∑Dis(DGNj，DGNi)升序排列所有诊断点DGNj，诊断点距离就是诊断点对应的语义库中元素的距离；(3)对每个处于诊断点重心的N个单元DGNj，按下述方式处理：(3-1)在调优过程中加入新结点；(3-2)按诊断点距离从大到小广度优先遍历DGNj，直到语义距离小于某个限定值Dismax；(3-3)若新的结点不在调优过程中，则加入它；(4)对于诊断过程中的每个诊断点，检查该诊断点，如果此诊断点异常，则使用相应的调优策略；(5)输出调优过程；本发明可以针对不同的应用背景，为不同的数据仓库系统生成不同的优化策略。

权利要求书

1、一种面向数据仓库环境的优化策略自动生成方法，其特征在于，包括如下步骤：
(1)生成诊断点图，诊断点图根据诊断点的语义链接组成，每个诊断点都会链接到数据仓库语义库，数据仓库语义库用来描述数据仓库各个组成要素之间的关系；
(2)根据诊断点距离升序排列所有诊断点DGN_j，诊断点距离就是诊断点对应的语义库中元素的距离；
(3)对每个处于诊断点重心的N个单元DGN_j，按下述方式处理：
(3-1)在调优过程中加入新结点；
(3-2)按诊断点距离从大到小广度优先遍历DGN_j，直到语义距离小于某个限定值Dis_max；
(3-3)若新的结点不在调优过程中，则加入它；
(4)对于诊断过程中的每个诊断点，检查该诊断点，如果此诊断点异常，则使用相应的调优策略；
(5)输出调优过程；其中，
所述诊断点DGN是一个包含名称、对应策略和语义指针的三元组，诊断点是可能导致系统瓶颈的可疑点，名称就是诊断点的名称，对应策略是这个诊断点出现异常的时候的相应调优策略，语义指针是一个指向数据仓库系统语义库的指针，该语义指针所指向的语义用来表示该诊断点在整个数据仓库系统中的含义和作用，所述数据仓库系统语义库用于描述整个数据仓库系统中的概念及其相互关系，且每一个诊断点都含有一组不同的需求回报分数向量；
所述调优过程是一个诊断点组成的序列【DGN1，DGN2，......DGNn】，使用不同的顺序检查这些诊断点后，不同的调优过程在语义库的支持下自动生成；
所述两个诊断点DGNa和DGNb之间的语义距离用SemanticDis(DGNa，DGNb)表示，即语义指针指向的数据仓库系统语义库元素之间的最短距离；
所述需求回报函数用下式来定义：Ri=Σi=Idpi*si,]]>d代表了预先定义的需求回报的需求回报维数，p_i是对第i维需求回报的权重，s_i是在一个诊断点中第i维的需求回报分数，该分数表示这个诊断点对整个数据仓库系统性能的重要程度；
所述诊断点图是一个无向图G＝(V，E)，V是一组诊断点，E是一组连接两个诊断点DGN_i和DGN_j的边，它可以表示两个单元的语义距离；
所述诊断点距离，用下式定义：
Dis(DGNi,DGNj)=minu&Element;N(Dis(DGNi,DGNu)+Dis(DGNu,DGNj)),]]>如果DGN_i和DGN_j邻接，那么二者的距离则是，
Dis(DGN_i，DGN_j)＝SemanticDis(DGN_i，DGN_j)*(R_i+R_j)
所述诊断点重心DGN_center是诊断点图的一个顶点，定义如下：
Σi&Element;N,i&NotEqual;centerDis(DGNcenter,DGNi)=Min]]>Σi,j&Element;N,i&NotEqual;jDis(DGNj,DGNi),]]>该式表示诊断点重心是诊断点图中与其他所有诊断点距离之和最小的诊断点。

2、一种利用如权利要求1所述方法生成的优化策略对数据仓库环境进行优化的方法。

说明书

一种面向复杂数据仓库环境的优化策略自动生成方法
技术领域
本发明涉及计算机数据库技术领域，尤其涉及一种面向复杂数据仓库环境的优化策略自动生成方法。
背景技术
大型的数据仓库系统通常会遇到性能调优问题，但是目前的数据仓库系统规模越来越庞大、结构越来越复杂、涉及到的软件技术越来越广泛。越来越复杂的应用架构和数据库产品使得调优变得更加复杂，它们的各种调优策略之间存在的复杂影响也使调优越来越困难。目前的各种调优技术大都局限在数据仓库系统某个具体细节的调优上，比如在数据仓库的性能调优中，操作系统、数据仓库系统、ETL工具、分析挖掘工具等的调优都是互相独立的，忽略了其中的互相影响和联系，使得调优的结果往往不能使用户满意。从数据仓库系统整体的角度提出调优策略，成为当前数据仓库系统调优中的一个迫切需求。
另一方面，目前各种数据仓库系统针对的企业需求差异性也很大，造成的数据仓库对性能的要求也多种多样。比如有些数据仓库系统是为了宏观决策支持，对于响应时间的要求不严格，有些数据仓库系统则要求能提供实时的数据分析支持；有些数据仓库系统更关注存储成本的降低；有些数据仓库操作系统则受制于网络速度的限制，追求网络资源的利用率。现有的数据仓库通用调优策略，往往没有考虑这些差异性，这也是造成调优效果不佳的重要原因之一。
发明内容
(一)发明目的
本发明的目的是要客户现有技术的不足，提供一种适用于复杂的数据仓库环境的优化策略自动生成方法，该方法可以根据具体的需求特点，面向整个数据仓库环境，提出不同的优化策略，该方法也可用于普通的数据库优化策略的自动生成。
(二)技术方案
针对以上问题，本发明提出的一种面向复杂数据仓库环境的优化策略自动生成方法，包括以下步骤：
(1)生成诊断点图，诊断点图根据诊断点的语义链接组成，每个诊断点都会链接到数据仓库语义库，数据仓库语义库用来描述数据仓库各个组成要素之间的关系；
(2)根据诊断点距离升序排列所有诊断点DGN_j，诊断点距离就是诊断点对应的语义库中元素的距离；
(3)对每个处于诊断点重心的N个单元DGN_j，按下述方式处理：
(3-1)在调优过程中加入新结点；
(3-2)按诊断点距离从大到小广度优先遍历DGN_j，直到语义距离小于某个限定值Dis_max；
(3-3)若新的结点不在调优过程中，则加入它；
(4)对于诊断过程中的每个诊断点，检查该诊断点，如果此诊断点异常，则使用相应的调优策略；
(5)输出调优过程；其中，
所述诊断点DGN是一个包含名称、对应策略和语义指针的三元组，诊断点是可能导致系统瓶颈的可疑点，名称就是诊断点的名称，对应策略是这个诊断点出现异常的时候的相应调优策略，语义指针是一个指向数据仓库系统语义库的指针，该语义指针所指向的语义用来表示该诊断点在整个数据仓库系统中的含义和作用，所述数据仓库系统语义库用于描述整个数据仓库系统中的概念及其相互关系，且每一个诊断点都含有一组不同的需求回报分数向量；
所述调优过程是一个诊断点组成的序列【DGN1，DGN2，……DGNn】，使用不同的顺序检查这些诊断点后，不同的调优过程在语义库的支持下自动生成；
所述两个诊断点DGNa和DGNb之间的语义距离用SemanticDis(DGNa，DGNb)表示，即语义指针指向的数据仓库系统语义库元素之间的最短距离；
所述需求回报函数用下式来定义：R=Σi=1dpi*si,]]>d代表了预先定义的需求回报的需求回报维数，p_i是对第i维需求回报的权重，s_i是在一个诊断点中第i维的需求回报分数，该分数表示这个诊断点对整个数据仓库系统性能的重要程度；
所述诊断点图是一个无向图G＝(V，E)，V是一组诊断点，E是一组连接两个诊断点DGN_i和DGN_j的边，它可以表示两个单元的语义距离；
所述诊断点距离，用下式定义：
Dis(DGNi,DGNj)=minu&Element;N(Dis(DGNi,DGNu)+Dis(DGNu,DGNj)),]]>如果DGN_i和DGN_j邻接，那么二者的距离则是，
Dis(DGN_i，DGN_j)＝SemanticDis(DGN_i，DGN_j)*(R_i+R_j)
所述诊断点重心DGN_center是诊断点图的一个顶点，定义如下：
Σi&Element;N,i&NotEqual;centerDis(DGNcenter,DGNi)=MinΣi,j&Element;N,i&NotEqual;jDis(DGNj,DGNi).]]>
本发明还提供了一种利用前述方法生成的优化策略对数据仓库环境进行优化的方法。
(三)有益效果
本发明的技术方案更加适合复杂的大型数据仓库系统，该方法从提升整体性能的角度考虑，针对操作系统、数据仓库系统、ETL工具、分析挖掘工具自动生成完整的调优策略，充分考虑了的数据仓库系统各个组成部分的互相影响和联系，使得调优的结果达到最优。
本发明的技术方案还充分考虑不同应用背景下数据仓库系统的差异性，可以针对不同的应用背景，为不同的数据仓库系统生成不同的优化策略。
目前的调优工具都针对数据仓库细节进行调优，这种在宏观的角度生成调优策略的方法，目前还是空白。使用本方法可以开发出面向客户需求的数据仓库整体调优工具，作为数据仓库系统调优的决策支持工具，辅助数据仓库管理员或者调优专家从整体角度出发，作出正确有效的调优策略。该工具还可以与现有的各种针对细节的专用调优工具结合，自动实时的对数据仓库性能进行调优，及时消除数据仓库瓶颈，提升数据仓库性能。本算法也可用于普通的数据库优化策略的自动生成，作为数据库调优工具的核心算法，适当改动后的该算法，还可以用在其他系统的宏观调优上。
附图说明
图1为调优过程生成示意图；
图2为调优过程生成流程图；
图3为两种调优过程模拟实验对比图。
具体实施方式
以下实施例用于说明本发明，但不用来限制本发明的范围。
本具体实施方式基于一些基本概念展开，如下：
定义一：诊断点
诊断点DGN＝<诊断点名称，对应策略，语义指针>是一个数据仓库系统中的基本组成元素，也是可能导致系统瓶颈的可疑点。例如操作系统的IO、存储，数据仓库软件的索引、存储空间分配，网络系统的负载，ETL过程的相应时间等，都是数据仓库系统的诊断点。一个诊断点是一个三元组，其中：
名称就是诊断点的名称；
对应策略则是这个诊断点出现异常的时候，相应的调优策略；
语义指针则代表这个诊断点的语义，也就是在整个数据仓库系统中的含义和作用，它是一个指针，指向一个数据仓库系统语义库。
数据仓库系统语义库用来描述整个数据仓库系统中的概念及其相互关系，或者说数据仓库系统语义库就是一个用来表示整个数据仓库系统的规范格式的文件。数据仓库系统语义库可以是一个传统的XML树+规则的文档，也可以是其它的一些结构，比如语义邻接矩阵等。使用不同的顺序检查这些诊断点后，不同的调优过程将会在语义库的支持下自动生成。
所有的诊断点都含有一个指向数据仓库系统语义库节点的指针，因此每个诊断点都具有它们自身的语义含义，这个语义含义将是我们自动生优化策略的基础。
定义2：调优过程
一个调优过程[DGN₁，DGN₂，……DGN_n]是一个诊断点组成的序列。使用不同的顺序检查这些诊断点后，不同的调优过程将会在语义库的支持下自动生成。这里我们试图找到最好的调优过程来生成相应的调优策略，在数据仓库语义库的支持下，来使用户需求的到最大程度的满足。
每个诊断点都含有一个指向数据仓库系统语义库的指针，它代表着诊断点的语义。通过语义指针，我们可以计算不同诊断点之间的语义距离。
定义3：语义距离
SeanticDis(DGN_a，DGN_b)代表了诊断点a与b之间的语义距离，即用语义指针链接的数据仓库系统语义库元素之间的最短距离。
SeanticDis(DGN_a，DGN_b)＝D_min(N_a，N_b)，N_a表示DGN_a的语义指针指向的结点，N_b表示DGN_b的语义指针指向的结点。如何计算语义距离取决于数据仓库系统语义库的结构。对于一个基于XML树的本体，我们可以用Dijkstra算法来获得两个诊断点间的最短距离。
定义4：需求回报函数
需求回报函数用下式来定义：R=Σi=1dpi*si,]]>其中，
d代表了预先定义的需求回报的需求回报维数。
p_j是用户第i维需求回报的权重。
s_i是在一个诊断点中第i维需求回报的分数，表示如果一个由此诊断点带来的系统瓶颈被排除了所能带来的收益。或者换句话说，分数意味着这个诊断点对整个数据仓库系统性能的重要程度。每一个诊断点都含有一组不同的需求回报分数向量，这是由相关领域的专定确定的。生成调优过程的目的是寻找一个使需求回报函数达到最大值的过程。
诊断点的需求回报函数反映了针对这个诊断点的调优在不同方面造成的影响程度。例如，在数据仓库系统中有以下一些需求回报维度：相应时间，内存开销，存储开销，成本、网络资源等等。不同需求回报维的权重是调优之前根据不同的用户需求类型初始化好的。
定义5：诊断点图
一个诊断点图是一个无向图G＝(V，E)，在一个无向图G中：
V是一组诊断点，每个单元都有一组由诊断点专家定义的用户需求回报值向量；
E是一组连接两个诊断点DGN_i和DGN_j的边，它可以表示两个单元的语义距离。
定义6：诊断点距离
在一个诊断点图中，诊断点距离在两个顶点间有如下定义：
Dis(DGNi,DGNj)=minu&Element;N(Dis(DGNi,DGNu)+Dis(DGNu,DGNj)),]]>
如果DGN_i和DGN_j邻接，那么二者的距离则是，
Dis(DGN_i，DGN_j)＝SemanticDis(DGN_i，DGN_j)*(R_i+R_j)
实际上，DGN_i和DGN_j之间诊断点距离是在诊断点图中它们的最短距离，如果两个顶点是相邻的，那么它们的诊断点距离是它们语义距离与需求回报函数总和的乘积。
DGN_i和DGN_j的诊断点距离代表了它们的关联程度。因为诊断点距离是根据用户的需求回报函数来计算的，即使是相同的诊断点，它们之间的诊断点距离也因用户的不同而有所差异，是用户个性化的体现。
定义7：诊断点重心
诊断点重心是诊断点图的一个顶点，代表了用户与网站诊断点中的兴趣重心。诊断点重心DGN_center有如下定义：
Σi&Element;N,i&NotEqual;centerDis(DGNcenter,DGNi)=MinΣi,j&Element;N,i&NotEqual;jDis(DGNj,DGNi)]]>
在此定义中，诊断点重心是诊断点图中与其他所有诊断点诊断点距离之和最短的诊断点。所以，诊断点重心比其它诊断点拥有更多的紧密邻居。在调优过程中以诊断点重心作为起始节点是很重要的，因为诊断点距离是根据用户的需求回报函数来计算的，不同的用户需求拥有不同的诊断点重心，以产生不同的调优过程。
根据诊断点的语义和用户的需求汇报生成调优过程，整个思路图1所示，通过此方法，可以使用一个调优过程生成方法来为不同的数据仓库和不同的用户需求生成不同的调优过程，该方法的思想包括两步：
1)寻找诊断点重心，也就是数据仓库的个性化性能焦点；
2)以诊断点重心为起点，广度优先搜索诊断点图，结点即为调优过程。
如图2所示为本发明的调优过程生成流程图，该过程可用如下伪码表示：
Step1：
清空诊断过程；
根据升序排列所有诊断点DGN_j；
Step2：
For每个处于诊断点重心的N个单元DGN_jdo
在调优过程中加入新结点；
按诊断点距离从大到小BFS(DGN_j)，直到语义距离小于某个限定值Dis_maxIf新的结点不在调优过程中，加入它；
End BFS
End for；
Step3：
For诊断过程中的每个诊断点：
检查诊断点；
如果此诊断点异常，使用相应的调优策略；
End for；
输出调优过程。
此算法中存在两个阈值：诊断点重心数阈值和最小距离阈值。诊断点重心数阈值决定了我们可以选择多少个诊断点重心来开始广度优先搜索，它代表了不同的诊断点重心的重要程度：一个重心是最重要的或者一些重心都很重要；最小距离阈值决定了广度优先搜索的结束条件，也决定了搜索领域的大小：调优过程是更细节还是更简短。这两个阈值的初试值由经验来约定，并在诊断点模型的发展中不断调整。
上述提到的调优过程产生算法，它的时间复杂度是O(nlogn)*O(n*n²)*O(n)＝O(n⁵logn)，其中n是诊断点的个数。
为了评估上节的调优过程产生算法，采用一个模拟实验来检测它的性能和可行性。在这个实验中，在数据仓库环境下设计了很多诊断点，然后根据两种不同类型的数据仓库生成了两种不同的调优过程：一种是用于在大规模数据中长期决策，另一种用于在较小规模数据集市中支持实时分析，模拟实验过程如下：
选取12个诊断点进行模拟试验，这12个诊断点分别为：
A  内存利用率
B  缓存利用率
C  网络负载
D  ETL过程
E  挖掘算法
F  外存利用率
G  OLAP模型
H  虚拟存储利用率
I  CPU利用率
J  磁盘IO
K  物化视图
L  数据库索引
根据它们在预定义的数据仓库语义库中的位置，计算各个诊断点的语义距离，具体的语义距离矩阵如下：

A B C D E F G H I J K L A 1 10 4 3 2 8 3 3 2 7 6 B 8 2 5 2 4 3 5 5 4 2 C 7 10 8 2 6 7 8 5 3 D 10 4 9 3 1 3 2 1 E 3 3 2 1 4 3 1 F 3 1 8 2 9 4 G 6 3 3 2 1 H 8 2 3 6 I 9 9 3 J 3 4 K 2 L

同时，定义这些诊断点的诊断对成本和响应时间这两个角度的回报，下面是这些诊断点在这两个维度上的回报：
成本响应时间 A 2 8

B 2 6 C 6 4 D 7 2 E 8 2 F 9 3 G 7 7 H 2 7 I 3 10 J 9 5 K 6 7 L 1 9

两种不同需求对两个维度的权重，分别如下：
成本响应时间需求1 9 1 需求2 1 9

根据本发明的调优方法，分别得到的的调优序列如下：
需求1：A(重心)B C D E F G H I J K L
需求2：I(重心)L K C G E A H F J D B
如图3所示，是用于两种拥有不同需求的数据仓库的两个调优过程：一个专注于节约建设成本，另一个则更多注重反馈时间。在这个例子中，顶部诊断中心阈值是1，最小距离阈值是在所有诊断点图表中的平均距离。
从这两种调优过程我们可以发现：
(1)过程1包括更多关于怎样花费更少的资金来建立一个数据仓库系统的诊断点；而过程2包括更多关于怎样建立一个反馈更快速的数据仓库系统的诊断点。这是因为两种不同的数据仓库系统有着不同的诊断重心和需求回报函数。
(2)在这两个调优过程中，有着密切联系的诊断点都被放在了一起。这是因为所有诊断点都链接到一个相同的数据仓库语义库，在这个语义库中，描述了它们的语义信息。
以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由其权利要求限定。