《降水多驱动因子分段率定优化预报方法及系统.pdf》由会员分享,可在线阅读,更多相关《降水多驱动因子分段率定优化预报方法及系统.pdf(18页珍藏版)》请在专利查询网上搜索。
1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202310885223.X(22)申请日 2023.07.19(71)申请人 水利部水利水电规划设计总院地址 100120 北京市西城区六铺炕北小街2-1号(72)发明人 李昕阳郭旭宁唐世南羊艳刘昀竺刘为锋(74)专利代理机构 北京中先生知识产权代理事务所(普通合伙)16063专利代理师 窦贤宇(51)Int.Cl.G06Q 10/04(2023.01)G06F 30/27(2020.01)G06F 17/18(2006.01)(54)发明名称降水多驱动因子分段率定优化预报方法及系统(57)摘要。
2、本发明公开了一种降水多驱动因子分段率定优化预报方法及系统,包括如下步骤:采集研究区域的研究数据,从研究数据中提取降水数据,采用趋势分析法对降水数据进行处理,获得突变点集合并根据突变点划分出至少两个降水变化阶段;构建降水变化驱动因子集合,并从中筛选出关键驱动因子;针对每个降水变化阶段,构建关键驱动因子与降水的映射模型;对映射模型进行参数优化和分段率定,基于率定后的映射模型对降水进行预报。本发明提高了预报的准确率和速度。权利要求书3页 说明书11页 附图3页CN 116611588 A2023.08.18CN 116611588 A1.降水多驱动因子分段率定优化预报方法,其特征在于,包括如下步骤:。
3、步骤S1、采集研究区域的研究数据,从研究数据中提取降水数据,采用趋势分析法对降水数据进行处理,获得突变点集合并根据突变点划分出至少两个降水变化阶段;步骤S2、构建降水变化驱动因子集合,并从中筛选出关键驱动因子;步骤S3、针对每个降水变化阶段,构建关键驱动因子与降水的映射模型;步骤S4、对映射模型进行参数优化和分段率定,基于率定后的映射模型对降水进行预报。2.如权利要求1所述的降水多驱动因子分段率定优化预报方法,其特征在于,所述步骤S1进一步为:步骤S11、划定研究区域,并采集研究区域的研究数据;步骤S12、从研究数据中提取降水时间序列,获得预定时期的降水数据,针对降水时间序列构建降水特征集合;。
4、步骤S13、采用MKITA趋势分析方法对降水数据进行趋势分析,获取趋势方向、大小和突变点数据;步骤S14、读取突变点数据并判断突变点数量是否大于阈值,若大于,则进行聚类处理,减少突变点数量;否则,根据突变点划分出至少两个降水变化阶段。3.如权利要求2所述的降水多驱动因子分段率定优化预报方法,其特征在于,所述步骤S13进一步为:步骤S13a、针对每一降水特征,分别采用MK法和ITA法计算统计量,判断是否存在趋势,并计算趋势的方向、大小和突变点;步骤S13b、对MK法和ITA法的统计量进行相关性分析,判断相关性系数是否大于阈值,若大于阈值,则判断MK法和ITA方法具有一致性;步骤S13c、对MK法。
5、和ITA法的统计量进行现行回归分析,获得回归方程和回归系数;基于回归方程和回归系数,计算MKITA方法的综合统计量,并计算趋势方向、大小和突变点;或者,构建MK法和ITA法统计量权重集,计算新的统计量,并绘制ITA统计量示意图。4.如权利要求3所述的降水多驱动因子分段率定优化预报方法,其特征在于,所述步骤S2进一步为:步骤S21、采用荟萃分析法,从产生机理、统计规律和间接影响角度,筛选具有定量响应关系的研究文献,从研究文献中提取至少两个研究指标,并计算每个研究指标的效应值,使用最大似然模型分析不同文献之间的研究指标的变异,使用最大似然模型与随机模型计算所有文献中所有研究指标的总变异值,基于总变。
6、异值的计算结果从研究指标中筛选降水变化驱动因子,形成降水变化驱动因子集合;步骤S22、针对每一降水变化阶段,构建降水变化驱动因子筛选模型,对降水变化驱动因子进行二次筛选,获得各个降水变化阶段的关键驱动因子。5.如权利要求4所述的降水多驱动因子分段率定优化预报方法,其特征在于,所述步骤S22进一步为:步骤S22a、构建基于GA超参数优化的GBDT模型,以降水变化驱动因子作为输入,降水参数作为输出,对研究区域的降水进行模拟,采用粒子群优化算法对GBDT模型进行求解;步骤S22b、通过计算获得降水变化驱动因子的重要度和敏感度数据,并构建降水变化权利要求书1/3 页2CN 116611588 A2驱动。
7、因子筛选的综合判别准则,获得研究区域降水变化驱动的敏感因子;步骤S22c、筛选至少部分敏感因子作为关键驱动因子。6.如权利要求5所述的降水多驱动因子分段率定优化预报方法,其特征在于,所述步骤S3进一步为:针对每个降水变化阶段,构建基于随机森林的预报模型,包括:构建训练集,生成回归决策树,确定节点分裂特征集,计算决策树权重,计算单颗决策树预测值,计算观测值权重和回归森林预测值。7.如权利要求6所述的降水多驱动因子分段率定优化预报方法,其特征在于,所述步骤S4中对映射模型进行参数优化的过程进一步为:步骤S41、获取校正数据点集,并将数据集分为训练集和测试集,设定基于随机森林的预报模型的待优化超参数。
8、范围;步骤S42、对训练集进行贝叶斯寻优,交叉验证结果,平均值最优所对应的参数即为最佳参数;步骤S43、利用最佳参数训练基于随机森林的预报模型,验映射模型泛化能力,对预测结果进行评价。8.如权利要求7所述的降水多驱动因子分段率定优化预报方法,其特征在于,所述步骤S42中,进行贝叶斯寻优的过程具体如下:步骤S42a、设定映射模型的求解空间和采样的初始点,将初始点输入黑盒函数得到对应输出,将输出值最大点作为初始最优点;步骤S42b、利用高斯过程拟合初始采样点,并判断是否满足最大迭代次数,若否,则重新采样若干点,利用高斯过程预测新采集点对应分布的均值和标准差,使用采集函数对各点进行打分,得分最高点为。
9、当前迭代最优点;步骤S42c、判断是否进行第一次迭代,若是,用当前最优点替换上一轮最优点,若否,用当前最优点替换初始最优点;步骤S42d、将当前最优点及其对应采集函数输出加入集合,更新高斯过程拟合结果:迭代次数加一,从集合中选取得分最高点作为最终优化结果。9.如权利要求7所述的降水多驱动因子分段率定优化预报方法,其特征在于,所述步骤S4中,对映射模型进行分段率定的过程进一步为:步骤S4a、构建历史降水预报成果库,对m场历史降水,每场降水做Sk次滚动预报,则有k=1mSk组滚动预报数据;构建各个预见期的误差样本库;当前时刻对应预见期的预报误差与p个前期预报误差有关,提取当前预见期的预报误差与前期。
10、误差系列映射数据对;m,p,k为自然数;步骤S4b、建立不同预见期的误差校正模型:将不同预见期误差样本库中的误差系列数据对作为训练集,代入校正模型进行训练,得到对应预见期的预报误差与前期误差系列之间的函数关系;步骤S4c、实时预报误差校正,在实时校正时,针对不同预见期,将当前时刻前出现的p个误差系列代入校正模型中,即可得到不同预见期的预报误差校正值;将当前时刻各预见期预报值减去相应预见期的误差校正值,即可得到校正后各预见期预报值。10.一种降水多驱动因子分段率定优化预报系统,其特征在于,包括:权利要求书2/3 页3CN 116611588 A3至少一个处理器;以及与至少一个所述处理器通信连接的。
11、存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求19任一项所述的降水多驱动因子分段率定优化预报方法。权利要求书3/3 页4CN 116611588 A4降水多驱动因子分段率定优化预报方法及系统技术领域0001本发明涉及降水预报仿真计算方法,尤其是考虑气候变化阶段性特征的降水多驱动因子分段率定优化预报方法。背景技术0002降水预测是气象预报的重要内容之一,对于防灾减灾、水资源管理、农业生产等方面具有重要意义。然而,由于降水过程受到多种气象因子的影响,其时空分布和强度变化具有较大的不确定性和随机性,给降水预测带来了很大的挑战。目前,常用的降水预测方。
12、法主要有动力模式预测、统计模式预测和多模式集成预测等。0003动力模式预测是基于物理方程组对大气运动进行数值模拟,从而得到未来一定时段内的降水量或概率。动力模式预测具有较高的物理意义和空间分辨率,但也存在一些不足,如初始场和边界条件的误差、参数化方案的不完善、对小尺度过程的表征能力不足等,导致其在中长期降水预测中的技巧较低。0004统计模式预测是利用历史观测数据,建立降水与其影响因子之间的统计关系,从而根据当前或未来的影响因子值推算出降水量或概率。统计模式预测具有较高的灵活性和适应性,但也需要满足一些前提条件,如数据质量和数量的要求、统计关系的稳定性和可靠性等,否则会影响其预测效果。0005多。
13、模式集成预测是综合利用多个动力模式或统计模式的预测结果,通过一定的方法进行加权或融合,从而得到一个综合的降水预测产品。多模式集成预测旨在充分利用不同模式的优势,消除或减小各自的误差,提高降水预测的准确性和稳定性。多模式集成预测涉及到多个方面的问题,如模式选择、权重确定、集成方法等。0006总之,现有技术中还存在诸如降水预报精度不高、不适应不同区域和季节变化、缺乏客观评估和订正机制等问题。发明内容0007发明目的:提供一种降水多驱动因子分段率定优化预报方法,以解决现有技术存在的上述问题。另一方面提供一种实现上述预报方法的系统。0008技术方案:提供一种降水多驱动因子分段率定优化预报方法,包括如下。
14、步骤:步骤S1、采集研究区域的研究数据,从研究数据中提取降水数据,采用趋势分析法对降水数据进行处理,获得突变点集合并根据突变点划分出至少两个降水变化阶段;步骤S2、构建降水变化驱动因子集合,并从中筛选出关键驱动因子;步骤S3、针对每个降水变化阶段,构建关键驱动因子与降水的映射模型;步骤S4、对映射模型进行参数优化和分段率定,基于率定后的映射模型对降水进行预报。0009根据本申请的一个方面,所述步骤S1进一步为:步骤S11、划定研究区域,并采集研究区域的研究数据;说明书1/11 页5CN 116611588 A5步骤S12、从研究数据中提取降水时间序列,获得预定时期的降水数据,针对降水时间序列构。
15、建降水特征集合;步骤S13、采用MKITA趋势分析方法对降水数据进行趋势分析,获取趋势方向、大小和突变点数据;步骤S14、读取突变点数据并判断突变点数量是否大于阈值,若大于,则进行聚类处理,减少突变点数量;否则,根据突变点划分出至少两个降水变化阶段。0010根据本申请的一个方面,所述步骤S13进一步为:步骤S13a、针对每一降水特征,分别采用MK法和ITA法计算统计量,判断是否存在趋势,并计算趋势的方向、大小和突变点;步骤S13b、对MK法和ITA法的统计量进行相关性分析,判断相关性系数是否大于阈值,若大于阈值,则判断MK法和ITA方法具有一致性;步骤S13c、对MK法和ITA法的统计量进行现。
16、行回归分析,获得回归方程和回归系数;基于回归方程和回归系数,计算MKITA方法的综合统计量,并计算趋势方向、大小和突变点;或者,构建MK法和ITA法统计量权重集,计算新的统计量,并绘制ITA统计量示意图。0011根据本申请的一个方面,所述步骤S2进一步为:步骤S21、采用荟萃分析法,从产生机理、统计规律和间接影响角度,筛选具有定量响应关系的研究文献,从研究文献中提取至少两个研究指标,并计算每个研究指标的效应值,使用最大似然模型分析不同文献之间的研究指标的变异,使用最大似然模型与随机模型计算所有文献中所有研究指标的总变异值,基于总变异值的计算结果从研究指标中筛选降水变化驱动因子,形成降水变化驱动。
17、因子集合;步骤S22、针对每一降水变化阶段,构建降水变化驱动因子筛选模型,对降水变化驱动因子进行二次筛选,获得各个降水变化阶段的关键驱动因子。0012根据本申请的一个方面,所述步骤S22进一步为:步骤S22a、构建基于GA超参数优化的GBDT模型,以降水变化驱动因子作为输入,降水参数作为输出,对研究区域的降水进行模拟,采用粒子群优化算法对GBDT模型进行求解;步骤S22b、通过计算获得降水变化驱动因子的重要度和敏感度数据,并构建降水变化驱动因子筛选的综合判别准则,获得研究区域降水变化驱动的敏感因子;步骤S22c、筛选至少部分敏感因子作为关键驱动因子。0013根据本申请的一个方面,所述步骤S3进。
18、一步为:针对每个降水变化阶段,构建基于随机森林的预报模型,包括:构建训练集,生成回归决策树,确定节点分裂特征集,计算决策树权重,计算单颗决策树预测值,计算观测值权重和回归森林预测值。0014根据本申请的一个方面,所述步骤S4中对映射模型进行参数优化的过程进一步为:步骤S41、获取校正数据点集,并将数据集分为训练集和测试集,设定基于随机森林的预报模型的待优化超参数范围;步骤S42、对训练集进行贝叶斯寻优,交叉验证结果,平均值最优所对应的参数即为最佳参数;步骤S43、利用最佳参数训练基于随机森林的预报模型,验映射模型泛化能力,对说明书2/11 页6CN 116611588 A6预测结果进行评价。0。
19、015根据本申请的一个方面,所述步骤S42中,进行贝叶斯寻优的过程具体如下:步骤S42a、设定映射模型的求解空间和采样的初始点,将初始点输入黑盒函数得到对应输出,将输出值最大点作为初始最优点;步骤S42b、利用高斯过程拟合初始采样点,并判断是否满足最大迭代次数,若否,则重新采样若干点,利用高斯过程预测预测新采集点对应分布的均值和标准差,使用采集函数对各点进行打分,得分最高点为当前迭代最优点;步骤S42c、判断是否进行第一次迭代,若是,用当前最优点替换上一轮最优点,若否,用当前最优点替换初始最优点;步骤S42d、将当前最优点及其对应采集函数输出加入集合,更新高斯过程拟合结果:迭代次数加一,从集合。
20、中选取得分最高点作为最终优化结果。0016根据本申请的一个方面,所述步骤S4中,对映射模型进行分段率定的过程进一步为:步骤S4a、构建历史降水预报成果库,对m场历史降水,每场降水做Sk次滚动预报,则有k=1mSk组滚动预报数据;构建各个预见期的误差样本库;当前时刻对应预见期的预报误差与p个前期预报误差有关,提取当前预见期的预报误差与前期误差系列映射数据对;m,p,k为自然数;步骤S4b、建立不同预见期的误差校正模型:将不同预见期误差样本库中的误差系列数据对作为训练集,代入校正模型进行训练,得到对应预见期的预报误差与前期误差系列之间的函数关系;步骤S4c、实时预报误差校正,在实时校正时,针对不同。
21、预见期,将当前时刻前出现的p个误差系列代入校正模型中,即可得到不同预见期的预报误差校正值;将当前时刻各预见期预报值减去相应预见期的误差校正值,即可得到校正后各预见期预报值。0017根据本申请的另一个方面,一种降水多驱动因子分段率定优化预报系统,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述任一项技术方案所述的降水多驱动因子分段率定优化预报方法。0018有益效果:采用多驱动因子分段率定优化预报方法,能够充分利用不同驱动因子对不同场景的预报优势,提高降水预报的准确率;通过降水预报进行订正和优化,。
22、能够有效处理因子间的共线性问题,增强预报模型的鲁棒性;能够适应不同区域和季节的降水变化,提高降水预报的准确性、适应性和灵活性。附图说明0019图1是本发明的流程图。0020图2本发明步骤S1的流程图。0021图3是本发明步骤S2的流程图。0022图4是本发明步骤S4的流程图。0023图5是本发明步骤S42的流程图。说明书3/11 页7CN 116611588 A70024图6是本发明分段率定的流程图。具体实施方式0025如图1所示,提出如下技术方案。根据本申请的一个方面,提供一种降水多驱动因子分段率定优化预报方法,包括如下步骤:步骤S1、采集研究区域的研究数据,从研究数据中提取降水数据,采用趋。
23、势分析法对降水数据进行处理,获得突变点集合并根据突变点划分出至少两个降水变化阶段。0026步骤S2、构建降水变化驱动因子集合,并从中筛选出关键驱动因子。0027步骤S3、针对每个降水变化阶段,构建关键驱动因子与降水的映射模型。0028步骤S4、对映射模型进行参数优化和分段率定,基于率定后的映射模型对降水进行预报。0029在本实施例中,降水变化驱动因子包括气候背景(月尺度)和天气系统(日尺度),其中,气候背景(月尺度)包括北半球极涡面积指数(NHPVA)、北半球极涡强度指数(NHPVI)、北半球极涡中心经向位置指数(NHPVCLON)、北半球极涡中心纬向位置指数(NHPVCLAT)、西太副高面积。
24、指数(WPSHA)、西太副高强度指数(WPSHI)、西太副高脊线位置指数(WPSHRP)、西太副高西伸脊点指数(WPSHWRP)、西太副高北界位置指数(WPSHNBP)、欧亚纬向环流指数(EZC)、欧亚经向环流指数(EMC)、东亚槽位置指数(EATP)、东亚槽强度指数(EATI)、Nino1+2区海温指数、Nino3区海温指数、Nino4区海温指数和Nino3.4区海温指数。天气系统(日尺度)包括槽(T)、脊(R)、高空急流(HJ)、切变线(SL)、低涡(VO)、气旋(CL)、锋面(FS)、台风(TY)、冷空气(CA)和低空急流(LJ)。当然,在一些实施例中,还可以报考其他气候因子、地形因子和。
25、环流因子,以提高降水预报的物理机理和统计规律。0030在本实施例中,根据降水数据的突变点划分出不同的降水变化阶段,反映降水变化的时空异质性,为精确预报提供了基础。在后续的步骤中针对每个降水变化阶段,构建关键驱动因子与降水的映射模型。并分段进行参数优化和率定,进而提高了降水预报模型的精度和稳定性。由于不同的时间阶段,降水预报因子的作用大小是不同的,比如夏季和冬季,在特定地区,关键驱动因子存在较大差别,因此如果统计采用全部的降水驱动因子进行预测,不仅计算量大,而且精度不够好。而如果随意进行时间划分,例如均匀划分时间段,则无法反应气候变化的实际场景。所以,首先进行突变检验和分析,通过突变检验分析,进。
26、行预报时期的划分。最后,在本实施例中,通过采用荟萃分析法、基于GA超参数优化的GBDT模型、基于随机森林的预报模型和贝叶斯寻优等方法进行数据处理,不仅提高了模型预报精度,而且提高降水预报的智能化和自动化水平。0031如图2所示,根据本申请的一个方面,所述步骤S1进一步为:步骤S11、划定研究区域,并采集研究区域的研究数据;研究区域可以是一个行政区域、一个流域、一个气候区或其他自然或人为划分的区域,根据研究目的和数据可用性进行选择。研究数据可以包括降水数据、驱动因子数据、地形数据、土壤数据、植被数据等,根据研究需求和数据来源进行采集。采集方法可以是从气象站、卫星遥感、数值模拟等渠道获取,或者是通。
27、过插值、外推、估算等方法生成。0032步骤S12、从研究数据中提取降水时间序列,获得预定时期的降水数据,针对降水时间序列构建降水特征集合。说明书4/11 页8CN 116611588 A80033降水时间序列是指按照一定的时间间隔(如日、月、年等)记录的降水量或强度的序列,反映了降水在时间上的变化规律。预定时期是选择的一段时间范围,如过去二十年、未来五年等。降水特征集合是指描述降水时间序列在不同尺度上的统计特征或物理特征的集合,如总量、强度、偏度、峰度、频率和持续性等,反映了降水在空间上和时间上的变化特征。0034步骤S13、采用MKITA趋势分析方法对降水数据进行趋势分析,获取趋势方向、大小。
28、和突变点数据。MKITA趋势分析方法是指将MK法(MannKendall法)和ITA法(Innovative Trend Analysis法)结合起来的一种方法,能够克服单一方法的局限性,提高趋势分析的准确性和稳健性。通过将MK法和ITA法的统计量进行加权或回归分析,得到一个综合统计量,并根据该统计量计算趋势方向、大小和突变点。0035步骤S14、读取突变点数据并判断突变点数量是否大于阈值,若大于,则进行聚类处理,减少突变点数量;否则,根据突变点划分出至少两个降水变化阶段。0036在本实施例中,突变点数据是指MKITA方法得到的时间序列中出现明显的跳跃或断层的点的数据,包括突变点的位置、类型和。
29、大小。阈值是指对突变点数量进行判断的一个标准,根据研究区域的实际情况和数据质量进行设定。聚类处理是指对突变点进行一种分组或归类的方法,将相邻或相似的突变点合并为一个突变点,以减少突变点的数量,提高突变点的代表性。降水变化阶段是指根据突变点将时间序列划分为不同的子序列,每个子序列具有相对稳定的降水特征,反映了降水在不同时间段内的变化规律。0037步骤S1的技术方案,主要是分析降水变化特征,找出降水变化的时间节点和阶段,为后续预报提供更为准确的数据。突变点是指时间序列中出现明显的跳跃或断层的点,表明降水发生了结构性变化。根据突变点,可以将降水时间序列划分为不同的阶段,每个阶段具有相对稳定的降水特征。
30、。0038根据本申请的一个方面,所述步骤S13进一步为:步骤S13a、针对每一降水特征,分别采用MK法和ITA法计算统计量,判断是否存在趋势,并计算趋势的方向、大小和突变点。0039统计量是指用于检验或描述时间序列趋势的数值指标,如MK法的MannKendall检验统计量S和斜率估计量 ,ITA法的累积和图统计量C和突变点检测统计量D。趋势结果是指根据统计量得到的时间序列是否存在显著趋势,以及趋势的方向(增加或减少)、大小(斜率或变化率)和突变点(位置、类型和大小)。0040步骤S13b、对MK法和ITA法的统计量进行相关性分析,判断相关性系数是否大于阈值,若大于阈值,则判断MK法和ITA方法。
31、具有一致性。0041常用的相关性系数有皮尔逊相关系数、斯皮尔曼相关系数等。阈值是指用于判断相关性系数是否达到显著水平的一个标准。一致性是指两种方法得到的趋势结果在方向、大小和突变点上基本相同或相近,表明两种方法对时间序列趋势有相同或相近的判断。0042步骤S13c、对MK法和ITA法的统计量进行现行回归分析,获得回归方程和回归系数;基于回归方程和回归系数,计算MKITA方法的综合统计量,并计算趋势方向、大小和突变点;或者,构建MK法和ITA法统计量权重集,计算新的统计量,并绘制ITA统计量示意图。将MK法和ITA法的统计量进行线性组合或转换得到的一个新的统计量,如y=S a+C b。权重集是指。
32、根据MK法和ITA法的统计量之间的相关性或其他标准,给每个统计量赋予一个权重值,说明书5/11 页9CN 116611588 A9表示该统计量在综合处理中所占的比重。新的统计量是指根据权重集,将MK法和ITA法的统计量进行加权平均或加权和得到的一个新的统计量,如y=S w1+C w2。ITA统计量示意图是指根据新的统计量,绘制出时间序列的累积和图,以直观地显示时间序列的趋势变化和突变点。根据综合统计量或新的统计量,可以计算出时间序列的趋势方向、大小和突变点,作为MKITA方法的最终趋势结果。0043如图3所示,根据本申请的一个方面,所述步骤S2进一步为:步骤S21、采用荟萃分析法,从产生机理、。
33、统计规律和间接影响角度,筛选具有定量响应关系的研究文献,从研究文献中提取至少两个研究指标,并计算每个研究指标的效应值,使用最大似然模型分析不同文献之间的研究指标的变异,使用最大似然模型与随机模型计算所有文献中所有研究指标的总变异值,基于总变异值的计算结果从研究指标中筛选降水变化驱动因子,形成降水变化驱动因子集合;步骤S22、针对每一降水变化阶段,构建降水变化驱动因子筛选模型,对降水变化驱动因子进行二次筛选,获得各个降水变化阶段的关键驱动因子。0044该步骤的主要目的是分析影响研究区域降水变化的主要因素,以便建立降水与驱动因子之间的关系模型。驱动因子是指能够影响或解释降水变化的物理、气候或人为因。
34、素,如温度、湿度、风速、海平面压力、太阳辐射、植被覆盖等,在本实施例中,主要驱动因子如上文所述,但是本领域的技术人员可以根据研究需要,筛选其他的驱动因子。关键驱动因子是指在所有驱动因子中,对降水变化有显著影响且与降水有较强相关性的因素,筛选关键驱动因子的目的是减少模型复杂度和不确定性,提高模型精度和效率。0045在本实施例中,降水变化驱动因子筛选模型是指能够根据输入的驱动因子和输出的降水参数,建立驱动因子与降水之间的映射关系或概率分布关系的机器学习模型,如线性回归模型、非线性回归模型、神经网络模型、随机森林模型等。二次筛选是指在荟萃分析法筛选出的初步驱动因子集合的基础上,根据不同阶段的降水变化。
35、特征和规律,进一步筛选出对降水变化有最大影响且与降水有最高相关性的驱动因子。关键驱动因子是指在所有驱动因子中,对降水变化有最大影响且与降水有最高相关性的驱动因子。各个降水变化阶段的关键驱动因子是指针对每个降水变化阶段,经过二次筛选得到的关键驱动因子。0046根据本申请的一个方面,所述步骤S22进一步为:步骤S22a、构建基于GA超参数优化的GBDT模型,以降水变化驱动因子作为输入,降水参数作为输出,对研究区域的降水进行模拟,采用粒子群优化算法对GBDT模型进行求解。0047如何提高模型精度,使得模型预测结果尽可能地接近真实值,是构建模型的重要一环。在不改变模型结构前提下,参数寻优就是让模型减小。
36、偏差、提高精度的主要手段。0048GBDT主要包括两个部分的参数:Boosting框架参数和弱学习器参数。前者包括弱学习器最大迭代次数、每个弱学习器权重缩减系数和损失函数等;后者包括最大深度、叶子节点最少样本数等。通过多个决策树的组合,提高预测精度和稳定性。0049对模型参数进行优化,使用GA算法寻找最优或近似最优的参数值,获得参数优化的GBDT模型后,优化过程具体为:初始化一个包含若干个候选解的种群,每个候选解由弱学习器最大迭代次数和学习率两个变量组成,每个变量在一定范围内离散化;计算每个候选解的适应度值,即使用交叉验证方法得到的平均验证误差,作为评价候选解优劣的指标;根据适应度值进行选择操。
37、作,即按照一定的概率保留或淘汰候选解,使得种群中优秀的候选说明书6/11 页10CN 116611588 A10解更容易被保留;根据一定的概率进行交叉操作,即将两个候选解的部分变量进行交换,产生新的候选解,增加种群中的多样性;根据一定的概率进行变异操作,即将某个候选解的某个变量进行随机改变,产生新的候选解,增加种群中的多样性;判断是否达到最大迭代次数或收敛条件,若是,则停止迭代;若否,则返回继续迭代;最后输出最终得到的最优或近似最优的候选解,即弱学习器最大迭代次数和学习率两个参数值。0050在本实施例中GAGBDT的具体拟合过程如下:初始化一个常数作为第一个决策树(即第一个弱学习器),该常数可。
38、以是训练集的平均值或中位数等;计算每个训练样本的残差,即真实值与当前模型预测值之间的差异;使用残差作为目标变量,构建一个新的决策树(即一个新的弱学习器),并对训练集进行拟合;将新的决策树乘以一个权重系数(即学习率),并加到当前模型上,得到一个更新后的模型;判断是否达到最大迭代次数或收敛条件,若是,则停止迭代;若否,则返回步骤继续迭代;输出最终得到的GBDT模型。0051在进一步的实施例中,还可以采用如下步骤:输入样本集D、初始化粒子位置和速度、初始化弱学习器、计算负梯度方向、决策树运算、本轮弱学习器结束、更新强学习器、判断迭代次数是否大于预定值,最终预测系列、计算平均验证误差、找出本代最优和历。
39、代最优、更新粒子速度和位置、判断是否达到最大迭代次数,若是输出模型。0052步骤S22b、通过计算获得降水变化驱动因子的重要度和敏感度数据,并构建降水变化驱动因子筛选的综合判别准则,获得研究区域降水变化驱动的敏感因子;重要度是指用于衡量驱动因子对预测结果影响程度的数值指标,如信息增益、基尼系数等。具体过程如下:调用训练好的BP神经网络模型,以及一个输入向量,其中包含各个指标的值。根据BP神经网络模型的连接权值和阈值,计算隐含层的输出向量 和输出层的实际输出值。对于每个指标,计算网络输出对该指标求偏导数,即重要度信息。将所有指标的重要度信息存储在一个向量中,输出重要度信息向量,并根据需要进行筛选。
40、和排序。具体地,对于一个给定的输入向量,比较第j个指标和第j+1个指标对网络输出的贡献程度。比较方法如下:网络连接权值wjs和ws反映了某个指标值被引入网络的信息量的大小,决定了指标对网络输出的贡献程度。0053敏感度是指用于衡量驱动因子变化对预测结果变化程度的数值指标,如偏导数、弹性系数等。0054具体过程为:调用训练好的BP神经网络来模拟多属性决策问题,输入一个样本的各个指标值,得到一个网络输出值,作为决策结果。选择一个要分析敏感度的指标,比如第j个指标,固定其他指标不变,给第j个指标赋予不同的值,分别输入BP神经网络,得到不同的网络输出值。计算第j个指标的变化对网络输出值的影响,用网络输。
41、出值的相对变化量来表示。计算第j个指标的变化对网络输出值变化的相对贡献率,以反映了第j个指标对决策结果的重要性,越大越重要。0055综合判别准则是指根据重要度和敏感度数据,构建一个能够综合考虑不同方面影响因素的判别准则,如加权平均、加权和等。0056综合指标得分F=重要度指标R和贡献率指标G的乘积,即F=RG。综合判断指标P=lg(F/F)。0057步骤S22c、筛选至少部分敏感因子作为关键驱动因子。说明书7/11 页11CN 116611588 A110058根据本申请的一个方面,所述步骤S22还包括:步骤S22d、读取每个降水变化阶段的关键驱动因子,并分别降序排列;筛选前A项关键驱动因子作。
42、为该降水变化阶段第一驱动因子,将剩余关键驱动因子作为第二驱动因子;针对每个第一驱动因子,判断其在各个降水变化阶段中的存在性,并基于该存在性计算第一驱动因子的周期;步骤S22e、读取每个降水变化阶段,提取降水变化周期;并计算第一驱动因子的周期与降水变化的周期是否一致,若一致,则构建第一驱动因子矩阵。A为自然数。0059在进一步的实施例中,对研究区域进行降尺度,形成预定尺寸的栅格,并将第一驱动因子映射至各个栅格中,获取第一驱动因子的演化数据并展示,包括第一驱动因子的有无及权重系数变化。0060根据本申请的一个方面,所述步骤S22还包括:步骤S22f、读取关键驱动因子,并筛选在至少Q个降水变化阶段中。
43、出现的关键驱动因子,作为基础驱动因子;针对每一降水阶段,将除去基础驱动因子的其他驱动因子作为次级驱动因子;Q为自然数。0061步骤S22g、计算基础驱动因子和其次驱动因子的周期性,并构建基础驱动因子矩阵。0062在进一步的实施例中,对研究区域进行降尺度,形成预定尺寸的栅格,并将基础驱动因子映射至各个栅格中,获取基础驱动因子的演化数据并展示。0063在不同的降水变化阶段,关键驱动因子是不同的,比如在a阶段,关键驱动因子是上文所述的驱动因子中的abc,在另一阶段中,可能为abd,或这位cde 。而且在不同的降水变化阶段,同一驱动因子的权重也不相同,因此研究关键驱动因子的时空周期演变,是非常重要的。。
44、为此,给出了上述的两个实施例。将关键驱动因子的周期性与空间分布与降水变化周期,例如季节周期性、气候周期性建立关联,形成关键驱动因子中至少部分驱动因子,例如基础驱动因子或第一驱动因子的时空演变数据,从而为后续的训练提供指导。0064根据本申请的一个方面,所述步骤S3进一步为:针对每个降水变化阶段,构建基于随机森林的预报模型,包括:构建训练集,生成回归决策树,确定节点分裂特征集,计算决策树权重,计算单颗决策树预测值,计算观测值权重和回归森林预测值。0065利用关键驱动因子来模拟和预测每个降水变化阶段的降水情况。映射模型是指能够描述降水与关键驱动因子之间函数关系或概率分布关系的数学模型,如线性回归模。
45、型、非线性回归模型、神经网络模型、随机森林模型等。映射模型可以根据已知或假设的关键驱动因子值来计算或估计相应的降水值,从而实现对未来或历史降水情况的预测或重建。0066具体过程包括:首先,确定训练集,即用前期误差系列作为输入特征,用未来误差值作为输出结果。然后,用自助法从训练集中随机抽取多个子样本,每个子样本用来生成一颗决策树。0067其次,在每颗决策树中,对每个节点进行分裂时,从所有特征中随机选取一部分特征作为候选分裂特征,选择最优的分裂方式进行分裂。不对决策树进行剪枝,让它完全生长。0068然后,计算每颗决策树的权重,即它对预测结果的贡献程度。权重与决策树的误差说明书8/11 页12CN 。
46、116611588 A12有关,误差越小,权重越大。同样,计算每个观测值的权重,即它在不同决策树中出现的频率。0069最后,计算随机森林的预测值,即用每颗决策树的权重和预测值加权平均得到的值。这个值就是对未来误差值的估计。0070如图4所示,根据本申请的一个方面,所述步骤S4中对映射模型进行参数优化的过程进一步为:步骤S41、获取校正数据点集,并将数据集分为训练集和测试集,设定基于随机森林的预报模型的待优化超参数范围;步骤S42、对训练集进行贝叶斯寻优,交叉验证结果,平均值最优所对应的参数即为最佳参数;步骤S43、利用最佳参数训练基于随机森林的预报模型,验映射模型泛化能力,对预测结果进行评价。。
47、0071本步骤的功能和目的是提高映射模型的拟合效果和预测能力,以及评估映射模型的可靠性和适用性。参数优化是指通过调整映射模型中涉及到的参数值,使得映射模型能够更好地符合实测数据或理论规律,从而减小误差和提高精度。分段率定是指根据不同降水变化阶段的特点,对映射模型进行适当的修正或调整,使得映射模型能够更好地适应不同阶段的降水变化规律,从而提高模型的稳定性和灵敏性。基于率定后的映射模型,可以对未来或历史的降水情况进行预报或重建,并对预报结果进行误差分析和不确定性分析,以评估模型的可信度和有效性。0072在进一步的实施例中,具体过程如下:设定超参数的搜索空间,即每个超参数的取值范围。比如,n_est。
48、imators可以从10到250之间取整数,min_samples_split可以从2到25之间取整数,max_features可以从0.1到0.999之间取小数,max_depth可以从5到15之间取整数。构建代理模型(surrogate model),用来拟合超参数和AUC值之间的关系。一般可以用高斯过程(Gaussian Process)或者随机森林回归(Random Forest Regression)等方法。代理模型可以给出每个超参数组合对应的AUC值的均值和标准差。构建采集函数(acquisition function),用来根据代理模型的结果,选择下一个要尝试的超参数组合。一般可。
49、以用期望提升(Expected Improvement)或者置信区间上界(Upper Confidence Bound)等方法。采集函数可以平衡探索和利用的策略,即在已知信息和未知信息之间找到一个平衡点。随机选择一些初始的超参数组合,输入随机森林模型,得到相应的AUC值,作为初始数据。利用代理模型拟合初始数据,得到每个超参数组合对应的AUC值的均值和标准差。利用采集函数在搜索空间中选择一个最优的超参数组合,输入随机森林模型,得到相应的AUC值,加入到数据中。判断是否达到最大迭代次数或者收敛条件,如果是,则停止寻优,输出最优的超参数组合和对应的AUC值;如果否,则继续迭代。0073如图5所示,根。
50、据本申请的一个方面,所述步骤S42中,进行贝叶斯寻优的过程具体如下:步骤S42a、设定映射模型的求解空间和采样的初始点,将初始点输入黑盒函数得到对应输出,将输出值最大点作为初始最优点;步骤S42b、利用高斯过程拟合初始采样点,并判断是否满足最大迭代次数,若否,说明书9/11 页13CN 116611588 A13则重新采样若干点,利用高斯过程预测预测新采集点对应分布的均值和标准差,使用采集函数对各点进行打分,得分最高点为当前迭代最优点;步骤S42c、判断是否进行第一次迭代,若是,用当前最优点替换上一轮最优点,若否,用当前最优点替换初始最优点;步骤S42d、将当前最优点及其对应采集函数输出加入集。