基于近邻算法的居民用电数据缺失值插补方法.pdf

上传人:王** 文档编号:10365850 上传时间:2021-06-19 格式:PDF 页数:7 大小:351.69KB
返回 下载 相关 举报
基于近邻算法的居民用电数据缺失值插补方法.pdf_第1页
第1页 / 共7页
基于近邻算法的居民用电数据缺失值插补方法.pdf_第2页
第2页 / 共7页
基于近邻算法的居民用电数据缺失值插补方法.pdf_第3页
第3页 / 共7页
点击查看更多>>
资源描述

《基于近邻算法的居民用电数据缺失值插补方法.pdf》由会员分享,可在线阅读,更多相关《基于近邻算法的居民用电数据缺失值插补方法.pdf(7页珍藏版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010786988.4 (22)申请日 2020.08.07 (71)申请人 上海积成能源科技有限公司 地址 200439 上海市宝山区高逸路80号 (72)发明人 周浩顾一峰胡炳谦韩俊 (51)Int.Cl. G06Q 50/06(2012.01) G06Q 30/02(2012.01) G06N 20/00(2019.01) (54)发明名称 一种基于近邻算法的居民用电数据缺失值 插补方法 (57)摘要 在居民用电安全管中, 准确的居民用电数据 在数据挖掘着中有很重要的。

2、用途, 是通过线性回 归、 灰色预测等算法搭建数据挖掘模型, 实现居 民用电消费分析和居民用电安全管理的首要基 础。 本发明公开了一种基于KNN(knearst neighbors,K近邻算法法)的对居民用电数据补 充缺失数据的方法, 可以有效填补居民用电数据 中由于各种原因造成的缺失数据,达到提高数据 挖掘应用模型中的数据质量的目的, 并且为城市 管理者提供更好的决策的数据依据。 权利要求书2页 说明书3页 附图1页 CN 111861798 A 2020.10.30 CN 111861798 A 1.本发明一种基于近邻算法的居民用电数据缺失值插补方法其特征在于, 包括: 步骤一、数据预处理。

3、:对采集到的原始居民用电数据按时间序列排列, 确定数据集起止 时间, 检查数据在时间序列上的缺省, 标明缺省值并记录缺省的起止时间; 步骤二、KNN算法插值补充数据:经过处理的数据集将会在时间序列上有标记, 即在某 些时间段没有相对应的历史数据, 对于这些缺省值, 将使用KNN插值补充的方法进行数据补 充, 以保证居民用电数据在时间序列上的连贯性; KNN算法是一个在尺度空间中寻找最近点 的优化问题; 问题描述如下: 在尺度空间M中给定一个点集S和一个目标点q M, 在S中找 到距离q最近的点; 在本发明中, 主要将KNN算法用于回归计算, 以补充时间序列中的缺失 值, 即最近的K个样本的样本。

4、输出的平均值作为回归预测值; 具体计算方式如下: 1) 确定K值; 在填充居民用电数据的具体实施过程中, 对于k值的选择, 没有一个固定的 树脂, 一般根据样本的分布, 选择一个较小的值, 之后可以通过交叉验证选择一个合适的k 值; 选择较小的k值, 就相当于用较小的领域中的训练实例进行预测, 训练误差会减小, 只有 与输入实例较近或相似的训练实例才会对预测结果起作用, 但是泛化误差会增大, K值的减 小就意味着整体模型变得复杂, 容易发生过拟合; 选择较大的k值, 就相当于用较大领域中 的训练实例进行预测, 其优点是可以减少泛化误差, 但缺点是训练误差会增大; 与输入实例 较远的 (不相似的。

5、) 训练实例也会对预测器作用, 使预测发生错误, 且K值的增大就意味着整 体的模型变得简单; 在本发明具体实施过程中, 一般最小K值选为24 (日小时数) , 最大K值为 整体数据集数量的平方根; 2) 确定距离计算度量; 本发明中, 距离度量方式通常使用欧式距离, 即: x,y 为数据点在n维向量上的表示点, 当步骤三数据有效性验证不通过时, 也可以使用曼哈顿距离: 或者闵科夫斯基距离: 计算点之间距离; 3) 计算预测样本和所有训练集中的样本的距离, 通过距离分类, 找到与缺失值距离最 近的K个距离, 计算这些值的平均电力负荷数据进行缺失填充; 在具体实施过程中, 可以通 过计算机蛮力计算。

6、所有样本距离, 或者通过其他算法如KD树, 球树等进行快速运算; 4) 按时间序列分步重复以上三过程, 填补缺失值至原始数据集; 步骤三、数据有效性验证: 原始居民用电数据集与经过KNN算法补充的数据集需要进行 数据有效性统计差异性的检查以保证数据 的有效性; 两组数据将进行单因素方差分析 (one way-ANOVA) , 计算两组数据间显著性差异 值, 需要保证两组数据间没有显著性差异; 如果两组数据验证后存在显著性差异, 则需要调整k的值 (最近邻居的数量) 或者改变距离 权利要求书 1/2 页 2 CN 111861798 A 2 度量方式, 改善补充值的运算方式以及改变填充处理的维度。

7、以确保处理后的数据与原始数 据不存在显著性差异, 使处理后的数据保持准确性和有效性。 2.本发明提出了一种应用KNN算法模型的方法补充居民用电数据中由于各种原因的缺 失值的方法, 其特点为在居民用电数据处理中引入KNN算法补充缺失值并且比对前后数据 集的有效性验证来调整KNN的K值选择和距离度量方式, 使得居民用电数据更加完整, 显著 提高了居民用电数据质量, 为之后数据挖掘应用提供高质量的原数据。 权利要求书 2/2 页 3 CN 111861798 A 3 一种基于近邻算法的居民用电数据缺失值插补方法 技术领域 0001 本发明涉及电力负荷预测技术领域, 具体涉及一种基于KNN (k-ne。

8、arst neighbors,K近邻算法法) 的对居民用电数据补充缺失数据的方法。 背景技术 0002 近年来, 社区中群租, 居民用电工业化应用的情况层出不穷, 居民用电的管理对于 城市管理者来言是新的挑战。 在大数据, 智能化管理中, 通过对居民用电数据的深度分析, 进行居民用电画像, 习惯分析的居民用电安全分析可以为城市管理者在异常发生的第一时 间发现此类违规的情况。 居民用电安全分析旨在通过对大量的居民用电负荷数据, 通过智 能电表等终端设备采集, 进而进行异常值监测, 聚类分析, 时间序列等方法得出不同居民的 用电习惯, 发现用电异常情况。 但是在实际应用中, 由于实践中的种种情况,。

9、 居民用电数据 的收集有很多的困难, 会造成用电数据的不完整性。 针对这些缺失值, 需要通过合理有效的 方法来以保证数据的完整性, 为之后的综合应用数据提供高质量的 原数据。 本发明提出了 一种基于近邻算法的居民用电数据缺失值插补方法。 发明内容 0003 本发明提出了一种对居民数据缺失值进行补充, 复原的方法, 其特点在于应用了 KNN插值补充的方法, 包含了缺失值识别和KNN插值补充和填补缺失值验证三大功能模块。 0004 原始居民用电数据集需要先进行缺失值识别, 数据集按时间序列排列, 确定数据 集起止时间, 检查数据在时间序列上的缺省, 标明缺省值并记录缺省的起止时间。 经过识别 标记。

10、后的原始数据集将被输入到下一步KNN模型进行插值补充计算。 0005 KNN (k-nearst neighbors,K近邻算法法)是一种很有效的机器学习方法。 它的基 本思想是在训练集中数据和标签已知的情况下, 输入测试数据, 将测试数据的特征与训练 集中对应的特征进行相互比较, 找到训练集中与之最为相似的前K个数据, 则该测试数据对 应的类别就是K个数据中出现次数最多的那个分类。 在进行插值补充时, 模型根据设定的距 离度量选择出缺失值发生位置的k个 “邻居” , 这一个分类的K个邻居的均值就被用于插补缺 失数据。 这个方法要求模型选择k的值 (最近邻居的数量) , 以及距离度量。 在本发。

11、明中, KNN 模型的训练集为输入的带有缺失数据值的历史电力负荷数据, 模型运算的目标为通过KNN 算法针对缺失值的位置找到他的K个邻居并且计算其均值。 本发明所述K值选择为通过训练 集的反馈实时调整的数值。 本发明所述的距离度量方式包括欧氏距离, 曼哈顿距离以及余 弦距离。 原始数据集经过KNN计算后, 对相应缺失值进行补充后的数据集需要进行下一步的 数据有效性分析。 0006 填补缺失值前的原始数据集合及填补缺失值后的数据集合将进行单因素方差分 析 (one way-ANOVA) , 计算两组数据间显著性差异值, 需要保证两组数据间没有显著性差 异。 如果两组数据验证后存在显著性差异, 则。

12、需要调整KNN插值补充模型中的K值的选择, 或 者改变距离度量的方式, 或者仍然剔除缺失值以确保填补后的数据与原始数据不存在显著 说明书 1/3 页 4 CN 111861798 A 4 性差异, 整体数据集可以保持一定的有效性。 0007 实际收集到的居民用电数据经过上述模块的处理, 可以达到补充数据集完整性的 效果, 提高了原始数据的有效性。 将进行过填充处理后的居民用电数据用于数据挖掘将大 大的提高数学模型的可靠度与准确性。 附图说明 0008 图1是本发明实施例中居民用电数据缺失值进行补充的方法的处理流程示意图。 具体实施方式 0009 为使得本发明的内容、 目的、 特征及优点能够更加。

13、清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、 完整地描述,显然,下面所描述的实施 例仅仅是本发明一部分实施例,而非全部的实施例。 基于本发明中的实施例,本领域普通技 术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护说明书 的范围。 0010 如图1所示, 针对本发明提出的应用了KNN插值补充居民用电数据缺失值的方法 , 具体分为以下步骤。 0011 步骤一、数据预处理:对采集到的原始居民用电数据按时间序列排列, 确定数据集 起止时间, 检查数据在时间序列上的缺省, 标明缺省值并记录缺省的起止时间。 0012 步骤二、KNN算法插值补充数据。

14、:经过处理的数据集将会在时间序列上有标记, 即 在某些时间段没有相对应的历史数据, 对于这些缺省值, 将使用KNN插值补充的方法进行数 据补充, 以保证居民用电数据在时间序列上的连贯性。 KNN算法是一个在尺度空间中寻找最 近点的优化问题。 问题描述如下: 在尺度空间M中给定一个点集S和一个目标点q M, 在S 中找到距离q最近的点。 在本发明中, 主要将KNN算法用于回归计算, 以补充时间序列中的缺 失值, 即最近的K个样本的样本输出的平均值作为回归预测值。 具体计算方式如下: 1) 确定K值。 在填充居民用电数据的具体实施过程中, 对于k值的选择, 没有一个固定的 树脂, 一般根据样本的分。

15、布, 选择一个较小的值, 之后可以通过交叉验证选择一个合适的k 值。 选择较小的k值, 就相当于用较小的领域中的训练实例进行预测, 训练误差会减小, 只有 与输入实例较近或相似的训练实例才会对预测结果起作用, 但是泛化误差会增大, K值的减 小就意味着整体模型变得复杂, 容易发生过拟合。 选择较大的k值, 就相当于用较大领域中 的训练实例进行预测, 其优点是可以减少泛化误差, 但缺点是训练误差会增大。 与输入实例 较远的 (不相似的) 训练实例也会对预测器作用, 使预测发生错误, 且K值的增大就意味着整 体的模型变得简单。 在本发明具体实施过程中, 一般最小K值选为24 (日小时数) , 最大。

16、K值为 整体数据集数量的平方根; 2) 确定距离计算度量。 本发明中, 距离度量方式通常使用欧式距离, 即: x,y 为数据点在n维向量上的表示点, 当步骤三数据有效性验证不通过时, 也可以使用曼哈顿距离: 说明书 2/3 页 5 CN 111861798 A 5 或者闵科夫斯基距离: 计算点之间距离; 3) 计算预测样本和所有训练集中的样本的距离, 通过距离分类, 找到与缺失值距离最 近的K个距离, 计算这些值的平均电力负荷数据进行缺失填充。 在具体实施过程中, 可以通 过计算机蛮力计算所有样本距离, 或者通过其他算法如KD树, 球树等进行快速运算; 4) 按时间序列分步重复以上三过程, 填。

17、补缺失值至原始数据集。 0013 步骤三、数据有效性验证: 原始居民用电数据集与经过KNN算法补充的数据集需要 进行数据有效性统计差异性的检查以保证数据 的有效性。 两组数据将进行单因素方差分 析 (one way-ANOVA) , 计算两组数据间显著性差异 值, 需要保证两组数据间没有显著性差 异。 如果两组数据验证后存在显著性差异, 则需要调整k的值 (最近邻居的数量) 或者改变距 离度量方式, 改善补充值的运算方式以及改变填充处理的维度以确保处理后的数据与原始 数据不存在显著性差异, 使处理后的数据保持准确性和有效性。 0014 本发明提出了一种应用KNN算法模型的方法补充居民用电数据中由于各种原因的 缺失值的方法, 其特点为在居民用电数据处理中引入KNN算法补充缺失值并且比对前后数 据集的有效性验证来调整KNN的K值选择和距离度量方式, 使得居民用电数据更加完整, 显 著提高了居民用电数据质量, 为之后数据挖掘应用提供高质量的原数据。 说明书 3/3 页 6 CN 111861798 A 6 图1 说明书附图 1/1 页 7 CN 111861798 A 7 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1