《一种生物医学空缺数据弥补方法.pdf》由会员分享,可在线阅读,更多相关《一种生物医学空缺数据弥补方法.pdf(13页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103177088 A (43)申请公布日 2013.06.26 CN 103177088 A *CN103177088A* (21)申请号 201310074916.7 (22)申请日 2013.03.08 G06F 17/30(2006.01) G06N 3/08(2006.01) (71)申请人 北京理工大学 地址 100081 北京市海淀区中关村南大街 5 号 (72)发明人 罗森林 韩龙飞 潘丽敏 张铁梅 (54) 发明名称 一种生物医学空缺数据弥补方法 (57) 摘要 本发明涉及一种基于EM聚类-BP神经网络的 空缺数据弥补方法, 属于生物医学技术领域。 。
2、本发 明首先采用处理不完全数据问题中很重要的迭代 算法 EM 算法, 通过 EM 聚类, 将不同缺失数据划分 到不同的簇中, 完成初步弥补 ; 然后通过 BP 神经 网络方法对每个簇中的完全数据建模, 并完成对 各个簇中缺失数据的精确弥补。在一定程度上加 强弥补算法对任意缺失机制的适用性, 并提高弥 补的准确性, 可适用于生物医学空缺数据弥补领 域。 (51)Int.Cl. 权利要求书 2 页 说明书 7 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书7页 附图3页 (10)申请公布号 CN 103177088 A CN 103177088。
3、 A *CN103177088A* 1/2 页 2 1. 一种生物医学空缺数据弥补方法, 其特征在于 : 针对不同缺失数据的缺失特点将缺 失数据划分到具有相应特点的聚类簇中, 然后根据 BP 神经网络算法估计完全数据属性的 权重, 计算含缺失数据的对应属性缺失值的预测值, 实现弥补算法对任意缺失机制的适用 性, 并提高弥补的准确性。包括如下步骤 : 步骤 1, 将 N 个被评估对象作为样本集 S, 其中每个对象包含 M 个影响 2 型糖尿病发病 的关键属性 ; 将关键属性作为列, 不同样本对应的属性值作为行, 建立样本集 S 的矩阵表示 s(a+c)b ; 并采用 EM 聚类方法对样本集 S 。
4、进行聚类, 得到 k 个聚类簇。 步骤 2, 对步骤 1 得到的每个聚类簇中的完全数据集分别采用 BP 神经网络方法 M 个影 响 2 型糖尿病发病的关键属性进行 BP 神经网络模型训练, 获得 M*k 个模型, 并对每个聚类 簇中的缺失数据集中不同属性的缺失数据选取对应 BP 神经网络模型, 计算该缺失数据的 估计值。 2. 根据权利要求 1 所述针对含空缺值的数据的 EM 聚类方法, 具体实现方法为 : 步骤 1.1, 首先将 N 个对象根据是否含有缺失数据分为两个样本集 : 完全数据集 X 和缺 失数据集 Y。 所述完全数据集 X 为 M 个关键属性对应的数据均无缺失的对象集合。集合中所。
5、有对象 关键属性的数据构成矩阵 xab, 其中矩阵的行数 a 表示完全数据样本对象, 列数 b 表示完 全数据样本各属性对应的数据, b 1,2,.,M。 所述缺失数据集 Y 为 M 个关键属性对应的数据中存在一个或多个缺失的对象集合。集 合中所有对象的关键属性数据形成一个矩阵ycb, 行数c表示缺失数据样本对象, 列数b表 示缺失数据样本各属性对应的数据。 步骤 1.2, 设置聚类簇个数 k (k N) , 由于样本集 S 中任意第 i 个样本 ni(1 i N) , 均服从 k 个聚类簇的混合概率分布 : 步骤 1.3, 将步骤 1.2 给定的初始混合概率分布参数估计值 0代入缺失数据集 。
6、Y, 获 得 ycb的后验分布概率为 : 其中 xab X, ycb Y 由于样本集间各样本的独立性, 得到数据集 Y 的后验分布函数为 : 步骤 1.4, 根据步骤 1.3 获得的后验分布函数, 对完全数据的对数似然函数 lnL(|X, Y)关于缺失数据求期望, 并将得到M个对应每一列的期望值, 用于代替缺失数据集Y中相应 列数的各个缺失数据, 得到新样本集 Y 。 所 述 lnL(|X, Y) 为 完 全 数 据 关 于 缺 失 数 据 的 对 数 似 然 函 数,其 中 权 利 要 求 书 CN 103177088 A 2 2/2 页 3 步骤 1.5, 根据步骤 1.4 计算获得的样本。
7、集 Y 以及完全数据集 X, 重新计算样本集 S 的最大似然参数 Q(,0) : Q(,0)= ln(L(|X, Y)p(Y|X,0) 步骤 1.6, 将 Q(, 0) 极大化, 得到 1, 满足 Q(1, 0) maxQ(, 0), 用 1代 替 0, 代入步骤 1.3。 步骤 1.7, 执行步骤 1.3 至步骤 1.6 的迭代过程 次, 直至 停止迭代。最终得到的 即为 k 个聚类簇的混合概率分布参数估计值 。其中 为依 据聚类准确度设定的精度值。 步骤1.8, 利用混合概率分布参数估计值, 分别计算各样本对象属于聚类簇j的后验 条件概率密度值, 即各对象隶属于每个簇的隶属概率。按照样本与。
8、聚类簇的隶属概率最大 的原则, 把样本集 S 中的各个样本分入 k 个聚类簇。 3. 根据权利要求 2 所述的针对空缺数据的 EM 聚类方法, 其特征在于 : 步骤 1.2 中其 中 (1, 2, k, 1, 2, k) 表示 k 个聚类簇的混合概率分布参数, j 表示第 j 个聚类簇的概率分布参数, j表示 ni来自第 j 个聚类簇的可能性, j=1,2,k, 1+2+.+k=1。 因此, 设定一组参数值作为样本集 S 的初始混合概率 分布参数估计值。 4. 根据权利要求 2 所述的 EM 聚类方法, 其特征在于 : 采用 EM 方法将求得对数似然函 数的期望代替缺失数据, 并估计缺失数据所。
9、属聚类簇的概率。该方法可应用于含缺失数据 的聚类中, 结果具有很好的解释性。 5.根据权利要求1中所述的一种BP神经网络方法, 其特征在于 : 所述步骤2中, 第j个 聚类簇中对于属性 m 的 BP 神经网络模型的具体构建过程如下 : 步骤 2.1, 将聚类簇中的数据划分为完全数据集 X和缺失数据集 Y ; 并针对完全数 据集X, 将X中的各样本中非属性m对应的数值组成向量其中t为完全数据集X的 样本个数。然后对权值矩阵中的各个元素分别设置一个在区间 (-1,1) 内的随机值。 步骤 2.2, 将各个样本 t 的属性 m 对应数值作为实际输出, 并将其他属性对应数值作为 输入值。然后计算 BP。
10、 神经网络的隐藏层每个节点 g 输出值。 步骤 2.3, 以每个隐藏层节点作为输出层输入, 计算各节点输出层节点的输出值。 步骤 2.4, 根据以获得的各样本的输出误差计算全局误差。 步骤 2.5, 将全局误差与误差阈值比较, 若全局误差大于误差阈值, 则根据输出误差调 整权值矩阵, 重复步骤 2.2 至步骤 2.4 ; 若全局误差小于误差阈值, 则结束。 权 利 要 求 书 CN 103177088 A 3 1/7 页 4 一种生物医学空缺数据弥补方法 技术领域 0001 本发明涉及一种生物医学空缺数据弥补方法, 属于生物医学技术领域。 背景技术 0002 近年来, 随着计算机科学技术的不断。
11、发展, 数据挖掘技术被广泛应用于各领域之 中。 数据挖掘总体过程包括问题理解、 数据采集和理解、 预处理、 数据挖掘、 模型评估和知识 应用, 数据挖掘的成功与否和适用性能在很大程度上取决于数据质量。 然而, 在针对生物医 学数据挖掘各个环节过程中, 数据不完全的现象是不可避免的, 存在着不同程度的空缺数 据, 也称为空缺值。 为了能在生物医学研究领域中有效地应用数据挖掘的方法和系统, 就必 须面对数据不完整的挑战。 0003 对生物医学研究领域来说, 空缺值产生有多方面原因 : 有些医学筛查数据属性的 内容没有 ; 有些数据当时被认为是不必要的 ; 由于误解或检测设备失灵导致相关数据没有 记。
12、录下来 ; 与其他记录内容不一致而被删除 ; 历史记录或对数据的修改被忽略了或者属性 的值根本不能直接观测到等。 0004 面对生物医学研究过程中存在的缺失值, 虽然现在已经有很多数据填充方法, 但 并不存在一种可以适合于任何问题的空缺值填充方法。 无论哪种填充方法都无法避免主观 因素的存在, 并且在空缺值过多的情形下将系统完备化是不可行的。在空缺值弥补技术的 研究趋势主要呈现以下两个方面 : 1. 构建空缺值弥补模型, 该模型可以较好的适用于生物 医学领域中任何空缺数据弥补问题, 具有很好的普适性 ; 2. 基于数据挖掘和统计理论提出 更为合适的算法, 能够预测数据中存在的空缺值, 并且具有。
13、较小的误差。 综观现有生物医学 空缺数据弥补方法, 通常使用的方法有 : 0005 1.MI 填补算法 : 该方法针对大部分简单填充方法的填充数据唯一且填充后的数 据集不能表现出原有数据集的不确定性, 导致结果产生较大的偏差问题而由 Rubin 提出, 该方法是建立在贝叶斯理论基础之上, 用 EM 算法来实现对缺失数据的处理。其主要思想 是 : 首先为每个缺失值构造一套可能的估计值, 这些值反映了缺失模型的不确定性, 这样就 形成若干个完整数据集 ; 然后对每个完整数据集分别使用相同的方法处理 ; 最后综合来自 各个填充数据集的结果, 得到对目标变量的统计推断。 0006 2.KNN 填补算法。
14、 : 该方法采用数据挖掘中分类思想, 通过搜索模式空间, 找出最接 近空缺数据的 k 个完全数据, 并通过完全数据的加权平均计算空缺数据的空缺值。该方法 的主要思想是 : 首先将数据集分为完全数据集和缺失数据集两个部分 ; 然后计算缺失数据 集中的每个样本其与完全数据集中各样本的相似性, 找到与缺失数据样本最近邻的 k 个数 据 ; 最后将缺失数据样本与完全数据样本的距离的倒数作为样本间的权重, 根据各完全数 据计算缺失数据的估计值。 0007 3. 关联规则填补算法 : 该方法由 Agrawal 等人于 1993 年提出, 其主要思想是 : 首 先找出所有的频繁项集 ; 然后由频繁项集生成强。
15、关联规则 ; 最后利用通过对提取出的关联 规则进行排序或分组, 取优先权最高的规则进行填补。 说 明 书 CN 103177088 A 4 2/7 页 5 0008 4.K-means 填补算法 : 该方法的主要思想是首先通过计算完全数据集中各样本间 的距离将数据样本分成不同簇, 并使同一个簇中的对象之间具有很高的相似度, 而不同簇 中的对象高度相异 ; 然后计算缺失数据集中各缺失数据与各聚类簇的聚类, 并将该缺失数 据分到对应的聚类簇中 ; 最后采用不同核函数对缺失数据进行弥补。 0009 5.SVR(支持向量回归) 算法 : 支持向量回归方法就是针对传统回归分析的局限性, 该方法与 SVM。
16、 方法相同, 采用结构风险最小化原则, 将求解过程转化为一个二次型寻优问 题。SVR 算法采用核函数的映射方法, 将实际问题通过非线性变换转换到高维的特征空间, 并在高维空间中构造线性判别函数来实现原空间中的非线性判别函数。 通过近似核函数的 非线性回归特征空间的线性回归进行空缺值弥补。 0010 综上所述, 现有算法仅针对可忽略的缺失机制下进行研究, 不适用于任意缺失机 制, 提出的各方法不具有代表性 ; 同时, 针对生物医学空缺数据弥补的准确性也不甚理想, 仍待进一步提高。 发明内容 0011 本发明的目的是为解决生物医学数据中存在空缺值的问题, 提出一种基于 EM 聚 类 -BP 神经网。
17、络的空缺数据弥补方法。 0012 本发明的设计原理为 : 首先, 采用处理不完全数据问题中很重要的迭代算法 EM 算 法, 通过 EM 聚类, 将不同缺失数据划分到不同的簇中, 完成初步弥补 ; 然后通过 BP 神经网 络方法对每个簇中的完全数据建模, 并完成对各个簇中缺失数据的精确弥补。其主要思想 是针对不同缺失数据的缺失特点将缺失数据划分到具有相应特点的聚类簇中, 然后根据 BP 神经网络算法估计完全数据属性的权重, 计算含缺失数据的对应属性缺失值的预测值, 在 一定程度上加强弥补算法对任意缺失机制的适用性, 并提高弥补的准确性。 0013 本发明的技术方案是通过如下步骤实现的 : 001。
18、4 步骤1, 将N个被评估对象作为样本集S, 其中每个对象包含M个影响2型糖尿病发 病的关键属性 ; 将关键属性作为列, 不同样本对应的属性值作为行, 建立样本集 S 的矩阵表 示 s(a+c)b ; 并采用 EM 聚类方法对样本集 S 进行聚类, 得到 k 个聚类簇。具体实现方法为 : 0015 步骤 1.1, 首先将 N 个对象根据是否含有缺失数据分为两个样本集 : 完全数据集 X 和缺失数据集 Y。 0016 所述完全数据集 X 为 M 个关键属性对应的数据均无缺失的对象集合。集合中所有 对象关键属性的数据构成矩阵 xab, 其中矩阵的行数 a 表示完全数据样本对象, 列数 b 表 示完。
19、全数据样本各属性对应的数据, b 1,2,.,M。 0017 所述缺失数据集 Y 为 M 个关键属性对应的数据中存在一个或多个缺失的对象集 合。集合中所有对象的关键属性数据形成一个矩阵 ycb, 行数 c 表示缺失数据样本对象, 列数 b 表示缺失数据样本各属性对应的数据。 0018 步骤 1.2, 设置聚类簇个数 k(k N) , 由于样本集 S 中任意第 i 个样本 ni (1 i N) , 均服从 k 个聚类簇的混合概率分布 : 0019 0020 其中 (1, 2, k, 1, 2, k) 表示 k 个聚类簇的混合概率分 说 明 书 CN 103177088 A 5 3/7 页 6 布。
20、参数, j表示第 j 个聚类簇的概率分布参数, j表示 ni来自第 j 个聚类簇的可能性, j=1,2,k, 1+2+.+k=1。 0021 因此, 设定一组参数值作为样本集 S 的初始混合 概率分布参数估计值。 0022 步骤1.3, 将步骤1.2给定的初始混合概率分布参数估计值0代入缺失数据集Y, 获得 ycb的后验分布概率为 : 0023 其中 xab X, ycb Y 0024 由于样本集间各样本的独立性, 得到数据集 Y 的后验分布函数为 : 0025 0026 步骤 1.4, 根据步骤 1.3 获得的后验分布函数, 对完全数据的对数似然函数 lnL(|X, Y) 关于缺失数据求期望。
21、, 并将得到 M 个对应每一列的期望值, 用于代替缺失数据 集 Y 中相应列数的各个缺失数据, 得到新样本集 Y 。 0027 所 述 lnL(|X, Y) 为 完 全 数 据 关 于 缺 失 数 据 的 对 数 似 然 函 数, 其 中 0028 步骤 1.5, 根据步骤 1.4 计算获得的样本集 Y 以及完全数据集 X, 重新计算样本 集 S 的最大似然参数 Q(,0) : 0029 Q(,0)= ln(L(|X, Y)p(Y|X,0) 0030 步骤 1.6, 将 Q(,0) 极大化, 得到 1, 满足 Q(1, 0)=maxQ(, 0), 用 1代 替 0, 代入步骤 1.3。 003。
22、1 步 骤 1.7, 执 行 步 骤 1.3 至 步 骤 1.6 的 迭 代 过 程 次, 直 至 Q(+1,)-Q(,-1), 停止迭代。最终得到的 即为 k 个聚类簇的混 合概率分布参数估计值 。其中 为依据聚类准确度设定的精度值。 0032 步骤1.8, 利用混合概率分布参数估计值, 分别计算各样本对象属于聚类簇j的 后验条件概率密度值, 即各对象隶属于每个簇的隶属概率。按照样本与聚类簇的隶属概率 最大的原则, 把样本集 S 中的各个样本分入 k 个聚类簇。 0033 步骤 2, 对步骤 1 得到的每个聚类簇中的完全数据集分别采用 BP 神经网络方法对 M个影响2型糖尿病发病的关键属性进。
23、行神经网络模型训练, 获得M*k个BP神经网络模型, 并对每个聚类簇中的缺失数据集中不同属性的缺失数据选取对应 BP 神经网络模型, 计算 该缺失数据的估计值。 0034 第 j 个聚类簇中属性 m 的 BP 神经网络模型的具体构建过程如下 : 0035 步骤 2.1, 将聚类簇中的数据划分为完全数据集 X和缺失数据集 Y ; 并针对完 全数据集 X, 将 X中的各样本中非属性 m 对应的数值组成向量其中 t 为完全数据集 X的样本个数。随机设置权值矩阵Wt*(m-1)中各元素值, 且要求权值矩阵中各元素取值区间 (-1,1) 中。 说 明 书 CN 103177088 A 6 4/7 页 7。
24、 0036 步骤2.2, 对于数据集X中的每一个样本u, 将各个样本t的属性m对应数值作为 实际输出, 并将其他属性对应数值作为输入值。计算 BP 神经网络的隐藏层每个节点 g 输出 其中 g=1,M-1, u=1,t, wug为权值矩阵对应各元素值。 0037 步骤 2.3, 以每个隐藏层节点作为输出层输入, 计算各节点输出层节点 的输出 0038 步骤2.4, 根据第t个样本的属性m对应的数值和实际输出层的输出值计算输出误 差 t, 误差为属性 m 对应数值与实际输出值差值的绝对值, 然后根据所有以获得的各样本 的输出误差计算全局误差, 全局误差计算公式为 :将全局误差与设定的误 差阈值 。
25、Es比较, 若全局误差大于误差阈值, 执行步骤 2.5 ; 若全局误差小于误差阈值, 则结 束。 0039 步骤2.5, 首先则调整学习因子h的数值, 其中学习因子h的调整公式为 : hh+c, 其中 c 为调整步长, 一般取值在 0 1 之间。然后利用输出误差调整权值矩阵, 调整公式 为 : Wt*(m-1)(1) Wt*(m-1)(0)+Wt*(m-1)(1), 其中 Wt*(m-1)(1) 为权值矩阵变化量, Wt*(m-1)(1) h*t*hg(u)+a*Wt*(m-1)(0), 其中 h 为学习因子, a 为动量因子, h 和 a 的大小影响着神经 网络模型的收敛速度。 0040 步。
26、骤 2.6, 执行步骤 2.2 到步骤 2.5 的迭代过程 次, 直至全局误差小于误差阈 值, 停止迭代 ; 否则, 在迭代过程中执行步骤 2.5 时, 使学习因子 h h+c*(E-1-E-2)/E-1, 使权值矩阵 Wt*(m-1)() Wt*(m-1)(-1)+Wt*(m-1)()。最后获得第 j 聚类簇对应的 BP 神 经网络模型。 0041 步骤 2.7, 将缺失数据集 Y带入到对应 BP 神经网络模型中, 计算属性 m 对应缺失 数据的估计值, 并将该估计值作为空缺数据对应的填补值。 0042 有益效果 0043 相比于 MI 等基于统计学的填补算法, 本发明采用的基于 EM 聚类。
27、 -BP 神经网络的 弥补算法具有更好的填补准确度, 其弥补的平均绝对误差和平均相对误差更小, 可以更好 的适用于生物医学领域。 0044 与 KNN、 关联规则以及 k-means 等基于数据挖掘技术的填补算法相比, 本发明采用 的基于 EM 聚类 -BP 神经网络弥补算法的适用性更强, 针对不同缺失数据的特点, 通过聚类 的方法实现对不同缺失特点数据的弥补, 具有更强的针对性和适用性, 并可实现处理过程 中的并行化, 提高空缺数据的弥补速度。 附图说明 0045 图 1 为本发明的基于 EM 聚类 -BP 神经网络的弥补算法原理图 ; 0046 图 2 为具体实施方式中 SVR 方法的不敏。
28、感因子的参数选择的过程 ; 0047 图 3 为具体实施方式中 SVR 方法的惩罚因子的参数选择的过程 ; 0048 图 4 为具体实施方式中 BP 神经网络算法的模型基本形式 ; 0049 图 5 为具体实施方式中基于 EM 聚类 -BP 神经网络的弥补算法在不同缺失比下腹 说 明 书 CN 103177088 A 7 5/7 页 8 围的弥补准确度 ; 0050 图 6 为具体实施方式中 SVR 方法和基于 EM 聚类 -BP 神经网络的弥补算法在不同 缺失比下腹围的弥补准确度 ; 具体实施方式 0051 为了更好的说明本发明的目的和优点, 下面结合附图和实施例对本发明方法的实 施方式做进。
29、一步详细说明。 0052 分别以 2001 年 2 月至 2007 年 9 月从北京市西城区和海淀区科研院所 59839 人整 群抽样横断面数据作为输入, 设计并部署 3 项测试 : (1) 针对 59839 条横截面数据构建基于 EM 聚类 -BP 神经网络的弥补模型的可行性进行测试 ; (2) 针对 59839 条横截面数据在不同 缺失比例下的弥补准确度的有效性测试 ; (3) 针对 59839 条横截面数据的在 SVR 和基于 EM 聚类 -BP 神经网络的弥补算法的弥补准确度的有效性测试。 0053 下面将对上述 3 个测试流程逐一进行说明, 所有测试均在同一台计算机上完成, 具体配置。
30、为 : Intel 双核 CPU(主频 1.8G) , 1G 内存, WindowsXP SP3 操作系统。 0054 在上述测试 1 和测试 2 中, 均使用基于 EM 聚类和 BP 神经网络的建模方法和过程。 基于 EM 聚类 -BP 神经网络的弥补算法原理图如图 1 所示。 0055 另外, 在上述测试 3 中, 使用步进法作为 SVR 参数选择的方法。其中 SVR 空缺数据 弥补方法的不敏感系数和惩罚因子选择的流程如图 2 和图 3 所示。 0056 1. 针对 59839 条横截面数据构建基于 EM 聚类 -BP 神经网络的弥补模型的可行性 测试 0057 该数据源来自于 2001 。
31、年 2 月至 2007 年 9 月从北京市 60259 人整群抽样横断面健 康调查, 包含101维属性。 经过预处理以后, 筛选出12维59839条数据构成试验数据源。 数 据特点如下表 1 所示 : 0058 表 错误 ! 文档中没有指定样式的文字。性别分布特性 0059 0060 EM 聚类试验目的通过设置簇的个数使聚类的效果最好, 对数似然比最小。该测试 把 EM 聚类的簇个数选定为 3 和 4。然后对每个聚类簇中的完全数据进行 BP 神经网络建模, 共获得3*12+4*12共84个SVR回归模型 ; 最后对不同缺失数据选取对应的弥补模型进行空 缺值弥补。其实验具体流程为 : 0061 。
32、步骤 1, 设置聚类的簇的个数为 3 或 4。 0062 步骤 2, 根据设置的聚类个数进行 EM 聚类。 0063 步骤 3, 对不同聚类簇中的完全数据集进行 BP 神经网络建模, 获得 84 个 EM-BP 神 经网络模型, 其每个 BP 神经网络模型基本形式如图 4 所示。 0064 步骤 4, 针对不同聚类簇中的不同缺失数据, 采用不同 BP 神经网络模型进行弥补, 并计算弥补的平均绝对误差和平均相对误差。 0065 通过上述实验步骤, 可以实现对空缺数据的弥补。 说 明 书 CN 103177088 A 8 6/7 页 9 0066 2. 针对 59839 条横截面数据在不同缺失比例。
33、下的弥补准确度的有效性测试 0067 针对59839条横截面数据, 通过随机抽样的方法构建不同 (1%、 5%、 10%、 20%和50%) 缺失比例的数据, 然后按照测试1的训练过程获得不同缺失比例的SVR回归模型, 其中聚类 簇个数根据测试 1 计算的对数似然比的大小设定为 3。最后共获得 3*12*5=180 个 EM-BP 神 经网络模型, 最后计算弥补的平均绝对误差和平均相对误差, 其计算结果如图 5 所示。 0068 3. 针对 59839 条横截面数据的在 SVR 和基于 EM 聚类 -BP 神经网络的弥补算法的 弥补准确度的有效性测试 0069 针对 59839 条横截面数据,。
34、 按照测试 2 获得的不同缺失比例数据中的完全数据集 直接进行 SVR 回归建模, 最后获得 1*5=5 个回归模型。最后计算弥补的平均绝对误差和 平均相对误差, 并与基于 EM 聚类 -BP 神经网络的弥补算法计算结果相比较, 证明基于 EM 聚类 -BP 神经网络的弥补算法在不同缺失比例下弥补准确度更好。SVR 方法和基于 EM 聚 类 -BP 神经网络的弥补算法计算结果对比图如图 6 所示。 0070 测试结果 0071 对于测试 (1), 腹围缺失弥补的平均绝对误差和平均相对误差分别为 4.36cm 和 4.85%, 同时, 在其他属性上的弥补准确度都要小于腹围弥补准确度。很明显, E。
35、M-BP 方法在 生物医学领域尤其是 2 型糖尿病领域具有较好的填补准确度。 0072 对于测试 (2), 基于 EM 聚类 -BP 神经网络的弥补算法在不同缺失比例下腹围的弥 补准确度见图 4 所示。其中聚类最优个数为 3。人群聚类结果如表 2 所示 : 0073 表 2 不同缺失比例下聚类结果 0074 0075 0076 通过图 5 可以看出, 随着缺失比例的增加, 基于 EM 聚类 -BP 神经网络的弥补算法 弥补的误差会有一定程度的变大, 但是在高缺失比下仍有不错的效果。 0077 对于测试 (3), 通过与 SVR 算法在不同缺失比下腹围的弥补准确度的对比发现, 如 图 6 所示。。
36、基于 EM 聚类 -BP 神经网络的弥补算法无论在平均绝对误差和平均相对误差计 算结果上均好于 SVR 算法, 证明基于 EM 聚类 -BP 神经网络的弥补算法在不同缺失比例下弥 说 明 书 CN 103177088 A 9 7/7 页 10 补准确度的有效性。 0078 本发明以 2 型糖尿病腹围缺失数据弥补为例, 提出了一种基于 EM 聚类 -BP 神经网 络的生物医学空缺数据弥补计算方法, 通过不同数据缺失比的弥补实验, 基于 EM 聚类 -BP 神经网络的弥补算法均有较低的平均绝对误差和平均相对误差, 该方法可以满足实际生物 信息采样数据缺失的空缺值弥补计算, 具有较好的效果, 为生物信息采集数据空缺值弥补 提供了技术和方法基础。 说 明 书 CN 103177088 A 10 1/3 页 11 图 1 图 2 图 3 说 明 书 附 图 CN 103177088 A 11 2/3 页 12 图 4 图 5 说 明 书 附 图 CN 103177088 A 12 3/3 页 13 图 6 说 明 书 附 图 CN 103177088 A 13 。