基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法.pdf

上传人:1*** 文档编号:4572929 上传时间:2018-10-21 格式:PDF 页数:9 大小:430.98KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110215259.4

申请日:

2011.07.29

公开号:

CN102305772A

公开日:

2012.01.04

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G01N 21/35申请公布日:20120104|||实质审查的生效IPC(主分类):G01N 21/35申请日:20110729|||公开

IPC分类号:

G01N21/35

主分类号:

G01N21/35

申请人:

江苏大学

发明人:

朱伟兴; 江辉; 李新城

地址:

212013 江苏省镇江市京口区学府路301号

优先权:

专利代理机构:

南京经纬专利商标代理有限公司 32200

代理人:

楼高潮

PDF下载: PDF下载
内容摘要

本发明公开一种用于食品和农产品品质检测的基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法,利用理化分析方法测定所有待测样本的待测组分浓度值后划分样本的校正集和预测集;利用遗传算法对预处理后的校正集光谱数据点进行全局搜索,依据核偏最小二乘法交互验证过程中最小的交互验证均方根误差值确定出最终参与建模的特征变量数,并将遗传算法筛选出来的特征变量重新组成新的数据矩阵作为模型的输入;将测得的校正集样本待测组分浓度矩阵作为模型的标准输出,建立最佳校正分析模型,利用该模型对预测集样本待测组分浓度值进行预测;通过筛选特征波长减少建模运算时间,剔除大量噪声和冗余变量,使最终建立的模型预测性能和精度更高。

权利要求书

1: 一种基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法, 其特征在于, 包括 以下步骤 : 1) 采集所有待测样本的近红外光谱数据, 并对光谱数据进行预处理 ; 然后利用理化分 析方法测定所有待测样本的待测组分浓度值, 并根据待测组分浓度值划分样本的校正集和 预测集 ; 2) 利用遗传算法 GA 对预处理后的校正集光谱数据点进行全局搜索, 依据核偏最小二 乘法 KPLS 交互验证过程中最小的交互验证均方根误差 RMSECV 值确定出最终参与建模的特 征变量数, 并将遗传算法 GA 筛选出来的特征变量重新组成新的数据矩阵, 作为 KPLS 模型的 输入 ; 3) 将测得的校正集样本待测组分浓度矩阵作为 KPLS 模型的标准输出, 建立最佳 GA-KPLS 校正分析模型, 并利用该模型对预测集样本待测组分浓度值进行预测。
2: 根据权利要求 1 所述的基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法, 其特征是, 步骤 2) 中, 采用遗传算法 GA 来筛选建模所需的特征变量前需确定如下参数 : 遗传编码 : 将每一个波长作为一个基因, 对每一个基因进行 0/1 二进制编码 ; 群体初始化 : 群体的大小是 30 ~ 100 ; 适应度函数 : 交互验证过程中的 RMSECV 作为适应度函数为 1/(1+RMSECV ) ; 遗传操作 : 每个个体的选择概率与其适应度成比例, 交叉算子取值为 0.5 ~ 0.99, 变异 算子取值为 0.01 ~ 0.1 ; 收敛判据 : 遗传迭代次数取值范围为 100 ~ 1000。
3: 根据权利要求 1 所述的基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法, 其特征是, 步骤 2) 中核偏最小二乘算法 KPLS 执行前需确定的参数如下 : 核函数 : 选用径向基核函数 ; 核参数 : 根据公式 c =rmσ 2 选择核参数 c , 其中 r 是由所预测的变量过程决定的常数, m 2 是输入变量的数据维数, σ 为数据的方差, 核参数 c 取值范围为 0.01 ~ 6。

说明书


基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法

    技术领域 本发明涉及一种近红外光谱的特征波长筛选方法, 特指用于食品和农产品品质检 测的基于遗传核偏最小二乘法的特征波长筛选方法。
     背景技术 近红外光谱 (NIR, Near Infrared Spectroscopy) 分析技术作为一种快速、 无损、 准确、 多组分同时检测的绿色分析技术, 已广泛应用于食品和农产品品质检测中。 借助先进 的近红外光谱仪器, 可以方便地在短时间内获得大量的光谱数据。但由于光谱仪器所采集 到的数据除样品自身的信息外, 还包含了大量无关和噪音信息, 这些信息很难在光谱预处 理中全部消除。如果这些数据都参与模型的建立, 不但计算量大、 模型复杂, 且会影响模型 的预测精度。 另外, 由于大多待测样本的待测组分是非常复杂的天然成分, 再加上近红外光 谱区域的谱带复杂、 重叠多, 会导致所采集的光谱数据与待测组分浓度实测值之间呈现较 为复杂的非线性映射关系。
     发明内容
     本发明的目的在于针对现有技术的不足, 提供一种计算量小、 模型简单且预测精 度高的基于遗传核偏最小二乘 (GA-KPLS, Genetic Algorithm-Kernel Partial Least Squares) 法的近红外光谱特征波长筛选方法。
     所述的基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法的技术方案包 括以下步骤 : 1) 利用傅里叶变换近红外光谱仪采集待测样本的光谱, 得到待测样本的原始近红外 光谱数据, 并运用光谱预处理算法对原始近红外光谱数据进行预处理 ; 利用理化分析方法 测定所有待测样本的待测组分浓度值, 并根据待测组分浓度值划分样本的校正集和预测 集, 2) 利用遗传算法 (GA, Genetic Algorithm) 对预处理后的校正集光谱数据点进行全 局搜索, 依据核偏最小二乘 (KPLS, Kernel Partial Least Squares) 法交互验证过程中最 小的交互验证均方根误差 (RMSECV, Root Mean Square Error of Cross-Validation) 值 确定出最终参与建模的特征变量数, 并将筛选出来的特征变量重新组成新的数据矩阵, 作 为 KPLS 模型的输入 ; 3) 将测得的校正集样本待测组分浓度矩阵作为 KPLS 模型的标准输出, 建立最佳 GA-KPLS 校正分析模型 ; 并利用该模型对预测集样本待测组分浓度值进行预测。
     由于本发明采用以上技术方案, 得到的有益效果是 : 本发明在建模之前通过引入 遗传算法, 利用 GA 具有全局快速搜索的特点, 并将 GA 和 KPLS 方法进行结合, 发挥各自的优 势, 以建立预测性能高、 泛化能力强的更加稳定、 简便的校正分析模型。该方法通过筛选特 征波长减少建模运算时间, 剔除大量噪声和冗余变量, 使最终建立的农产品和食品品质检 测近红外光谱模型的预测性能和精度更高。附图说明 图 1 为本发明方法的流程示意图 ; 图 2 为梨样本的原始光谱图 ; 图 3 为 RMSECV 值随建模所用变量数增加而变化的趋势图 ; 图 4 为梨的可溶性固形物含量 SSC 的 GA-KPLS 模型校正集和预测集样本的实测值与近 红外光谱 NIR 预测值之间的散点图。
     具体实施方式
     参见图 1, 本发明按如下步骤实现 : 1) 利用傅里叶变换近红外光谱仪采集所有待测样本的近红外光谱数据, 得到待测样 本的原始近红外光谱数据, 并对光谱数据进行预处理, 以消除光谱偏移或基线变化等因素 对所建模型性能的影响, 保证光谱数据和待测样品品质指标之间有较好的相关性。目前常 用的光谱预处理方法有标准正态变量变换、 均值中心化、 一阶导数和二阶导数等。然后, 利 用理化分析方法测定所有待测样本的待测组分浓度值, 并根据待测组分浓度值, 对经过预 处理后的原始近红外光谱数据合理地划分样本的校正集和预测集, 确保预测集样本的待测 组分浓度值尽量落在校正集样本的范围内, 且校正集和预测集样本的统计分布尽可能的一 致, 即两个样本集的均值和方差基本相同, 以提高校正模型对预测集样本预测结果的可信 程度。 2) 利用遗传算法 (GA) 对预处理后的校正集光谱数据点进行全局搜索时, 首先将 核偏最小二乘 (KPLS) 方法交互验证过程中的最小的交互验证均方根误差 (RMSECV) 作为遗 传算法的适应度函数 ; 然后运用遗传算法进行 KPLS 模型建立过程中的特征波长的筛选。 本 发明是以遗传迭代次数达到初始设定值为收敛终止条件, 迭代终止后, 所有特征变量按选 用频数的高低重新排列, 再逐一加入到 KPLS 模型中, 以建模所选用的特征变量数与 RMSECV 值作图, 依据最小的 RMSECV 值确定出最终参与建模的特征变量数, 并将筛选出来的参与最 终模型建立的特征变量重新组成新的数据矩阵, 作为 KPLS 模型的输入, 用 KPLS 算法来建立 最终的非线性校正分析模型。
     上述利用 GA 来筛选 KPLS 非线性模型建立所需的最佳特征波长, 在利用 GA 来选择 最佳特征波长前先需确定如下参数 :
     遗传编码 : 对采集的近红外光谱数据的所有波长进行编码, 即把每一个波长作为一 个基因, 然后对每一个基因 (波长) 进行 0/1 二进制编码。
     群体初始化 : 群体的大小即个体 (染色体) 的数目是根据波长 (基因) 的多少来 适应度函数 : 在特征变量筛选过程中, 对模型的预测能力常采用交互验证法来 遗传操作 : 选择的目的是把优胜的个体直接遗传到下一代或通过交叉或变异选定, 一般为 30 ~ 100, 限定条件为个体选定的最大变量数目。
     评价。 因此, 本发明采用交互验证过程中的 RMSECV 作为适应度函数, 定义为 1/ (1+RMSECV ) 。
     产生新的个体在遗传到下一代, 本发明选用适应度比例方法, 即每个个体的选择概率与其 适应度成比例 ; 交叉是 GA 中最主要的算子, 寻优的搜索过程主要是通过它来实现, 取值范 围通常为 0.5 ~ 0.99 ; 变异算子的目的是为了保持群体的多样性, 防止出现未成熟收敛现象, 取值范围一般为 0.01 ~ 0.1。
     收敛判据 : 以遗传迭代次数为收敛终止的条件, 取值范围一般为 100 ~ 1000。上述利用 KPLS 算法来建立最终的非线性校正分析模型, 在 KPLS 模型建立前先需 确定的参数如下 : 核函数 : 一般选用径向基核函数 (RBF, Radial Basis Function) 。 核参数 : 核参数 c 通常根据公式 c =rmσ 2 进行选择, 其中 r 是由所预测的变量
     过程决定的常数, m 是输入变量的数据维数, σ 2 为数据的方差, 核参数 c 一般取值范围为 0.01 ~ 6。
     3) 将测得的校正集样本待测组分浓度矩阵作为 KPLS 模型的标准输出, 并利用 KPLS 算法来对重组后的特征变量进行校正分析模型的建立, KPLS 的应用能够解决待测样 本的某些待测组分和近红外光谱数据之间的非线性关系, 且此时所获得的校正分析模型即 为全局最佳模型。通过运用本发明的方法来建立模型, 可以较好地解决模型输入与输出之 间存在的非线性映射关系, 并通过剔除大量不相关和冗余变量, 以得到预测能力强、 稳健性 好的非线性校正分析模型。最后利用建立的最优 GA-KPLS 模型来对预测集样本待测组分浓 度值进行预测, 该模型的输出即为预测集样本 NIR 光谱所对应的待测组分浓度的预测值。 对于最终建立的校正分析模型, 以预测集的实测组分浓度值和近红外光谱预测值的相关系 数 (R, Correlation Coefficient) 和预测均方根误差 (RMSEP, Root Mean Square Error of Prediction) 作为最终模型评价的有效指标。
     以下以梨为例, 提供本发明的一个实施例 : 图 1 所示为本发明处理过程的示意图, 图 2 所示为所采集的 90 个梨样本原始近红外光 -1 谱图, 光谱波数范围为 9999.10~3999.64cm , 扫描次数为 16 次, 分辨率为 8cm-1, 每条光谱包 括 1557 个数据点。在校正集和预测集样本的划分过程中, 首先将所有样本按照待测组分浓 度值的大小从大到小排列, 每 3 个样本中选取 2 个进入校正集, 1 个进入预测集。这样做的 目的是为了确保预测集样本的待测组分浓度值尽量落在校正集样本的范围内, 且校正集和 预测集样本的统计分布尽可能的一致 (即两个样本集的均值和方差基本相同) , 以提高校正 模型对预测集样本预测结果的可信程度。最终, 校正集包含 60 个梨的近红外光谱数据, 预 测集包含 30 个梨的近红外光谱数据。
     利用 GA 对校正集中光谱数据点进行全局搜索。初始群体大小设置为 30, 交叉概 率 p c =0.5, 变异概率 p m =0.01, 遗传迭代次数设置为 100。迭代终止后, 将按选用频数重新排 列的变量依据频数的高低顺序逐一加入 KPLS 校正模型中, 其中, KPLS 模型的核函数选用 径向基核函数, 其中核参数 c 在模型建立过程中通过优化最终取 0.6 ; 再由选用的变量数与 RMSECV 值作图确定出模型最佳变量数, 以得到最终参与建模的变量。图 3 所示为梨的可溶 性固形物含量 (Soluble Solid Content, SSC) 的 GA-KPLS 模型建立过程中 RMSECV 值随建 模所用变量数的增加而变化的趋势图。
     由图 3 可以看出, 在 GA 优化参与 KPLS 建模变量个数过程中, 当入选的变量个数为 将所选用的变量重新组成新的数据矩阵, 再次运 39 时, 可获得最低的 RMSECV 值, 为 0.2265, 用 KPLS 建立梨的 SSC 的校正分析模型, 此时所获得的校正分析模型即为全局最佳模型。最 终建立梨的 SSC 的 GA-KPLS 校正模型主成份因子数为 12 个, 参与建模的变量数为 39 个,其校正集 (Rc) 和预测集 (Rp) 相关系数分别为 0.9632 和 0.9549, RMSECV 和 REMSP 分别为 0.2570 和 0.3044, 此模型校正集和预测集各样本实测值和 NIR 预测值之间的散点图如图 4 所示, 从图中可以看出, 无论在校正集还是预测集, NIR 预测值和实测参考值之间都有很好 的相关性。

基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法.pdf_第1页
第1页 / 共9页
基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法.pdf_第2页
第2页 / 共9页
基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法.pdf_第3页
第3页 / 共9页
点击查看更多>>
资源描述

《基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法.pdf》由会员分享,可在线阅读,更多相关《基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法.pdf(9页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102305772 A (43)申请公布日 2012.01.04 CN 102305772 A *CN102305772A* (21)申请号 201110215259.4 (22)申请日 2011.07.29 G01N 21/35(2006.01) (71)申请人 江苏大学 地址 212013 江苏省镇江市京口区学府路 301 号 (72)发明人 朱伟兴 江辉 李新城 (74)专利代理机构 南京经纬专利商标代理有限 公司 32200 代理人 楼高潮 (54) 发明名称 基于遗传核偏最小二乘法的近红外光谱特征 波长筛选方法 (57) 摘要 本发明公开一种用于食品和农产品。

2、品质检测 的基于遗传核偏最小二乘法的近红外光谱特征波 长筛选方法, 利用理化分析方法测定所有待测样 本的待测组分浓度值后划分样本的校正集和预测 集 ; 利用遗传算法对预处理后的校正集光谱数据 点进行全局搜索, 依据核偏最小二乘法交互验证 过程中最小的交互验证均方根误差值确定出最终 参与建模的特征变量数, 并将遗传算法筛选出来 的特征变量重新组成新的数据矩阵作为模型的输 入 ; 将测得的校正集样本待测组分浓度矩阵作为 模型的标准输出, 建立最佳校正分析模型, 利用该 模型对预测集样本待测组分浓度值进行预测 ; 通 过筛选特征波长减少建模运算时间, 剔除大量噪 声和冗余变量, 使最终建立的模型预测。

3、性能和精 度更高。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 4 页 附图 3 页 CN 102305779 A1/1 页 2 1. 一种基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法, 其特征在于, 包括 以下步骤 : 1) 采集所有待测样本的近红外光谱数据, 并对光谱数据进行预处理 ; 然后利用理化分 析方法测定所有待测样本的待测组分浓度值, 并根据待测组分浓度值划分样本的校正集和 预测集 ; 2) 利用遗传算法 GA 对预处理后的校正集光谱数据点进行全局搜索, 依据核偏最小二 乘法KPLS交互验证过程中最小的交互验。

4、证均方根误差RMSECV值确定出最终参与建模的特 征变量数, 并将遗传算法GA筛选出来的特征变量重新组成新的数据矩阵, 作为KPLS模型的 输入 ; 3) 将测得的校正集样本待测组分浓度矩阵作为 KPLS 模型的标准输出, 建立最佳 GA-KPLS 校正分析模型, 并利用该模型对预测集样本待测组分浓度值进行预测。 2. 根据权利要求 1 所述的基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法, 其特征是, 步骤 2) 中, 采用遗传算法 GA 来筛选建模所需的特征变量前需确定如下参数 : 遗传编码 : 将每一个波长作为一个基因, 对每一个基因进行 0/1 二进制编码 ; 群体初始化 : 群体。

5、的大小是 30 100 ; 适应度函数 : 交互验证过程中的 RMSECV 作为适应度函数为 1/(1+RMSECV) ; 遗传操作 : 每个个体的选择概率与其适应度成比例, 交叉算子取值为 0.5 0.99, 变异 算子取值为 0.01 0.1 ; 收敛判据 : 遗传迭代次数取值范围为 100 1000。 3. 根据权利要求 1 所述的基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法, 其特征是, 步骤 2) 中核偏最小二乘算法 KPLS 执行前需确定的参数如下 : 核函数 : 选用径向基核函数 ; 核参数 : 根据公式c=rm 2 选择核参数c, 其中r是由所预测的变量过程决定的常数,m。

6、 是输入变量的数据维数, 2 为数据的方差, 核参数c取值范围为 0.01 6。 权 利 要 求 书 CN 102305772 A CN 102305779 A1/4 页 3 基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法 技术领域 0001 本发明涉及一种近红外光谱的特征波长筛选方法, 特指用于食品和农产品品质检 测的基于遗传核偏最小二乘法的特征波长筛选方法。 背景技术 0002 近红外光谱 (NIR, Near Infrared Spectroscopy) 分析技术作为一种快速、 无损、 准确、 多组分同时检测的绿色分析技术, 已广泛应用于食品和农产品品质检测中。 借助先进 的近红外光。

7、谱仪器, 可以方便地在短时间内获得大量的光谱数据。但由于光谱仪器所采集 到的数据除样品自身的信息外, 还包含了大量无关和噪音信息, 这些信息很难在光谱预处 理中全部消除。如果这些数据都参与模型的建立, 不但计算量大、 模型复杂, 且会影响模型 的预测精度。 另外, 由于大多待测样本的待测组分是非常复杂的天然成分, 再加上近红外光 谱区域的谱带复杂、 重叠多, 会导致所采集的光谱数据与待测组分浓度实测值之间呈现较 为复杂的非线性映射关系。 发明内容 0003 本发明的目的在于针对现有技术的不足, 提供一种计算量小、 模型简单且预测精 度高的基于遗传核偏最小二乘 (GA-KPLS, Genetic。

8、 Algorithm-Kernel Partial Least Squares) 法的近红外光谱特征波长筛选方法。 0004 所述的基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法的技术方案包 括以下步骤 : 1) 利用傅里叶变换近红外光谱仪采集待测样本的光谱, 得到待测样本的原始近红外 光谱数据, 并运用光谱预处理算法对原始近红外光谱数据进行预处理 ; 利用理化分析方法 测定所有待测样本的待测组分浓度值, 并根据待测组分浓度值划分样本的校正集和预测 集, 2) 利用遗传算法 (GA, Genetic Algorithm) 对预处理后的校正集光谱数据点进行全 局搜索, 依据核偏最小二乘 (K。

9、PLS, Kernel Partial Least Squares) 法交互验证过程中最 小的交互验证均方根误差 (RMSECV, Root Mean Square Error of Cross-Validation) 值 确定出最终参与建模的特征变量数, 并将筛选出来的特征变量重新组成新的数据矩阵, 作 为 KPLS 模型的输入 ; 3) 将测得的校正集样本待测组分浓度矩阵作为 KPLS 模型的标准输出, 建立最佳 GA-KPLS 校正分析模型 ; 并利用该模型对预测集样本待测组分浓度值进行预测。 0005 由于本发明采用以上技术方案, 得到的有益效果是 : 本发明在建模之前通过引入 遗传算。

10、法, 利用 GA 具有全局快速搜索的特点, 并将 GA 和 KPLS 方法进行结合, 发挥各自的优 势, 以建立预测性能高、 泛化能力强的更加稳定、 简便的校正分析模型。该方法通过筛选特 征波长减少建模运算时间, 剔除大量噪声和冗余变量, 使最终建立的农产品和食品品质检 测近红外光谱模型的预测性能和精度更高。 说 明 书 CN 102305772 A CN 102305779 A2/4 页 4 附图说明 0006 图 1 为本发明方法的流程示意图 ; 图 2 为梨样本的原始光谱图 ; 图 3 为 RMSECV 值随建模所用变量数增加而变化的趋势图 ; 图 4 为梨的可溶性固形物含量 SSC 的。

11、 GA-KPLS 模型校正集和预测集样本的实测值与近 红外光谱 NIR 预测值之间的散点图。 具体实施方式 0007 参见图 1, 本发明按如下步骤实现 : 1) 利用傅里叶变换近红外光谱仪采集所有待测样本的近红外光谱数据, 得到待测样 本的原始近红外光谱数据, 并对光谱数据进行预处理, 以消除光谱偏移或基线变化等因素 对所建模型性能的影响, 保证光谱数据和待测样品品质指标之间有较好的相关性。目前常 用的光谱预处理方法有标准正态变量变换、 均值中心化、 一阶导数和二阶导数等。然后, 利 用理化分析方法测定所有待测样本的待测组分浓度值, 并根据待测组分浓度值, 对经过预 处理后的原始近红外光谱数。

12、据合理地划分样本的校正集和预测集, 确保预测集样本的待测 组分浓度值尽量落在校正集样本的范围内, 且校正集和预测集样本的统计分布尽可能的一 致, 即两个样本集的均值和方差基本相同, 以提高校正模型对预测集样本预测结果的可信 程度。 0008 2) 利用遗传算法 (GA) 对预处理后的校正集光谱数据点进行全局搜索时, 首先将 核偏最小二乘 (KPLS) 方法交互验证过程中的最小的交互验证均方根误差 (RMSECV) 作为遗 传算法的适应度函数 ; 然后运用遗传算法进行KPLS模型建立过程中的特征波长的筛选。 本 发明是以遗传迭代次数达到初始设定值为收敛终止条件, 迭代终止后, 所有特征变量按选 。

13、用频数的高低重新排列, 再逐一加入到 KPLS 模型中, 以建模所选用的特征变量数与 RMSECV 值作图, 依据最小的 RMSECV 值确定出最终参与建模的特征变量数, 并将筛选出来的参与最 终模型建立的特征变量重新组成新的数据矩阵, 作为KPLS模型的输入, 用KPLS算法来建立 最终的非线性校正分析模型。 0009 上述利用 GA 来筛选 KPLS 非线性模型建立所需的最佳特征波长, 在利用 GA 来选择 最佳特征波长前先需确定如下参数 : 遗传编码 : 对采集的近红外光谱数据的所有波长进行编码, 即把每一个波长作为一 个基因, 然后对每一个基因 (波长) 进行 0/1 二进制编码。 0。

14、010 群体初始化 : 群体的大小即个体 (染色体) 的数目是根据波长 (基因) 的多少来 选定, 一般为 30 100, 限定条件为个体选定的最大变量数目。 0011 适应度函数 : 在特征变量筛选过程中, 对模型的预测能力常采用交互验证法来 评价。 因此, 本发明采用交互验证过程中的RMSECV作为适应度函数, 定义为1/ (1+RMSECV) 。 0012 遗传操作 : 选择的目的是把优胜的个体直接遗传到下一代或通过交叉或变异 产生新的个体在遗传到下一代, 本发明选用适应度比例方法, 即每个个体的选择概率与其 适应度成比例 ; 交叉是 GA 中最主要的算子, 寻优的搜索过程主要是通过它来。

15、实现, 取值范 围通常为 0.5 0.99 ; 变异算子的目的是为了保持群体的多样性, 防止出现未成熟收敛现 说 明 书 CN 102305772 A CN 102305779 A3/4 页 5 象, 取值范围一般为 0.01 0.1。 0013 收敛判据 : 以遗传迭代次数为收敛终止的条件, 取值范围一般为 100 1000。 0014 上述利用 KPLS 算法来建立最终的非线性校正分析模型, 在 KPLS 模型建立前先需 确定的参数如下 : 核函数 : 一般选用径向基核函数 (RBF, Radial Basis Function) 。 0015 核参数 : 核参数c通常根据公式c=rm 2。

16、 进行选择, 其中r是由所预测的变量 过程决定的常数,m是输入变量的数据维数, 2 为数据的方差, 核参数c一般取值范围为 0.01 6。 0016 3) 将测得的校正集样本待测组分浓度矩阵作为 KPLS 模型的标准输出, 并利用 KPLS 算法来对重组后的特征变量进行校正分析模型的建立, KPLS 的应用能够解决待测样 本的某些待测组分和近红外光谱数据之间的非线性关系, 且此时所获得的校正分析模型即 为全局最佳模型。通过运用本发明的方法来建立模型, 可以较好地解决模型输入与输出之 间存在的非线性映射关系, 并通过剔除大量不相关和冗余变量, 以得到预测能力强、 稳健性 好的非线性校正分析模型。。

17、最后利用建立的最优 GA-KPLS 模型来对预测集样本待测组分浓 度值进行预测, 该模型的输出即为预测集样本 NIR 光谱所对应的待测组分浓度的预测值。 对于最终建立的校正分析模型, 以预测集的实测组分浓度值和近红外光谱预测值的相关系 数 (R, Correlation Coefficient) 和预测均方根误差 (RMSEP, Root Mean Square Error of Prediction) 作为最终模型评价的有效指标。 0017 以下以梨为例, 提供本发明的一个实施例 : 图 1 所示为本发明处理过程的示意图, 图 2 所示为所采集的 90 个梨样本原始近红外光 谱图, 光谱波数。

18、范围为9999.103999.64cm-1, 扫描次数为16次, 分辨率为8cm-1, 每条光谱包 括 1557 个数据点。在校正集和预测集样本的划分过程中, 首先将所有样本按照待测组分浓 度值的大小从大到小排列, 每 3 个样本中选取 2 个进入校正集, 1 个进入预测集。这样做的 目的是为了确保预测集样本的待测组分浓度值尽量落在校正集样本的范围内, 且校正集和 预测集样本的统计分布尽可能的一致 (即两个样本集的均值和方差基本相同) , 以提高校正 模型对预测集样本预测结果的可信程度。最终, 校正集包含 60 个梨的近红外光谱数据, 预 测集包含 30 个梨的近红外光谱数据。 0018 利用。

19、 GA 对校正集中光谱数据点进行全局搜索。初始群体大小设置为 30, 交叉概 率pc=0.5, 变异概率pm=0.01, 遗传迭代次数设置为 100。迭代终止后, 将按选用频数重新排 列的变量依据频数的高低顺序逐一加入 KPLS 校正模型中, 其中, KPLS 模型的核函数选用 径向基核函数, 其中核参数c在模型建立过程中通过优化最终取 0.6 ; 再由选用的变量数与 RMSECV 值作图确定出模型最佳变量数, 以得到最终参与建模的变量。图 3 所示为梨的可溶 性固形物含量 (Soluble Solid Content, SSC) 的 GA-KPLS 模型建立过程中 RMSECV 值随建 模所。

20、用变量数的增加而变化的趋势图。 0019 由图 3 可以看出, 在 GA 优化参与 KPLS 建模变量个数过程中, 当入选的变量个数为 39时, 可获得最低的RMSECV值, 为0.2265, 将所选用的变量重新组成新的数据矩阵, 再次运 用 KPLS 建立梨的 SSC 的校正分析模型, 此时所获得的校正分析模型即为全局最佳模型。最 终建立梨的 SSC 的 GA-KPLS 校正模型主成份因子数为 12 个, 参与建模的变量数为 39 个, 说 明 书 CN 102305772 A CN 102305779 A4/4 页 6 其校正集 (Rc) 和预测集 (Rp) 相关系数分别为 0.9632 。

21、和 0.9549, RMSECV 和 REMSP 分别为 0.2570 和 0.3044, 此模型校正集和预测集各样本实测值和 NIR 预测值之间的散点图如图 4 所示, 从图中可以看出, 无论在校正集还是预测集, NIR 预测值和实测参考值之间都有很好 的相关性。 说 明 书 CN 102305772 A CN 102305779 A1/3 页 7 图 1 说 明 书 附 图 CN 102305772 A CN 102305779 A2/3 页 8 图 2 图 3 说 明 书 附 图 CN 102305772 A CN 102305779 A3/3 页 9 图 4 说 明 书 附 图 CN 102305772 A 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 测量;测试


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1