基于多种检验技术的武夷岩茶产地智能鉴别方法.pdf

上传人:b*** 文档编号:5996012 上传时间:2019-04-02 格式:PDF 页数:27 大小:1.40MB
返回 下载 相关 举报
摘要
申请专利号:

CN201610915208.5

申请日:

2016.10.20

公开号:

CN106560694A

公开日:

2017.04.12

当前法律状态:

公开

有效性:

审中

法律详情:

公开

IPC分类号:

G01N21/359(2014.01)I; G01N21/3563(2014.01)I; G01N27/62; G01N21/31; G01N30/02; G01N27/00

主分类号:

G01N21/359

申请人:

中国计量大学

发明人:

叶子弘; 楼云霄; 付贤树; 俞晓平; 崔海峰; 张雅芬

地址:

310018 浙江省杭州市下沙高教园区学源街258号

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明涉及基于多种检验技术的武夷岩茶产地智能鉴别方法,属于地理标志产品真实性识别技术领域,其目的在于解决单种检测数据无法代表产地溯源全部关键信息和不同类型检测数据在计量学方法中联合使用的数据匹配等问题。本发明基于偏最小二乘判别模型,将不同产地岩茶(包括地理标志产地内和产地外岩茶)近红外特征光谱、稳定同位素、微量元素、氨基酸、儿茶素和电子舌数据融合在一起,建立分析模型,提取试样后利用模型客观、准确的判定岩茶产地,其识别率最高,达100.0%,高于单种数据PLSDA判别结果,且对盲样的识别率达100%,本发明方法具有较好应用前景,可作为武夷岩茶产地溯源识别技术方法。

权利要求书

1.基于多种检验技术的武夷岩茶产地智能鉴别方法,所述方法包括:
(A)采集不同产地岩茶样品:
武夷岩茶产区外样品数>100份,且产区周边50公里范围内样品占比>50%;武夷岩茶
产区内样品数为产区外样品的2~3倍,采样范围覆盖主要产区各生产企业,且每家企业应
不少于3个样品;
(B)测定不同产地岩茶样品的近红外特征光谱数据:
近红外检测参数:64次扫描,特征光谱条带为64次扫描的平均值,扫描范围为12000-
4000cm-1,数据点的间隔为1.928cm-1,采集时室温控制在25℃,湿度保持稳定,每个样本的
光谱采集1次;
(C)测定不同产地岩茶样品的氢、氧、氮、碳四种稳定同位素质谱数据:
δ13C、δ15N、δ18O、δ2H、δ86Sr等稳定同位素含量测定,每个样品至少重复分析3次以上,取
平均值作为最终结果;
通过SVM-RFE(支持向量机回归特征消去法)对武夷岩茶稳定同位素数据进行训练和预
测,随机重复100次,并对各变量的模型特征进行排序,筛选出岩茶原产地的同位素特征变
量,其排序顺序为氢、氧、氮、碳、锶;并利用预测集计算模型的灵敏度、分辨率和识别率,均
按重复计算100次平均结果,氢、氧、氮、碳四种数据组成的模型,识别率最高,达93.93%,因
此建模只需选择氢、氧、氮、碳四种数据,无需对锶等其他稳定同位素含量进行检测;
(D)测定不同产地岩茶样品的铯、铜、钙、铷微量元素数据
用原子吸收光谱仪测定Ca、Mg、Mn元素含量,用电感耦合等离子体质谱测Ti、Cr、Co、Ni、
Cu、Zn、Rb、Cd、Cs、Ba、Sr元素含量。干茶样品微波消解,消解完毕,观察消解液是否澄清,若
浑浊,则重复压力消解步骤,若完全澄清,则定容后用上述仪器进行测定;
通过SVM-RFE法对微量元素数据进行训练和预测,随机重复100次,并对各变量的模型
特征进行排序,筛选出岩茶原产地的微量元素特征变量,并通过预测集计算每一维变量累
加之后的模型增维精度,得到铯、铜、钙、铷、锶、钡特征排序顺序;然后对特征变量按自然序
逐级进行组合,并利用预测集计算模型的灵敏度、分辨率、识别率,由铯、铜、钙、铷四者微量
元素组成的模型,识别率最高,说明此四种微量元素间的信息具有互补性,只需选择建模的
铯、铜、钙、铷四种微量元素进行检测,无需对其它微量元素进行测定;
(E)测定不同产地岩茶样品的氨基酸数据:
利用HPLC法对不同产地岩茶样品中的27种氨基酸进行检测,平行测定两次,取平均值;
通过SVM-RFE法对武夷岩茶氨基酸组分数据进行训练和预测,随机重复100次,并对各
变量的模型特征进行排序,筛选出茶叶原产地的特征变量,并通过预测集计算每一维变量
累加之后的模型增维精度,确定其排序顺序为天冬酰胺、脯氨酸、色氨酸、磷乙醇胺、尿素和
缬氨酸;然后对特征变量按自然序逐级进行组合,并利用预测集计算模型的灵敏度增维精
度、分辨率增维精度、识别率增维精度,由天冬酰胺、脯氨酸、色氨酸、磷乙醇胺四种氨基酸
组成的模型,其识别率最高,说明此四种氨基酸间的信息具有互补性,只需要选择建模的天
冬酰胺、脯氨酸、色氨酸、磷乙醇胺四种氨基酸进行检测即可;
(F)测定不同产地岩茶样品的儿茶素数据:
利用HPLC法对不同产地岩茶样品中的6种儿茶素以及咖啡碱进行检测,平行测定两次,
取平均值;
采用支持向量机回归特征消去法对儿茶素和咖啡碱共7个特征变量进行逐级组合后,
对于地理特征的贡献率从高到低依次为表没食子儿茶素(EGC)、儿茶素(C)、表没食子儿茶
素没食子酸酯(EGCG)、没食子酸(GA)、表儿茶素(EC)、表儿茶素没食子酸酯(ECG)和咖啡碱;
然后对特征变量按自然序逐级进行组合,并利用预测集计算模型的灵敏度、分辨率、识别
率,模型最高识别率为0.8596,灵敏度为0.9322,分辨率为0.6734,模型中包含EGC、C、EGCG、
GA和EC,因此建模采用EGC、C、EGCG、GA和EC五种儿茶素含量;
(G)测定不同产地岩茶样品的电子舌数据:
本研究采用ASTREE Electronic电子舌系统,该套系统具有一个电极(Ag/AgCl)以及7
个独立传感器(ZZ、BA、BB、CA、GA、HA、JB),电子舌系统使用前用NaCl和C5H8NO4Na标准溶液
对传感器进行活化,并依次进行信号校准和仪器自诊断,自诊断通过后可进行样品滋味的
分析检测;对茶汤进行电子舌检测,检测时间100秒,传感器信号采集频率1次/秒,7个传感
器独立给出响应数据;取各传感器最后十秒(第91-100秒)稳定数据的均值作为检测数据进
行后续分析;
(H)联合近红外、稳定同位素、微量元素、氨基酸、儿茶素以及电子舌数据建立不同产地
岩茶鉴别数据库
(1)将每条近红外数据(Y轴数据)拼接在Excel数据表格中,每行所有列数据组成每条
近红外数据;
(2)将每个样品的稳定同位素数据按氢、氧、氮、碳顺序拼接在近红外数据后,将微量元
素数据按铯、铜、钙、铷拼接在稳定同位素后,将氨基酸数据按天冬酰胺、脯氨酸、色氨酸、磷
乙醇胺顺序拼接在微量元素后,将儿茶素数据按EGC、C、EGCG、GA和EC顺序拼接在氨基酸数
据后,最后将电子舌7个独立传感器(按ZZ、BA、BB、CA、GA、HA、JB顺序)最后十秒(第91-100
秒)稳定数据的均值拼接在儿茶素数据后,武夷岩茶产区内样品组成的Excel数据表,以
data1命名;武夷岩茶产区外样品组成的Excel数据表,以data2命名;
(3)运行MATLAB软件中的edit功能,打开data1.xls、data2.xls,以Mat文件格式保存,
文件名对应为data1.mat、data2.mat;
(4)数据分割:随机选取武夷岩茶产区内总数的65~70%作为原产地内模型数A1,随机
取武夷岩茶产区外65~70%作为原产地外模型数A2,建立kenstone分割程序;
(5)K-折交互验证法:将样本数据集随机划分为K个子集(一般是均分),将一个子集作
为验证集,其余的K-1组子集作为训练集;轮流将K个子集作为验证集,交叉重复K次,得到K
次的结果,并用K次结果的平均值作为分类器或模型的性能指标;
(6)偏最小二乘法鉴别模型的建立:对步骤(4)和(5)数据分割后的融合近红外、稳定同
位素、微量元素、氨基酸、儿茶素以及电子舌数据,采用偏最小二乘法分析并建立PLSDA模
型;
(I)取待测未知产地样品按照上述步骤B、C、D、E、F和G步骤,测定近红外特征光谱数据、
稳定同位素质谱数据、微量元素数据、氨基酸数据、儿茶素以及电子舌数据,将测得数据代
入上述PLSDA模型,若预测结果小于0,则判断待测样品为武夷岩茶产地外样品;
若预测结果大于0,则判断待测样品为武夷岩茶产地内样品。
2.如权利要求1所述的方法,其特征在于所述步骤(H)中分割程序分别为:[model1,
test1]=kenstone(data1,A1)和[model2,test2]=kenstone(data2,A2),得到model1、
test1、model2、test2。
3.如权利要求1所述的方法,其特征在于所述步骤(H)中偏最小二乘法鉴别模型的建立
过程如下:
(a)合并训练集:xxxc=[data1(model1,:);data2(model2,:)];
(b)合并预测集:xxxp=[data1(test1,:);data2(test2,:)];
(c)求训练集平均光谱:mx=mean(xxxc);
(d)训练集减去平均光谱:xxxc=xxxc-ones(A,1)*mx;
A为:A1+A2;
(e)预测集减去平均光谱:xxxp=xxxp-ones(B,1)*mx;
B为:原产地内测试集数B1与原产地外测试集数B2之和;
(f)响应变量:yyc=-ones(A,2);yyc(1:A1,1)=1;yyc(A1+1:A,2)=1;
A1与B1之和为原产地内样品总数C1;
A2与B2之和为原产地外样品总数C2;
(g)用K-折交互验证:
indices=crossvalidation(′Kfold′,x,k);
(h)建模过程:
[betattt,www,BETAPLS1]=plsbasetotal(xxxc,yyc(:,1),lvp1);
[betattt,www,BETAPLS2]=plsbasetotal(xxxc,yyc(:,2),lvp2);
cy=[xxxc*BETAPLS1(:,lvp1),xxxc*BETAPLS2(:,lvp2)];
py=[xxxp*BETAPLS1(:,lvp1),xxxp*BETAPLS2(:,lvp2)];
[rrt,cyy]=max(cy′);
[rwwrt,pyy]=max(py′);
(i)计算训练过程中模型的灵敏度和分辨率:
err01=length(find(cyy(1:A1)==1))/A1;
err02=length(find(cyy(A1+1:A1+A2)==2))/110;
(j)计算预测未知样品过程中模型的灵敏度和分辨率:
err1a=length(find(pyy(1:B1)==1))/B1;
err1b=1-length(find(pyy(B1+1:B1+B2)==1))/B2;
(k)保存预测结果:save cyy cyy;save pyy pyy;
(l)py的第一列即为预测结果。
可画图给出详细结果:
bar(cy(:,1));
figure
bar(py(:,1))。
4.如权利要求1所述的方法,其特征在于本发明所述偏最小二乘(PLSDA)建模方法对近
红外、稳定同位素、微量元素、氨基酸、儿茶素、电子舌的融合数据进行建模分析,模型识别
率最高,达100.0%,远高于单种数据PLSDA判别结果;针对20、60、100个盲样,检测识别率均
达100.0%,本发明方法可作为武夷岩茶产地溯源识别技术方法。

说明书

基于多种检验技术的武夷岩茶产地智能鉴别方法

(一)技术领域

本发明涉及基于多种检验技术的武夷岩茶产地智能鉴别方法,即联合近红外光
谱、稳定同位素、微量元素、氨基酸、儿茶素以及电子舌数据鉴别武夷岩茶产地的方法,属于
地理标志产品真实性识别技术领域。

(二)背景技术

根据GB/T 17924-2008的定义,地理标志产品是指利用产自特定地域的原材料,按
照传统工艺在特定地域内所生产的,质量、特色或者声誉在本质上取决于其原产地域地理
特征,并按法定程序经审核批准以原产地域名称命名的产品。茶叶是典型的地理标志保护
产品,有武夷岩茶、安溪铁观音、大红袍、永春佛手、西湖龙井、安吉白茶、祁门红茶、普洱茶、
碧螺春茶等近50种地理标志产品茶叶。

目前,国内外已开展成品茶产地识别鉴定研究,仪器检测结合化学计量学分析方
法为最主要产地识别方法,仪器检测方法主要有近红外光谱、同位素质谱、液相色谱、传感
器等;常用计量学方法包括偏最小二乘、主成分分析、人工神经网络、支持向量机等。

近红外光谱检测技术广泛应用茶叶原产地检测中,Zhou等利用近红外光谱仪对25
个西湖龙井和70个浙江龙井样品进行检测并建立费氏判别函数模型,训练集合、交叉验证
集合和测试集合的识别准确率分别96.7%、95.3%和96.7%。周健等对4个龙井茶品种(龙
井43、群体种、迎霜和乌牛早)进行近红外检测,并采用PLS建立模型,其4个品种茶叶准确率
分别为89.8%、90.9%、96.1%和99.5%。占茉莉等采用近红外光谱仪扫描10份西湖龙井和
18份浙江龙井茶叶样品,聚类分析表明,西湖龙井茶具有独特特征而自成一类,缙云和新昌
表现出类似光谱特征存在交叉,富阳产的也自成一类。赵杰文等采用近红外光谱仪对龙井、
碧螺春、毛峰和铁观音(各20份)进行检测,并采用主成分建立预测模型,校正集和预测集的
鉴别准确率分别为98.75%和95.0%,但龙井样品易误判为碧螺春。陈全胜等采用近红外光
谱对龙井、碧螺春、铁观音和祁门红茶进行检测,并建立SIMCA(基于主成分分析的一种分类
方法)判别模型,龙井、碧螺春、祁门红茶和铁观音的识别准确率分别为90%、80%、100%和
100%;李晓丽等对西湖龙井、浙江龙井、羊岩勾青、雪水云绿和庐山云雾茶(各30份)进行近
红外检测,并采用主成分分析法建立模型,除西湖龙井和浙江龙井存在部分重叠外,其余均
能很好的区分。

同位素是所有生物的一个自然标签,与生物的生长环境密切相关,因此同位素质
谱(IRMS)为茶叶原产地识别提供科学的、可靠的鉴别方法。IRMS目前已经广泛应用在各种
农产品的原产地检测中,等利用同位素质谱和核磁共振光谱,结合主成分分析,能够
理想地鉴别斯洛文尼亚三个不同地区的红酒。Brescia等利用IRMS测定牛奶中的δ13C、δ15N
和Ba元素含量,区分了不同原产地的牛奶,证明了IRMS适用于乳制品。Martinelli等对来自
美国、南美、欧洲和澳大利亚的气泡葡萄酒进行同位素检测,发现具有显著差异。Tamara等
测定了43份印度、23份斯里兰卡和12份中国茶叶中稳定同位素,非线性分析表明茶叶原产
地的判定易受判别函数的影响,很好的区分不同国家产区的茶叶。

王睿等采用电感耦合等离子体原子发射光谱法,对新疆6个主要产地的36个石榴
样品的可食部分(果肉)和籽中12种金属元素的含量进行测定,采用主成分分析PCA和线性
判别分析LDA对石榴可食部分和籽中金属元素进行综合评价。结果表明:PCA得出2个三因子
模型,分别解释了石榴可食部分和籽中金属元素数据的84.29%和60.33%;通过对石榴可
食部分中金属元素组成进行PCA,PCA可将36个石榴样品划分为6类,与实际产地吻合。陈辉
等应用电感耦合等离子体质谱测定了北京顺义、河北阜平和河北平山三个地区65个荆条蜜
样品中38种元素含量,并采用PCA和反向传输人工神经网络按照不同产地对荆条蜜进行了
分析,交叉检验整体准确率为95.4%。

不同农产品因所处地理、气候、环境等的不同,常规和特殊化学成分的种类、含量
都有所不同,可通过色谱技术测定其种类和含量的差异将来自不同产地的同一种农产品区
分开,达到产地溯源的目的。Longobardi等采用高效液相色谱测定希腊的初榨橄榄油中的
15种氨基酸等含量,最后利用方差分析得到26个样品之间存在极显著差异(p<0.01),该方
法能有效的将不同来源的橄榄油区分开来。Kücük等研究了来自不同地区的三种土耳其蜂
蜜的12种氨基酸含量,对比发现由于产地的不同,各种不同产地氨基酸的含量有较大差异
(p<0.05),可进行不同产地来源判断。Collomb等对瑞士不同海拔地区生产的牛奶进行色
谱分析,测定其氨基酸组分及含量,发现三个不同海拔地区牛奶的氨基酸组分及含量存在
明显差异。

LF等采用反相高效液相色谱法测定绿茶、红茶和黑茶中儿茶素、咖啡因等,来自5
个不同国家28批次的茶叶(产自中国的红茶、绿茶、黑茶;产自日本的绿茶;产自斯里兰卡的
红茶;产自肯尼亚的红茶以及产自印度的红茶)可采用PCA进行区分区分。Kodama等采用毛
细管电泳测定了日本静冈(n=4)、鹿儿岛(n=4)、三重县(n=4)产的茶叶中7种儿茶素(+
C、-C、EC、CG、ECG、EGC、EGCG)和咖啡因含量,采用PC(主成分分析),识别准确率100%。

电子舌是感官仿生技术在仪器分析中的一种应用,其原理是用多传感器阵列代替
生物体的味觉系统,并由计算机代替大脑进行分析。当检测溶液吸附在传感器上时,传感器
的电容发生改变,产生特征响应信号,由电子舌自带的专家自学习系统进行模式识别,做出
定性和定量分析。传感器技术是一种快速简便的检测手段,且需要的样品量非常少;缺点是
与其他检测方法相比,重复性较差,无法表征单一组分的差异。传感器技术也已有用来鉴定
原产地。Guadarrama等利用电子舌对橄榄油进行质量控制,成功辨别出不同品种和不同原
产地的西班牙橄榄油;Penza等利用膜传感器阵列结合人工神经网络,能够有效地分辨出9
个不同原产地的意大利红酒。

从上述例子可以看出,国内外对地理标志产品的鉴别方法已有很多,但是很多研
究尚有不足之处,如采样不充分样品数量少,无法保证样品的准确性和代表性;样品空间选
择跨度大,往往选自不同国家、不同地区,本身就具有很大的区别;再加之甚至选择了不同
品种样品进行比较,不同品种间本身差异较大,因此这类鉴别方法对小范围的地理标志产
品产地判别借鉴意义不大;建模方法采用单种检测数据结合计量学方法进行,单种检测数
据无法代表产地溯源的全部信息,导致产地识别率较低,上述这些严重影响了地理标志产
品保护技术的创新和突破。针对如上情况,有必要建立基于多种检验技术的武夷岩茶产地
智能鉴别模型,即一种联合近红外、稳定同位素、微量元素、氨基酸、儿茶素以及电子舌数据
的武夷岩茶产地鉴别方法。

(三)发明内容

本发明目的在于解决单种检测数据无法代表产地溯源的全部关键信息以及传统
计量学方法存在的缺陷等问题,提供基于多种检验技术的武夷岩茶产地智能鉴别方法,联
合近红外光谱、稳定同位素、微量元素、氨基酸、儿茶素及电子舌数据建立的武夷岩茶产地
识别模型技术方法,该方法基于偏最小二乘判别模型,将不同产地岩茶(包括地理标志产地
内和产地外岩茶)近红外特征光谱数据、稳定同位素数据、微量元素数据、氨基酸、儿茶素及
电子舌数据融合在一起,建立分析模型,提取试样后利用模型客观、准确的判定岩茶产地。

本发明采用的技术方案是:

基于多种检验技术的武夷岩茶产地智能鉴别方法,即融合近红外光谱、稳定同位
素、微量元素、氨基酸、儿茶素以及电子舌数据鉴别武夷岩茶产地的方法,所述方法包括:

(A)采集不同产地岩茶样品:

武夷岩茶产区外样品数>100份,且产区周边50公里范围内样品占比>50%;武夷
岩茶产区内样品数为产区外样品的2~3倍,采样范围覆盖主要产区各生产企业,且每家企
业应不少于3个样品;

(B)测定不同产地岩茶样品的近红外特征光谱数据:

64次扫描,特征光谱条带取其平均值,扫描范围为12000-4000cm-1,数据点的间隔
为1.928em-1,室温25℃,湿度保持稳定,无损检测,无需采用粉碎等前处理,采用相同加料方
法、加料量,加料完毕即可进行检测。(C)测定不同产地岩茶样品的氢、氧、氮、碳四种稳定同
位素质谱数据:

δ13C、δ15N、δ18O、δ2H、δ86Sr等稳定同位素含量测定,每个样品至少重复分析3次以
上,取平均值作为最终结果。

通过SVM-RFE(支持向量机回归特征消去法)对武夷岩茶稳定同位素数据进行训练
和预测,随机重复100次,并对各变量的模型特征进行排序,筛选出岩茶原产地的同位素特
征变量,其排序顺序为氢、氧、氮、碳、锶。并利用预测集计算模型的灵敏度增维精度、分辨率
增维精度、识别率增维精度,均按重复计算100次平均结果,氢、氧、氮、碳四种数据组成的模
型,其识别率最高,达93.93%,因此建模只需要选择氢、氧、氮、碳四种数据即可,无需对锶
等其他稳定同位素含量进行检测。

(D)测定不同产地岩茶样品的铯、铜、钙、铷微量元素数据

用原子吸收光谱仪测定Ca、Mg、Mn元素含量,用电感耦合等离子体质谱测Ti、Cr、
Co、Ni、Cu、Zn、Rb、Cd、Cs、Ba、Sr元素含量。干茶样品微波消解,消解完毕,观察消解液是否澄
清,若浑浊,则重复压力消解步骤,若完全澄清,则定容后用上述仪器进行测定。

通过SVM-RFE法对微量元素数据进行训练和预测,随机重复100次,并对各变量的
模型特征进行排序,筛选出岩茶原产地的微量元素特征变量,并通过预测集计算每一维变
量累加之后的模型增维精度,得到铯、铜、钙、铷、锶、钡特征排序顺序。然后对特征变量按自
然序逐级进行组合,并利用预测集计算模型的灵敏度增维精度、分辨率增维精度、识别率增
维精度,由铯、铜、钙、铷四者微量元素组成的模型,其识别率增维精度最高,说明此四种微
量元素间的信息具有互补性,只需要选择建模的铯、铜、钙、铷四种微量元素进行检测即可,
无需对其它微量元素进行检测。

(E)测定不同产地岩茶样品的氨基酸数据:

利用HPLC法对不同产地岩茶样品中的27种氨基酸进行检测,平行测定两次,取平
均值。

通过SVM-RFE法对武夷岩茶氨基酸组分数据进行训练和预测,随机重复100次,并
对各变量的模型特征进行排序,筛选出茶叶原产地的特征变量,并通过预测集计算每一维
变量累加之后的模型增维精度,确定其排序顺序为天冬酰胺、脯氨酸、色氨酸、磷乙醇胺、尿
素和缬氨酸。然后对特征变量按自然序逐级进行组合,并利用预测集计算模型的灵敏度增
维精度、分辨率增维精度、识别率增维精度,由天冬酰胺、脯氨酸、色氨酸、磷乙醇胺四种氨
基酸组成的模型,其识别率最高,说明此四种氨基酸间的信息具有互补性,只需要选择建模
的天冬酰胺、脯氨酸、色氨酸、磷乙醇胺四种氨基酸进行检测即可。

(F)测定不同产地岩茶样品的儿茶素数据:

利用HPLC法对不同产地岩茶样品中的6种儿茶素以及咖啡碱进行检测,平行测定3
次,取平均值。

采用支持向量机回归特征消去法对儿茶素和咖啡碱共7个特征变量进行逐级组合
后,各儿茶素和咖啡碱对于地理特征的贡献率从高到低依次为表没食子儿茶素(EGC)、儿茶
素(C)、表没食子儿茶素没食子酸酯(EGCG)、没食子酸(GA)、表儿茶素(EC)、表儿茶素没食子
酸酯(ECG)和咖啡碱。然后对特征变量按自然序逐级进行组合,并利用预测集计算模型的灵
敏度、分辨率、识别率,最高模型识别率为0.8596,模型中包含EGC、C、EGCG、GA和EC,该模型
的灵敏度为0.9322,分辨率为0.6734。基于儿茶素和咖啡碱数据建立的SVM-RFE模型,其灵
敏度增维精度均高于0.9000,说明对于保护区内的岩茶样品判别结果较为可靠。而其分辨
率均较低,说明对于地理标志保护区外的假冒岩茶样品容易发生误判。在EGC和C的SVM模型
中,当增加了EGCG和GA后其识别率略有下降,说明EGC和C这两个儿茶素与EGC和C之间相关
性亦较强,但无法提供增益的产地信息。但当EC变量被纳入模型时,模型识别率达到最高,
说明EC是对EGC和C的产地信息表征的有益补充。ECG和咖啡碱再纳入模型中,识别率增维精
度不断下降,说明ECG和咖啡碱不能对产地判别提供增益效益,且可能与前面的五种儿茶素
之间存在一定的负相关关系,因此建模采用EGC、C、EGCG、GA和EC五种儿茶素含量。(G)测定
不同产地岩茶样品的电子舌数据:

本研究采用ASTREE Electronic电子舌系统,该套系统具有一个电极(Ag/AgCl)以
及7个独立传感器(ZZ、BA、BB、CA、GA、HA、JB),电子舌系统使用前用NaCl和C5H8NO4Na标准溶
液对传感器进行活化,并依次进行信号校准和仪器自诊断,自诊断通过后可进行样品滋味
的分析检测,检测完毕后,将电子舌数据以文本形式导出,取各传感器最后十秒(第91-100
秒)稳定数据的均值作为检测数据进行后续分析。

(H)联合近红外、稳定同位素、微量元素、氨基酸、儿茶素以及电子舌数据建立不同
产地岩茶鉴别数据库

(1)将每条近红外数据(Y轴数据)拼接在Excel数据表格中,每行所有列数据组成
每条近红外数据;

(2)将每个样品的稳定同位素数据按氢、氧、氮、碳顺序拼接在近红外数据后,将微
量元素数据按铯、铜、钙、铷拼接在稳定同位素后,将氨基酸数据按天冬酰胺、脯氨酸、色氨
酸、磷乙醇胺顺序拼接在微量元素后,将儿茶素数据按EGC、C、EGCG、GA和EC顺序拼接在氨基
酸数据后,最后将电子舌7个独立传感器(按ZZ、BA、BB、CA、GA、HA、JB顺序)最后十秒(第91-
100秒)稳定数据的均值拼接在儿茶素数据后,武夷岩茶产区内样品组成的Excel数据表,以
data1命名;武夷岩茶产区外样品组成的Excel数据表,以data2命名;

(3)运行MATLAB软件中的edit功能,打开data1.xls、data2.xls,以Mat文件格式保
存,文件名对应为data1.mat、data2.mat;

(4)数据分割:参考R.W.Kennard和L.A.Stone在Computer aided design of
experiments中的方法,随机选取武夷岩茶产区内总数的65~70%作为原产地内模型数A1,
随机取武夷岩茶产区外65~70%作为原产地外模型数A2,建立kenstone分割程序,设计思
路:首先计算两两样本之间距离,选择距离最大的两个样品;然后分别计算剩余的样本与已
选择的两个样本之间的距离;对于每个剩余样本而言,其与已选样品之间的最短距离被选
择,然后选择这些最短距离中相对最长的距离所对应的样本,作为第三个样品;重复上述步
骤,直至所选的样品的个数等于事先确定的数目为止。

(5)K-折交互验证法:将样本数据集随机划分为K个子集(一般是均分),将一个子
集作为验证集,其余的K-1组子集作为训练集;轮流将K个子集作为验证集,交叉重复K次,得
到K次的结果,并用K次结果的平均值作为分类器或模型的性能指标。K-折法下,每一个样本
数据都被用作训练数据,也被用作验证数据,避免了过度学习和欠学习状态的发生。

(6)偏最小二乘法鉴别模型的建立:对步骤(4)和(5)数据分割后的融合近红外、稳
定同位素、微量元素、氨基酸、儿茶素以及电子舌数据,采用偏最小二乘法分析并建立PLSDA
模型;

(I)取待测未知产地样品按照上述步骤B、C、D、E、F和G,测定近红外特征光谱数据、
稳定同位素质谱数据、微量元素数据、氨基酸数据、儿茶素以及电子舌数据,将测得数据代
入上述PLSDA模型,若预测结果小于0,则判断待测样品为武夷岩茶产地外样品;若预测结果
大于0,则判断待测样品为武夷岩茶产地内样品。

具体的,所述步骤(H)中分割程序分别为:[model1,test1]=kenstone(data1,A1)
和[model2,test2]=kenstone(data2,A2),得到model1、test1、model2、test2。

偏最小二乘法的建模思路:能够在自变量存在严重多重相关性的条件下进行回归
建模,在偏最小二乘回归模型中,设法去掉不太重要的相关性变量,剩余的自变量回归系数
将更容易解释,且更易于辨识系统信息与噪声,避免将本应保留的系统信息舍弃。具体的,
所述步骤(H)中偏最小二乘法鉴别模型的建立过程如下:

(a)合并训练集:xxxc=[data1(model1,:);data2(model2,:)];

(b)合并预测集:xxxp=[data1(test1,:);data2(test2,:)];

(c)求训练集平均光谱:mx=mean(xxxc);

(d)训练集减去平均光谱:xxxc=xxxc-ones(A,1)*mx;

A为:A1+A2;

(e)预测集减去平均光谱:xxxp=xxxp-ones(B,1)*mx;

B为:原产地内测试集数B1与原产地外测试集数B2之和;

(f)响应变量:yyc=-ones(A,2);yyc(1:A1,1)=1;yyc(A1+1:A,2)=1;

A1与B1之和为原产地内样品总数C1;

A2与B2之和为原产地外样品总数C2;

(g)用K-折交互验证:

indices=crossvalidation(′Kfold′,x,k);

(h)建模过程:

[betattt,www,BETAPLS1]=plsbasetotal(xxxc,yyc(:,1),lvp1);

[betattt,www,BETAPLS2]=plsbasetotal(xxxc,yyc(:,2),lvp2);

cy=[xxxc*BETAPLS1(:,lvp1),xxxc*BETAPLS2(:,lvp2)];

py=[xxxp*BETAPLS1(:,lvp1),xxxp*BETAPLS2(:,lvp2)];

[rrt,cyy]=max(cy′);

[rwwrt,pyy]=max(py′);

(i)计算训练过程中模型的灵敏度和分辨率:

err01=length(find(cyy(1:A1)==1))/A1;

err02=length(find(cyy(A1+1:A1+A2)==2))/110;

(j)计算预测未知样品过程中模型的灵敏度和分辨率:

err1a=length(find(pyy(1:B1)==1))/B1;

err1b=1-length(find(pyy(B1+1:B1+B2)==1))/B2;

(k)保存预测结果:save cyy cyy;save pyy pyy;

(l)py的第一列即为预测结果。

可画图给出详细结果:

bar(cy(:,1));

figure

bar(py(:,1))

其中kenstone程序如下所示:






其中Kfoldcv程序如下所示:






其中plsbasetotal程序如下所示:


本发明的有益效果主要体现在:本发明基于偏最小二乘判别模型,将不同产地岩
茶(包括地理标志产地内和产地外岩茶)近红外特征光谱数据、稳定同位素数据、微量元素
数据、氨基酸数据、儿茶素以及电子舌数据融合在一起,建立分析模型,提取试样后利用模
型客观、准确的判定岩茶产地,识别率最高,可达100.0%,高于单种数据PLSDA的判别结果。

(四)具体实施方式

下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于
此:

实施例1:

A、采集不同产地岩茶样品

国标(GB/T 18745-2006)中规定了武夷岩茶的地理保护范围,即福建省武夷山市
行政区划内,本发明在武夷岩茶地理标志保护区武夷街道、崇安街道、上梅、星村、五夫、岚
谷、新丰街道、洋庄、兴田、下梅、吴屯11个行政区域内进行样品采集,每个行政区域内随机
选择3个取样点(分别以A、B、C标示),共33个取样点,取样范围基本涵盖主要产区,每个采样
点取样15份(分别以A-1、A-2......A-15进行标示),获得495份地理标志保护区武夷岩茶样
品,另在福建省除武夷山市外其他县市(建阳、建瓯、漳州、泉州、松溪、政和),以及广西、贵
州、江西(婺源、赣州)等11个地点收集保护区外岩茶样品,每个地点取样15份(分别以1、
2......15进行标示),获得165个非地理标志保护区岩茶样品。地理标志产地内样品数与地
理标志产地外样品数之比为3∶1。

B、不同产地岩茶近红外特征光谱数据

无损检测、布鲁克TENSOR37,采用相同加料方法、加料量(目测),加料完毕即进行
检测。表1为15个兴田A样品部分近红外数据表,其中X轴为波长范围,Y轴为吸光度。

表1:15个兴田A样品部分近红外数据表





C、不同产地岩茶氢、氧、氮、碳四种稳定同位素质谱数据

δ13C、δ15N、δ18O、δ2H、δ86Sr由Thermo Fisher MAT253稳定同位素质谱仪测定。地理
标志产区内、外岩茶样品同位素比率经上述方法检测,表2节选部分岩茶样品同位素比率数
据表。

表2:部分岩茶样品同位素比率统计表





通过SVM对武夷岩茶稳定同位素数据进行训练和预测,随机重复100次,并对各变
量的模型特征进行排序,筛选出岩茶原产地的同位素特征变量顺序为氢、氧、氮、碳、锶;并
利用预测集计算模型的灵敏度、分辨率、识别率,均按重复计算100次平均结果,见表3。

表3:同位素特征变量组合结果情况





由表3可知,当氢和氧的同位素数据进行组合后,模型识别率下降,说明氧和氢对
原产地特征的贡献具有较强的相关性;而加入碳和氮同位素数据后,模型识别率上升,达到
93.93%,说明氮和碳具有较好的互补,因此建模只需要选择氢、氧、氮、碳四种数据即可,建
模中无需增加锶的数据,在实际检测中,同位素锶的含量无需检测。

D、测定不同产地岩茶样品的铯、铜、钙、铷四种微量元素数据

待测茶叶微波消解后,观察消解液是否澄清,若浑浊,则重复压力消解步骤,若完
全澄清,使用日立180-50原子吸收光谱仪测定样液中Ca、Mg、Mn元素含量,使用Thermo
Fisher XSeries II电感耦合等离子体质谱测定微波消解液中Ti、Cr、Co、Ni、Cu、Zn、Rb、Cd、
Cs、Ba、Sr元素含量。表4为节选部分地理标志产区内、外岩茶样品微量元素数据表。

表4:部分岩茶样品微量元素统计表





通过SVM-RFE对微量元素数据进行训练和预测,随机重复100次,并对各变量的模
型特征进行排序,筛选出岩茶原产地的微量元素特征变量,并通过预测集计算每一维变量
累加之后的模型增维精度,得到铯、铜、钙、铷、锶、钡特征排序顺序。然后对特征变量按自然
序逐级进行组合,并利用预测集计算模型的灵敏度增维精度、分辨率增维精度、识别率增维
精度,由铯、铜、钙、铷四者微量元素组成的模型,其识别率增维精度最高达0.8121,说明此
四种微量元素间的信息具有互补性,只需要选择建模的铯、铜、钙、铷四种微量元素即可。

E、测定不同产地岩茶样品的氨基酸数据

采用高效液相衍生化法对不同产地岩茶样品中的27种氨基酸进行检测,平行测定
两次,取平均值,部分岩茶样品7种氨基酸含量数据见表5。

表5 不同产地部分岩茶7种氨基酸含量(单位:百分比)





通过SVM对武夷岩茶氨基酸组分数据进行训练和预测,随机重复100次,并对各变
量的模型特征进行排序,筛选出茶叶原产地的特征变量,并通过预测集计算每一维变量累
加之后的模型增维精度,确定其排序顺序为天冬酰胺、脯氨酸、色氨酸、磷乙醇胺、尿素和缬
氨酸。然后对特征变量按自然序逐级进行组合,并利用预测集计算模型的灵敏度增维精度、
分辨率增维精度、识别率增维精度,由天冬酰胺、脯氨酸、色氨酸、磷乙醇胺四者氨基酸组成
的模型,其识别率增维精度最高达0.78,说明27种氨基酸间的信息互补性较弱,只需要选择
建模的四种氨基酸即可。

F、测定不同产地岩茶样品的儿茶素数据

采用高效液相法对不同产地岩茶样品中的6种儿茶素和咖啡碱进行检测,平行测
定两次,取平均值,部分岩茶样品儿茶素和咖啡碱含量数据见表6。

表6 不同产地岩茶儿茶素和咖啡碱含量





采用支持向量机回归特征消去法对儿茶素和咖啡碱共7个特征变量进行逐级组合
后,对于地理特征的贡献率从高到低依次为EGC、C、EGCG、GA、EC、ECG和咖啡碱。然后对特征
变量按自然序逐级进行组合,并利用预测集计算模型的灵敏度、分辨率、识别率,模型最高
识别率为0.8596,灵敏度为0.9322,分辨率为0.6734,模型中包含EGC、C、EGCG、GA和EC。基于
儿茶素和咖啡碱数据建立的模型,灵敏度均高于0.9000,说明对于保护区内的岩茶样品判
别结果较为可靠;而分辨率均较低,说明对于地理标志保护区外的假冒岩茶样品易发生误
判。在EGC和C的模型中,增加了EGCG和GA后,识别率略有下降,说明EGC和C与EGC和C之间相
关性亦较强,但无法提供增益的产地信息。但当EC变量被纳入模型时,模型识别率达到最
高,说明EC是对EGC和C的产地信息表征的有益补充。ECG和咖啡碱再纳入模型中,识别率增
维精度不断下降,说明ECG和咖啡碱不能对产地判别提供增益效益,且可能与前面的五种儿
茶素之间存在一定的负相关关系,因此建模采用EGC、C、EGCG、GA和EC五种儿茶素含量。

G、测定不同产地岩茶样品的电子舌数据

ASTREE Electronic电子舌系统,7个独立传感器名称分别为ZZ、BA、BB、CA、GA、HA、
JB。各传感器最后十秒(第91-100秒)稳定数据的均值作为检测数据。其数据见表7。

表7部分岩茶7个传感器最后10秒均值数据表



H、融合近红外、稳定同位素、微量元素、氨基酸、儿茶素和电子舌数据建立不同产
地岩茶鉴别数据库

(1)将每条近红外数据拼接在Excel数据表格中,每行所有列数据组成每条近红外
数据。

(2)将每个样品的稳定同位素数据按氢、氧、氮、碳顺序,微量元素按铯、铜、钙、铷
顺序,氨基酸按天冬酰胺、脯氨酸、色氨酸、磷乙醇胺顺序,儿茶素按EGC、C、EGCG、GA和EC顺
序,电子舌按ZZ、BA、BB、CA、GA、HA、JB顺序,依次拼接在近红外数据后,地理标志产区内样品
组成495行、4172列(近红外Y轴数据共4148列,依次增加氢、氧、氮、碳、铯、铜、钙、铷、天冬酰
胺、脯氨酸、色氨酸、磷乙醇胺、EGC、C、EGCG、GA、EC、ZZ、BA、BB、CA、GA、HA、JB变为4172列)的
Excel数据表,以data1命名;地理标志产区外样品组成165行、4172列的Excel数据表,以
data2命名。

(3)运行MATLAB软件中的edit功能,打开data1.xls、data2.xls,以Mat文件格式保
存,文件名对应为data1.mat、data2.mat;

(4)数据分割:参考R.W.Kennard和L.A.Stone在Computer aided design of
experiments上所述方法,原产地内随机取330(A1)个样品作为模型,原产地外随机取110
(A2)个样品作为模型,建立kenstone分割程序,[model1,test1]=kenstone(data1,330)和
[model2,test2]=kenstone(data2,110),得到model1、test1、model2、test2。

(5)对上述数据建模PLSDA:

①合并训练集:xxxc=[data1(model1,:);data2(model2,:)];

②合并预测集:xxxp=[data1(test1,:);data2(test2,:)];

③求训练集平均光谱:mx=mean(xxxc);

④训练集减去平均光谱:xxxc=xxxc-ones(440,1)*mx;

⑤预测集减去平均光谱:xxxp=xxxp-ones(220,1)*mx;

⑥响应变量:yyc=-ones(440,2);yyc(1:330,1)=1;yyc(331:440,2)=1;

⑦用K-折交互验证:

indices=crossvalidation(′Kfold′,x,k);

⑧建模过程:[betattt,www,BETAPLS1]=plsbasetotal(xxxc,yyc(:,1),lvp1);

[betattt,www,BETAPLS2]=plsbasetotal(xxxc,yyc(:,2),lvp2);

cy==[xxxc*BETAPLS1(:,lvp1),xxxc*BETAPLS2(:,lvp2)];

py=[xxxp*BETAPLS1(:,lvp1),xxxp*BETAPLS2(:,lvp2)];

[rrt,cyy]=max(cy′);

[rwwrt,pyy]=max(py′);

⑨计算训练过程中模型的灵敏度和分辨率:

err01=length(find(cyy(1:330)==1))/330;

err02=length(find(cyy(331:440)==2))/110;

⑩计算预测未知样品过程中模型的灵敏度和分辨率:

err1a=length(find(pyy(1:165)==1))/165;

err1b=1-length(find(pyy(166:220)==1))/55;

保存预测结果:save cyy cyy;save pyy pyy;

py的第一列为预测结果,小于0为原产地外样品,大于0为原产地内样品,画图
给出详细结果:

bar(cy(:,1));

figure

bar(py(:,1));

I、PLSDA模型识别率

按上述建模方法分别对近红外光谱、稳定同位素、微量元素、氨基酸、儿茶素、电子
舌以及六者融合数据进行建模分析,其结果见表8。

表8:PLSDA分类模型判别结果汇总



从表8可知,各检测技术所代表的特征指标之间具有互补性,采用本发明PLSDA建
模方法分别对近红外光谱、稳定同位素、微量元素、氨基酸、儿茶素、电子舌以及六者融合数
据进行分析,以六者融合数据为模型数据时,识别率最高,达100.0%,远高于单种数据的
PLSDA判别结果。

J、盲样检测

盲样监督小组从武夷岩茶农户处购买岩茶样品,监控晒青、做青、杀青等步骤,确
保岩茶样品的原产地域属性,上述样品作为盲样中的地理标志产区内样品;从建阳、建瓯、
婺源等地购买岩茶,作为盲样中的地理标志产区外样品,上述盲样与建模岩茶样品出自不
同厂家。分析检测人员事先未得知待测盲样的产地属性,随机选取若干份,检测,再按本发
明方法对盲样产地属性进行判断,并与盲样监督小组进行核对,确定盲样识别率。将20、60、
100个盲样按照步骤B、C、D、E和F获得的盲样数据代入上述PLSDA模型,判断其地理标志属
性,其判别准确率均达到100.0%。

实施例2:

采用与实施例1相同的建模方法,数据分割用Kenstone分割程序,用K-折交互验
证,分别建立PLSDA、神经网络ELM和最小二乘支持向量机LS-SVM模型,近红外数据不变,稳
定同位素、微量元素、氨基酸、儿茶素和电子舌分别按照氢、氧、氮、碳、锶、Cs、Cu、Ca、Rb、Sr、
Ba、天冬酰胺、脯氨酸、色氨酸、磷乙醇胺、尿素、缬氨酸、EGC、C、EGCG、GA、EC、ECG、咖啡碱、
ZZ、BA、BB、CA、GA、HA、JB拼接在近红外数据后,其模型识别率分别为89.5%、83.2%、
87.7%。

实施例3:

采用与实施例1相同的建模方法,数据分割用Kenstone分割程序,用K-折交互验
证,分别建立PLSDA、神经网络ELM和最小二乘支持向量机LS-SVM模型,近红外数据不变,稳
定同位素、微量元素、氨基酸、儿茶素和电子舌分别按照氢、氧、氮、碳、锶、Cs、Cu、Ca、Rb、Sr、
Ba、天冬酰胺、脯氨酸、色氨酸、磷乙醇胺、尿素、缬氨酸、EGC、C、EGCG、GA、EC、ZZ、BA、BB、CA、
GA、HA、JB拼接在近红外数据后,其模型识别率分别为90.1%、83.8%、88.9%。

实施例4:

采用与实施例1相同的建模方法,数据分割用Kenstone分割程序,用K-折交互验
证,分别建立PLSDA、神经网络ELM和最小二乘支持向量机LS-SVM模型,近红外数据不变,稳
定同位素、微量元素、氨基酸、儿茶素和电子舌分别按照氢、氧、氮、碳、锶、Cs、Cu、Ca、Rb、Sr、
Ba、天冬酰胺、脯氨酸、色氨酸、磷乙醇胺、EGC、C、EGCG、GA、EC、ZZ、BA、BB、CA、GA、HA、JB拼接
在近红外数据后,其模型识别率分别为96.2%、85.3%、89.6%。

实施例5:

采用与实施例1相同的建模方法,数据分割用Kenstone分割程序,用K-折交互验
证,分别建立PLSDA、神经网络ELM和最小二乘支持向量机LS-SVM模型,近红外数据不变,稳
定同位素、微量元素、氨基酸、儿茶素和电子舌分别按照氢、氧、氮、碳、锶、Cs、Cu、Ca、Rb、天
冬酰胺、脯氨酸、色氨酸、磷乙醇胺、EGC、C、EGCG、GA、EC、ZZ、BA、BB、CA、GA、HA、JB拼接在近红
外数据后,其模型识别率分别为98.7%、86.9%、90.2%。

实施例6:

采用与实施例1相同的建模方法,数据分割用Kenstone分割程序,用K-折交互验
证,分别建立PLSDA、神经网络ELM和最小二乘支持向量机LS-SVM模型,近红外数据不变,稳
定同位素、微量元素、氨基酸、儿茶素和电子舌分别按照氢、氧、氮、碳、Cs、Cu、Ca、Rb、天冬酰
胺、脯氨酸、色氨酸、磷乙醇胺、EGC、C、EGCG、GA、EC、ZZ、BA、BB、CA、GA、HA、JB拼接在近红外数
据后,其模型识别率分别为100.0%、88.0%、89.6%。

实施例7~11:

岩茶样品、近红外数据、同位素数据、微量元素数据、氨基酸数据、儿茶素数据以及
电子舌数据等与实施例1相同,分别采用不同方法进行鉴别。实施例9-11分别采用现有发明
专利CN103630528A(申请号201210307144.2)、CN102455320A(申请号201010526790.9)、
CN103245713A(申请号201310095950.2)所述方法进行鉴别,实施例2~6与实施例1指标区
别见表9。

表9:实施例1与实施例7~11比较情况表





从上述比较结果可以得出,采用本发明方法,其盲样检测识别率达100.0%以上,
可作为武夷岩茶产地溯源识别技术方法。

基于多种检验技术的武夷岩茶产地智能鉴别方法.pdf_第1页
第1页 / 共27页
基于多种检验技术的武夷岩茶产地智能鉴别方法.pdf_第2页
第2页 / 共27页
基于多种检验技术的武夷岩茶产地智能鉴别方法.pdf_第3页
第3页 / 共27页
点击查看更多>>
资源描述

《基于多种检验技术的武夷岩茶产地智能鉴别方法.pdf》由会员分享,可在线阅读,更多相关《基于多种检验技术的武夷岩茶产地智能鉴别方法.pdf(27页珍藏版)》请在专利查询网上搜索。

本发明涉及基于多种检验技术的武夷岩茶产地智能鉴别方法,属于地理标志产品真实性识别技术领域,其目的在于解决单种检测数据无法代表产地溯源全部关键信息和不同类型检测数据在计量学方法中联合使用的数据匹配等问题。本发明基于偏最小二乘判别模型,将不同产地岩茶(包括地理标志产地内和产地外岩茶)近红外特征光谱、稳定同位素、微量元素、氨基酸、儿茶素和电子舌数据融合在一起,建立分析模型,提取试样后利用模型客观、准确的。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 测量;测试


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1