一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法.pdf

上传人:小** 文档编号:5775101 上传时间:2019-03-18 格式:PDF 页数:15 大小:11.67MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310241511.8

申请日:

2013.06.18

公开号:

CN103344713A

公开日:

2013.10.09

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||著录事项变更IPC(主分类):G01N 30/02变更事项:发明人变更前:彭新辉 蒲文宣 易建华 李峰 周燕 张文利 王雪云 周立新 刘金云 彭宇 周文辉 孙在军 周曙光变更后:彭新辉 蒲文宣 易建华 李锋 周燕 张文利 王雪云 周立新 刘金云 彭宇 周文辉 孙在军 周曙光|||实质审查的生效IPC(主分类):G01N 30/02申请日:20130618|||公开

IPC分类号:

G01N30/02

主分类号:

G01N30/02

申请人:

湖南中烟工业有限责任公司

发明人:

彭新辉; 蒲文宣; 易建华; 李峰; 周燕; 张文利; 王雪云; 周立新; 刘金云; 彭宇; 周文辉; 孙在军; 周曙光

地址:

410007 湖南省长沙市雨花区万家丽中路三段188号

优先权:

专利代理机构:

长沙市融智专利事务所 43114

代理人:

魏娟

PDF下载: PDF下载
内容摘要

本发明公开了一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法,该方法先通过检测分析得出已知香型和未知香型烤烟样品中各致香物的含量数据;再将所述含量数据通过随机森林法分析后,同时得到致香物在烤烟香型分类中的重要性排序结果和对未知烤烟样品的香型的预测结果;该方法很好地揭示了与烤烟香型有关的致香物的重要性,提高了烤烟香型预测的准确性,能为卷烟产品设计与研发提供重要参考依据。

权利要求书

权利要求书
1.  一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法,其特征在于,先通过检测分析得出已知香型和未知香型烤烟样品中各致香物的含量数据;再将所述含量数据通过随机森林法分析后,同时得到致香物在烤烟香型分类中的重要性排序结果和对未知烤烟样品的香型的预测结果。

2.  如权利要求1所述的方法,其特征在于,所述的随机森林法为随机森林分类法或随机森林回归法。

3.  如权利要求2所述的方法,其特征在于,采用随机森林分类法或随机森林回归法时,设置包括训练样本比例、森林树数与节点处随机抽取变量个数在内的参数。

4.  如权利要求1所述的方法,其特征在于,所述的致香物包括烤烟中本身含有的致香物、烤烟热解产生的致香物或燃烧产生的致香物。

5.  如权利要求1~4任一项所述的方法,其特征在于,采用随机森林法的分析过程是:先将各致香物的含量数据导入DPS数据处理系统中,再选择随机森林分类法或随机森林回归法,设置包括训练样本比例、森林树数与节点处随机抽取变量在内的参数后,同时输出致香物在烤烟香型分类中的重要性的排序结果和对未知烤烟样品的香型的预测结果。

说明书

说明书一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法
技术领域
本发明涉及一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法,属于烟草质量(风格)鉴别领域。
背景技术
随机森林是Leo Breiman于2001提出的一个组合分类算法,它是CART的集合,用Bagging方法生成有差异的训练样本集,并在Bagging的基础上引入了随机选择属性。随机森林可以看作是对Bagging算法的一种发展。作为一种分类算法,随机森林具有如下优点:对于很多数据,具有较高的分类准确率;相对于目前其他的分类算法,随机森林能较好地容忍噪音;利用大数定律可以得到,随机森林作为有监督的学习方法不容易过拟合;建造分类器时,可以通过OOB(袋外样本)数据在内部估计模型的泛化误差;对于不平衡的分类资料集来说,它可以平衡误差。随机森林算法自提出以来已经成为一种重要的数据分析工具,并被广泛地应用于科学研究的众多领域,包括微阵列数据、定量构效关系建模、核磁共振光谱、土地覆盖以及图像分类、图像标注、运动识别等计算机视觉任务等。在基于各种生物学特征的蛋白质相互作用的预测中,随机森林的性能优于其他六种分类方法。
随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。
具体来说,随机森林分类是根据下列算法而建造每棵树:
1.用N来表示训练例子的个数,M表示变量的数目。2.我们会被告知一个数m,被用来决定当在一个节点上做决定时,会使用到多少个变量,m应小于M。 3.从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即bootstrap取样)。并使用这棵树来对剩余预测其类别,并评估其误差。4.对于每一个节点,随机选择m个基于此点上的变量。根据这m个变量,计算其最佳的分割方式。5.每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵正常树状分类器后会被采用)。6.对未知类别的样本进行分类时,输出的类别标签由森林中树的多数投票决定,也就是
c=argmaxc(1ntreeΣk=1ntreeI(h(x,θk)=c))]]>
其中x是输入向量,{θk}是独立同分布的随机向量,k=1,2,3…
随机森林在Bagging的基础上引入随机选择属性,更大程度上降低了树之间的相关性,同时建立的单棵不剪枝的分类回归树能够得到较低的偏差,从而保证了随机森林的分类性能。
另外,烟叶原料是支撑我国烟草发展尤其是中式卷烟发展的基础与关键。中式卷烟以国内烟叶为主体原料,具有明显的中国烟叶香气风格特征。我国烟叶主要分为清香型、中间香型与浓香型三类。我国烟草种植区域生态气候和土壤条件的多样性,致使不同产区的烟叶在风格质量方面表现出一定差异。如云南烟叶属于清香型风格,贵州多属于中间香型风格,湘南与河南烟叶属于浓香型风格。随着我国大企业、大品牌战略的实施,各卷烟企业越来越注重烟叶的香型风格特色,对充分掌握不同烟叶的香型风格特点提出了更高的要求,不仅需要进一步系统全面地检测烟叶的化学成分,更需要通过统计分析等工具提出烟叶香型风格的定性定量描述和识别方法,理解和掌握不同产区烟叶的香型风格的物质基础。
烟叶的质量归根到底主要是由其内在化学成分的组成和含量所决定的,烟叶化学成分的组成与含量差异造就了烟叶不同的香型风格。
烟叶化学成分与烟叶风格、香气量等品质的关系一直都是烟草化学研究的重点,这方面的研究前人已经做了大量的工作,如冼可法(1992)研究了挥发性成分与烤烟香气质和香型的关系,发现在云南烟叶中苯甲醛、茄酮和二氢大马酮明显高于河南烤烟,但异佛尔酮、巨豆三烯酮等在河南烤烟中较高,并认为云烟的特征香味是多种香味成分协调作用的结果。史宏志等(1996)研究了河南烤烟精油成分与评吸品质的关系,认为浓香型烟叶氮杂环类成分较高,而清香型烟叶较 低。周冀衡等(2004)指出新植二烯、类胡萝卜素降解产物对烤烟香型和香气质量的影响最大,西柏三烯类降解产物和糠醛类化合物在南方清香型烟叶中含量较高,芳香族氨基酸代谢产物和乙酰吡咯在北方浓香型烟叶中含量较高。他们还认为(2005),云南烤烟内大量的类胡萝卜素及较高的质体色素含量,是构成其特殊香气风格的重要原因之一。杨虹琦等(2004)认为,云南烤烟独特香气风格的形成与其烟叶中各种质体色素降解产物的协调性有关。还有人(2005)发现,云南清香型烤烟具有普遍性的特征性化学成分是水溶性总糖含量比浓香型烤烟相对较高,施木克值略较高,含氮化合物相对较低。叶绿素降解物植醇(叶绿醇)、新植二烯和植物呋喃类相对较高。类胡萝卜素降解产物巨豆三烯酮、β-大马酮、β-紫罗兰醇、β-紫罗兰酮、二氢猕猴桃内酯、香叶基丙酮等酮类相对浓香型烤烟较高。总之,利用这些化学成分及其含量对烟叶的质量进行定性定量的描述和评价,已对卷烟企业掌握不同产区烟叶的质量特点、充分利用烟叶原料等发挥了重要作用。但这些文献没有明确描述和划分烟叶样品的香型特征;对影响烟叶品质的化学指标多局限于糖、氮、碱等常规指标或香气物和前体物的某个方面进行研究,且各项化学指标对品质的影响只是简单的加和,并没有考虑其它多种化学成分对烟叶品质的贡献率及互作效应;没有就燃烧后烟气中的挥发性半挥发性致香物进行重点和全面研究;没有结合化学计量学特别是变量鉴别等多元统计和数据挖掘技术,去明确不同香型烟叶的重要致香物;而且文献还有矛盾之处。故现有文献的这些方法和指标存在一定的局限性和片面性。
发明内容
本发明针对在烤烟致香物与烤烟香型风格关系研究中,现有技术存在仅依靠致香物来片面性划分烤烟香型风格特征,更没有考虑烤烟中各致香成分之间的互作效应对烤烟香型贡献的缺陷,目的在于提供一种基于随机森林来揭示与烤烟香型判别有关致香物的重要性、能准确预测未知烤烟样品的香型的方法;这种方法在原烟风格特色鉴别上有重要应用价值,也能为卷烟产品设计与研发提供重要参考依据。
本发明提供了一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法,该方法是先通过检测分析得出已知香型和未知香型烤烟样品 中各致香物的含量数据;再将所述含量数据通过随机森林法分析后,同时得到致香物在烤烟香型分类中的重要性排序结果和对未知烤烟样品的香型的预测结果。
所述的随机森林法为随机森林分类法或随机森林回归法。
上述方法中采用随机森林分类法或随机森林回归法时,设置包括训练样本比例、森林树数与节点处随机抽取变量个数在内的参数;其中训练样本比例设置范围一般为50~70%,森林树数与节点处随机抽取变量个数一般采用系统默认值。
所述的致香物包括烤烟中本身含有的致香物、烤烟热解产生的致香物或燃烧产生的致香物;所述的烤烟中本身含有的致香物是将烤烟采用水/二氯甲烷同时蒸馏萃取(SDS)体系进行蒸馏萃取并浓缩得到;所述的烤烟热解产生的致香物是将烤烟粉末在自制的热解装置(彭新辉;易建华.一种高温裂解装置[P].中国专利:ZL200720065587.X)中的纯氮气氛条件下热解,用剑桥滤片收集后,经二氯甲烷溶解并浓缩后得到;所述的烤烟燃烧产生的致香物是将烤烟切丝后卷制成单料烟,经吸烟机抽吸,用剑桥滤片收集粒相致香物,并经二氯甲烷溶解浓缩后得到。
上述方法中采用随机森林法的分析过程是(如图1~3所示):先将各致香物的含量数据导入DPS数据处理系统中,再选择随机森林分类法或随机森林回归法,设置包括训练样本比例、森林树数与节点处随机抽取变量在内的参数后,同时输出致香物在烤烟香型分类中的重要性的排序结果和对未知烤烟样品的香型的预测结果。
本发明的随机森林法分析烤烟预测烤烟香型及分析致香物重要性的方法原理是:设烤烟样品总个数为N,其中已知香型烤烟样品为N1个,未知香型烤烟样品为N2个,致香物指标名称依次为x1,x2…xm;设置训练样本比例为y,森林树数为Ntress,节点处随机抽取的致香物变量数为m;应用bootstrap法,从已知香型烤烟样品N1个训练案例中按设定比例、以可重复方式进行取样,形成一组训练集(即bootstrap取样);使用这训练集中m个变量的最佳分割方式,来对未取到的已知香型烤烟样品进行分类,同时也对N2个未知香型烤烟样品的香型进行预测,同时,每次未被抽到的样本则组成N1*(1-y)个袋外数据;在烤烟香型分类时,袋外数据作为测试样本还可采用随机抽样方法评估各个致香成分在香型分类中的重要性;计算各致香物重要性时,其中随机森林分类法是以拟合差值的个 数来表示,而随机森林回归法是用所有树间预测精度标准差的标准化处理后的数据来表示。
上述方法中采用气质联用仪检测分析得出已知香型烤烟样品和未知香型烤烟样品中各致香物的含量数据。
本发明的有益效果:本发明结合随机森林法来准确预测未知烤烟样品的香型及致香物在烤烟香型分类中的重要性的分析;实验表明:采用随机森林能几乎100%准确预测未知烤烟样品的香型;并且该方法能将多种致香物在各烤烟香型风格整体判别中的重要性进行准确排序;这种方法在原料香型风格鉴别中有重要应用价值,可为卷烟产品设计与研发提供重要参考依据。
附图说明
【图1】为本发明方法中采用随机森林法时导入数据和设置参数的过程的截图。
【图2】为本发明方法中采用随机森林法时烤烟香型分类中的重要性的分析结果导出过程的截图。
【图3】为本发明方法中随机森林法时未知烤烟样品的香型预测结果导出过程的截图。
具体实施方式
以下实施例是对本发明的进一步说明,而不是限制本发明。
实施例1
本案例以烤烟本身含有的致香物为指标,采用随机森林分类法来分析致香物在烤烟香型判别中的重要性并预测未知烤烟样品香型。
一、致香物的分析检测方法
1材料与方法
1.1材料和仪器
气质联用仪PE Clarus600GC-MS。
大马酮等标准品购于sigma。
烤烟样品为湖南中烟2007-2010年采购的烤烟原料。
1.2方法
1.2.1样品处理与分析
1.2.1.1样品的制备
烤烟样品去除烟梗,40℃干燥4h,粉碎,过40目筛,装入样品瓶。
1.2.1.2同时蒸馏萃取
1)称25g烤烟样于500mL磨口烧瓶中,加入300mL蒸馏水浸湿;
2)取40mL二氯甲烷于250mL平底烧瓶中;
3)连接同时蒸馏萃取装置,以电热套加热装有烟末的烧瓶至沸腾,60℃水浴加热装有二氯甲烷的烧瓶;
4)回流2h后,冷却,弃水相,收集有机相,加入适量无水硫酸钠干燥;
5)有机相转入浓缩瓶,旋转蒸发仪上40℃浓缩至0.5mL,待分析。
1.2.1.3色谱条件:
毛细柱:Elite5MS(30m×0.32mm0.25μm)
载气:He,1mL/min,分流比25:1
程序升温:50℃--8℃/min--280℃,15min
离子源:EI,180℃
电子能量:70eV,扫描范围:35-400amu。
1.3DPS系统进行数据处理:
先将气质测试的致香性物质含量的数据导入到该软件中;选定有关指标与香型列;点击上方的“多元分析”栏下的“随机森林”里的“分类”或“回归”弹出随机森林分类参数设置框,设置好有关参数后,点击“确定”。
二、各已知香型样品的整体拟合结果
以巨豆三烯酮、苯已醇、β-二氢大马酮等有致香作用的41种物质为指标,对2007至2010生产年度198个烤烟样品烤烟中的164个样品的香型进行了拟合(分类判别)分析(表1);结果表明,依据各烤烟样品中含有的致香物质、采用DPS13.5中随机森林分类法能完全准确拟合(分类判别)出各烤烟样品的香型。表12007-2010年度生产的164个样品随机森林法拟合(分类判别)结果


注:此表中的prob.(1)、prob.(2)、prob.(3)分别代表清香型、中间香型和浓香型参数,下同。
三、41种致香物在各样品香型整体判别中的重要性分析
各致香成分的重要性排序见表2;从该表可以看出,在已检测的致香物成分中,巨豆三烯酮三种同分异构体(b、d、a)、苯甲醛、茄酮、吲哚、巨豆三烯酮c、茄那士酮、β-大马酮、6-甲基-5-庚烯-二酮的重要性位居前十位,5-甲基糠醇、十四酸(软脂酸)、2,3-戊二酮、2,3-二氢苯并呋喃与糠醇位居后五位。
表241种致香成分在烤烟香型拟合(分类判别)中的重要性排序表


四、依据此分类方法对未知烤烟样品的香型预测
依据前述方法,对2007-2010生产年度198个烤烟样品香型判别后余下的34个样品的香型进行了随机森林预测(表3);结果表明,依据各样品的致香物质含量及已建立的权重值,采用随机森林分类法能完全准确预测未知烤烟样品的香型。
表32007-2010年度生产的34个未知样品香型随机森林法预测结果



一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法.pdf_第1页
第1页 / 共15页
一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法.pdf_第2页
第2页 / 共15页
一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法.pdf_第3页
第3页 / 共15页
点击查看更多>>
资源描述

《一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法.pdf》由会员分享,可在线阅读,更多相关《一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法.pdf(15页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103344713 A (43)申请公布日 2013.10.09 CN 103344713 A *CN103344713A* (21)申请号 201310241511.8 (22)申请日 2013.06.18 G01N 30/02(2006.01) (71)申请人 湖南中烟工业有限责任公司 地址 410007 湖南省长沙市雨花区万家丽中 路三段 188 号 (72)发明人 彭新辉 蒲文宣 易建华 李峰 周燕 张文利 王雪云 周立新 刘金云 彭宇 周文辉 孙在军 周曙光 (74)专利代理机构 长沙市融智专利事务所 43114 代理人 魏娟 (54) 发明名称 一种基于随。

2、机森林法分析致香物在烤烟香型 分类中的重要性及预测香型的方法 (57) 摘要 本发明公开了一种基于随机森林法分析致香 物在烤烟香型分类中的重要性及预测香型的方 法, 该方法先通过检测分析得出已知香型和未知 香型烤烟样品中各致香物的含量数据 ; 再将所述 含量数据通过随机森林法分析后, 同时得到致香 物在烤烟香型分类中的重要性排序结果和对未知 烤烟样品的香型的预测结果 ; 该方法很好地揭示 了与烤烟香型有关的致香物的重要性, 提高了烤 烟香型预测的准确性, 能为卷烟产品设计与研发 提供重要参考依据。 (51)Int.Cl. 权利要求书 1 页 说明书 11 页 附图 3 页 (19)中华人民共和。

3、国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书10页 附图3页 (10)申请公布号 CN 103344713 A CN 103344713 A *CN103344713A* 1/1 页 2 1. 一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法, 其 特征在于, 先通过检测分析得出已知香型和未知香型烤烟样品中各致香物的含量数据 ; 再 将所述含量数据通过随机森林法分析后, 同时得到致香物在烤烟香型分类中的重要性排序 结果和对未知烤烟样品的香型的预测结果。 2. 如权利要求 1 所述的方法, 其特征在于, 所述的随机森林法为随机森林分类法或随 机森林回归法。 。

4、3. 如权利要求 2 所述的方法, 其特征在于, 采用随机森林分类法或随机森林回归法时, 设置包括训练样本比例、 森林树数与节点处随机抽取变量个数在内的参数。 4. 如权利要求 1 所述的方法, 其特征在于, 所述的致香物包括烤烟中本身含有的致香 物、 烤烟热解产生的致香物或燃烧产生的致香物。 5. 如权利要求 1 4 任一项所述的方法, 其特征在于, 采用随机森林法的分析过程是 : 先将各致香物的含量数据导入 DPS 数据处理系统中, 再选择随机森林分类法或随机森林回 归法, 设置包括训练样本比例、 森林树数与节点处随机抽取变量在内的参数后, 同时输出致 香物在烤烟香型分类中的重要性的排序结。

5、果和对未知烤烟样品的香型的预测结果。 权 利 要 求 书 CN 103344713 A 2 1/10 页 3 一种基于随机森林法分析致香物在烤烟香型分类中的重要 性及预测香型的方法 技术领域 0001 本发明涉及一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测 香型的方法, 属于烟草质量 (风格) 鉴别领域。 背景技术 0002 随机森林是 Leo Breiman 于 2001 提出的一个组合分类算法, 它是 CART 的集合, 用 Bagging方法生成有差异的训练样本集, 并在Bagging的基础上引入了随机选择属性。 随机 森林可以看作是对 Bagging 算法的一种发展。作为。

6、一种分类算法, 随机森林具有如下优点 : 对于很多数据, 具有较高的分类准确率 ; 相对于目前其他的分类算法, 随机森林能较好地容 忍噪音 ; 利用大数定律可以得到, 随机森林作为有监督的学习方法不容易过拟合 ; 建造分 类器时, 可以通过 OOB(袋外样本) 数据在内部估计模型的泛化误差 ; 对于不平衡的分类资 料集来说, 它可以平衡误差。 随机森林算法自提出以来已经成为一种重要的数据分析工具, 并被广泛地应用于科学研究的众多领域, 包括微阵列数据、 定量构效关系建模、 核磁共振光 谱、 土地覆盖以及图像分类、 图像标注、 运动识别等计算机视觉任务等。在基于各种生物学 特征的蛋白质相互作用的。

7、预测中, 随机森林的性能优于其他六种分类方法。 0003 随机森林顾名思义, 是用随机的方式建立一个森林, 森林里面有很多的决策树组 成, 随机森林的每一棵决策树之间是没有关联的。 在得到森林之后, 当有一个新的输入样本 进入的时候, 就让森林中的每一棵决策树分别进行一下判断, 看看这个样本应该属于哪一 类 (对于分类算法) , 然后看看哪一类被选择最多, 就预测这个样本为那一类。 0004 具体来说, 随机森林分类是根据下列算法而建造每棵树 : 0005 1. 用 N 来表示训练例子的个数, M 表示变量的数目。2. 我们会被告知一个数 m, 被 用来决定当在一个节点上做决定时, 会使用到多。

8、少个变量, m 应小于 M。3. 从 N 个训练案例 中以可重复取样的方式, 取样 N 次, 形成一组训练集 (即 bootstrap 取样) 。并使用这棵树来 对剩余预测其类别, 并评估其误差。4. 对于每一个节点, 随机选择 m 个基于此点上的变量。 根据这 m 个变量, 计算其最佳的分割方式。5. 每棵树都会完整成长而不会剪枝 (Pruning) (这有可能在建完一棵正常树状分类器后会被采用) 。6. 对未知类别的样本进行分类时, 输 出的类别标签由森林中树的多数投票决定, 也就是 0006 0007 其中 x 是输入向量, k 是独立同分布的随机向量, k=1,2,3 0008 随机森。

9、林在 Bagging 的基础上引入随机选择属性, 更大程度上降低了树之间的相 关性, 同时建立的单棵不剪枝的分类回归树能够得到较低的偏差, 从而保证了随机森林的 分类性能。 0009 另外, 烟叶原料是支撑我国烟草发展尤其是中式卷烟发展的基础与关键。中式卷 烟以国内烟叶为主体原料, 具有明显的中国烟叶香气风格特征。 我国烟叶主要分为清香型、 说 明 书 CN 103344713 A 3 2/10 页 4 中间香型与浓香型三类。我国烟草种植区域生态气候和土壤条件的多样性, 致使不同产区 的烟叶在风格质量方面表现出一定差异。如云南烟叶属于清香型风格, 贵州多属于中间香 型风格, 湘南与河南烟叶属于。

10、浓香型风格。随着我国大企业、 大品牌战略的实施, 各卷烟企 业越来越注重烟叶的香型风格特色, 对充分掌握不同烟叶的香型风格特点提出了更高的要 求, 不仅需要进一步系统全面地检测烟叶的化学成分, 更需要通过统计分析等工具提出烟 叶香型风格的定性定量描述和识别方法, 理解和掌握不同产区烟叶的香型风格的物质基 础。 0010 烟叶的质量归根到底主要是由其内在化学成分的组成和含量所决定的, 烟叶化学 成分的组成与含量差异造就了烟叶不同的香型风格。 0011 烟叶化学成分与烟叶风格、 香气量等品质的关系一直都是烟草化学研究的重点, 这方面的研究前人已经做了大量的工作, 如冼可法 (1992) 研究了挥发。

11、性成分与烤烟香气质 和香型的关系, 发现在云南烟叶中苯甲醛、 茄酮和二氢大马酮明显高于河南烤烟, 但异佛尔 酮、 巨豆三烯酮等在河南烤烟中较高, 并认为云烟的特征香味是多种香味成分协调作用的 结果。史宏志等 (1996) 研究了河南烤烟精油成分与评吸品质的关系, 认为浓香型烟叶氮杂 环类成分较高, 而清香型烟叶较低。 周冀衡等 (2004) 指出新植二烯、 类胡萝卜素降解产物对 烤烟香型和香气质量的影响最大, 西柏三烯类降解产物和糠醛类化合物在南方清香型烟叶 中含量较高, 芳香族氨基酸代谢产物和乙酰吡咯在北方浓香型烟叶中含量较高。他们还认 为 (2005), 云南烤烟内大量的类胡萝卜素及较高的。

12、质体色素含量, 是构成其特殊香气风格 的重要原因之一。杨虹琦等 (2004) 认为, 云南烤烟独特香气风格的形成与其烟叶中各种质 体色素降解产物的协调性有关。还有人 (2005) 发现, 云南清香型烤烟具有普遍性的特征性 化学成分是水溶性总糖含量比浓香型烤烟相对较高, 施木克值略较高, 含氮化合物相对较 低。叶绿素降解物植醇 (叶绿醇) 、 新植二烯和植物呋喃类相对较高。类胡萝卜素降解产物 巨豆三烯酮、 - 大马酮、 - 紫罗兰醇、 - 紫罗兰酮、 二氢猕猴桃内酯、 香叶基丙酮等酮类 相对浓香型烤烟较高。总之, 利用这些化学成分及其含量对烟叶的质量进行定性定量的描 述和评价, 已对卷烟企业掌握。

13、不同产区烟叶的质量特点、 充分利用烟叶原料等发挥了重要 作用。但这些文献没有明确描述和划分烟叶样品的香型特征 ; 对影响烟叶品质的化学指标 多局限于糖、 氮、 碱等常规指标或香气物和前体物的某个方面进行研究, 且各项化学指标对 品质的影响只是简单的加和, 并没有考虑其它多种化学成分对烟叶品质的贡献率及互作效 应 ; 没有就燃烧后烟气中的挥发性半挥发性致香物进行重点和全面研究 ; 没有结合化学计 量学特别是变量鉴别等多元统计和数据挖掘技术, 去明确不同香型烟叶的重要致香物 ; 而 且文献还有矛盾之处。故现有文献的这些方法和指标存在一定的局限性和片面性。 发明内容 0012 本发明针对在烤烟致香物。

14、与烤烟香型风格关系研究中, 现有技术存在仅依靠致香 物来片面性划分烤烟香型风格特征, 更没有考虑烤烟中各致香成分之间的互作效应对烤烟 香型贡献的缺陷, 目的在于提供一种基于随机森林来揭示与烤烟香型判别有关致香物的重 要性、 能准确预测未知烤烟样品的香型的方法 ; 这种方法在原烟风格特色鉴别上有重要应 用价值, 也能为卷烟产品设计与研发提供重要参考依据。 0013 本发明提供了一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预 说 明 书 CN 103344713 A 4 3/10 页 5 测香型的方法, 该方法是先通过检测分析得出已知香型和未知香型烤烟样品中各致香物的 含量数据 ; 再将。

15、所述含量数据通过随机森林法分析后, 同时得到致香物在烤烟香型分类中 的重要性排序结果和对未知烤烟样品的香型的预测结果。 0014 所述的随机森林法为随机森林分类法或随机森林回归法。 0015 上述方法中采用随机森林分类法或随机森林回归法时, 设置包括训练样本比例、 森林树数与节点处随机抽取变量个数在内的参数 ; 其中训练样本比例设置范围一般为 50 70%, 森林树数与节点处随机抽取变量个数一般采用系统默认值。 0016 所述的致香物包括烤烟中本身含有的致香物、 烤烟热解产生的致香物或燃烧产 生的致香物 ; 所述的烤烟中本身含有的致香物是将烤烟采用水 / 二氯甲烷同时蒸馏萃取 (SDS) 体系。

16、进行蒸馏萃取并浓缩得到 ; 所述的烤烟热解产生的致香物是将烤烟粉末在自制 的热解装置 (彭新辉 ; 易建华 . 一种高温裂解装置 P. 中国专利 :ZL200720065587.X) 中的 纯氮气氛条件下热解, 用剑桥滤片收集后, 经二氯甲烷溶解并浓缩后得到 ; 所述的烤烟燃烧 产生的致香物是将烤烟切丝后卷制成单料烟, 经吸烟机抽吸, 用剑桥滤片收集粒相致香物, 并经二氯甲烷溶解浓缩后得到。 0017 上述方法中采用随机森林法的分析过程是 (如图 1 3 所示) : 先将各致香物的含 量数据导入 DPS 数据处理系统中, 再选择随机森林分类法或随机森林回归法, 设置包括训 练样本比例、 森林树。

17、数与节点处随机抽取变量在内的参数后, 同时输出致香物在烤烟香型 分类中的重要性的排序结果和对未知烤烟样品的香型的预测结果。 0018 本发明的随机森林法分析烤烟预测烤烟香型及分析致香物重要性的方法原理是 : 设烤烟样品总个数为 N, 其中已知香型烤烟样品为 N1个, 未知香型烤烟样品为 N2个, 致香物 指标名称依次为 x1,x2xm; 设置训练样本比例为 y, 森林树数为 Ntress, 节点处随机抽取的致 香物变量数为 m ; 应用 bootstrap 法, 从已知香型烤烟样品 N1个训练案例中按设定比例、 以 可重复方式进行取样, 形成一组训练集 (即 bootstrap 取样) ; 使。

18、用这训练集中 m 个变量的最 佳分割方式, 来对未取到的已知香型烤烟样品进行分类, 同时也对 N2个未知香型烤烟样品 的香型进行预测, 同时, 每次未被抽到的样本则组成N1*(1-y)个袋外数据 ; 在烤烟香型分类 时, 袋外数据作为测试样本还可采用随机抽样方法评估各个致香成分在香型分类中的重要 性 ; 计算各致香物重要性时, 其中随机森林分类法是以拟合差值的个数来表示, 而随机森林 回归法是用所有树间预测精度标准差的标准化处理后的数据来表示。 0019 上述方法中采用气质联用仪检测分析得出已知香型烤烟样品和未知香型烤烟样 品中各致香物的含量数据。 0020 本发明的有益效果 : 本发明结合随。

19、机森林法来准确预测未知烤烟样品的香型及致 香物在烤烟香型分类中的重要性的分析 ; 实验表明 : 采用随机森林能几乎 100% 准确预测未 知烤烟样品的香型 ; 并且该方法能将多种致香物在各烤烟香型风格整体判别中的重要性进 行准确排序 ; 这种方法在原料香型风格鉴别中有重要应用价值, 可为卷烟产品设计与研发 提供重要参考依据。 附图说明 0021 【图 1】 为本发明方法中采用随机森林法时导入数据和设置参数的过程的截图。 0022 【图 2】 为本发明方法中采用随机森林法时烤烟香型分类中的重要性的分析结果导 说 明 书 CN 103344713 A 5 4/10 页 6 出过程的截图。 0023。

20、 【图 3】 为本发明方法中随机森林法时未知烤烟样品的香型预测结果导出过程的截 图。 具体实施方式 0024 以下实施例是对本发明的进一步说明, 而不是限制本发明。 0025 实施例 1 0026 本案例以烤烟本身含有的致香物为指标, 采用随机森林分类法来分析致香物在烤 烟香型判别中的重要性并预测未知烤烟样品香型。 0027 一、 致香物的分析检测方法 0028 1 材料与方法 0029 1.1 材料和仪器 0030 气质联用仪 PE Clarus600GC-MS。 0031 大马酮等标准品购于 sigma。 0032 烤烟样品为湖南中烟 2007-2010 年采购的烤烟原料。 0033 1.。

21、2 方法 0034 1.2.1 样品处理与分析 0035 1.2.1.1 样品的制备 0036 烤烟样品去除烟梗, 40干燥 4h, 粉碎, 过 40 目筛, 装入样品瓶。 0037 1.2.1.2 同时蒸馏萃取 0038 1) 称 25g 烤烟样于 500mL 磨口烧瓶中, 加入 300mL 蒸馏水浸湿 ; 0039 2) 取 40mL 二氯甲烷于 250mL 平底烧瓶中 ; 0040 3) 连接同时蒸馏萃取装置, 以电热套加热装有烟末的烧瓶至沸腾, 60水浴加热 装有二氯甲烷的烧瓶 ; 0041 4) 回流 2h 后, 冷却, 弃水相, 收集有机相, 加入适量无水硫酸钠干燥 ; 0042 。

22、5) 有机相转入浓缩瓶, 旋转蒸发仪上 40浓缩至 0.5mL, 待分析。 0043 1.2.1.3 色谱条件 : 0044 毛细柱 : Elite5MS(30m0.32mm0.25m) 0045 载气 : He, 1mL/min, 分流比 25:1 0046 程序升温 : 50 -8 /min-280, 15min 0047 离子源 : EI, 180 0048 电子能量 : 70eV, 扫描范围 : 35-400amu。 0049 1.3DPS 系统进行数据处理 : 0050 先将气质测试的致香性物质含量的数据导入到该软件中 ; 选定有关指标与香型 列 ; 点击上方的 “多元分析” 栏下的。

23、 “随机森林” 里的 “分类” 或 “回归” 弹出随机森林分类参 数设置框, 设置好有关参数后, 点击 “确定” 。 0051 二、 各已知香型样品的整体拟合结果 0052 以巨豆三烯酮、 苯已醇、 -二氢大马酮等有致香作用的41种物质为指标, 对2007 至 2010 生产年度 198 个烤烟样品烤烟中的 164 个样品的香型进行了拟合 (分类判别) 分析 说 明 书 CN 103344713 A 6 5/10 页 7 (表1) ; 结果表明, 依据各烤烟样品中含有的致香物质、 采用DPS13.5中随机森林分类法能完 全准确拟合 (分类判别) 出各烤烟样品的香型。表 12007-2010 年。

24、度生产的 164 个样品随机 森林法拟合 (分类判别) 结果 0053 0054 说 明 书 CN 103344713 A 7 6/10 页 8 0055 注 : 此表中的 prob.(1)、 prob.(2)、 prob.(3) 分别代表清香型、 中间香型和浓香型 参数, 下同。 0056 三、 41 种致香物在各样品香型整体判别中的重要性分析 0057 各致香成分的重要性排序见表 2 ; 从该表可以看出, 在已检测的致香物成分中, 巨 豆三烯酮三种同分异构体 (b、 d、 a) 、 苯甲醛、 茄酮、 吲哚、 巨豆三烯酮 c、 茄那士酮、 - 大马 酮、 6- 甲基 -5- 庚烯 - 二酮的。

25、重要性位居前十位, 5- 甲基糠醇、 十四酸 (软脂酸) 、 2, 3- 戊二 酮、 2,3- 二氢苯并呋喃与糠醇位居后五位。 0058 表 241 种致香成分在烤烟香型拟合 (分类判别) 中的重要性排序表 0059 说 明 书 CN 103344713 A 8 7/10 页 9 0060 0061 四、 依据此分类方法对未知烤烟样品的香型预测 0062 依据前述方法, 对 2007-2010 生产年度 198 个烤烟样品香型判别后余下的 34 个样 品的香型进行了随机森林预测 (表 3) ; 结果表明, 依据各样品的致香物质含量及已建立的权 重值, 采用随机森林分类法能完全准确预测未知烤烟样。

26、品的香型。 0063 表 32007-2010 年度生产的 34 个未知样品香型随机森林法预测结果 0064 说 明 书 CN 103344713 A 9 8/10 页 10 0065 说 明 书 CN 103344713 A 10 9/10 页 11 0066 0067 说 明 书 CN 103344713 A 11 10/10 页 12 说 明 书 CN 103344713 A 12 1/3 页 13 图 1 说 明 书 附 图 CN 103344713 A 13 2/3 页 14 图 2 说 明 书 附 图 CN 103344713 A 14 3/3 页 15 图 3 说 明 书 附 图 CN 103344713 A 15 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 测量;测试


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1