一种土地质量评价方法及系统.pdf

上传人:r7 文档编号:1002904 上传时间:2018-03-24 格式:PDF 页数:25 大小:1.16MB
返回 下载 相关 举报
摘要
申请专利号:

CN200910192289.0

申请日:

2009.09.14

公开号:

CN101650748A

公开日:

2010.02.17

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/30公开日:20100217|||文件的公告送达IPC(主分类):G06F 17/30收件人:杨敬锋文件名称:第一次审查意见通知书|||实质审查的生效IPC(主分类):G06F 17/30申请日:20090914|||公开

IPC分类号:

G06F17/30; G06Q50/00

主分类号:

G06F17/30

申请人:

杨敬锋

发明人:

薛月菊; 杨敬锋

地址:

510656广东省广州市黄埔大道西平云路163号广电科技大厦6楼

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明涉及一种土地质量评价方法,其包括以下步骤:A.从土地资源数据库中获取土地样本的属性数据;B.对所述土地样本的属性数据进行数据挖掘生成若干条关联规则;C.输入待评价土地样本的属性数据,计算其与各关联规则的匹配程度,找出最匹配的关联规则,将该土地样本评价为与其最匹配关联规则所对应的土地等级。本发明还提供一种土地质量评价系统。本发明能够提高土地评价知识表达的可解释性和土地评价有效性。

权利要求书

1: 一种土地质量评价方法,其特征在于包括以下步骤: A、从土地资源数据库中获取土地样本的属性数据; B、对所述土地样本的属性数据进行数据挖掘生成若干条关联规则; C、输入待评价土地样本的属性数据,计算其与各关联规则的匹配程度,找 出最匹配的关联规则,将该土地样本评价为与其最匹配关联规则所对应的土地 等级。
2: 如权利要求1所述的土地质量评价方法,其特征在于,所述土地样本的属性 数据包括以下属性类别:高程、地面坡度、土壤质地、土壤酸碱度、土壤有机 质含量、土壤利用类型、地形、土层厚度、土壤表层质地、有机质含量、剖面 构型、坡向、坡位、灌溉保证率、土壤排水条件、地下水位、植被类型、地表 侵蚀度、可及度。
3: 如权利要求2所述的土地质量评价方法,其特征在于,所述步骤B具体包括: B1、根据获取的各个土地样本的属性数据,分别对各个土地样本进行土地 质量分等定级; B2、设定最小支持度的阈值; B3、分别统计高程的各种属性值的数量; B4、计算每一种高程属性值的数量与土地样本总数量的比值,如果该比值 不小于所述最小支持度的值,则保留对应的高程属性值,否则去除; B5、将保留下来的高程属性值分别与各个地面坡度的属性值进行组合,分 别统计各种组合的数量; B6、计算每一种组合的数量与土地样本总数量的比值,如果该比值不小于 所述最小支持度的值,则保留对应的组合,否则去除; B7、将保留下来的组合分别与其他属性类别的属性值进行组合,分别统计 各种组合的数量;返回步骤B6,直到得到最后保留的所有属性以及土地质量等 级的组合即为生成的关联规则。
4: 如权利要求3所述的土地质量评价方法,其特征在于,所述步骤C具体包括: C1、输入待评价土地样本的属性数据; C2、计算出待评价土地样本相应的各条土地评价关联规则中各属性的隶属 度; C3、分别计算每条关联规则的各属性对应的隶属度相乘,即得到与各条土地 评价关联规则的模糊匹配程度; C4、在所有的关联规则中,取模糊匹配程度最大那条关联规则所对应的土地 质量等级,作为待评价土地样本的评价结果。
5: 如权利要求4所述的土地质量评价方法,其特征在于,所述步骤C2是利用 模糊隶属函数来计算待评价土地样本相应的各条土地评价关联规则中各属性的 隶属度的。
6: 一种土地质量评价系统,其特征在于包括: 数据导入模块,用于从土地资源数据库中获取土地样本的属性数据; 关联规则生成模块,用于对所述土地样本的属性数据进行数据挖掘生成若 干条关联规则; 输入模块,用于输入待评价土地样本的属性数据; 模糊判决模块,用于计算所述待评价土地样本的属性数据与各关联规则的 匹配程度,找出最匹配的关联规则,将该土地样本评价为与其最匹配关联规则 所对应的土地等级。 7、如权利要求6所述的土地质量评价系统,其特征在于,所述土地样本的属性 数据包括以下属性类别:高程、地面坡度、土壤质地、土壤酸碱度、土壤有机 质含量、土壤利用类型。 8、如权利要求7所述的土地质量评价系统,其特征在于,所述关联规则生成模 块包括: 土地质量分级单元,用于根据获取的各个土地样本的属性数据,分别对各 个土地样本进行土地质量分级; 输入单元,用于设定最小支持度的值; 数据挖掘单元,用于分别统计高程的各种属性值的数量;计算每一种高程 属性值的数量与土地样本总数量的比值,如果该比值不小于所述最小支持度的 值,则保留对应的高程属性值,否则去除;将保留下来的高程属性值分别与各 个地面坡度的属性值进行组合,分别统计各种组合的数量;计算每一种组合的 数量与土地样本总数量的比值,如果该比值不小于所述最小支持度的值,则保 留对应的组合,否则去除;将保留下来的组合分别与其他属性类别的属性值进 行组合,分别统计各种组合的数量;直到得到最后保留的所有属性以及土地质 量等级的组合即为生成的关联规则。 9、如权利要求8所述的土地质量评价系统,其特征在于,所述模糊判决模块包 括: 隶属度计算单元,用于计算出待评价土地样本相应的各条土地评价关联规 则中各属性的隶属度; 匹配程度计算单元,用于分别计算每条关联规则的各属性对应的隶属度相 乘,即得到与各条土地评价关联规则的模糊匹配程度; 评价单元,用于在所有的关联规则中,取模糊匹配程度最大那条关联规则 所对应的土地质量等级,作为待评价土地样本的评价结果。

说明书


一种土地质量评价方法及系统

    【技术领域】

    本发明涉及数据挖掘及模糊匹配技术领域,尤其涉及一种土地质量评价方法及系统。

    背景技术

    土地质量评价是指通过对土地的自然属性和社会经济因素的综合鉴定评定土地对某种特定用途的适宜程度、限制因子及利用潜力,即评定出土地对发展农、林、牧、渔业的价值,它与土地经济综合评价不同;土地质量评价的影响因素众多,在土地评价的过程中,不同地区有着不同的影响因素,各影响因素对不同的生产目标又存在不同的作用,而且大多数土地质量评价中还掺入了人为主观因素,从而影响到土地评价的准确性。虽然现在有新的方法被应用到土地评价当中去,而且在一定程度上提高了土地评价的精度,但是所获得的土地评价知识表达的可解释性较差,实际应用中还存在很多问题。

    【发明内容】

    基于现有技术的不足,本发明需要解决的问题是:提供一种能够提高土地评价知识表达的可解释性和土地评价有效性的土地质量评价方法及系统。

    为解决上述问题,本发明提供了一种土地质量评价方法,其包括以下步骤:

    A、从土地资源数据库中获取土地样本的属性数据;

    B、对所述土地样本的属性数据进行数据挖掘生成若干条关联规则;

    C、输入待评价土地样本的属性数据,计算其与各关联规则的匹配程度,找出最匹配的关联规则,将该土地样本评价为与其最匹配关联规则所对应的土地等级。

    具体地,土地评价属性数据支持连续的、缺失的、标称值的、离散的、序数的、数值型、字符型数据以及其他与土地评价相关的数据类型;所述土地样本的属性数据包括以下属性类别:高程、地面坡度、土壤质地、土壤酸碱度、土壤有机质含量、土壤利用类型、地形、土层厚度、土壤表层质地、有机质含量、剖面构型、坡向、坡位、灌溉保证率、土壤排水条件、地下水位、植被类型、地表侵蚀度、可及度。属性数据的选取可根据实际情况选取以上列举部分或者全部数据,当实际情况需要增加自然属性、经济属性或者社会属性评价因素时,可根据实际需要将该影响因素列入属性数据中。

    所述步骤B具体包括:

    B1、根据获取的各个土地样本的属性数据,分别对各个土地样本属性数据进行土地质量分等定级;

    B2、设定最小支持度的阈值;

    B3、分别统计各种属性值的数量;

    B4、计算每一种属性值的数量与土地样本总数量的比值,如果该比值不小于所述最小支持度的值,则保留对应的属性值,否则去除;

    B5、将保留下来的属性值分别与另外一组属性数据进行组合,分别统计各种组合的数量;

    B6、计算每一种组合的数量与土地样本总数量的比值,如果该比值不小于所述最小支持度的值,则保留对应的组合,否则去除;

    B7、将保留下来的组合分别与其他属性类别的属性值进行组合,分别统计各种组合的数量;返回步骤B6,直到得到最后保留的所有属性以及土地质量等级的组合即为生成的关联规则。

    所述步骤C具体包括:

    C1、输入待评价土地样本的属性数据;

    C2、计算出待评价土地样本相应的各条土地评价关联规则中各属性的隶属度;

    C3、分别计算每条关联规则的各属性对应的隶属度相乘,即得到与各条土地评价关联规则的模糊匹配程度;

    C4、在所有的关联规则中,取模糊匹配程度最大那条关联规则所对应的土地质量等级,作为待评价土地样本的评价结果。

    所述步骤C2是利用模糊隶属函数来计算待评价土地样本相应的各条土地评价关联规则中各属性的隶属度的。

    本发明还提供一种土地质量评价系统,其包括:

    数据导入模块,用于从土地资源数据库中获取土地样本的属性数据;

    关联规则生成模块,用于对所述土地样本的属性数据进行数据挖掘生成若干条关联规则;

    输入模块,用于输入待评价土地样本的属性数据;

    模糊判决模块,用于计算所述待评价土地样本的属性数据与各关联规则的匹配程度,找出最匹配地关联规则,将该土地样本评价为与其最匹配关联规则所对应的土地等级。

    本发明利用数据挖掘的方法从土地样本属性数据中挖掘出关联规则,然后将待评价的土地样本与生成的关联规则进行模糊判决,得到待评价土地样本的土地质量等级,与现有技术相比较,本发明能够提高土地评价知识表达的可解释性和土地评价有效性。

    下面结合附图详细说明本发明,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。

    【附图说明】

    图1为本发明一种土地质量评价方法在一个优选实施例中的流程图;

    图2为本发明一种土地质量评价系统在一个优选实施例中的框架图;

    图3为本发明一种土地质量评价系统在一个优选实施例中的详细结构框架图。

    图4为本发明一种土地质量评价方法中精简模糊分类关联规则算法的具体流程图。

    【具体实施方式】

    现结合附图来说明本发明的优选实施例。

    本发明提供了一种土地质量评价方法,其包括以下步骤:

    S01、从土地资源数据库中获取土地样本的属性数据;以广东省第二次土壤普查成果资料为主要数据源,结合广东省统计年鉴等社会经济资料,建立土壤资源数据库;土地评价属性数据支持连续的、缺失的、标称值的、离散的、序数的、数值型、字符型数据以及其他与土地评价相关的数据类型;所述土地样本的属性数据包括以下属性类别:高程、地面坡度、土壤质地、土壤酸碱度、土壤有机质含量、土壤利用类型、地形、土层厚度、土壤表层质地、有机质含量、剖面构型、坡向、坡位、灌溉保证率、土壤排水条件、地下水位、植被类型、地表侵蚀度、可及度。属性数据的选取可根据实际情况选取以上列举部分或者全部数据,当实际情况需要增加自然属性、经济属性或者社会属性评价因素时,可根据实际需要将该影响因素列入属性数据中。根据土壤资源的实际特点,可采用高程(ELE)、地面坡度(SLE)、土壤质地(TEE)、土壤酸碱度(PHE)、土壤有机质含量(OME)、土壤利用类型(LUE)等六个指标作为评价因子;其中高程、地面坡度、土壤酸碱度、土壤有机质含量的数据为连续属性,土壤质地和土壤利用类型则为标称属性;本发明将连续属性划分为不同的区段值,并将各区段用质量等级来表示;例如分级为1表示土壤质量指标最优,分级为5表示最差,将标称属性也用相应的等级来表示,如下表表1所示:

    表1

    S02、输入最小支持度minsup;本发明通过在设定的最小支持度下对数据样本属性逐次进行统计、剪枝、连接,最后实现频繁项集的抽取。其中,最小支持度指的是在海量数据中统计出指定的属性或者规则的事务数量与所有的属性或规则的事务数数量比值,可以记为Sup(A=>B),A、B都是项集。此外,还需要涉及最小置信度,它指的是在包含A的事务同时也包含B的比例关系,即条件概率,可以记为Conf(A=>B);

    S03、对所述土地样本的属性数据进行数据挖掘生成若干条关联规则;由于土地评价数据库中影响评价结果的属性众多,而最主要的属性有:高程(ELE)、地面坡度(SLE)、土壤质地(TEE)、土壤酸碱度(PHE)、土壤有机质含量(OME)、土壤利用类型(LUE),因此,抽取这六个属性的基础上加上评价结果组成新的数据库,在新的数据库中进行数据挖掘生成若干条关联规则;

    S04、输入待评价土地样本的属性数据;及输入待评价土地样本的高程(ELE)、地面坡度(SLE)、土壤质地(TEE)、土壤酸碱度(PHE)、土壤有机质含量(OME)、土壤利用类型(LUE)这六个属性的数据;

    S05、计算待评价土地样本与各关联规则的匹配程度,找出最匹配的关联规则,将该土地样本评价为与其最匹配关联规则所对应的土地等级。

    具体的,所述步骤S03具体包括以下的步骤:

    根据获取的各个土地样本的属性数据,分别对各个土地样本进行土地质量分级;

    分别统计高程ELE的各种属性值的数量,即把高程的各种属性值记为ELE[i];统计每一种ELE[i]下属性值的数量NELE[i],其中i=1,2,3......;

    计算每一种高程属性值的数量与土地样本总数量的比值,如果该比值不小于所述最小支持度minsup的值,则保留对应的高程属性值,否则去除;

    将保留下来的高程属性值分别与各个地面坡度的属性值进行组合,分别统计各种组合的数量;

    计算每一种组合的数量与土地样本总数量的比值,如果该比值不小于所述最小支持度的值,则保留对应的组合,否则去除;

    将保留下来的组合分别与其他属性类别的属性值进行组合,分别统计各种组合的数量;直到得到最后保留的所有属性以及土地质量等级的组合即为生成的关联规则;即进行逐层搜索迭代,由两个属性的组合逐步扩展到所有属性以及土地质量等级的组合,最后得到相应的频繁项集。在最小支持度为0.01的情况下,挖掘出的关联规则数量为19条,其中部分土地评价规则列举如下:

    IF(ELE is 800~1000m and SLE is>25°and OME is 1.0%~3.0% and TEE is重壤、轻黏and PHE is 4.5~5.5and LUE is林地)THEN(CLASS=4);

    IF(ELE is<200m and SLE is<3°and OME is 1.0%~3.0%and TEE is沙壤、中壤and PHE is 4.5~5.5 and LUE is林地)THEN(CLASS=3);

    IF(ELE is<200m and SLE is<3°and OME is 1.0%~3.0% and TEE is沙壤、中壤and PHE is 4.5~5.5and LUE is耕地)THEN(CLASS=2);

    IF(ELE is<200m and SLE is<3°and OME is 1.0%~3.0% and TEE is沙壤、中壤and PHE is 5.5~6.5或7.5~8.5 and LUE is耕地)THEN(CLASS=1)。

    挖掘出土地评价关联规则后,即可利用这些评价规则对土地样本进行评价,具体地,所评价样本与哪条评价规则条件相匹配,便可将所评价样本评价为该规则结果所对应的等级。这种匹配分为:精确匹配和模糊匹配。精确匹配即要求所评价土地样本严格与评价规则中的某条评价规则条件完全匹配。而人们在对事物做出判断时,往往并不要求该事物的特征与标准模式完全匹配,而是判断该事物的特征更与哪个标准模式接近就属于哪一类。因此本发明用模糊判决的方法,即利用模糊推理的方法,给出模糊匹配程度的概念,计算出被评价土地样本与各评价规则匹配的模糊程度,然后从中找出模糊匹配程度最大的所对应的规则,被评价样本即可被评价为该规则的结果所示的土地等级。

    使离散数据模糊化的方法有很多,例如隶属三角形、梯形、高斯曲线和钟型等。本发明采用高斯曲线的隶属函数,则论域中的元素x对模糊子集F的隶属度为:

    μF(x)=exp[-(x-cσ)2]]]>

    式中σ为方差;c为中心值。由于模糊判决的最大隶属度乘积法便于计算,故本发明采用该方法进行模糊匹配程度计算。具体地,模糊匹配程度定义为关联规则中各属性隶属度乘积,然后选择模糊匹配程度最高的那条规则所对应的结果作为判决结果输出。假设挖掘出N条关联规则,待评价土地样本模糊判决的实现步骤是S05具体包括:

    1)计算出待评价土地样本相应的各条土地评价关联规则中各属性的隶属度;

    2)分别计算每条关联规则的各属性对应的隶属度相乘,即得到与各条土地评价关联规则的模糊匹配程度;

    3)在所有的关联规则中,取模糊匹配程度最大那条关联规则所对应的土地质量等级,作为待评价土地样本的评价结果。

    在不同最小支持度下得到不同条数的评价规则。在模糊判决算法中把所有属性都划分为5个模糊子集,对土地评价数据库中的所有16652条样本分别进行评价,其结果如表2所示。其中第4列的“数量”表示正确判断土地样本的数量;“面积”表示正确评价的面积;“%”表示一定最小支持度情况下,相应的土壤质量等级的正确评价面积占总面积的百分比。例如支持度为0.01时,提取关联规则数为19条,等级1中有2680条、面积为22803.19km2的土地样本可被正确评价,正确评价土地的面积占总面积173654.01km2的13.13%。

    由表2可以看出,当最小支持度分别为0.01、0.006、0.005、0.003、0.001时,分别挖掘出19、28、32、54和126条体地评价关联规则,对整个数据库所有样本进行模糊判决得到的评价的面积正确率分别为78.88%、81.27%、86.80%、92.51%、95.25%。随着规则的增加,模糊判决的准确率也随之增加,这与一般逻辑相符合。

    表2

    当利用54条关联规则进行土地评价时,即可获得较理想的土地评价正确率92.51%,当对评价精度要求不是特别高时,仅仅54条规则就能满足土地评价的实际应用要求,如此少的土地评价关联规则数,不仅提高了土地评价计算得速度,而且非常易于土地评价人员对评价规则的理解和应用。当关联规则达到126条时,便可达到理想的土地评价正确率95.25%。试验表明,本发明的土地评价方法大大提高土地评价知识表达的可解释性,降低了评价人员对土地评价领域知识的要求,并且能获得理想的土地评价正确率。

    结合实际情况,关联规则挖掘步骤可总结如下:

    (1)数据预处理。

    数据预处理主要的目的是形成规范化的数据库,包括数据清理(填充缺值、平滑数据、寻找孤立点、纠正数据不一致性)、数据集成(元数据、相关分析、数据冲突检测、语义异种性解释)、数据变换(数据规范化、特征构造、数据泛化)和数据归约(数据立方体聚类、维归约、数据压缩、数值归约、离散化和产生概念分层)几个过程。

    (2)根据所设置的最小支持度,找出所有满足的频繁项集,该过程可由Apriori算法完成。

    Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法的名字基于这样的事实:算法使用频繁项集性质的先验知识,Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合,该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找到每个Lk需要一次数据库扫描。需要注意的是,频繁项集的所有非空子集都必须也是频繁的。

    通过Apriori算法找出所有满足的频繁项集有时候数量是相当巨大的,为了能以最简形式表达出所有相应的知识,近年一直在研究挖掘压缩的频繁模式集的方法。频繁集压缩主要方法是在扫描过程中压缩未来迭代扫描的事务数,而且,不包含任何频繁k项集的事务不可能包含任何频繁(k+1)项集,因此,这种事务在其后考虑时可以加上标记或者删除,因为产生j项集(j>k)的数据库扫描不再需要它们。。

    (3)根据所设置的最小置信度,从频繁项集中挖掘出满足条件的强规则,形成规则集。

    一旦由数据库D中的事务找出频繁项集,由它们产生强关联规则是直截了当的(强关联规则满足最小支持度和最小置信度)。对于置信度,可以用下式计算,其中条件概率用项集支持度计数表示:

    confidence(A⇒B)=P(A|B)=support_count(A∪B)support_count(B)---(2.18)]]>

    其中,support_count(A∪B)是包含项集A∪B的事务数,support_count(A)是包含项集A的事务数。根据该式,关联规则可以产生如下:

    对于每个频繁项集l,产生l的所有非空子集。

    对于l的每个非空子集s,如果support_count(l)support_count(s)≥min_conf,]]>则输出规则“s⇒(l-s)]]>”。其中,min_conf是最小置信度阈值。

    由于规则由频繁项集产生,每个规则都自动满足最小支持度。频繁项集连同它们的支持度预先存放在散列表中,使得它们可以快速被访问。

    布尔关联规则实际上是量化关联规则的挖掘方法的一种特殊情况。由于布尔关联规则具备自然、简明和易于理解等优点,研究者们大多将量化关联规则问题转化为布尔型关联规则问题。主要的方法有两种:

    第一种方法,使用预定义的概念分层对量化属性离散化。使用概念分层离散化数据必须在挖掘之前进行。例如,在广东省第二次土壤普查成果资料中,对于土地评价属性高程的概念分层,用区间“<200米”、“200-500米”、“500-800米”等区间替代原来的数值。概念分层的离散化是静态和预确定的,离散化的数值属性具备区间标记,可以像分类属性一样处理。

    第二种方法,根据数据分布将量化属性离散化或聚类到“箱”。数据变换后,多维数据可以构造数据立方体,每一个模式对应数据立方体上的一个位置,即“箱”。每一个“箱”代表一个不同的分组,具备不同的动态区间长度和大致数量相同的数值,在挖掘期间它们可以进一步合并。主要采用密度测量、簇投影、模糊划分等数值类型转化方法将属性的取值域进行区间划分,然后在每个区间上搜索映射点的聚类,利用已有的挖掘布尔型关联规则的方法得到有价值的信息。

    另外,一些不同于传统Apriori方法并且可伸缩的频繁项集挖掘算法相继被提出。如PF增长是一种挖掘频繁项集而不产生候选的模式增长算法,它构造一个高度压缩的数据结构(PF树)来压缩原来的事务数据库,为避免高代价的候选产生,不使用类Apriori算法的产生-测试策略,而聚焦于频繁模式(段)增长,获得更高的效率;ECLAT算法使用垂直数据格式挖掘频繁模式将给定的、用TID项集形式的水平数据格式事务数据集变换成项TID集形式的垂直数据格式,根据Apriori性质和附加的优化技术,对变换后的数据集进行挖掘。

    实际的数据(如土地评价数据)是多维数据,包含连续值的、离散值的以及带标称值的属性。一般的处理方法是,把连续值的和带标称值的属性划分为若干区间段(甚至有一些离散值的数据也要划分),把多维关联规则挖掘问题转化为布尔关联规则问题挖掘问题,通过Apriori算法进行关联规则挖掘。

    然而,对连续值属性进行区段的划分过程中,容易造成“尖锐边界(SharpBoundary)”问题。一方面,如果区间划分过大,会使包含此区间的规则的置信度很低,从而造成规则产生的数量过少;如区间划分过大,规则所包含的信息量也会相应地减少。如果区间划分过少,会使包含此区间的规则的支持度很低,从而会造成规则产生的数量过少;即使在区间的划分上用以上的两个因素进行了平衡,但如何合理、有效地划分连续值属性区间,使其能够真实地反映此属性中数据在定义域中的实际分布是挖掘连续值属性关联规则的关键问题。另一方面,如果将连续值属性的论域划分成不重叠的区间,由于明显的区间划分会将某些区间附近潜在的元素排斥在外,从而导致一些有意义的区间被忽略掉;如果将连续值属性的论域划分成重叠的区间,这样处于边界的元素就有可能同时处于两个区间,这些元素同时对两个区间都对关联规则的挖掘产生影响,从而导致某些区间本来不是频繁项集的可能就成为频繁项集。

    对于离散值属性和标称值属性,虽然也存在以上的问题,但是连续值属性表现得更为突出。

    解决“尖锐边界”问题主要引进了模糊集的概念来软化数量型属性(包括连续值属性和离散值属性)的划分边界,并采用不同的算法来挖掘模糊关联规则,包括模糊聚类、扩展数据库各属性的模糊分割算法、自组织特征映射网络算法、MTA算法、FGBRM(Fuzzy Grids Based Rules Mining)算法、遗传算法(Genetic A1gorithms,GA)等。结合土地评价数据库的实际情况,土地评价中的模糊关联规则挖掘描述如下:

    设I={i1,i2,…,im}是含有m个属性的项集,相关事务数据D={d1,d2,…,dn}是一个数据库事务的集合,其中,di包含每一个事务有惟一的一个标识符tid和事务数据属性值t,即di=<tid,t>,t∈dom(i1)×dom(i2)×…×dom(ij),dom(ij)是属性ij的一组模糊区间。

    设事务数据D={d1,d2,…,dn}的模糊概念集为F={x1,x2,…,xp},其中,模糊集xi={t,μxi},]]>是t属于xi的隶属度。k-模式X=x1^x2^…^xk是一组非空模糊概念集。从挖掘连续数值属性模糊关联规则出发,研究了支持度和置信度的函数逼近和模式分类问题,提出模糊模式X的支持度定义为:

    Support(X)=Σd∈D|D|(μxi(d))|D|---(2.19)]]>

    改进算法为:

    Support(X)=Σd∈D(μx(d)|μx(d)≥ϵ)|D|---(2.20)]]>

    其中,ε为指定的阈值;D是事务数据库总集;|D|是事务总数;μx(d)=min{μx(d)|xi∈X}指样本d对模糊集X的模糊隶属度。

    由此可得模糊关联规则蕴涵式A⇒B]]>的支持度定义如式(2.21)(Wang eta1,2003):

    Support(A⇒B)=Σd∈D(μA^B(d)|μA^B(d)≥ϵ)|D|---(2.21)]]>

    同理可得模糊关联规则蕴涵式A⇒B]]>的置信度定义如式(2.22):

    Confidence(A⇒B)=Σd∈D(μA^B(d)|μA^B(d)≥ϵ)Σd∈D(μA(d)|μA(d)≥ϵ)---(2.22)]]>

    其中,ε为指定的阈值;D是事务数据库总集;|D|是事务总数;μA(d)指样本d对模糊集A的模糊隶属度;μA^B(d)指样本d对模糊集A^B的模糊隶属度;Σd∈D(μA^B(d)|μA^B(d)≥ϵ)]]>是项集A^B中μA^B(d)大于指定阈值ε的和;Σd∈D(μA(d)|μA(d)≥ϵ)]]>是项集A中μA(d)大于指定阈值ε的和。

    挖掘模糊关联规则的步骤与Apriori算法类似,两个步骤:

    步骤一:找出支持度不小于最小支持度的模式集L;

    步骤二:由L产生模糊关联规则。

    挖掘模糊关联规则的伪代码:

    算法:模糊关联规则挖掘算法

    输入:事务数据库D,模糊概念集F,最小支持度值minSup

    输出:频繁模式集L

    1)C1=F;

    2)For each x∈C1 do{s(x)=φ;Sup=0;};

    3)For each d∈D do

    4)For each x∈C1 do

    5)If μx(d)≥εthen

    6){Add μx(d)to s(x);Sup(x)=Sup(x)+μx(d);};

    7)L1={x|x∈C1 and Sup(x)≤minSup}; //Lk:频繁模糊k-模式集;

    8)s1={s(x)|x∈L1};

    9)For(k=2;Lk-1≠φ;k++)do{

    10)Lk=φ;sk=φ;      //Lk:频繁模糊k-模式集;sk:Lk的tid序列集

    11)Ck={C=P[1]P[2]…P[k-1]Q[k-1]|

               P[1]=Q[1],P[2]=Q[2],…,P[k-2]=Q[k-2],P[k-1]<Q[k-1]and

               P∈Lk-1,Q∈Lk-1 and∀C∈Lk-1]]>where C is a(k-1)sub-pattern of Ck};

               //Ck:候选模糊k-模式集;

    12)For all C∈Ck do{

    13)Sup(C)=0;

    14)A=C[1]C[2]…C[k-2]C[k-1];  //C[i]:C模糊模式中第i个模糊概念

    15)B=C[1]C[2]…C[k-2]C[k];//从C中选择两组k-1个次模式

    16)For each element pair((d1,tid,μA(d1))∈s(A)and(d2,tid,μB(d2))∈s(B)

       and d1,tid=d2.tid)

       do{add(d1,tid,min(μA(d1),μB(d2)))to s(C);

          Sup(C)=Sup(C)+min(μA(d1),μB(d2))}

    17)Lk={C∈Ck|Sup(C)≥minSup};

    18)sk={s(x)|x∈Lk;}

    19)L=∪Lk;     //L:频繁模糊模式集

    伪代码中,1)-8)步通过扫描事务数据库D获得第一个频繁模式L1和L1的第一个tid序列集;9)-18)步在k≥2情况下获得第k个频繁模式Lk和Lk的第k个tid序列集,并且候选模糊k-模式集Ck首先从Lk-1产生。对于每一个候选模式C∈Ck,s(C)都可以从C中选择两组k-1个次模式中获得。如果|s(C)|≥min Sup,那么s(C)和C都分别保留下来并继续分别参与sk和Lk的运算,否则,s(C)就会从sk删除。此外,对于每一个与最小支持度比较的模糊模式X,算法会产生一个序列s(X)={(d,tid,μx(d))|μx(d)≥ε,d∈D}来保存满足模式X和μx(d)满足模式X的纪录数量。

    朝出频繁模式集L后,就可以由L产生模糊关联规则。伪代码如下:

    输入:频繁模式集L,最小置信度minConf

    输出:模糊关联规则集R

    1)R=φ;

    2)For each k∈L do{

    3)For each(S⋐K)]]>and(S≠φ)

      do{IfConf(S⇒K-S)≥minConf]]>

        Add<S,K-S>to R;

        Else R=R}}

    得到模糊分类关联规则后,即可利用这些评价规则对土地样本进行评价。具体地,所评价样本与哪条评价规则条件相匹配,便可将所评价样本评价为该规则结果所对应的等级。这种匹配分为:精确匹配和模糊匹配。精确匹配即要求所评价土地样本严格与评价规则中的某评价规则条件匹配。而人们在判断一个事务属于哪一类(模式)时,往往并不要求该事务的特征与标准模式完全匹配,而是判断该事务的特征更与哪个标准模式接近就属于哪一类(或模式)。因此采用模糊判决的方法,利用模糊推理的方法,给出模糊匹配程度的概念,计算出被评价土地样本与各评价规则匹配的模糊程度,然后从中找出模糊匹配程度最大的所对应的规则,被评价样本即可被评价为该规则的结果所示的土地等级。

    模糊隶属函数形式很多,例如隶属三角形、梯形、高斯曲线和钟型等。本文采用高斯曲线的隶属函数,则论域中的元素x对模糊子集F的隶属度为:

    μF(x)=exp[-(x-cσ)2]---(2.23)]]>

    其中σ为方差,c为中心值。

    由于模糊判决的最大隶属度乘积法便于计算,故采用该方法进行模糊匹配程度计算。模糊匹配中第j条规则隶属度乘积的数学表达式如式(2.24):

    Fd(j)=Πi=1kμFji(x)=Πi=1kexp[-(x-ciσ)2]---(2.24)]]>

    其中,k是样本的属性数量,μFji是测试样本在第j条规则第i个属性下得到的隶属度;σ为方差,ci为中心值;Fd(j)是在第j条规则下i个属性得到的隶属度乘积。

    计算出模糊匹配程度后,即可选择模糊匹配程度最高的那条规则所对应的结果作为判决结果输出。l条规则中的最大隶属度乘积FD定义为式(2.25):

    FD=max1<j<lFd(j)---(2.25)]]>

    上述的模糊分类关联规则还可以进行精简处理;由于挖掘模糊分类关联规则的算法中各属性之间的运算存在先后关系,发现的模糊分类关联规则必然存在冗余规则。冗余规则使计算开销增加,提出模糊分类关联规则的精简方法,即在保证模糊判决准确率不下降的情况下,把所有规则对自身进行准确性检验的精简规则方法,步骤如下(参考图4):

    (1)按照支持度大小原则排列模糊分类关联规则,定义可去除规则的阈值;

    (2)去掉第一条规则,把所有样本放在去掉第一条规则的规则集中进行模糊判决,若最后得到的准确率不下降或者准确率下降的数值小于可去规则的阈值,则该规则可去,如果得到准确率下降的数值大于可去除规则的阈值,则保留该规则;

    (3)建立新的规则集,保存第一条规则。从包含第一条规则原始规则集中去掉第二条规则,用同样的方法判决第二条规则的去留;

    (4)如此类推,重复(2)、(3),直到最后一条规则。

    对应地,本发明还提供了一种土地评价的系统,参考图2,其包括:

    数据导入模块1,用于从土地资源数据库中获取土地样本的属性数据;

    关联规则生成模块2,用于对所述土地样本的属性数据进行数据挖掘生成若干条关联规则;

    输入模块3,用于输入待评价土地样本的属性数据;

    模糊判决模块4,用于计算所述待评价土地样本的属性数据与各关联规则的匹配程度,找出最匹配的关联规则,将该土地样本评价为与其最匹配关联规则所对应的土地等级。

    参考图3,所述关联规则生成模块2包括:

    土地质量分级单元21,用于根据获取的各个土地样本的属性数据,分别对各个土地样本进行土地质量分级;

    输入单元22,用于设定最小支持度的值;

    数据挖掘单元23,用于分别统计高程的各种属性值的数量;计算每一种高程属性值的数量与土地样本总数量的比值,如果该比值不小于所述最小支持度的值,则保留对应的高程属性值,否则去除;将保留下来的高程属性值分别与各个地面坡度的属性值进行组合,分别统计各种组合的数量;计算每一种组合的数量与土地样本总数量的比值,如果该比值不小于所述最小支持度的值,则保留对应的组合,否则去除;将保留下来的组合分别与其他属性类别的属性值进行组合,分别统计各种组合的数量;直到得到最后保留的所有属性以及土地质量等级的组合即为生成的关联规则。

    所述模糊判决模块4包括:

    隶属度计算单元41,用于计算出待评价土地样本相应的各条土地评价关联规则中各属性的隶属度;

    匹配程度计算单元42,用于分别计算每条关联规则的各属性对应的隶属度相乘,即得到与各条土地评价关联规则的模糊匹配程度;

    评价单元43,用于在所有的关联规则中,取模糊匹配程度最大那条关联规则所对应的土地质量等级,作为待评价土地样本的评价结果。

    以上所揭露的仅为本发明的较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明申请专利范围所作的等同变化,仍属本发明所涵盖的范围。

    经实验验证,本发明已可以应用在土地质量评价、土地资源评价、土壤质量评价、宗地评估、土地覆盖分类、农用地分等、土壤侵蚀评估、土地估价、水土流失评价、土地使用影响评价、土地腐蚀性评价、土地资源配制、土地适宜性评价、土地盐碱化程度评估等各种与土地评价相关的领域上,因此以上所述主题仍属本发明所涵盖的范围。

一种土地质量评价方法及系统.pdf_第1页
第1页 / 共25页
一种土地质量评价方法及系统.pdf_第2页
第2页 / 共25页
一种土地质量评价方法及系统.pdf_第3页
第3页 / 共25页
点击查看更多>>
资源描述

《一种土地质量评价方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种土地质量评价方法及系统.pdf(25页珍藏版)》请在专利查询网上搜索。

本发明涉及一种土地质量评价方法,其包括以下步骤:A.从土地资源数据库中获取土地样本的属性数据;B.对所述土地样本的属性数据进行数据挖掘生成若干条关联规则;C.输入待评价土地样本的属性数据,计算其与各关联规则的匹配程度,找出最匹配的关联规则,将该土地样本评价为与其最匹配关联规则所对应的土地等级。本发明还提供一种土地质量评价系统。本发明能够提高土地评价知识表达的可解释性和土地评价有效性。 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1