《一种二元分类评价方法.pdf》由会员分享,可在线阅读,更多相关《一种二元分类评价方法.pdf(9页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103310101 A (43)申请公布日 2013.09.18 CN 103310101 A *CN103310101A* (21)申请号 201310223662.0 (22)申请日 2013.06.07 G06F 19/00(2011.01) (71)申请人 北京师范大学 地址 100875 北京市海淀区新街口外大街 19 号 (72)发明人 邬霞 姚力 陈克伟 (54) 发明名称 一种二元分类评价方法 (57) 摘要 本发明实施例提供了一种二元分类评价方 法, 该方法包括 : 将每一个可用于二元分类的单 变量的观测值分成 k 个子区间, k 为子区间个数 ; 。
2、将 k 个子区间的 k-1 个间断点作为这个指标的分 界值 ; 对于n个指标而言, 分界值就有(k-1)n个可 能的组合 ; 利用单变量的受试者工作特征 ROC 算 法, 计算所有(k-1)n分界点上的特异性和敏感性 ; 利用 Trapezoidal 数值整合方法计算曲线下面积 AUC ; 在 ROC 曲线上找到最靠近 (01) 点的特异性 和敏感性取值, 以及对应的分界值组合。 本发明利 用来自于不同源的多指标信息, 发明了一种用于 二元分类的多变量 ROC 曲线, 该方法综合了多指 标信息以实现二元分类。将该方法应用于阿尔兹 海默症与正常被试间的二元分类, 提高了准确度。 (51)Int.。
3、Cl. 权利要求书 1 页 说明书 5 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书5页 附图2页 (10)申请公布号 CN 103310101 A CN 103310101 A *CN103310101A* 1/1 页 2 1. 一种二元分类评价方法, 其特征在于, 所述方法包括 : (1) 将每一个可用于二元分类的单变量的观测值分成 k 个子区间, k 为所述子区间个 数 ; (2) 将所述 k 个子区间的 k-1 个间断点 ( 即对观测值的分段值 ) 作为这个指标的分界 值 (cut-off value) ; 对于 n 个指标而言,。
4、 所述分界值就有 (k-1)n个可能的组合 ; (3) 利用单变量的受试者工作特征 ROC 算法, 计算所有 (k-1)n分界点上的特异性和敏 感性 ; (4) 利用 Trapezoidal 数值整合方法计算曲线下面积 AUC(Area under curve, ) ; (5)在所述ROC曲线上找到最靠近(0 1)点的所述特异性和所述敏感性取值, 以及对应 的分界值组合 (cut off combination)。 2.根据权利要求1所述的方法, 其特征在于, 所述步骤(1)用于对所述子区间进行均匀 分类。 3.根据权利要求1所述的方法, 其特征在于, 所述步骤(2)中所有的n个指标都取同样 。
5、的 k 值。 4. 根据权利要求 1 所述的方法, 其特征在于, 所述步骤 (3) 具体用于从 (k-1)n个组合 中随机挑选 N 个组合, 并计算所述 N 个组合对应的敏感性和特异性。 5. 根据权利要求 1 所述方法, 其特征在于, 对阿尔兹海默 AD 病人与正常被试者进行二 元分类。 权 利 要 求 书 CN 103310101 A 2 1/5 页 3 一种二元分类评价方法 技术领域 0001 本发明属于统计检验领域, 具体是一种二元分类评价方法。 背景技术 0002 ROC(Receiver Operational Characteristic, 受试者工作特征)曲线是一种对于 灵敏度。
6、进行描述的功能图像。 它根据一系列不同的二分类方式(分界值), 以真阳性率(敏 感度 ) 为纵坐标, 假阳性率 ( 特异度 ) 为横坐标绘制的曲线。由于是通过比较两个工作特 征作为标准, ROC 曲线也叫做相关工作特征曲线。 0003 传统的评价方法有一个共同的特点, 必须将结果分为两类, 再进行统计分析。ROC 曲线的评价方法与传统的评价方法不同, 无须此限制, 而是根据实际情况, 允许有中间状 态, 可以把试验结果划分为多个有序分类, 如正常、 大致正常、 可疑、 大致异常和异常五个等 级再进行统计分析。因此, ROC 曲线评价方法适用的范围更为广泛。 0004 目前, 常见的均为单变量R。
7、OC, 参见图1, 其中横轴为假阳性率(特异度), 纵轴为真 阳性率(敏感度), 图中一条从左下到右上对角线(也叫无识别率线)是完全随机预测得到 的, 抛物线为通过单变量 ROC 评价方法测出的结果, 也就是只采用一个指标来做二元分类。 事实上, 经常会有多个指标可以做此分类。它的特点是简单直观, 但是由于只采用一个指 标, 往往得出的分类结果并不是特别准确。 发明内容 0005 为了解决现有技术的问题, 本发明提出了一种二元分类评价方法, 所述方法包 括 : 0006 (1)将每一个可用于二元分类的单变量的观测值分成k个子区间, k为所述子区间 个数 ; 0007 (2) 将所述 k 个子区。
8、间的 k-1 个间断点 ( 即对观测值的分段值 ) 作为这个指标的 分界值 ; 对于 n 个指标而言, 所述分界值就有 (k-1)n个可能的组合 ; 0008 (3) 利用单变量的受试者工作特征 ROC 算法, 计算所有 (k-1)n分界点上的特异性 和敏感性 ; 0009 (4) 利用梯形数值整合方法计算曲线下面积 AUC ; 0010 (5)在所述ROC曲线上找到最靠近(0 1)点的所述特异性和所述敏感性取值, 以及 对应的分界值组合。 0011 其中, 所述步骤 (1) 用于对所述子区间进行均匀分类。 0012 其中, 所述步骤 (2) 中所有的 n 个指标都取同样的 k 值。 0013。
9、 其中, 所述步骤 (3) 具体用于从 (k-1)n个组合中随机挑选 N 个组合, 并计算所述 N 个组合对应的敏感性和特异性。 0014 其中, 对阿尔兹海默 AD 病人与正常被试者进行二元分类。 0015 利用该方法, 对AD(阿尔兹海默)病人与正常被试进行二元分类, 取得了准确度达 说 明 书 CN 103310101 A 3 2/5 页 4 到 100的分类效果。 附图说明 0016 图 1 为单变量 ROC 曲线示例 ; 0017 图 2 为多变量 ROC 算法流程图 ; 0018 图 3 为数据集 1 的单变量、 多变量 ROC 分类效果与线性鉴别方法的准确度比较 ; 0019 图。
10、 4 为数据集 2 的单变量、 多变量 ROC 分类效果与线性鉴别方法的准确度比较。 具体实施方式 0020 实施例一 0021 我们将发明应用于两套数据集的二元分类。其中数据集 1 来自于美国的公开 AD 神经影像数据集 (ADNI, www.adni-info.org), 包括 74 名 AD 患者, 根据他们在 12 个月内 的 MMSE 评分分为下降组 (30 名 ) 和稳定组 (44 名 )。每名被试均有来自于代谢收敛指标 (HCI)、 听觉言语学习测试 (AVLT)、 长时记忆评分 (LTM)、 阿尔兹海默病的认知 (ADAS) 评分 和临床痴呆分级量表 (CDR) 评分。 002。
11、2 依据方法流程, 对于数据集 1 而言, 变量个数 n 4, 我们取 k 200, N 50000。 先针对每一指标进行单变量 ROC 分析, 然后进行多变量组合, 根据算法流程进行计算, 得到 不同组合下的分类结果。并将多变量 ROC 的分类结果与线性 Fisher 鉴别结果进行比较, 线 性 Fisher 鉴别在 SPSS16.0 软件中进行。结果如表 2 所示, 观察可得多变量 ROC 相比较线 性鉴别算法而言, 各项指标都有了明显的提升。 0023 实施例二 0024 我们将发明应用于两套数据集的二元分类。其中数据集 2 来自于我们在中国北京 天坛医院采集的静息态功能磁共振数据, 包。
12、含 15 个 AD 病人和 16 个正常被试。我们从中提 取了 4 个脑区的数据, 这四个脑区包括 : 后扣带回 (PCC)、 左侧颞下回 (LITC)、 左侧额眼区 (LFEF)、 颞顶结合部 (TPJ)。 0025 依据方法流程, 对于数据集 2 而言, 变量个数 n 4, 我们取 k 200, N 50000。 先针对每一指标进行单变量 ROC 分析, 然后进行多变量组合, 根据算法流程进行计算, 得到 不同组合下的分类结果。并将多变量 ROC 的分类结果与线性 Fisher 鉴别结果进行比较, 线 性 Fisher 鉴别在 SPSS16.0 软件中进行。结果如表 4 所示, 观察可得多。
13、变量 ROC 相比较线 性鉴别算法而言, 各项指标都有了明显的提升。 0026 表 1 数据集 1 的单变量 ROC 分类效果 0027 说 明 书 CN 103310101 A 4 3/5 页 5 0028 注解 : variable( 变量 )Cut-off( 分界值 )Sen( 灵敏度 )Spe( 特异度 ) 0029 Accuracy( 准确度 )AUC( 曲线下面积 ) 95 C.I(95的置信区间 ) 0030 HCI( 代谢收敛指标 ) ADAS-cog( 阿尔兹海默病的认知评分 ) 0031 AVLT-tot( 听觉言语学习测试评分 ) CDR-SB( 临床痴呆分级量表评分 )。
14、 0032 MMSE( 简易精神状态量表 ) 0033 表 2 数据集 1 的多变量 ROC 与线性鉴别算法的分类效果比较 0034 0035 注解 : MultiV-ROC( 多变量 ROC)Linear discrimination( 线性鉴别算法 ) 0036 表 3 数据集 2 的单变量 ROC 分类效果 0037 说 明 书 CN 103310101 A 5 4/5 页 6 0038 注解 : PCC( 后扣带回 ) LITC( 左侧颞下回 ) 0039 LFEF( 左侧额眼区 ) TPJ( 颞顶结合部 ) 0040 表 4 数据集 2 的多变量 ROC 与线性鉴别算法的分类效果比较 0041 说 明 书 CN 103310101 A 6 5/5 页 7 说 明 书 CN 103310101 A 7 1/2 页 8 图 1 图 2 说 明 书 附 图 CN 103310101 A 8 2/2 页 9 图 3 图 4 说 明 书 附 图 CN 103310101 A 9 。