一种二元分类评价方法.pdf

上传人:32 文档编号:4902110 上传时间:2018-11-26 格式:PDF 页数:9 大小:536.71KB
返回 下载 相关 举报
摘要
申请专利号:

CN201310223662.0

申请日:

2013.06.07

公开号:

CN103310101A

公开日:

2013.09.18

当前法律状态:

撤回

有效性:

无权

法律详情:

登录超时

IPC分类号:

G06F19/00(2011.01)I

主分类号:

G06F19/00

申请人:

北京师范大学

发明人:

邬霞; 姚力; 陈克伟

地址:

100875 北京市海淀区新街口外大街19号

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明实施例提供了一种二元分类评价方法,该方法包括:将每一个可用于二元分类的单变量的观测值分成k个子区间,k为子区间个数;将k个子区间的k-1个间断点作为这个指标的分界值;对于n个指标而言,分界值就有(k-1)n个可能的组合;利用单变量的受试者工作特征ROC算法,计算所有(k-1)n分界点上的特异性和敏感性;利用Trapezoidal数值整合方法计算曲线下面积AUC;在ROC曲线上找到最靠近(01)点的特异性和敏感性取值,以及对应的分界值组合。本发明利用来自于不同源的多指标信息,发明了一种用于二元分类的多变量ROC曲线,该方法综合了多指标信息以实现二元分类。将该方法应用于阿尔兹海默症与正常被试间的二元分类,提高了准确度。

权利要求书

权利要求书
1.   一种二元分类评价方法,其特征在于,所述方法包括:
(1)将每一个可用于二元分类的单变量的观测值分成k个子区间,k为所述子区间个数;
(2)将所述k个子区间的k‑1个间断点(即对观测值的分段值)作为这个指标的分界值(cut‑off value);对于n个指标而言,所述分界值就有(k‑1)n个可能的组合;
(3)利用单变量的受试者工作特征ROC算法,计算所有(k‑1)n分界点上的特异性和敏感性;
(4)利用Trapezoidal数值整合方法计算曲线下面积AUC(Area under curve,);
(5)在所述ROC曲线上找到最靠近(0 1)点的所述特异性和所述敏感性取值,以及对应的分界值组合(cut off combination)。

2.   根据权利要求1所述的方法,其特征在于,所述步骤(1)用于对所述子区间进行均匀分类。

3.   根据权利要求1所述的方法,其特征在于,所述步骤(2)中所有的n个指标都取同样的k值。

4.   根据权利要求1所述的方法,其特征在于,所述步骤(3)具体用于从(k‑1)n个组合中随机挑选N个组合,并计算所述N个组合对应的敏感性和特异性。

5.   根据权利要求1所述方法,其特征在于,对阿尔兹海默AD病人与正常被试者进行二元分类。

说明书

说明书一种二元分类评价方法
技术领域
本发明属于统计检验领域,具体是一种二元分类评价方法。
背景技术
ROC(Receiver Operational Characteristic,受试者工作特征)曲线是一种对于灵敏度进行描述的功能图像。它根据一系列不同的二分类方式(分界值),以真阳性率(敏感度)为纵坐标,假阳性率(特异度)为横坐标绘制的曲线。由于是通过比较两个工作特征作为标准,ROC曲线也叫做相关工作特征曲线。
传统的评价方法有一个共同的特点,必须将结果分为两类,再进行统计分析。ROC曲线的评价方法与传统的评价方法不同,无须此限制,而是根据实际情况,允许有中间状态,可以把试验结果划分为多个有序分类,如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。因此,ROC曲线评价方法适用的范围更为广泛。
目前,常见的均为单变量ROC,参见图1,其中横轴为假阳性率(特异度),纵轴为真阳性率(敏感度),图中一条从左下到右上对角线(也叫无识别率线)是完全随机预测得到的,抛物线为通过单变量ROC评价方法测出的结果,也就是只采用一个指标来做二元分类。事实上,经常会有多个指标可以做此分类。它的特点是简单直观,但是由于只采用一个指标,往往得出的分类结果并不是特别准确。
发明内容
为了解决现有技术的问题,本发明提出了一种二元分类评价方法,所述方法包括:
(1)将每一个可用于二元分类的单变量的观测值分成k个子区间,k为所述子区间个数;
(2)将所述k个子区间的k‑1个间断点(即对观测值的分段值)作为这个指标的分界值;对于n个指标而言,所述分界值就有(k‑1)n个可能的组合;
(3)利用单变量的受试者工作特征ROC算法,计算所有(k‑1)n分界点上的特异性和敏感性;
(4)利用梯形数值整合方法计算曲线下面积AUC;
(5)在所述ROC曲线上找到最靠近(0 1)点的所述特异性和所述敏感性取值,以及对应的分界值组合。
其中,所述步骤(1)用于对所述子区间进行均匀分类。
其中,所述步骤(2)中所有的n个指标都取同样的k值。
其中,所述步骤(3)具体用于从(k‑1)n个组合中随机挑选N个组合,并计算所述N个组合对应的敏感性和特异性。
其中,对阿尔兹海默AD病人与正常被试者进行二元分类。
利用该方法,对AD(阿尔兹海默)病人与正常被试进行二元分类,取得了准确度达到100%的分类效果。
附图说明
图1为单变量ROC曲线示例;
图2为多变量ROC算法流程图;
图3为数据集1的单变量、多变量ROC分类效果与线性鉴别方法的准确度比较;
图4为数据集2的单变量、多变量ROC分类效果与线性鉴别方法的准确度比较。
具体实施方式
实施例一
我们将发明应用于两套数据集的二元分类。其中数据集1来自于美国的公开AD神经影像数据集(ADNI,www.adni‑info.org),包括74名AD患者,根据他们在12个月内的MMSE评分分为下降组(30名)和稳定组(44名)。每名被试均有来自于代谢收敛指标(HCI)、听觉言语学习测试(AVLT)、长时记忆评分(LTM)、阿尔兹海默病的认知(ADAS)评分和临床痴呆分级量表(CDR)评分。
依据方法流程,对于数据集1而言,变量个数n=4,我们取k=200,N=50000。先针对每一指标进行单变量ROC分析,然后进行多变量组合,根据算法流程进行计算,得到不同组合下的分类结果。并将多变量ROC的分类结果与线性Fisher鉴别结果进行比较,线性Fisher鉴别在SPSS16.0软件中进行。结果如表2所示,观察可得多变量ROC相比较线性鉴别算法而言,各项指标都有了明显的提升。
实施例二
我们将发明应用于两套数据集的二元分类。其中数据集2来自于我们在中国北京天坛医院采集的静息态功能磁共振数据,包含15个AD病人和16个正常被试。我们从中提取了4个脑区的数据,这四个脑区包括:后扣带回(PCC)、左侧颞下回(LITC)、左侧额眼区(LFEF)、颞顶结合部(TPJ)。
依据方法流程,对于数据集2而言,变量个数n=4,我们取k=200,N=50000。先针对每一指标进行单变量ROC分析,然后进行多变量组合,根据算法流程进行计算,得到不同组合下的分类结果。并将多变量ROC的分类结果与线性Fisher鉴别结果进行比较,线性Fisher鉴别在SPSS16.0软件中进行。结果如表4所示,观察可得多变量ROC相比较线性鉴别算法而言,各项指标都有了明显的提升。
表1数据集1的单变量ROC分类效果

注解:variable(变量)Cut‑off(分界值)Sen(灵敏度)Spe(特异度)
Accuracy(准确度)AUC(曲线下面积)  95%C.I(95%的置信区间)
HCI(代谢收敛指标)             ADAS‑cog(阿尔兹海默病的认知评分)
AVLT‑tot(听觉言语学习测试评分)  CDR‑SB(临床痴呆分级量表评分)
MMSE(简易精神状态量表)
表2数据集1的多变量ROC与线性鉴别算法的分类效果比较

注解:MultiV‑ROC(多变量ROC)Linear discrimination(线性鉴别算法)
表3数据集2的单变量ROC分类效果

注解:PCC(后扣带回)              LITC(左侧颞下回)
      LFEF(左侧额眼区)           TPJ(颞顶结合部)
表4数据集2的多变量ROC与线性鉴别算法的分类效果比较

一种二元分类评价方法.pdf_第1页
第1页 / 共9页
一种二元分类评价方法.pdf_第2页
第2页 / 共9页
一种二元分类评价方法.pdf_第3页
第3页 / 共9页
点击查看更多>>
资源描述

《一种二元分类评价方法.pdf》由会员分享,可在线阅读,更多相关《一种二元分类评价方法.pdf(9页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103310101 A (43)申请公布日 2013.09.18 CN 103310101 A *CN103310101A* (21)申请号 201310223662.0 (22)申请日 2013.06.07 G06F 19/00(2011.01) (71)申请人 北京师范大学 地址 100875 北京市海淀区新街口外大街 19 号 (72)发明人 邬霞 姚力 陈克伟 (54) 发明名称 一种二元分类评价方法 (57) 摘要 本发明实施例提供了一种二元分类评价方 法, 该方法包括 : 将每一个可用于二元分类的单 变量的观测值分成 k 个子区间, k 为子区间个数 ; 。

2、将 k 个子区间的 k-1 个间断点作为这个指标的分 界值 ; 对于n个指标而言, 分界值就有(k-1)n个可 能的组合 ; 利用单变量的受试者工作特征 ROC 算 法, 计算所有(k-1)n分界点上的特异性和敏感性 ; 利用 Trapezoidal 数值整合方法计算曲线下面积 AUC ; 在 ROC 曲线上找到最靠近 (01) 点的特异性 和敏感性取值, 以及对应的分界值组合。 本发明利 用来自于不同源的多指标信息, 发明了一种用于 二元分类的多变量 ROC 曲线, 该方法综合了多指 标信息以实现二元分类。将该方法应用于阿尔兹 海默症与正常被试间的二元分类, 提高了准确度。 (51)Int.。

3、Cl. 权利要求书 1 页 说明书 5 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书5页 附图2页 (10)申请公布号 CN 103310101 A CN 103310101 A *CN103310101A* 1/1 页 2 1. 一种二元分类评价方法, 其特征在于, 所述方法包括 : (1) 将每一个可用于二元分类的单变量的观测值分成 k 个子区间, k 为所述子区间个 数 ; (2) 将所述 k 个子区间的 k-1 个间断点 ( 即对观测值的分段值 ) 作为这个指标的分界 值 (cut-off value) ; 对于 n 个指标而言,。

4、 所述分界值就有 (k-1)n个可能的组合 ; (3) 利用单变量的受试者工作特征 ROC 算法, 计算所有 (k-1)n分界点上的特异性和敏 感性 ; (4) 利用 Trapezoidal 数值整合方法计算曲线下面积 AUC(Area under curve, ) ; (5)在所述ROC曲线上找到最靠近(0 1)点的所述特异性和所述敏感性取值, 以及对应 的分界值组合 (cut off combination)。 2.根据权利要求1所述的方法, 其特征在于, 所述步骤(1)用于对所述子区间进行均匀 分类。 3.根据权利要求1所述的方法, 其特征在于, 所述步骤(2)中所有的n个指标都取同样 。

5、的 k 值。 4. 根据权利要求 1 所述的方法, 其特征在于, 所述步骤 (3) 具体用于从 (k-1)n个组合 中随机挑选 N 个组合, 并计算所述 N 个组合对应的敏感性和特异性。 5. 根据权利要求 1 所述方法, 其特征在于, 对阿尔兹海默 AD 病人与正常被试者进行二 元分类。 权 利 要 求 书 CN 103310101 A 2 1/5 页 3 一种二元分类评价方法 技术领域 0001 本发明属于统计检验领域, 具体是一种二元分类评价方法。 背景技术 0002 ROC(Receiver Operational Characteristic, 受试者工作特征)曲线是一种对于 灵敏度。

6、进行描述的功能图像。 它根据一系列不同的二分类方式(分界值), 以真阳性率(敏 感度 ) 为纵坐标, 假阳性率 ( 特异度 ) 为横坐标绘制的曲线。由于是通过比较两个工作特 征作为标准, ROC 曲线也叫做相关工作特征曲线。 0003 传统的评价方法有一个共同的特点, 必须将结果分为两类, 再进行统计分析。ROC 曲线的评价方法与传统的评价方法不同, 无须此限制, 而是根据实际情况, 允许有中间状 态, 可以把试验结果划分为多个有序分类, 如正常、 大致正常、 可疑、 大致异常和异常五个等 级再进行统计分析。因此, ROC 曲线评价方法适用的范围更为广泛。 0004 目前, 常见的均为单变量R。

7、OC, 参见图1, 其中横轴为假阳性率(特异度), 纵轴为真 阳性率(敏感度), 图中一条从左下到右上对角线(也叫无识别率线)是完全随机预测得到 的, 抛物线为通过单变量 ROC 评价方法测出的结果, 也就是只采用一个指标来做二元分类。 事实上, 经常会有多个指标可以做此分类。它的特点是简单直观, 但是由于只采用一个指 标, 往往得出的分类结果并不是特别准确。 发明内容 0005 为了解决现有技术的问题, 本发明提出了一种二元分类评价方法, 所述方法包 括 : 0006 (1)将每一个可用于二元分类的单变量的观测值分成k个子区间, k为所述子区间 个数 ; 0007 (2) 将所述 k 个子区。

8、间的 k-1 个间断点 ( 即对观测值的分段值 ) 作为这个指标的 分界值 ; 对于 n 个指标而言, 所述分界值就有 (k-1)n个可能的组合 ; 0008 (3) 利用单变量的受试者工作特征 ROC 算法, 计算所有 (k-1)n分界点上的特异性 和敏感性 ; 0009 (4) 利用梯形数值整合方法计算曲线下面积 AUC ; 0010 (5)在所述ROC曲线上找到最靠近(0 1)点的所述特异性和所述敏感性取值, 以及 对应的分界值组合。 0011 其中, 所述步骤 (1) 用于对所述子区间进行均匀分类。 0012 其中, 所述步骤 (2) 中所有的 n 个指标都取同样的 k 值。 0013。

9、 其中, 所述步骤 (3) 具体用于从 (k-1)n个组合中随机挑选 N 个组合, 并计算所述 N 个组合对应的敏感性和特异性。 0014 其中, 对阿尔兹海默 AD 病人与正常被试者进行二元分类。 0015 利用该方法, 对AD(阿尔兹海默)病人与正常被试进行二元分类, 取得了准确度达 说 明 书 CN 103310101 A 3 2/5 页 4 到 100的分类效果。 附图说明 0016 图 1 为单变量 ROC 曲线示例 ; 0017 图 2 为多变量 ROC 算法流程图 ; 0018 图 3 为数据集 1 的单变量、 多变量 ROC 分类效果与线性鉴别方法的准确度比较 ; 0019 图。

10、 4 为数据集 2 的单变量、 多变量 ROC 分类效果与线性鉴别方法的准确度比较。 具体实施方式 0020 实施例一 0021 我们将发明应用于两套数据集的二元分类。其中数据集 1 来自于美国的公开 AD 神经影像数据集 (ADNI, www.adni-info.org), 包括 74 名 AD 患者, 根据他们在 12 个月内 的 MMSE 评分分为下降组 (30 名 ) 和稳定组 (44 名 )。每名被试均有来自于代谢收敛指标 (HCI)、 听觉言语学习测试 (AVLT)、 长时记忆评分 (LTM)、 阿尔兹海默病的认知 (ADAS) 评分 和临床痴呆分级量表 (CDR) 评分。 002。

11、2 依据方法流程, 对于数据集 1 而言, 变量个数 n 4, 我们取 k 200, N 50000。 先针对每一指标进行单变量 ROC 分析, 然后进行多变量组合, 根据算法流程进行计算, 得到 不同组合下的分类结果。并将多变量 ROC 的分类结果与线性 Fisher 鉴别结果进行比较, 线 性 Fisher 鉴别在 SPSS16.0 软件中进行。结果如表 2 所示, 观察可得多变量 ROC 相比较线 性鉴别算法而言, 各项指标都有了明显的提升。 0023 实施例二 0024 我们将发明应用于两套数据集的二元分类。其中数据集 2 来自于我们在中国北京 天坛医院采集的静息态功能磁共振数据, 包。

12、含 15 个 AD 病人和 16 个正常被试。我们从中提 取了 4 个脑区的数据, 这四个脑区包括 : 后扣带回 (PCC)、 左侧颞下回 (LITC)、 左侧额眼区 (LFEF)、 颞顶结合部 (TPJ)。 0025 依据方法流程, 对于数据集 2 而言, 变量个数 n 4, 我们取 k 200, N 50000。 先针对每一指标进行单变量 ROC 分析, 然后进行多变量组合, 根据算法流程进行计算, 得到 不同组合下的分类结果。并将多变量 ROC 的分类结果与线性 Fisher 鉴别结果进行比较, 线 性 Fisher 鉴别在 SPSS16.0 软件中进行。结果如表 4 所示, 观察可得多。

13、变量 ROC 相比较线 性鉴别算法而言, 各项指标都有了明显的提升。 0026 表 1 数据集 1 的单变量 ROC 分类效果 0027 说 明 书 CN 103310101 A 4 3/5 页 5 0028 注解 : variable( 变量 )Cut-off( 分界值 )Sen( 灵敏度 )Spe( 特异度 ) 0029 Accuracy( 准确度 )AUC( 曲线下面积 ) 95 C.I(95的置信区间 ) 0030 HCI( 代谢收敛指标 ) ADAS-cog( 阿尔兹海默病的认知评分 ) 0031 AVLT-tot( 听觉言语学习测试评分 ) CDR-SB( 临床痴呆分级量表评分 )。

14、 0032 MMSE( 简易精神状态量表 ) 0033 表 2 数据集 1 的多变量 ROC 与线性鉴别算法的分类效果比较 0034 0035 注解 : MultiV-ROC( 多变量 ROC)Linear discrimination( 线性鉴别算法 ) 0036 表 3 数据集 2 的单变量 ROC 分类效果 0037 说 明 书 CN 103310101 A 5 4/5 页 6 0038 注解 : PCC( 后扣带回 ) LITC( 左侧颞下回 ) 0039 LFEF( 左侧额眼区 ) TPJ( 颞顶结合部 ) 0040 表 4 数据集 2 的多变量 ROC 与线性鉴别算法的分类效果比较 0041 说 明 书 CN 103310101 A 6 5/5 页 7 说 明 书 CN 103310101 A 7 1/2 页 8 图 1 图 2 说 明 书 附 图 CN 103310101 A 8 2/2 页 9 图 3 图 4 说 明 书 附 图 CN 103310101 A 9 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1