CN201510068195.8
2015.02.09
CN104615730A
2015.05.13
授权
有权
授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20150209|||公开
G06F17/30
浪潮集团有限公司
范莹; 于治楼; 梁华勇
250100山东省济南市高新区浪潮路1036号
济南信达专利事务所有限公司37100
李世喆
本发明提供了一种多标签分类方法及装置,该方法包括:A1:对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序;A2:按照标签顺序对每个标签对应的分类器进行排序;A3:通过排序后的分类器对待分类数据进行分类。本发明提供的一种多标签分类方法及装置,能够提高多标签分类的正确率。
权利要求书1. 一种多标签分类方法,其特征在于,包括:A1:对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序;A2:按照标签顺序对每个标签对应的分类器进行排序;A3:通过排序后的分类器对待分类数据进行分类。2. 根据权利要求1所述的方法,其特征在于,所述A1,包括:S1:根据训练样本的属性将所有训练样本聚类为第一类和第二类;S2:分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量;S3:根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率;S4:记录划分正确率最大的标签;S5:判断未记录的标签的数量是否为1,如果是,则执行步骤S7,否则,执行步骤S6;S6:将当前记录的标签添加到训练样本的属性中,返回S1;S7:记录最后一个标签,按照记录的先后顺序给标签排序。3. 根据权利要求2所述的方法,其特征在于,所述S3,包括:按照公式一计算每个标签的划分正确率,其中,公式一为:ci=(|si0-ti0|+|si1-ti1|)/n×100%,ci为标签i的划分正确率,si1为标签i对应的第一数量,ti1为标签i对应的第二数量,si0为标签i对应的第三数量,ti0为标签i对应的第四数量,n为样本的总量。4. 一种多标签分类装置,其特征在于,包括:排序单元,用于对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序;训练单元,用于按照标签顺序对每个标签对应的分类器进行排序;分类单元,用于通过排序后的分类器对待分类数据进行分类。5. 根据权利要求4所述的装置,其特征在于,所述排序单元,包括:聚类子单元,用于根据训练样本的属性将所有训练样本聚类为第一类和第二类;第一计算子单元,用于分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量;第二计算子单元,用于根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率;记录子单元,用于记录划分正确率最大的标签;判断子单元,用于判断未记录的标签的数量是否为1,当判断结果为是时,通知排序子单元,当判断结果为否时,,执行步骤S6;添加子单元,用于将当前记录的标签添加到训练样本的属性中,通知所述聚类子单元;排序子单元,用于记录最后一个标签,按照记录的先后顺序给标签排序。6. 根据权利要求5所述的装置,其特征在于,所述第二计算子单元,用于按照公式一计算每个标签的划分正确率,其中,公式一为:ci=(|si0-ti0|+|si1-ti1|)/n×100%,ci为标签i的划分正确率,si1为标签i对应的第一数量,ti1为标签i对应的第二数量,si0为标签i对应的第三数量,ti0为标签i对应的第四数量,n为样本的总量。
说明书一种多标签分类方法及装置 技术领域 本发明涉及数据处理技术领域,特别涉及一种多标签分类方法及装置。 背景技术 在大数据挖掘领域,分类问题占有很大比例。在待分类对象具有明确的、单一的语义时,现有的分类算法已经比较成熟。然而,在很多分类问题中,一个样例可能同时具有多个不同的标签,这类问题称为多标签分类问题。例如,一个网页可能同时拥有多个主题,一篇专利可能归属于多个领域。 现有的多标签分类方法中,从标签的相关性出发处理多标签分类问题,将前面的单标签分类的结果添加到样例的属性中,为后面的多标签分类提供信息。 现有技术中,标签的信息是顺序传递的,前面的分类结果的好坏将对后面分类造成很大影响。而现有技术中并不能保证前面的分类结果的正确率,导致整个分类结果的正确率较低。 发明内容 有鉴于此,本发明提供了一种多标签分类方法及装置,能够提高多标签分类的正确率。 一方面,本发明提供了一种多标签分类方法,包括: A1:对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序; A2:按照标签顺序对每个标签对应的分类器进行排序; A3:通过排序后的分类器对待分类数据进行分类。 进一步地,所述A1,包括: S1:根据训练样本的属性将所有训练样本聚类为第一类和第二类; S2:分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量; S3:根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率; S4:记录划分正确率最大的标签; S5:判断未记录的标签的数量是否为1,如果是,则执行步骤S7,否则,执行步骤S6; S6:将当前记录的标签添加到训练样本的属性中,返回S1; S7:记录最后一个标签,按照记录的先后顺序给标签排序。 进一步地,所述S3,包括: 按照公式一计算每个标签的划分正确率,其中,公式一为: ci=(|si0-ti0|+|si1-ti1|)/n×100%,ci为标签i的划分正确率,si1为标签i对应的第一数量,ti1为标签i对应的第二数量,si0为标签i对应的第三数量,ti0为标签i对应的第四数量,n为样本的总量。 另一方面,本发明提供了一种多标签分类装置,包括: 排序单元,用于对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序; 训练单元,用于按照标签顺序对每个标签对应的分类器进行排序; 分类单元,用于通过排序后的分类器对待分类数据进行分类。 进一步地,所述排序单元,包括: 聚类子单元,用于根据训练样本的属性将所有训练样本聚类为第一类和第二类; 第一计算子单元,用于分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量; 第二计算子单元,用于根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率; 记录子单元,用于记录划分正确率最大的标签; 判断子单元,用于判断未记录的标签的数量是否为1,当判断结果为是时,通知排序子单元,当判断结果为否时,,执行步骤S6; 添加子单元,用于将当前记录的标签添加到训练样本的属性中,通知所述聚类子单元; 排序子单元,用于记录最后一个标签,按照记录的先后顺序给标签排序。 进一步地,所述第二计算子单元,用于按照公式一计算每个标签的划分正确率,其中,公式一为: ci=(|si0-ti0|+|si1-ti1|)/n×100%,ci为标签i的划分正确率,si1为标签i对应的第一数量,ti1为标签i对应的第二数量,si0为标签i对应的第三数量,ti0为标签i对应的第四数量,n为样本的总量。 通过本发明实施例提供的一种多标签分类方法及装置,根据训练样本对应的标签的划分正确率对标签进行排序,按照标签顺序对每个标签对应的分类器进行排序,这样能够保证前面分类器的分类结果的正确率较高,从而保障标签信息能够在最大程度上正确的向后传递,提高了多标签分类的正确率。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 图1是本发明一实施例提供的一种多标签分类方法的流程图; 图2是本发明一实施例提供的另一种多标签分类方法的流程图 图3是本发明一实施例提供的一种多标签分类装置的示意图; 图4是本发明一实施例提供的另一种多标签分类装置的示意图。 具体实施方式 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。 如图1所示,本发明实施例提供了一种多标签分类方法,该方法可以包括以下步骤: A1:对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序; A2:按照标签顺序对每个标签对应的分类器进行排序; A3:通过排序后的分类器对待分类数据进行分类。 通过本发明实施例提供的一种多标签分类方法,根据训练样本对应的标签的划分正确率对标签进行排序,按照标签顺序对每个标签对应的分类器进行排序,这样能够保证前面分类器的分类结果的正确率较高,从而保障标签信息能够在最大程度上正确的向后传递,提高了多标签分类的正确率。 在一种可能的实现方式中,所述A1,包括: S1:根据训练样本的属性将所有训练样本聚类为第一类和第二类; S2:分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量; S3:根据每个标签对应的第一数量、第二数量、第三数量和第四数量, 计算每个标签的划分正确率; S4:记录划分正确率最大的标签; S5:判断未记录的标签的数量是否为1,如果是,则执行步骤S7,否则,执行步骤S6; S6:将当前记录的标签添加到训练样本的属性中,返回S1; S7:记录最后一个标签,按照记录的先后顺序给标签排序。 其中,所述S3,包括: 按照公式一计算每个标签的划分正确率,其中,公式一为: ci=(|si0-ti0|+|si1-ti1|)/n×100%,ci为标签i的划分正确率,si1为标签i对应的第一数量,ti1为标签i对应的第二数量,si0为标签i对应的第三数量,ti0为标签i对应的第四数量,n为样本的总量。 为使本发明的目的、技术方案和优点更加清楚,下面结合附图及具体实施例对本发明作进一步地详细描述。 如图2所示,本发明实施例提供了一种多标签分类方法,假设包含n个训练样本的训练集为X=Rd,每个训练样本可以表示为x={x1,x2,…,xd},假设所有训练样本对应m个标签,标签列表表示为L={l1,l2,…,lm},当训练样本x的标签为lg时,x的标签lg的值为1,x的其他标签的值为0,其中,X为训练集,Rd为每个训练样本对应的属性的个数为d。 该方法可以包括以下步骤: B1:根据训练样本的属性将所有训练样本聚类为第一类和第二类; 举例来说,可以通过k-means算法,根据训练样本的属性将所有训练样本聚类为第一类和第二类。具体地,对训练集进行k-means聚类,k=2,得到两类,分别是S,T。 B2:分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类 中其他训练样本的第四数量; 举例来说,统计每个未记录标签在S,T中为值1的个数si1,ti1,在S,T中为值0的个数si0,ti0,其中,si1即为标签i对应的第一数量,ti1即为标签i对应的第二数量,si0即为标签i对应的第三数量,ti0即为标签i对应的第四数量。 B3:根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率; 按照公式一计算每个标签的划分正确率,其中,公式一为: ci=(|si0-ti0|+|si1-ti1|)/n×100%,ci为标签i的划分正确率,si1为标签i对应的第一数量,ti1为标签i对应的第二数量,si0标签i对应的第三数量,ti0标签i对应的第四数量,n为样本的总量。 B4:记录划分正确率最大的标签; B5:判断未记录的标签的数量是否为1,如果是,则执行步骤B7,否则,执行步骤B6; B6:将当前记录的标签添加到训练样本的属性中,返回B1; 具体地,将已记录的标签的值作为样本的属性添加到x中,例如,当已经记录的标签有l1,l2,…,lj,则新的训练集就有d+j个属性,新的训练集可以表示为X=Rd+j,训练样例可以表示为x={x1,x2,…,xd,l1,l2,…,lj}。 B7:记录最后一个标签,按照记录的先后顺序给标签排序。 B8:按照标签顺序对每个标签对应的分类器进行排序; 具体地,可以按照排好顺序的标签列表L={l1,l2,…,lm}对每个标签对应的分类器进行排序。 B9:通过排序后的分类器对待分类数据进行分类。 具体地,可以按照分类器链算法,通过排序后的分类器对待分类数据进行分类。 如图3、图4所示,本发明实施例提供了一种……。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例……所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的一种多标签分类装置,包括: 排序单元401,用于对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序; 训练单元402,用于按照标签顺序对每个标签对应的分类器进行排序; 分类单元403,用于通过排序后的分类器对待分类数据进行分类。 在一种可能的实现方式中,所述排序单元401,包括: 聚类子单元,用于根据训练样本的属性将所有训练样本聚类为第一类和第二类; 第一计算子单元,用于分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量; 第二计算子单元,用于根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率; 记录子单元,用于记录划分正确率最大的标签; 判断子单元,用于判断未记录的标签的数量是否为1,当判断结果为是时,通知排序子单元,当判断结果为否时,,执行步骤S6; 添加子单元,用于将当前记录的标签添加到训练样本的属性中,通知所述聚类子单元; 排序子单元,用于记录最后一个标签,按照记录的先后顺序给标签排序。 其中,所述第二计算子单元,用于按照公式一计算每个标签的划分正确 率,其中,公式一为: ci=(|si0-ti0|+|si1-ti1|)/n×100%,ci为标签i的划分正确率,si1为标签i对应的第一数量,ti1为标签i对应的第二数量,si0为标签i对应的第三数量,ti0为标签i对应的第四数量,n为样本的总量。 上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。 本发明实施例提供了一种多标签分类方法及装置,具有如下有益效果: 通过本发明实施例提供的一种多标签分类方法及装置,根据训练样本对应的标签的划分正确率对标签进行排序,按照标签顺序对每个标签对应的分类器进行排序,这样能够保证前面分类器的分类结果的正确率较高,从而保障标签信息能够在最大程度上正确的向后传递,提高了多标签分类的正确率。 需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。 本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。 最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
《一种多标签分类方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种多标签分类方法及装置.pdf(12页珍藏版)》请在专利查询网上搜索。
本发明提供了一种多标签分类方法及装置,该方法包括:A1:对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序;A2:按照标签顺序对每个标签对应的分类器进行排序;A3:通过排序后的分类器对待分类数据进行分类。本发明提供的一种多标签分类方法及装置,能够提高多标签分类的正确率。。
copyright@ 2017-2020 zhuanlichaxun.net网站版权所有经营许可证编号:粤ICP备2021068784号-1