一种数据识别方法及装置.pdf

上传人:1*** 文档编号:6180266 上传时间:2019-05-17 格式:PDF 页数:13 大小:2.44MB
返回 下载 相关 举报
摘要
申请专利号:

CN201210362300.5

申请日:

2012.09.25

公开号:

CN103678419A

公开日:

2014.03.26

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120925|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

日电(中国)有限公司

发明人:

李建强; 刘春辰

地址:

100191 北京市海淀区学院路35号世宁大厦20层

优先权:

专利代理机构:

北京同达信恒知识产权代理有限公司 11291

代理人:

孔凡红

PDF下载: PDF下载
内容摘要

本发明公开了一种数据识别方法及装置,涉及数据处理技术,根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集,使得各识别器分别根据各数据子集进行训练,保证了各个识别器的差异性,因此,在对待识别数据进行数据识别时,获得训练后的识别器给出的识别结果,再根据各个识别结果确定该待识别数据的最终识别结果,提高了大数据识别的精确度。

权利要求书

权利要求书
1.  一种数据识别方法,其特征在于,包括:
分别确定多个识别器对待识别数据进行数据识别的识别结果,所述多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集进行训练形成的识别器;
根据各个识别结果确定该待识别数据的最终识别结果。

2.  如权利要求1所述的方法,其特征在于,所述根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成多个数据子集,具体包括:
获取所述数据集中的标注数据样本;
从所述标注数据样本中,确定每组相似度最大的设定数量的标注数据样本为一个数据子集,直至所述数据集中的每个标注数据样本均被划分至数据子集中。

3.  如权利要求2所述的方法,其特征在于,所述根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成多个数据子集,具体包括:
将标注数据集中的每个标注数据样本作为初始的数据子集;
对于每个所包含标注数据样本数量小于设定的第一阈值的数据子集,根据该数据子集与其他数据子集之间的相似度,将该数据子集与其他数据子集进行合并;对每个所包含标注数据样本数量大于设定的第二阈值的数据子集,将其切分为多个数据子集,并保证切分后的每个数据子集中所包含标注数据样本数量均小于设定的第二阈值,且至多有一个数据子集中所包含标注数据样本数量小于设定的第一阈值;
确定每个数据子集中所包含标注数据样本数量均大于设定的第一阈值且小于设定的第二阈值时,将当前所划分的数据子集结果作为根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集。

4.  如权利要求1-3任一所述的方法,其特征在于,所述分别确定多个识别器对待识别数据进行数据识别的识别结果前,还包括:
确定将与待识别数据关联程度最大的设定个数的识别器,作为所述多个识别器;或者
确定将与待识别数据的关联程度大于设定阈值的识别器,作为所述多个识别器。

5.  如权利要求4所述的方法,其特征在于,所述确定将与待识别数据关联程度最大的设定个数的识别器,作为所述多个识别器,具体包括:
确定各识别器给出的该待识别数据的关联程度分数;
将分数最高的设定个数个识别器,作为所述多个识别器;
所述确定将与待识别数据的关联程度大于设定阈值的识别器,作为所述多个识别器,具体包括:
确定各识别器给出的该待识别数据的关联程度分数;
将分数超过设定分数值的识别器,作为所述多个识别器。

6.  如权利要求5所述的方法,其特征在于,所述各识别器给出的该待识别数据的关联程度分数,具体为:
各识别器分别计算待识别数据和该识别器对应的数据子集的相似度,并将该相似度作为该待识别数据的关联程度分数;或者
从所述标注数据集中选取设定数量的与所述待识别数据最相近的标注数据样本,各识别器分别确定该识别器对应的数据子集包含的所选取的标注数据样本的数量与该识别器对应的数据子集中的标注数据样本数量的比值,为该待识别数据的关联程度分数。

7.  如权利要求5所述的方法,其特征在于,所述根据各个识别结果确定该待识别数据的最终识别结果,具体包括:
对于每个识别器,根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值,确定该识别器的投票权重;
根据所述多个识别器的识别结果以及其投票权重,确定该待识别数据的最 终识别结果。

8.  如权利要求7所述的方法,其特征在于,所述对于每个识别器,根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值,确定该识别器的投票权重,具体为:
对于每个识别器,确定该识别器的投票权重为该识别器给出的该待识别数据的关联程度分数与该识别器对该待识别数据进行识别后给出的置信值的乘积。

9.  如权利要求7所述的方法,其特征在于,所述根据所述多个识别器的识别结果以及其投票权重,确定该待识别数据的最终识别结果,具体包括:
根据多个识别器的识别结果将所述多个识别器进行分组;
根据各个识别器的投票权重,确定每个分组的加权求和值;
将加权求和值最大的分组所对应的识别结果,确定为该待识别数据的最终识别结果。

10.  一种数据识别装置,其特征在于,包括:
第一确定单元,用于分别确定多个识别器对待识别数据进行数据识别的识别结果,所述多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集进行训练形成的识别器;
第二确定单元,用于根据各个识别结果确定该待识别数据的最终识别结果。

11.  如权利要求10所述的装置,其特征在于,所述第一确定单元根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成多个数据子集,具体包括:
获取所述数据集中的标注数据样本;
从所述标注数据样本中,确定每组相似度最大的设定数量的标注数据样本为一个数据子集,直至所述数据集中的每个标注数据样本均被划分至数据子集中。

12.  如权利要求11所述的装置,其特征在于,所述第一确定单元根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成多个数据子集,具体包括:
将标注数据集中的每个标注数据样本作为初始的数据子集;
对于每个所包含标注数据样本数量小于设定的第一阈值的数据子集,根据该数据子集与其他数据子集之间的相似度,将该数据子集与其他数据子集进行合并;对每个所包含标注数据样本数量大于设定的第二阈值的数据子集,将其切分为多个数据子集,并保证切分后的每个数据子集中所包含标注数据样本数量均小于设定的第二阈值,且至多有一个数据子集中所包含标注数据样本数量小于设定的第一阈值;
确定每个数据子集中所包含标注数据样本数量均大于设定的第一阈值且小于设定的第二阈值时,将当前所划分的数据子集结果作为根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集。

13.  如权利要求10-12任一所述的装置,其特征在于,所述第一确定单元还用于:
在分别确定多个识别器对待识别数据进行数据识别的识别结果前,确定将与待识别数据关联程度最大的设定个数的识别器,作为所述多个识别器;或者
在分别确定多个识别器对待识别数据进行数据识别的识别结果前,确定将与待识别数据的关联程度大于设定阈值的识别器,作为所述多个识别器。

14.  如权利要求13所述的装置,其特征在于,所述第一确定单元确定将与待识别数据关联程度最大的设定个数的识别器,作为所述多个识别器,具体包括:
确定各识别器给出的该待识别数据的关联程度分数;
将分数最高的设定个数个识别器,作为所述多个识别器;
所述第一确定单元确定将与待识别数据的关联程度大于设定阈值的识别器,作为所述多个识别器,具体包括:
确定各识别器给出的该待识别数据的关联程度分数;
将分数超过设定分数值的识别器,作为所述多个识别器。

15.  如权利要求14所述的装置,其特征在于,所述各识别器给出的该待识别数据的关联程度分数,具体为:
各识别器分别计算待识别数据和该识别器对应的数据子集的相似度,并将该相似度作为该待识别数据的关联程度分数;或者
从所述标注数据集中选取设定数量的与所述待识别数据最相近的标注数据样本,各识别器分别确定该识别器对应的数据子集包含的所选取的标注数据样本的数量与该识别器对应的数据子集中的标注数据样本数量的比值,为该待识别数据的关联程度分数。

16.  如权利要求14所述的装置,其特征在于,所述第二确定单元具体用于:
对于每个识别器,根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值,确定该识别器的投票权重;
根据所述多个识别器的识别结果以及其投票权重,确定该待识别数据的最终识别结果。

17.  如权利要求16所述的装置,其特征在于,所述第二确定单元对于每个识别器,根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值,确定该识别器的投票权重,具体为:
对于每个识别器,确定该识别器的投票权重为该识别器给出的该待识别数据的关联程度分数与该识别器对该待识别数据进行识别后给出的置信值的乘积。

18.  如权利要求16所述的装置,其特征在于,所述第二确定单元根据所述多个识别器的识别结果以及其投票权重,确定该待识别数据的最终识别结果,具体包括:
根据多个识别器的识别结果将所述多个识别器进行分组;
根据各个识别器的投票权重,确定每个分组的加权求和值;
将加权求和值最大的分组所对应的识别结果,确定为该待识别数据的最终识别结果。

说明书

说明书一种数据识别方法及装置
技术领域
本发明涉及数据处理技术,尤其涉及一种数据识别方法及装置。
背景技术
目前,现实和虚拟世界的数据产生速度越来越大,对数据进行自动识别会便于用户对数据的查找和使用,因此,很多应用或系统在获得新的数据时,需要通过对已有数据的识别方式,对所获得的数据进行数据识别。
目前进行数据识别的方法主要为:先从标注数据中选取相应训练数据由识别器进行学习,在获得新的数据时,即可使用学习后的识别器对该数据进行数据识别。
在进行识别器的学习时,和本专利最相关的技术包括大规模机器学习以及集成学习,下面分别对这两种学习方式进行具体说明:
大规模机器学习是指能够利用大规模数据来监督识别器学习以解决大数据分析基本问题的理论或方法,大数据(大规模数据,通常至少包括10W标注数据样本)概念的出现使很多只关心识别精度的传统的机器学习方法不再适用。
集成学习是通过利用不同的训练标注数据集合或者不同的特征集合训练得到多个识别器,在应用过程中这多个识别器以某种组合策略,比如投票,来解决某个识别问题。集成学习主要用来改善单个识别器的识别或预测等的性能精度。这种机器学习范式相对于单个识别器的学习算法来说,更容易扩展到大规模数据的学习任务。比较有影响的集成学习方法包括boosting(增强学习方法),bagging(基于可放回采样的学习方法)等。
集成学习方法可以使得识别精度较高,其主要原因是它能够通过群体决策 的方式来克服单个识别器可能犯得一些识别错误,而这主要归功于多个识别器的差异性。因此,要实现多个弱识别器的组合以实现强识别器,需要不同的个体识别器在不同的识别任务中需要犯不同的错误,以造成这种差异性。
基于不同的训练集合,不同的识别器参数,或者不同的特征集合而获得的多个识别器模型需要以某种策略组合起来使用来最终决定某个测试实例的最终识别结果,这种群体决策的策略就是识别器组合。
集成学习方法具有对于大规模数据上的机器学习具有很强的可扩展性,但如果直接将他们应用到大规模数据学习问题中,由于差异性不明显,会造成最终的数据挖掘精度不是很高,不能取得理想的效果。虽然实现了大规模数据学习,但不能充分体现大规模数据学习的优势。
目前,可以通过重采样技术和划分子集的方式,使得集成学习方法能够应用到大规模学习中去,可是,不同的识别器通过不同的采样技术在大数据中进行采样,能够实现所训练的识别器的差异性,但由于只有部分的训练数据被采样并用来识别器的构建,所以标注样本中蕴含的知识并没有都用于识别器的训练。而直接将整个标注数据集分成多个子集,这种随机的标注数据集拆分的方法不能保证不同子标注集合之间的差异性,从而不能保证多个识别器之间差异性。
发明内容
本发明实施例提供一种数据识别方法及装置,以提高大数据识别的精确度。
一种数据识别方法,包括:
分别确定多个识别器对待识别数据进行数据识别的识别结果,所述多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集进行训练形成的识别器;
根据各个识别结果确定该待识别数据的最终识别结果。
一种数据识别装置,包括:
第一确定单元,用于分别确定多个识别器对待识别数据进行数据识别的识别结果,所述多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集进行训练形成的识别器;
第二确定单元,用于根据各个识别结果确定该待识别数据的最终识别结果。
本发明实施例提供一种数据识别方法及装置,根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集,使得各识别器分别根据各数据子集进行训练,保证了各个识别器的差异性,因此,在对待识别数据进行数据识别时,获得训练后的识别器给出的识别结果,再根据各个识别结果确定该待识别数据的最终识别结果,提高了大数据识别的精确度。
附图说明
图1为本发明实施例提供的数据识别方法流程图;
图2为本发明实施例提供的根据标注数据样本的差异性将包含标注数据样本的标注数据集划分多个数据子集的方法流程图;
图3为本发明实施例提供的根据各个识别结果确定该待识别数据的最终识别结果的方法流程图之一;
图4为本发明实施例提供的根据各个识别结果确定该待识别数据的最终识别结果的方法流程图之二;
图5为本发明实施例提供的数据识别装置结构示意图。
具体实施方式
本发明实施例提供一种数据识别方法及装置,根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集,使得各识别器分别根据各数据子集进行训练,保证了各个识别器的差异性,因此,在对待识别数 据进行数据识别时,获得训练后的识别器给出的识别结果,再根据各个识别结果确定该待识别数据的最终识别结果,提高了大数据识别的精确度。
在将整个标注集合分成多个子集过程中,将数据子集之间的差异性作为一个优化的指标来考虑进来,从而保证最后获得的多个子集之间具有最大的差异性。
进一步,在进行数据识别时,可以基于标注数据样本的差异性对多个识别器进行选择(只有最相关的领域专家才参加最后的投票),同时在投票过程中,不只是多个识别器之间的差异性被考虑进来,还将每个识别器局部的特征,即每个识别器的置信度信息也考虑到最后的识别器组合过程中,从而进一步提高识别的精度。
具体的,如图1所示,本发明实施例提供的数据识别方法,包括:
步骤S101、分别确定多个识别器对待识别数据进行数据识别的识别结果,多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集进行训练形成的识别器;
步骤S102、根据各个识别结果确定该待识别数据的最终识别结果。
由于将包含标注数据样本的标注数据集根据样本差异性划分成了多个数据子集,又通过各个数据子集分别对各个识别器进行训练,保证了各个识别器之间的差异性,从而提高了对数据进行识别的精度。
具体的,在将包含标注数据样本的标注数据集划分成多个数据子集时,需要进行如下三个方面的考虑:
1)每个数据子集应该足够大,从而能够被用来训练单个的识别器;
2)每个数据子集的大小应该使其在进行识别器的训练时,训练时间不能过长,即每个子标注数据集不能过大到不能顺利完成单个识别器的构建;
3)为了实现识别器的差异性(这一点是能够保证集成学习方法能够具有较高识别精度的关键),需要使多个数据子集之间的相似度尽量低。在本发明以下的实施例中,是通过图论来表示数据子集之间的相似度。如果数据子集之间 的相似度越高,则在图中两者的距离则越小。本领域内技术人员可以理解,还可以应用其他方式来表示数据子集之间的相似度,在此不再赘述。
本发明实施例提供一种标注数据集的划分方法,将实现多个标注数据集合之间距离的最大化(也就是差异最大化)转换为它的对偶问题,也就是,找到一个拆分方案使每个子标注数据集合中的样本之间的距离之和最小化,此时,可以首先获取数据集中的标注数据样本;再从标注数据样本中,确定每组相似度最大的设定数量的标注数据样本为一个数据子集,直至数据集中的每个标注数据样本均被划分至数据子集中。进而使得每一数据子集内所包含的标注数据样本之间的相似度最高,且数据子集之间的相似度最低。
具体的,如图2所示,根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成多个数据子集,具体包括:
步骤S201、将标注数据集中的每个标注数据样本作为初始的数据子集;
步骤S202、对于每个所包含标注数据样本数量小于设定的第一阈值的数据子集,将其和与其距离最小的数据子集合并,对每个所包含标注数据样本数量大于设定的第二阈值的数据子集,将其切分为多个数据子集,并保证切分后的每个数据子集中所包含标注数据样本数量均小于设定的第二阈值,且至多有一个数据子集中所包含标注数据样本数量小于设定的第一阈值,其中,数据子集间的距离可以通过图论的方式来进行量化,也可以通过其它方式进行量化;
步骤S203、确定每个数据子集中所包含标注数据样本数量均大于设定的第一阈值且小于设定的第二阈值时,将当前所划分的数据子集结果作为根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集。
其中,第一阈值根据条件1)设定,即,使得每个数据子集足够大,从而能够被用来训练单个的识别器,第二阈值根据条件2)设定,即,使得每个子标注数据集不能过大到不能顺利完成单个识别器的构建。
根据步骤S202可知,第二阈值必然大于第一阈值,当第二阈值小于第一阈值的二倍时,可能出现切分后的数据子集中,有一个数据子集必然不能满足 条件1)或条件2),此时,则保证切分后的每个数据子集中所包含标注数据样本数量均小于设定的第二阈值,且至多有一个数据子集中所包含标注数据样本数量小于设定的第一阈值,从而可以使得小于设定的第一阈值的数据子集与其它子集进行进一步合并,当然,为进一步便于标注数据集的划分,第二阈值设定为第一阈值的整数倍较佳。
通常,数据子集的大小和训练识别器的关系为,随着数据子集中的数据数量从0开始增大,训练识别器的效果越来越好,直至数据子集中的数据数量达到某一最佳值,此时训练识别器的效果达到最佳,随后,随着数据子集中的数据数量继续增大,训练识别器的效果也越来越差,因此,第一阈值和第二阈值的设定,可以参考数据子集的大小和训练识别器的关系曲线进行。
当然,在本实施例中是每次只与一个相似度最高的数据子集进行合并。本领域内技术人员可以理解,还可以每次与两个或多个数据子集进行合并,其原理与上述实施例相似,在此不再赘述。
进一步,在对待识别数据进行识别时,可以仅使用与该待识别数据关联程度较大的识别器进行识别,从而避免与该待识别数据关联程度较小的识别器给出的错误识别结果造成的干扰,从而进一步提高识别精度。
具体的,在步骤S101分别确定多个识别器对待识别数据进行数据识别的识别结果前,还包括:
确定将与待识别数据关联程度最大的设定个数的识别器,作为多个识别器;或者
确定将与待识别数据的关联程度大于设定阈值的识别器,作为多个识别器。
其中,确定将与待识别数据关联程度最大的设定个数的识别器,作为多个识别器,具体包括:
确定各识别器给出的该待识别数据的关联程度分数;
将分数最高的设定个数个识别器,作为多个识别器;
相应的,确定将与待识别数据的关联程度大于设定阈值的识别器,作为多个识别器,具体包括:
确定各识别器给出的该待识别数据的关联程度分数;
将分数超过设定分数值的识别器,作为多个识别器。
各个识别器可以根据待识别数据与训练自身的数据子集中各数据的关联程度给出该待识别数据的关联程度分数,具体的,本发明实施例中确定各识别器给出的该待识别数据的关联程度分数,具体为:
各识别器分别计算待识别数据和该识别器对应的数据子集的相似度,并将该相似度作为该待识别数据的关联程度分数;或者
从标注数据集中选取设定数量的与待识别数据最相近的标注数据样本,各识别器分别确定该识别器对应的数据子集包含的所选取的标注数据样本的数量与该识别器对应的数据子集中的标注数据样本数量的比值,为该待识别数据的关联程度分数。
在步骤S102中,根据各个识别结果确定该待识别数据的最终识别结果,可以直接采用相同识别结果数量最多的识别结果作为该待识别数据的最终识别结果,为进一步提高识别精度,本发明实施例还提供一种较佳的根据各个识别结果确定该待识别数据的最终识别结果的方式,此时,如图3所示,步骤S102包括:
步骤S301、对于每个识别器,根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值,确定该识别器的投票权重;
步骤S302、根据多个识别器的识别结果以及其投票权重,确定该待识别数据的最终识别结果。
其中,步骤S301中,对于每个识别器,根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值,确定该识别器的投票权重,具体为:
对于每个识别器,确定该识别器的投票权重为该识别器给出的该待识别数据的关联程度分数与该识别器对该待识别数据进行识别后给出的置信值的乘积。
如图4所示,步骤S302中,根据多个识别器的识别结果以及其投票权重,确定该待识别数据的最终识别结果,具体包括:
步骤S401、根据多个识别器的识别结果将多个识别器进行分组;
步骤S402、根据各个识别器的投票权重,确定每个分组的加权求和值;
步骤S403、将加权求和值最大的分组所对应的识别结果,确定为该待识别数据的最终识别结果。
例如,若10个识别器对待识别数据进行识别,其中3个识别器给出的识别结果为A,且权重分别为0.1、0.2、0.3,3个识别器给出的识别结果为B,且权重分别为0.5、0.5、0.4,4个识别器给出的识别结果为C,且权重分别为0.2、0.2、0.3、0.1,可以得出,识别结果为A的分组的加权求和值为0.1+0.2+0.3=0.6,识别结果为B的分组的加权求和值为0.5+0.5+0.4=1.4,识别结果为C的分组的加权求和值为0.2+0.2+0.3+0.1=0.8,则可以确定识别结果为B的分组的加权求和值最大,最终识别结果为B。
相应的,本发明实施例还提供一种数据识别装置,如图5所示,该装置包括:
第一确定单元501,用于分别确定多个识别器对待识别数据进行数据识别的识别结果,多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集进行训练形成的识别器;
第二确定单元502,用于根据各个识别结果确定该待识别数据的最终识别结果。
其中,第一确定单元501根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成多个数据子集,具体包括:
获取数据集中的标注数据样本;
从标注数据样本中,确定每组相似度最大的设定数量的标注数据样本为一个数据子集,直至数据集中的每个标注数据样本均被划分至数据子集中。
具体的,第一确定单元501根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成多个数据子集,具体包括:
将标注数据集中的每个标注数据样本作为初始的数据子集;
对于每个所包含标注数据样本数量小于设定的第一阈值的数据子集,将其和与其距离最小的数据子集合并,对每个所包含标注数据样本数量大于设定的第二阈值的数据子集,将其切分为多个数据子集,并保证切分后的每个数据子集中所包含标注数据样本数量均小于设定的第二阈值,且至多有一个数据子集中所包含标注数据样本数量小于设定的第一阈值;
确定每个数据子集中所包含标注数据样本数量均大于设定的第一阈值且小于设定的第二阈值时,将当前所划分的数据子集结果作为根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集。
第一确定单元501还用于:
在分别确定多个识别器对待识别数据进行数据识别的识别结果前,确定将与待识别数据关联程度最大的设定个数的识别器,作为多个识别器;或者
在分别确定多个识别器对待识别数据进行数据识别的识别结果前,确定将与待识别数据的关联程度大于设定阈值的识别器,作为多个识别器。
第一确定单元501确定将与待识别数据关联程度最大的设定个数的识别器,作为多个识别器,具体包括:
确定各识别器给出的该待识别数据的关联程度分数;
将分数最高的设定个数个识别器,作为多个识别器;
第一确定单元501确定将与待识别数据的关联程度大于设定阈值的识别器,作为多个识别器,具体包括:
确定各识别器给出的该待识别数据的关联程度分数;
将分数超过设定分数值的识别器,作为多个识别器。
其中,各识别器给出的该待识别数据的关联程度分数,具体为:
各识别器分别计算待识别数据和该识别器对应的数据子集的相似度,并将该相似度作为该待识别数据的关联程度分数;或者
从标注数据集中选取设定数量的与待识别数据最相近的标注数据样本,各识别器分别确定该识别器对应的数据子集包含的所选取的标注数据样本的数量与该识别器对应的数据子集中的标注数据样本数量的比值,为该待识别数据的关联程度分数。
第二确定单元502具体用于:
对于每个识别器,根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值,确定该识别器的投票权重;
根据多个识别器的识别结果以及其投票权重,确定该待识别数据的最终识别结果。
第二确定单元502对于每个识别器,根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值,确定该识别器的投票权重,具体为:
对于每个识别器,确定该识别器的投票权重为该识别器给出的该待识别数据的关联程度分数与该识别器对该待识别数据进行识别后给出的置信值的乘积。
第二确定单元502根据多个识别器的识别结果以及其投票权重,确定该待识别数据的最终识别结果,具体包括:
根据多个识别器的识别结果将多个识别器进行分组;
根据各个识别器的投票权重,确定每个分组的加权求和值;
将加权求和值最大的分组所对应的识别结果,确定为该待识别数据的最终识别结果。
本发明实施例提供一种数据识别方法及装置,根据标注数据样本的差异性 将包含标注数据样本的标注数据集划分成的多个数据子集,使得各识别器分别根据各数据子集进行训练,保证了各个识别器的差异性,因此,在对待识别数据进行数据识别时,获得训练后的识别器给出的识别结果,再根据各个识别结果确定该待识别数据的最终识别结果,提高了大数据识别的精确度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要 求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

一种数据识别方法及装置.pdf_第1页
第1页 / 共13页
一种数据识别方法及装置.pdf_第2页
第2页 / 共13页
一种数据识别方法及装置.pdf_第3页
第3页 / 共13页
点击查看更多>>
资源描述

《一种数据识别方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种数据识别方法及装置.pdf(13页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103678419 A (43)申请公布日 2014.03.26 CN 103678419 A (21)申请号 201210362300.5 (22)申请日 2012.09.25 G06F 17/30(2006.01) (71)申请人 日电 ( 中国 ) 有限公司 地址 100191 北京市海淀区学院路 35 号世 宁大厦 20 层 (72)发明人 李建强 刘春辰 (74)专利代理机构 北京同达信恒知识产权代理 有限公司 11291 代理人 孔凡红 (54) 发明名称 一种数据识别方法及装置 (57) 摘要 本发明公开了一种数据识别方法及装置, 涉 及数据处理技术, 。

2、根据标注数据样本的差异性将 包含标注数据样本的标注数据集划分成的多个数 据子集, 使得各识别器分别根据各数据子集进行 训练, 保证了各个识别器的差异性, 因此, 在对待 识别数据进行数据识别时, 获得训练后的识别器 给出的识别结果, 再根据各个识别结果确定该待 识别数据的最终识别结果, 提高了大数据识别的 精确度。 (51)Int.Cl. 权利要求书 3 页 说明书 7 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书7页 附图2页 (10)申请公布号 CN 103678419 A CN 103678419 A 1/3 页 2 1. 一种数据。

3、识别方法, 其特征在于, 包括 : 分别确定多个识别器对待识别数据进行数据识别的识别结果, 所述多个识别器为分别 通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子 集进行训练形成的识别器 ; 根据各个识别结果确定该待识别数据的最终识别结果。 2. 如权利要求 1 所述的方法, 其特征在于, 所述根据标注数据样本的差异性将包含标 注数据样本的标注数据集划分成多个数据子集, 具体包括 : 获取所述数据集中的标注数据样本 ; 从所述标注数据样本中, 确定每组相似度最大的设定数量的标注数据样本为一个数据 子集, 直至所述数据集中的每个标注数据样本均被划分至数据子集中。 3.。

4、 如权利要求 2 所述的方法, 其特征在于, 所述根据标注数据样本的差异性将包含标 注数据样本的标注数据集划分成多个数据子集, 具体包括 : 将标注数据集中的每个标注数据样本作为初始的数据子集 ; 对于每个所包含标注数据样本数量小于设定的第一阈值的数据子集, 根据该数据子集 与其他数据子集之间的相似度, 将该数据子集与其他数据子集进行合并 ; 对每个所包含标 注数据样本数量大于设定的第二阈值的数据子集, 将其切分为多个数据子集, 并保证切分 后的每个数据子集中所包含标注数据样本数量均小于设定的第二阈值, 且至多有一个数据 子集中所包含标注数据样本数量小于设定的第一阈值 ; 确定每个数据子集中所。

5、包含标注数据样本数量均大于设定的第一阈值且小于设定的 第二阈值时, 将当前所划分的数据子集结果作为根据标注数据样本的差异性将包含标注数 据样本的标注数据集划分成的多个数据子集。 4. 如权利要求 1-3 任一所述的方法, 其特征在于, 所述分别确定多个识别器对待识别 数据进行数据识别的识别结果前, 还包括 : 确定将与待识别数据关联程度最大的设定个数的识别器, 作为所述多个识别器 ; 或者 确定将与待识别数据的关联程度大于设定阈值的识别器, 作为所述多个识别器。 5. 如权利要求 4 所述的方法, 其特征在于, 所述确定将与待识别数据关联程度最大的 设定个数的识别器, 作为所述多个识别器, 具。

6、体包括 : 确定各识别器给出的该待识别数据的关联程度分数 ; 将分数最高的设定个数个识别器, 作为所述多个识别器 ; 所述确定将与待识别数据的关联程度大于设定阈值的识别器, 作为所述多个识别器, 具体包括 : 确定各识别器给出的该待识别数据的关联程度分数 ; 将分数超过设定分数值的识别器, 作为所述多个识别器。 6. 如权利要求 5 所述的方法, 其特征在于, 所述各识别器给出的该待识别数据的关联 程度分数, 具体为 : 各识别器分别计算待识别数据和该识别器对应的数据子集的相似度, 并将该相似度作 为该待识别数据的关联程度分数 ; 或者 从所述标注数据集中选取设定数量的与所述待识别数据最相近的。

7、标注数据样本, 各识 别器分别确定该识别器对应的数据子集包含的所选取的标注数据样本的数量与该识别器 权 利 要 求 书 CN 103678419 A 2 2/3 页 3 对应的数据子集中的标注数据样本数量的比值, 为该待识别数据的关联程度分数。 7. 如权利要求 5 所述的方法, 其特征在于, 所述根据各个识别结果确定该待识别数据 的最终识别结果, 具体包括 : 对于每个识别器, 根据该识别器给出的该待识别数据的关联程度分数以及该识别器对 该待识别数据进行识别后给出的置信值, 确定该识别器的投票权重 ; 根据所述多个识别器的识别结果以及其投票权重, 确定该待识别数据的最终识别结 果。 8. 如。

8、权利要求 7 所述的方法, 其特征在于, 所述对于每个识别器, 根据该识别器给出的 该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值, 确 定该识别器的投票权重, 具体为 : 对于每个识别器, 确定该识别器的投票权重为该识别器给出的该待识别数据的关联程 度分数与该识别器对该待识别数据进行识别后给出的置信值的乘积。 9. 如权利要求 7 所述的方法, 其特征在于, 所述根据所述多个识别器的识别结果以及 其投票权重, 确定该待识别数据的最终识别结果, 具体包括 : 根据多个识别器的识别结果将所述多个识别器进行分组 ; 根据各个识别器的投票权重, 确定每个分组的加权求和值 。

9、; 将加权求和值最大的分组所对应的识别结果, 确定为该待识别数据的最终识别结果。 10. 一种数据识别装置, 其特征在于, 包括 : 第一确定单元, 用于分别确定多个识别器对待识别数据进行数据识别的识别结果, 所 述多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集 划分成的多个数据子集进行训练形成的识别器 ; 第二确定单元, 用于根据各个识别结果确定该待识别数据的最终识别结果。 11. 如权利要求 10 所述的装置, 其特征在于, 所述第一确定单元根据标注数据样本的 差异性将包含标注数据样本的标注数据集划分成多个数据子集, 具体包括 : 获取所述数据集中的标注数据样本。

10、 ; 从所述标注数据样本中, 确定每组相似度最大的设定数量的标注数据样本为一个数据 子集, 直至所述数据集中的每个标注数据样本均被划分至数据子集中。 12. 如权利要求 11 所述的装置, 其特征在于, 所述第一确定单元根据标注数据样本的 差异性将包含标注数据样本的标注数据集划分成多个数据子集, 具体包括 : 将标注数据集中的每个标注数据样本作为初始的数据子集 ; 对于每个所包含标注数据样本数量小于设定的第一阈值的数据子集, 根据该数据子集 与其他数据子集之间的相似度, 将该数据子集与其他数据子集进行合并 ; 对每个所包含标 注数据样本数量大于设定的第二阈值的数据子集, 将其切分为多个数据子集。

11、, 并保证切分 后的每个数据子集中所包含标注数据样本数量均小于设定的第二阈值, 且至多有一个数据 子集中所包含标注数据样本数量小于设定的第一阈值 ; 确定每个数据子集中所包含标注数据样本数量均大于设定的第一阈值且小于设定的 第二阈值时, 将当前所划分的数据子集结果作为根据标注数据样本的差异性将包含标注数 据样本的标注数据集划分成的多个数据子集。 13. 如权利要求 10-12 任一所述的装置, 其特征在于, 所述第一确定单元还用于 : 权 利 要 求 书 CN 103678419 A 3 3/3 页 4 在分别确定多个识别器对待识别数据进行数据识别的识别结果前, 确定将与待识别数 据关联程度最。

12、大的设定个数的识别器, 作为所述多个识别器 ; 或者 在分别确定多个识别器对待识别数据进行数据识别的识别结果前, 确定将与待识别数 据的关联程度大于设定阈值的识别器, 作为所述多个识别器。 14. 如权利要求 13 所述的装置, 其特征在于, 所述第一确定单元确定将与待识别数据 关联程度最大的设定个数的识别器, 作为所述多个识别器, 具体包括 : 确定各识别器给出的该待识别数据的关联程度分数 ; 将分数最高的设定个数个识别器, 作为所述多个识别器 ; 所述第一确定单元确定将与待识别数据的关联程度大于设定阈值的识别器, 作为所述 多个识别器, 具体包括 : 确定各识别器给出的该待识别数据的关联程。

13、度分数 ; 将分数超过设定分数值的识别器, 作为所述多个识别器。 15. 如权利要求 14 所述的装置, 其特征在于, 所述各识别器给出的该待识别数据的关 联程度分数, 具体为 : 各识别器分别计算待识别数据和该识别器对应的数据子集的相似度, 并将该相似度作 为该待识别数据的关联程度分数 ; 或者 从所述标注数据集中选取设定数量的与所述待识别数据最相近的标注数据样本, 各识 别器分别确定该识别器对应的数据子集包含的所选取的标注数据样本的数量与该识别器 对应的数据子集中的标注数据样本数量的比值, 为该待识别数据的关联程度分数。 16. 如权利要求 14 所述的装置, 其特征在于, 所述第二确定单。

14、元具体用于 : 对于每个识别器, 根据该识别器给出的该待识别数据的关联程度分数以及该识别器对 该待识别数据进行识别后给出的置信值, 确定该识别器的投票权重 ; 根据所述多个识别器的识别结果以及其投票权重, 确定该待识别数据的最终识别结 果。 17. 如权利要求 16 所述的装置, 其特征在于, 所述第二确定单元对于每个识别器, 根据 该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后 给出的置信值, 确定该识别器的投票权重, 具体为 : 对于每个识别器, 确定该识别器的投票权重为该识别器给出的该待识别数据的关联程 度分数与该识别器对该待识别数据进行识别后给出的置信值的。

15、乘积。 18. 如权利要求 16 所述的装置, 其特征在于, 所述第二确定单元根据所述多个识别器 的识别结果以及其投票权重, 确定该待识别数据的最终识别结果, 具体包括 : 根据多个识别器的识别结果将所述多个识别器进行分组 ; 根据各个识别器的投票权重, 确定每个分组的加权求和值 ; 将加权求和值最大的分组所对应的识别结果, 确定为该待识别数据的最终识别结果。 权 利 要 求 书 CN 103678419 A 4 1/7 页 5 一种数据识别方法及装置 技术领域 0001 本发明涉及数据处理技术, 尤其涉及一种数据识别方法及装置。 背景技术 0002 目前, 现实和虚拟世界的数据产生速度越来越。

16、大, 对数据进行自动识别会便于用 户对数据的查找和使用, 因此, 很多应用或系统在获得新的数据时, 需要通过对已有数据的 识别方式, 对所获得的数据进行数据识别。 0003 目前进行数据识别的方法主要为 : 先从标注数据中选取相应训练数据由识别器进 行学习, 在获得新的数据时, 即可使用学习后的识别器对该数据进行数据识别。 0004 在进行识别器的学习时, 和本专利最相关的技术包括大规模机器学习以及集成学 习, 下面分别对这两种学习方式进行具体说明 : 0005 大规模机器学习是指能够利用大规模数据来监督识别器学习以解决大数据分析 基本问题的理论或方法, 大数据 (大规模数据, 通常至少包括1。

17、0W标注数据样本) 概念的出现 使很多只关心识别精度的传统的机器学习方法不再适用。 0006 集成学习是通过利用不同的训练标注数据集合或者不同的特征集合训练得到多 个识别器, 在应用过程中这多个识别器以某种组合策略, 比如投票, 来解决某个识别问题。 集成学习主要用来改善单个识别器的识别或预测等的性能精度。 这种机器学习范式相对于 单个识别器的学习算法来说, 更容易扩展到大规模数据的学习任务。比较有影响的集成学 习方法包括 boosting(增强学习方法) , bagging(基于可放回采样的学习方法) 等。 0007 集成学习方法可以使得识别精度较高, 其主要原因是它能够通过群体决策的方式 。

18、来克服单个识别器可能犯得一些识别错误, 而这主要归功于多个识别器的差异性。 因此, 要 实现多个弱识别器的组合以实现强识别器, 需要不同的个体识别器在不同的识别任务中需 要犯不同的错误, 以造成这种差异性。 0008 基于不同的训练集合, 不同的识别器参数, 或者不同的特征集合而获得的多个识 别器模型需要以某种策略组合起来使用来最终决定某个测试实例的最终识别结果, 这种群 体决策的策略就是识别器组合。 0009 集成学习方法具有对于大规模数据上的机器学习具有很强的可扩展性, 但如果直 接将他们应用到大规模数据学习问题中, 由于差异性不明显, 会造成最终的数据挖掘精度 不是很高, 不能取得理想的。

19、效果。 虽然实现了大规模数据学习, 但不能充分体现大规模数据 学习的优势。 0010 目前, 可以通过重采样技术和划分子集的方式, 使得集成学习方法能够应用到大 规模学习中去, 可是, 不同的识别器通过不同的采样技术在大数据中进行采样, 能够实现所 训练的识别器的差异性, 但由于只有部分的训练数据被采样并用来识别器的构建, 所以标 注样本中蕴含的知识并没有都用于识别器的训练。而直接将整个标注数据集分成多个子 集, 这种随机的标注数据集拆分的方法不能保证不同子标注集合之间的差异性, 从而不能 保证多个识别器之间差异性。 说 明 书 CN 103678419 A 5 2/7 页 6 发明内容 00。

20、11 本发明实施例提供一种数据识别方法及装置, 以提高大数据识别的精确度。 0012 一种数据识别方法, 包括 : 0013 分别确定多个识别器对待识别数据进行数据识别的识别结果, 所述多个识别器为 分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数 据子集进行训练形成的识别器 ; 0014 根据各个识别结果确定该待识别数据的最终识别结果。 0015 一种数据识别装置, 包括 : 0016 第一确定单元, 用于分别确定多个识别器对待识别数据进行数据识别的识别结 果, 所述多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数 据集划分成的多个数据子集进。

21、行训练形成的识别器 ; 0017 第二确定单元, 用于根据各个识别结果确定该待识别数据的最终识别结果。 0018 本发明实施例提供一种数据识别方法及装置, 根据标注数据样本的差异性将包含 标注数据样本的标注数据集划分成的多个数据子集, 使得各识别器分别根据各数据子集进 行训练, 保证了各个识别器的差异性, 因此, 在对待识别数据进行数据识别时, 获得训练后 的识别器给出的识别结果, 再根据各个识别结果确定该待识别数据的最终识别结果, 提高 了大数据识别的精确度。 附图说明 0019 图 1 为本发明实施例提供的数据识别方法流程图 ; 0020 图 2 为本发明实施例提供的根据标注数据样本的差异。

22、性将包含标注数据样本的 标注数据集划分多个数据子集的方法流程图 ; 0021 图 3 为本发明实施例提供的根据各个识别结果确定该待识别数据的最终识别结 果的方法流程图之一 ; 0022 图 4 为本发明实施例提供的根据各个识别结果确定该待识别数据的最终识别结 果的方法流程图之二 ; 0023 图 5 为本发明实施例提供的数据识别装置结构示意图。 具体实施方式 0024 本发明实施例提供一种数据识别方法及装置, 根据标注数据样本的差异性将包含 标注数据样本的标注数据集划分成的多个数据子集, 使得各识别器分别根据各数据子集进 行训练, 保证了各个识别器的差异性, 因此, 在对待识别数据进行数据识别。

23、时, 获得训练后 的识别器给出的识别结果, 再根据各个识别结果确定该待识别数据的最终识别结果, 提高 了大数据识别的精确度。 0025 在将整个标注集合分成多个子集过程中, 将数据子集之间的差异性作为一个优化 的指标来考虑进来, 从而保证最后获得的多个子集之间具有最大的差异性。 0026 进一步, 在进行数据识别时, 可以基于标注数据样本的差异性对多个识别器进行 选择 (只有最相关的领域专家才参加最后的投票) , 同时在投票过程中, 不只是多个识别器 说 明 书 CN 103678419 A 6 3/7 页 7 之间的差异性被考虑进来, 还将每个识别器局部的特征, 即每个识别器的置信度信息也考。

24、 虑到最后的识别器组合过程中, 从而进一步提高识别的精度。 0027 具体的, 如图 1 所示, 本发明实施例提供的数据识别方法, 包括 : 0028 步骤 S101、 分别确定多个识别器对待识别数据进行数据识别的识别结果, 多个识 别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的 多个数据子集进行训练形成的识别器 ; 0029 步骤 S102、 根据各个识别结果确定该待识别数据的最终识别结果。 0030 由于将包含标注数据样本的标注数据集根据样本差异性划分成了多个数据子集, 又通过各个数据子集分别对各个识别器进行训练, 保证了各个识别器之间的差异性, 从而 提高了。

25、对数据进行识别的精度。 0031 具体的, 在将包含标注数据样本的标注数据集划分成多个数据子集时, 需要进行 如下三个方面的考虑 : 0032 1) 每个数据子集应该足够大, 从而能够被用来训练单个的识别器 ; 0033 2) 每个数据子集的大小应该使其在进行识别器的训练时, 训练时间不能过长, 即 每个子标注数据集不能过大到不能顺利完成单个识别器的构建 ; 0034 3) 为了实现识别器的差异性 ( 这一点是能够保证集成学习方法能够具有较高识 别精度的关键) , 需要使多个数据子集之间的相似度尽量低。在本发明以下的实施例中, 是 通过图论来表示数据子集之间的相似度。如果数据子集之间的相似度越。

26、高, 则在图中两者 的距离则越小。本领域内技术人员可以理解, 还可以应用其他方式来表示数据子集之间的 相似度, 在此不再赘述。 0035 本发明实施例提供一种标注数据集的划分方法, 将实现多个标注数据集合之间距 离的最大化 (也就是差异最大化) 转换为它的对偶问题, 也就是, 找到一个拆分方案使每个 子标注数据集合中的样本之间的距离之和最小化, 此时, 可以首先获取数据集中的标注数 据样本 ; 再从标注数据样本中, 确定每组相似度最大的设定数量的标注数据样本为一个数 据子集, 直至数据集中的每个标注数据样本均被划分至数据子集中。进而使得每一数据子 集内所包含的标注数据样本之间的相似度最高, 且。

27、数据子集之间的相似度最低。 0036 具体的, 如图 2 所示, 根据标注数据样本的差异性将包含标注数据样本的标注数 据集划分成多个数据子集, 具体包括 : 0037 步骤 S201、 将标注数据集中的每个标注数据样本作为初始的数据子集 ; 0038 步骤 S202、 对于每个所包含标注数据样本数量小于设定的第一阈值的数据子集, 将其和与其距离最小的数据子集合并, 对每个所包含标注数据样本数量大于设定的第二阈 值的数据子集, 将其切分为多个数据子集, 并保证切分后的每个数据子集中所包含标注数 据样本数量均小于设定的第二阈值, 且至多有一个数据子集中所包含标注数据样本数量小 于设定的第一阈值, 。

28、其中, 数据子集间的距离可以通过图论的方式来进行量化, 也可以通过 其它方式进行量化 ; 0039 步骤 S203、 确定每个数据子集中所包含标注数据样本数量均大于设定的第一阈值 且小于设定的第二阈值时, 将当前所划分的数据子集结果作为根据标注数据样本的差异性 将包含标注数据样本的标注数据集划分成的多个数据子集。 0040 其中, 第一阈值根据条件 1) 设定, 即, 使得每个数据子集足够大, 从而能够被用来 说 明 书 CN 103678419 A 7 4/7 页 8 训练单个的识别器, 第二阈值根据条件 2) 设定, 即, 使得每个子标注数据集不能过大到不能 顺利完成单个识别器的构建。 0。

29、041 根据步骤 S202 可知, 第二阈值必然大于第一阈值, 当第二阈值小于第一阈值的二 倍时, 可能出现切分后的数据子集中, 有一个数据子集必然不能满足条件 1) 或条件 2) , 此 时, 则保证切分后的每个数据子集中所包含标注数据样本数量均小于设定的第二阈值, 且 至多有一个数据子集中所包含标注数据样本数量小于设定的第一阈值, 从而可以使得小于 设定的第一阈值的数据子集与其它子集进行进一步合并, 当然, 为进一步便于标注数据集 的划分, 第二阈值设定为第一阈值的整数倍较佳。 0042 通常, 数据子集的大小和训练识别器的关系为, 随着数据子集中的数据数量从 0 开始增大, 训练识别器的。

30、效果越来越好, 直至数据子集中的数据数量达到某一最佳值, 此时 训练识别器的效果达到最佳, 随后, 随着数据子集中的数据数量继续增大, 训练识别器的效 果也越来越差, 因此, 第一阈值和第二阈值的设定, 可以参考数据子集的大小和训练识别器 的关系曲线进行。 0043 当然, 在本实施例中是每次只与一个相似度最高的数据子集进行合并。本领域内 技术人员可以理解, 还可以每次与两个或多个数据子集进行合并, 其原理与上述实施例相 似, 在此不再赘述。 0044 进一步, 在对待识别数据进行识别时, 可以仅使用与该待识别数据关联程度较大 的识别器进行识别, 从而避免与该待识别数据关联程度较小的识别器给出。

31、的错误识别结果 造成的干扰, 从而进一步提高识别精度。 0045 具体的, 在步骤 S101 分别确定多个识别器对待识别数据进行数据识别的识别结 果前, 还包括 : 0046 确定将与待识别数据关联程度最大的设定个数的识别器, 作为多个识别器 ; 或者 0047 确定将与待识别数据的关联程度大于设定阈值的识别器, 作为多个识别器。 0048 其中, 确定将与待识别数据关联程度最大的设定个数的识别器, 作为多个识别器, 具体包括 : 0049 确定各识别器给出的该待识别数据的关联程度分数 ; 0050 将分数最高的设定个数个识别器, 作为多个识别器 ; 0051 相应的, 确定将与待识别数据的关。

32、联程度大于设定阈值的识别器, 作为多个识别 器, 具体包括 : 0052 确定各识别器给出的该待识别数据的关联程度分数 ; 0053 将分数超过设定分数值的识别器, 作为多个识别器。 0054 各个识别器可以根据待识别数据与训练自身的数据子集中各数据的关联程度给 出该待识别数据的关联程度分数, 具体的, 本发明实施例中确定各识别器给出的该待识别 数据的关联程度分数, 具体为 : 0055 各识别器分别计算待识别数据和该识别器对应的数据子集的相似度, 并将该相似 度作为该待识别数据的关联程度分数 ; 或者 0056 从标注数据集中选取设定数量的与待识别数据最相近的标注数据样本, 各识别器 分别确。

33、定该识别器对应的数据子集包含的所选取的标注数据样本的数量与该识别器对应 的数据子集中的标注数据样本数量的比值, 为该待识别数据的关联程度分数。 说 明 书 CN 103678419 A 8 5/7 页 9 0057 在步骤 S102 中, 根据各个识别结果确定该待识别数据的最终识别结果, 可以直接 采用相同识别结果数量最多的识别结果作为该待识别数据的最终识别结果, 为进一步提高 识别精度, 本发明实施例还提供一种较佳的根据各个识别结果确定该待识别数据的最终识 别结果的方式, 此时, 如图 3 所示, 步骤 S102 包括 : 0058 步骤 S301、 对于每个识别器, 根据该识别器给出的该待。

34、识别数据的关联程度分数 以及该识别器对该待识别数据进行识别后给出的置信值, 确定该识别器的投票权重 ; 0059 步骤 S302、 根据多个识别器的识别结果以及其投票权重, 确定该待识别数据的最 终识别结果。 0060 其中, 步骤 S301 中, 对于每个识别器, 根据该识别器给出的该待识别数据的关联 程度分数以及该识别器对该待识别数据进行识别后给出的置信值, 确定该识别器的投票权 重, 具体为 : 0061 对于每个识别器, 确定该识别器的投票权重为该识别器给出的该待识别数据的关 联程度分数与该识别器对该待识别数据进行识别后给出的置信值的乘积。 0062 如图4所示, 步骤S302中, 根。

35、据多个识别器的识别结果以及其投票权重, 确定该待 识别数据的最终识别结果, 具体包括 : 0063 步骤 S401、 根据多个识别器的识别结果将多个识别器进行分组 ; 0064 步骤 S402、 根据各个识别器的投票权重, 确定每个分组的加权求和值 ; 0065 步骤 S403、 将加权求和值最大的分组所对应的识别结果, 确定为该待识别数据的 最终识别结果。 0066 例如, 若 10 个识别器对待识别数据进行识别, 其中 3 个识别器给出的识别结果 为 A, 且权重分别为 0.1、 0.2、 0.3, 3 个识别器给出的识别结果为 B, 且权重分别为 0.5、 0.5、 0.4, 4 个识别。

36、器给出的识别结果为 C, 且权重分别为 0.2、 0.2、 0.3、 0.1, 可以得出, 识别结 果为 A 的分组的加权求和值为 0.1+0.2+0.3=0.6, 识别结果为 B 的分组的加权求和值为 0.5+0.5+0.4=1.4, 识别结果为 C 的分组的加权求和值为 0.2+0.2+0.3+0.1=0.8, 则可以确 定识别结果为 B 的分组的加权求和值最大, 最终识别结果为 B。 0067 相应的, 本发明实施例还提供一种数据识别装置, 如图 5 所示, 该装置包括 : 0068 第一确定单元 501, 用于分别确定多个识别器对待识别数据进行数据识别的识别 结果, 多个识别器为分别通。

37、过根据标注数据样本的差异性将包含标注数据样本的标注数据 集划分成的多个数据子集进行训练形成的识别器 ; 0069 第二确定单元 502, 用于根据各个识别结果确定该待识别数据的最终识别结果。 0070 其中, 第一确定单元 501 根据标注数据样本的差异性将包含标注数据样本的标注 数据集划分成多个数据子集, 具体包括 : 0071 获取数据集中的标注数据样本 ; 0072 从标注数据样本中, 确定每组相似度最大的设定数量的标注数据样本为一个数据 子集, 直至数据集中的每个标注数据样本均被划分至数据子集中。 0073 具体的, 第一确定单元 501 根据标注数据样本的差异性将包含标注数据样本的标。

38、 注数据集划分成多个数据子集, 具体包括 : 0074 将标注数据集中的每个标注数据样本作为初始的数据子集 ; 0075 对于每个所包含标注数据样本数量小于设定的第一阈值的数据子集, 将其和与其 说 明 书 CN 103678419 A 9 6/7 页 10 距离最小的数据子集合并, 对每个所包含标注数据样本数量大于设定的第二阈值的数据子 集, 将其切分为多个数据子集, 并保证切分后的每个数据子集中所包含标注数据样本数量 均小于设定的第二阈值, 且至多有一个数据子集中所包含标注数据样本数量小于设定的第 一阈值 ; 0076 确定每个数据子集中所包含标注数据样本数量均大于设定的第一阈值且小于设 。

39、定的第二阈值时, 将当前所划分的数据子集结果作为根据标注数据样本的差异性将包含标 注数据样本的标注数据集划分成的多个数据子集。 0077 第一确定单元 501 还用于 : 0078 在分别确定多个识别器对待识别数据进行数据识别的识别结果前, 确定将与待识 别数据关联程度最大的设定个数的识别器, 作为多个识别器 ; 或者 0079 在分别确定多个识别器对待识别数据进行数据识别的识别结果前, 确定将与待识 别数据的关联程度大于设定阈值的识别器, 作为多个识别器。 0080 第一确定单元 501 确定将与待识别数据关联程度最大的设定个数的识别器, 作为 多个识别器, 具体包括 : 0081 确定各识。

40、别器给出的该待识别数据的关联程度分数 ; 0082 将分数最高的设定个数个识别器, 作为多个识别器 ; 0083 第一确定单元 501 确定将与待识别数据的关联程度大于设定阈值的识别器, 作为 多个识别器, 具体包括 : 0084 确定各识别器给出的该待识别数据的关联程度分数 ; 0085 将分数超过设定分数值的识别器, 作为多个识别器。 0086 其中, 各识别器给出的该待识别数据的关联程度分数, 具体为 : 0087 各识别器分别计算待识别数据和该识别器对应的数据子集的相似度, 并将该相似 度作为该待识别数据的关联程度分数 ; 或者 0088 从标注数据集中选取设定数量的与待识别数据最相近。

41、的标注数据样本, 各识别器 分别确定该识别器对应的数据子集包含的所选取的标注数据样本的数量与该识别器对应 的数据子集中的标注数据样本数量的比值, 为该待识别数据的关联程度分数。 0089 第二确定单元 502 具体用于 : 0090 对于每个识别器, 根据该识别器给出的该待识别数据的关联程度分数以及该识别 器对该待识别数据进行识别后给出的置信值, 确定该识别器的投票权重 ; 0091 根据多个识别器的识别结果以及其投票权重, 确定该待识别数据的最终识别结 果。 0092 第二确定单元 502 对于每个识别器, 根据该识别器给出的该待识别数据的关联程 度分数以及该识别器对该待识别数据进行识别后给。

42、出的置信值, 确定该识别器的投票权 重, 具体为 : 0093 对于每个识别器, 确定该识别器的投票权重为该识别器给出的该待识别数据的关 联程度分数与该识别器对该待识别数据进行识别后给出的置信值的乘积。 0094 第二确定单元 502 根据多个识别器的识别结果以及其投票权重, 确定该待识别数 据的最终识别结果, 具体包括 : 0095 根据多个识别器的识别结果将多个识别器进行分组 ; 说 明 书 CN 103678419 A 10 7/7 页 11 0096 根据各个识别器的投票权重, 确定每个分组的加权求和值 ; 0097 将加权求和值最大的分组所对应的识别结果, 确定为该待识别数据的最终识。

43、别结 果。 0098 本发明实施例提供一种数据识别方法及装置, 根据标注数据样本的差异性将包含 标注数据样本的标注数据集划分成的多个数据子集, 使得各识别器分别根据各数据子集进 行训练, 保证了各个识别器的差异性, 因此, 在对待识别数据进行数据识别时, 获得训练后 的识别器给出的识别结果, 再根据各个识别结果确定该待识别数据的最终识别结果, 提高 了大数据识别的精确度。 0099 本领域内的技术人员应明白, 本发明的实施例可提供为方法、 系统、 或计算机程序 产品。因此, 本发明可采用完全硬件实施例、 完全软件实施例、 或结合软件和硬件方面的实 施例的形式。而且, 本发明可采用在一个或多个其。

44、中包含有计算机可用程序代码的计算机 可用存储介质 (包括但不限于磁盘存储器、 CD-ROM、 光学存储器等) 上实施的计算机程序产 品的形式。 0100 本发明是参照根据本发明实施例的方法、 设备 (系统) 、 和计算机程序产品的流程 图和或方框图来描述的。 应理解可由计算机程序指令实现流程图和或方框图中的每一 流程和或方框、 以及流程图和或方框图中的流程和或方框的结合。可提供这些计算 机程序指令到通用计算机、 专用计算机、 嵌入式处理机或其他可编程数据处理设备的处理 器以产生一个机器, 使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生 用于实现在流程图一个流程或多个流程和或方框图。

45、一个方框或多个方框中指定的功能 的装置。 0101 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特 定方式工作的计算机可读存储器中, 使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品, 该指令装置实现在流程图一个流程或多个流程和或方框图一个方框或 多个方框中指定的功能。 0102 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计 算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理, 从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和或方框图 一个方框或多个方框中指定的功能的步骤。 0103 。

46、尽管已描述了本发明的优选实施例, 但本领域内的技术人员一旦得知了基本创造 性概念, 则可对这些实施例作出另外的变更和修改。 所以, 所附权利要求意欲解释为包括优 选实施例以及落入本发明范围的所有变更和修改。 0104 显然, 本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样, 倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内, 则本发明也意图包含这些改动和变型在内。 说 明 书 CN 103678419 A 11 1/2 页 12 图 1 图 2 图 3 说 明 书 附 图 CN 103678419 A 12 2/2 页 13 图 4 图 5 说 明 书 附 图 CN 103678419 A 13 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1