一种数据分类的方法及装置.pdf

摘要
申请专利号：	CN201310148102.3	申请日：	2013.04.25
公开号：	CN104123291A	公开日：	2014.10.29
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20130425\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	华为技术有限公司
发明人：	臧文阳; 齐泉
地址：	518129 广东省深圳市龙岗区坂田华为总部办公楼
优先权：
专利代理机构：	深圳中一专利商标事务所 44237	代理人：	张全文
PDF下载：	PDF下载

内容摘要

本发明实施例公开了一种数据分类的方法及装置，所述方法通过预先定义分类的冲突处理规则，解决分类中有冲突的数据，得到有效数据，从而得到无歧义、无冲突的数据；并使用常用词表，筛选有效数据得到搭配词表，根据所述搭配词表形成概率矩阵，从而避免出现数据稀疏的情况。

权利要求书

1.  一种数据分类的方法，其特征在于，所述方法包括：
对数据进行分词、去停顿词的处理；
对处理后的数据做词频统计，将所述处理后的数据中的词按照词频由大到小排序，根据预先设置的常用词的取词范围，在所述取词范围中选取常用词生成常用词表；
将所述处理后的数据进行分类，分类后的所述处理后的数据所属的类别之间的关系是不冲突或者冲突；
预先定义冲突处理规则，当同一处理后的数据所属的类别之间的关系有冲突时，根据所述冲突处理规则得到有效数据，使得所述有效数据所属的类别不冲突；
根据所述常用词表，筛选所述有效数据得到搭配词表，所述搭配词表包括常用词和常用词组合；
统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵；
根据所述概率矩阵对数据进行分类。

2.  根据权利要求1所述的方法，其特征在于，所述预先定义冲突处理规则，包括：
当对所述处理后的数据进行分类后，所述处理后的数据同时属于A类和B类，当A类和B类不冲突时，则标识所述处理后的数据不冲突，所述处理后的数据同时属于A类和B类；
当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于A类；
或者当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于B类；
当A类和B类互相冲突时，且没有冲突处理规则解决所述A类和B类的冲突时，则标识所述处理后的数据冲突。

3.  根据权利要求2所述的方法，其特征在于，所述根据所述冲突处理规则得到有效数据，包括：
当对所述处理后的数据进行分类后，所述处理后的数据属于某一个分类时，则标识所述处理后的数据不冲突，所述处理后的数据属于所述某一个分类；
当所述处理后的数据同时属于两个冲突的分类时，则根据所述冲突处理规则，得到有效数据；
当所述处理后的数据同时属于两个以上的分类时，则根据所述冲突处理规则化简所述两个以上的分类集合；
对化简后的分类集合，根据所述冲突处理规则中当A类和B类相互冲突时，且没有冲突处理规则解决A类和B类的冲突时，标识所述处理后的数据为冲突。

4.  根据权利要求3所述的方法，其特征在于，所述根据所述冲突处理规则化简所述两个以上的分类集合，包括：
当所述两个以上的分类集合中A类和B类不冲突时，将A类和B类化简为同一类；
当所述两个以上的分类集合中A类和B类互相冲突时以A类为准，将A类和B类化简为A类；
当所述两个以上的分类集合中A类和B类互相冲突时以B类为准，将A类和B类化简为B类。

5.  根据权利要求1至4任意一项所述的方法，其特征在于，所述根据所述常用词表，筛选所述有效数据得到搭配词表，包括：
根据所述常用词表，筛选所述有效数据得到所述常用词表中的词，当所述常用词表中的同一个词出现多次时，仅按照一次处理，当筛选后的词少于等于3时，得到所述有效数据的常用词组合，所述常用词组合中对有效数据中的词的顺序不做限制；
对所有有效数据做筛选后，将所述筛选后的词和所述常用词组合形成搭配词表。

6.  根据权利要求5所述的方法，其特征在于，所述统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数，包括：
统计每一分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
统计所有分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数。

7.  根据权利要求6所述的方法，其特征在于，所述根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵，包括：
将所有分类作为列，将所述搭配词表中常用词或者常用词组合在每一列下出现的次数作为行，形成矩阵；
根据所述矩阵，将所述矩阵中每一行在每一列的次数除以所述每一行在所有列的总次数，得到每一行在每一列的概率，形成概率矩阵。

8.  根据权利要求1至7所述的方法，其特征在于，所述根据所述概率矩阵对数据进行分类，包括：
在所述概率矩阵中找到数据筛选后得到的最长的常用词组合在每一列的概率；
将概率最大的列对应的类别作为所述数据的类别。

9.  一种数据分类的装置，其特征在于，所述装置包括：
处理单元，用于对数据进行分词、去停顿词的处理；
第一统计单元，用于对处理后的数据做词频统计，将所述处理后的数据中的词按照词频由大到小排序，根据预先设置的常用词的取词范围，在所述取词范围中选取常用词生成常用词表；
第一分类单元，用于将所述处理后的数据进行分类，分类后的所述处理后的数据所属的类别之间的关系是不冲突或者冲突；
解决冲突单元，用于预先定义冲突处理规则，当同一处理后的数据所属的类别之间的关系有冲突时，根据所述冲突处理规则得到有效数据，使得所述有效数据所属的类别不冲突；
筛选单元，用于根据所述常用词表，筛选所述有效数据得到搭配词表，所述搭配词表包括常用词或者常用词组合；
第二统计单元，用于统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
归一化单元，用于根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵；
第二分类单元，用于根据所述概率矩阵对数据进行分类。

10.  根据权利要求9所述的装置，其特征在于，所述解决冲突单元中执行步骤预先定义冲突处理规则，包括：
当对所述处理后的数据进行分类后，所述处理后的数据同时属于A类和B类时，当A类和B类不冲突时，则标识所述处理后的数据不冲突，所述处理后的数据同时属于A类和B类；
当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于A类；
或者当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于B类；
当A类和B类互相冲突时，且没有冲突处理规则解决所述A类和B类的冲突时，则标识所述处理后的数据冲突。

11.  根据权利要求10所述的装置，其特征在于，所述解决冲突单元中执行步骤根据所述冲突处理规则得到有效数据，包括：
当对所述处理后的数据进行分类后，所述处理后的数据属于某一个分类时，则标识所述处理后的数据不冲突，所述处理后的数据属于所述某一个分类；
当所述处理后的数据同时属于两个冲突的分类时，则根据所述冲突处理规则，得到有效数据；
当所述处理后的数据同时属于两个以上的分类时，则根据所述冲突处理规则化简所述两个以上的分类集合；
对化简后的分类集合，根据所述冲突处理规则中当A类和B类相互冲突时，且没有冲突处理规则解决A类和B类的冲突时，标识所述处理后的数据为冲突。

12.  根据权利要求11所述的装置，其特征在于，所述解决冲突单元中执行步骤根据所述冲突处理规则化简所述两个以上的分类集合，包括：
当所述两个以上的分类集合中A类和B类不冲突时，将A类和B类化简为同一类；
当所述两个以上的分类集合中A类和B类互相冲突时以A类为准，将A类和B类化简为A类；
当所述两个以上的分类集合中A类和B类互相冲突时以B类为准，将A类和B类化简为B类。

13.  根据权利要求9至12任意一项所述的装置，其特征在于，所述筛选单元具体用于：
根据所述常用词表，筛选所述有效数据得到所述常用词表中的词，当所述常用词表中的同一个词出现多次时，仅按照一次处理，当筛选后的词少于等于3时，得到所述有效数据的常用词组合，所述常用词组合中对有效数据中的词的顺序不做限制；
对所有有效数据做筛选后，将所述筛选后的词和所述常用词组合形成搭配词表。

14.  根据权利要求13所述的装置，其特征在于，所述第二统计单元，具体用于：
统计每一分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
统计所有分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数。

15.  根据权利要求14所述的装置，其特征在于，所述归一化单元，包括：
矩阵单元，用于将所有分类作为列，将所述搭配词表中常用词或者常用词组合在每一列下出现的次数作为行，形成矩阵；
概率矩阵单元，用于根据所述矩阵，将所述矩阵中每一行在每一列的次数除以所述每一行在所有列的总次数，得到每一行在每一列的概率，形成概率矩阵。

16.  根据权利要求9至15所述的装置，其特征在于，所述第二分类单元，包括：
筛选子单元，用于在所述概率矩阵中找到数据筛选后得到的最长的常用词组合在每一列的概率；
第二分类子单元，用于将概率最大的列对应的类别作为所述数据的类别。

说明书

一种数据分类的方法及装置
技术领域
本发明涉及数据分析处理领域，尤其涉及到一种数据分类的方法及装置。
背景技术
实际工作中很多记录都是由人工记录的，属于超短文本，其中很多记录可能会出现描述前后不一致的情况。比如，在同一超短文本中，某些字段中写的故障原因是焊接，但是在某些字段又说明是雷击造成故障。如果在这种数据质量不好的情况下进行数据挖掘，会大大降低分析的准确度，所以有必要对数据进行预处理，对数据按照故障原因分为几类，通过分类方法解决问题。
IFIDF分类方法的主要思想是如果某个词或者短语在同一超短文本中出现的频率IF高，并且在其他超短文本中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。IFIDF实际是IF*IDF，IF是词频（Term Frequency），IDF是反文档频率（Inverse Document Frequency），IF表示词条在超短文本中出现的频率，IDF表示词条在本超短文本和其他超短文本的对比结果，当词条在本超短文本出现频率越高，但在其他超短文本出现频率越低时，说明所述词条具有很好的类别区分能力，则所述词条在本超短文本的IDF值越大。IFIDF分类方法的缺点是没有考虑分类和分类之间的关系；分类与分类之间存在交集，对于交集的超短文本没有做特别的处理；超短文本命中的准确率较低；只体现一个词和分类的关系，没有体现多个词搭配出现时和分类的关系。
N元文法分类方法的主要思路是词条的概率是由一组特定的词构成的序列决定的，称为所述词条的历史（history）。N元文法是大词汇连续出现时常用的一种语言模型，该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其他任何词都不相关，整句的概率就是各个词出现的概率的乘积，而这些概率可以通过直接从语料中统计N个词同时出现的次数得到，常用的是二元文法和三元文法。N元文法的缺点是当由4个以上的词构成序列的情况下，超短文本中数据稀疏非常严重，基本上N元文法没办法使用；同时，序列需要重新训练语言模型，由人工标注，工作量比较大。
发明内容
本发明提供了一种数据分类的方法及装置，所述方法旨在解决分类时数据冲突及数据稀疏的问题。
第一方面，一种数据分类的方法，所述方法包括：
对数据进行分词、去停顿词的处理；
对处理后的数据做词频统计，将所述处理后的数据中的词按照词频由大到小排序，根据预先设置的常用词的取词范围，在所述取词范围中选取常用词生成常用词表；
将所述处理后的数据进行分类，分类后的所述处理后的数据所属的类别之间的关系是不冲突或者冲突；
预先定义冲突处理规则，当同一处理后的数据所属的类别之间的关系有冲突时，根据所述冲突处理规则得到有效数据，使得所述有效数据所属的类别不冲突；
根据所述常用词表，筛选所述有效数据得到搭配词表，所述搭配词表包括常用词和常用词组合；
统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵；
根据所述概率矩阵对数据进行分类。
结合第一方面，在第一方面的第一种可能的实现方式中，所述预先定义冲突处理规则，包括：
当对所述处理后的数据进行分类后，所述处理后的数据同时属于A类和B类时，当A类和B类不冲突时，则标识所述处理后的数据不冲突，所述处理后的数据同时属于A类和B类；
当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于A类；
或者当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于B类；
当A类和B类互相冲突时，且没有冲突处理规则解决所述A类和B类的冲突时，则标识所述处理后的数据冲突。
结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述根据所述冲突处理规则得到有效数据，包括：
当对所述处理后的数据进行分类后，所述处理后的数据属于某一个分类时，则标识所述处理后的数据不冲突，所述处理后的数据属于所述某一个分类；
当所述处理后的数据同时属于两个冲突的分类时，则根据所述冲突处理规则，得到有效数据；
当所述处理后的数据同时属于两个以上的分类时，则根据所述冲突处理规则化简所述两个以上的分类集合；
对化简后的分类集合，根据所述冲突处理规则中当A类和B类相互冲突时，且没有冲突处理规则解决A类和B类的冲突时，标识所述处理后的数据为冲突。
结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述根据所述冲突处理规则化简所述两个以上的分类集合，包括：
当所述两个以上的分类集合中A类和B类不冲突时，将A类和B类化简为同一类；
当所述两个以上的分类集合中A类和B类互相冲突时以A类为准，将A类和B类化简为A类；
当所述两个以上的分类集合中A类和B类互相冲突时以B类为准，将A类和B类化简为B类。
结合第一方面或者第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式或者第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述根据所述常用词表，筛选所述有效数据得到搭配词表，包括：
根据所述常用词表，筛选所述有效数据得到所述常用词表中的词，当所述常用词表中的同一个词出现多次时，仅按照一次处理，当筛选后的词少于等于3时，得到所述有效数据的常用词组合，所述常用词组合中对有效数据中的词的顺序不做限制；
对所有有效数据做筛选后，将所述筛选后的词和所述常用词组合形成搭配词表。
结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，所述统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数，包括：
统计每一分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
统计所有分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数。
结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，所述根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵，包括：
将所有分类作为列，将所述搭配词表中常用词或者常用词组合在每一列下出现的次数作为行，形成矩阵；
根据所述矩阵，将所述矩阵中每一行在每一列的次数除以所述每一行在所有列的总次数，得到每一行在每一列的概率，形成概率矩阵。
结合第一方面或者第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式或者第一方面的第三种可能的实现方式或者第一方面的第四种可能的实现方式或者第一方面的第五种可能的实现方式或者第一方面的第六种可能的实现方式，在第一方面的第七种可能的实现方式中，所述根据所述概率矩阵对数据进行分类，包括：
在所述概率矩阵中找到数据筛选后得到的最长的常用词组合在每一列的概率；
将概率最大的列对应的类别作为所述数据的类别。
第二方面，一种数据分类的装置，所述装置包括：
处理单元，用于对数据进行分词、去停顿词的处理；
第一统计单元，用于对处理后的数据做词频统计，将所述处理后的数据中的词按照词频由大到小排序，根据预先设置的常用词的取词范围，在所述取词范围中选取常用词生成常用词表；
第一分类单元，用于将所述处理后的数据进行分类，分类后的所述处理后的数据所属的类别之间的关系是不冲突或者冲突；
解决冲突单元，用于预先定义冲突处理规则，当同一处理后的数据所属的类别之间的关系有冲突时，根据所述冲突处理规则得到有效数据，使得所述有效数据所属的类别不冲突；
筛选单元，用于根据所述常用词表，筛选所述有效数据得到搭配词表，所述搭配词表包括常用词或者常用词组合；
第二统计单元，用于统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
归一化单元，用于根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵；
第二分类单元，用于根据所述概率矩阵对数据进行分类。
结合第二方面，在第二方面的第一种可能的实现方式中，所述解决冲突单元中执行步骤预先定义分类之间的关系和冲突处理规则，包括：
当对所述处理后的数据进行分类后，所述处理后的数据同时属于A类和B类时，当A类和B类不冲突时，则标识所述处理后的数据不冲突，所述处理后的数据同时属于A类和B类；
当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于A类；
或者当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于B类；
当A类和B类互相冲突时，且没有冲突处理规则解决所述A类和B类的冲突时，则标识所述处理后的数据冲突。
结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述解决冲突单元中执行步骤根据所述冲突处理规则得到有效数据，包括：
当对所述处理后的数据进行分类后，所述处理后的数据属于某一个分类时，则标识所述处理后的数据不冲突，所述处理后的数据属于所述某一个分类；
当所述处理后的数据同时属于两个冲突的分类时，则根据所述冲突处理规则，得到有效数据；
当所述处理后的数据同时属于两个以上的分类时，则根据所述冲突处理规则化简所述两个以上的分类集合；
对化简后的分类集合，根据所述冲突处理规则中当A类和B类相互冲突时，且没有冲突处理规则解决A类和B类的冲突时，标识所述处理后的数据为冲突。
结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述解决冲突单元中执行步骤根据所述冲突处理规则化简所述两个以上的分类集合，包括：
当所述两个以上的分类集合中A类和B类不冲突时，将A类和B类化简为同一类；
当所述两个以上的分类集合中A类和B类互相冲突时以A类为准，将A类和B类化简为A类；
当所述两个以上的分类集合中A类和B类互相冲突时以B类为准，将A类和B类化简为B类。
结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可能的实现方式或者第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述筛选单元具体用于：
根据所述常用词表，筛选所述有效数据得到所述常用词表中的词，当所述常用词表中的同一个词出现多次时，仅按照一次处理，当筛选后的词少于等于3时，得到所述有效数据的常用词组合，所述常用词组合中对有效数据中的词的顺序不做限制；
对所有有效数据做筛选后，将所述筛选后的词和所述常用词组合形成搭配词表。
结合第二方面的四种可能的实现方式，在第二方面的第五种可能的实现方式中，所述第二统计单元，具体用于：
统计每一分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
统计所有分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数。
结合第二方面的五种可能的实现方式，在第二方面的第六种可能的实现方式中，所述归一化单元，包括：
矩阵单元，用于将所有分类作为列，将所述搭配词表中常用词或者常用词组合在每一列下出现的次数作为行，形成矩阵；
概率矩阵单元，用于根据所述矩阵，将所述矩阵中每一行在每一列的次数除以所述每一行在所有列的总次数，得到每一行在每一列的概率，形成概率矩阵。
结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可能的实现方式或者第二方面的第三种可能的实现方式或者第二方面的第四种可能的实现方式或者第二方面的第五种可能的实现方式或者第二方面的第六种可能的实现方式，在第二方面的第七种可能的实现方式中，所述第二分类单元，包括：
筛选子单元，用于在所述概率矩阵中找到数据筛选后得到的最长的常用词组合在每一列的概率；
第二分类子单元，用于将概率最大的列对应的类别作为所述数据的类别。与现有技术相比，本发明实施例提供一种数据分类的方法，所述方法通过预先定义分类的冲突处理规则，解决分类中有冲突的数据，得到有效数据，从而得到无歧义、无冲突的数据；并使用常用词表，筛选有效数据得到搭配词表，根据所述搭配词表形成概率矩阵，从而避免出现数据稀疏的情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据分类的方法流程图；
图2是本发明实施例提供的一种数据分类装置的装置结构图；
图3是本发明实施例提供的一种数据分类装置中归一化单元的装置结构图；
图4是本发明实施例提供的一种数据分类装置中第二分类单元的装置结构图；
图5是本发明实施例提供的一种数据分类装置的装置结构图。
具体实施方式
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
参考图1，图1是本发明实施例提供的一种数据分类的方法流程图。如图1所示，所述方法包括以下步骤：
步骤101，对数据进行分词、去停顿词的处理；
具体的，可以用自然语言处理工具进行处理，完成分词、去停顿词等工作。
步骤102，对处理后的数据做词频统计，将所述处理后的数据中的词按照词频由大到小排序，根据预先设置的常用词的取词范围，在所述取词范围中选取常用词生成常用词表；
可选地，所述常用词的取值范围为前20%。
具体的，对所有数据做完处理后，统计处理后的所有数据中的词的频率，并按照频率的大小对所有数据中的词进行排序，选取排序前20%的词作为常用词，生成常用词表。
步骤103，将所述处理后的数据进行分类，分类后的所述处理后的数据所属的类别之间的关系是不冲突或者冲突；
具体的，使用传统的方法对所有数据进行分类或者使用朴素贝叶斯方法对所有数据进行分类。假设同一个数据分类后既是A类，又是B类，A类是雷击，B类是进水，则A类和B类是同时出现的，则该数据分类后所属的类别是不冲突的。
步骤104，预先定义冲突处理规则，当同一处理后的数据所属的类别之间的关系有冲突时，根据所述冲突处理规则得到有效数据，使得所述有效数据所属的类别不冲突；
可选地，所述预先定义冲突处理规则，包括：
当对所述处理后的数据进行分类后，所述处理后的数据同时属于A类和B类时，当A类和B类不冲突时，则标识所述处理后的数据不冲突，所述处理后的数据同时属于A类和B类；
当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于A类；
或者当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于B类；
当A类和B类互相冲突时，且没有冲突处理规则解决所述A类和B类的冲突时，则标识所述处理后的数据冲突。
具体的，冲突处理规则是由连个分类和一个操作符组成。可以定义一些符号表示这些规则：
A∞B表示A、B不冲突，不冲突。比如，A类是进水，B类是雷击，进水和雷击可能是因为同一个原因下雨而同时出现的，则A类和B类是不冲突的；
A≮B表示A、B两个类互相冲突，而且冲突时以分类B的为准，假设A类是焊接，B类是雷击，根据外部经验，A类和B类是无关的，既无法找到一个原因是既能造成焊接又能造成雷击，因此，A类和B类是冲突的；
A≯B表示A、B两个类互相冲突，而且冲突时以分类A的为准；
比如：焊接≮雷击，或者雷击≯焊接；
A≠B表示A、B两个类互相冲突，但是没有规则解决冲突，比如：进水≠焊接。
可选地，所述根据所述冲突处理规则得到有效数据，包括：
当对所述处理后的数据进行分类后，所述处理后的数据属于某一个分类时，则标识所述处理后的数据不冲突，所述处理后的数据属于所述某一个分类；
当所述处理后的数据同时属于两个冲突的分类时，则根据所述冲突处理规则，得到有效数据；
当所述处理后的数据同时属于两个以上的分类时，则根据所述冲突处理规则化简所述两个以上的分类集合；
对化简后的分类集合，根据所述冲突处理规则中当A类和B类相互冲突时，且没有冲突处理规则解决A类和B类的冲突时，标识所述处理后的数据为冲突。
其中，所述有效数据是标识为A类和/或B类的数据。
具体的，参考如下的伪代码：

所述根据所述冲突处理规则化简所述两个以上的分类集合，包括：
当所述两个以上的分类集合中A类和B类不冲突时，将A类和B类化简为同一类；
当所述两个以上的分类集合中A类和B类互相冲突时以A类为准，将A类和B类化简为A类；
当所述两个以上的分类集合中A类和B类互相冲突时以B类为准，将A类和B类化简为B类。
步骤105，根据所述常用词表，筛选所述有效数据得到搭配词表，所述搭配词表包括常用词和常用词组合；
可选地，所述根据所述常用词表，筛选所述有效数据得到搭配词表，包括：
根据所述常用词表，筛选所述有效数据得到所述常用词表中的词，当所述常用词表中的同一个词出现多次时，仅按照一次处理，当筛选后的词少于等于3时，得到所述有效数据的常用词组合，所述常用词组合中对有效数据中的词的顺序不做限制；
对所有有效数据做筛选后，将所述筛选后的词和所述常用词组合形成搭配词表。
具体的，当数据i1根据所述常用词表筛选后，得到“失效”，则搭配词表中会出现“失效”；当数据i2根据所述常用词表筛选后，得到“短路，脱落”，则搭配词表中会出现“短路，脱落”。
同时，当数据i1根据常用词表筛选后，“失效”出现两次，则仅按照一次做处理，即搭配词表中“失效”仅出现一次；当数据i3根据所述常用词表筛选后，得到“脱落，短路”，则搭配词表中可用“短路，脱落”替代，不考虑词的顺序；当数据i4根据常用词表筛选后，出现“脱落，短路，失效，雷击，进水”等四个以上的词时，可不考虑将筛选后的数据i4作为搭配词表中的常用词组合。
搭配词表的格式可如表1所示：

常用词组合词的个数失效1短路，脱落2……

表1
步骤106，统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
可选地，所述统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数，形成矩阵，包括：
统计每一分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
统计所有分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数。
具体的，统计方法可参考如下的伪代码：

统计后的格式可参考表2：
进水雷击焊接失效单板、烧毁、短路329805020烧焦1590705………...

表2
如表2所示，对有效数据根据搭配词表进行筛选，例如，对进水下的所有有效数据根据搭配词表筛选，假设i1数据属于进水，且i1数据根据搭配词表筛选后得到“烧焦”，则统计进水类别下“烧焦”为1，依此类推。假设i1数据筛选后统计到“烧焦”出现次数大于一次，仅以统计一次。
步骤107，根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵；
可选地，所述根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵，包括：
将所有分类作为列，将所述搭配词表中常用词或者常用词组合在每一列下出现的次数作为行，形成矩阵；
根据所述矩阵，将所述矩阵中每一行在每一列的次数除以所述每一行在所有列的总次数，得到每一行在每一列的概率，形成概率矩阵。
具体的，参考表3，
进水雷击焊接失效单板、烧毁、短路0.2950.9060.0460.018烧焦0.0830.50.3890.028………...

表3
具体的，以计算“烧焦”为例，在“进水”分类下的概率为15/(15+90+70+5)=0.083,在“雷击”分类下的概率为90/(15+90+70+5)=0.5,在“焊接”分类下的概率为70/(15+90+70+5)=0.389，在“失效”分类下的概率为5/(15+90+70+5)=0.028。
步骤108，根据所述概率矩阵对数据进行分类。
所述根据所述概率矩阵对数据进行分类，包括：
在所述概率矩阵中找到数据筛选后得到的最长的常用词组合在每一列的概率；
将概率最大的列对应的类别作为所述数据的类别。
具体的，当新数据i5出现时，对所述i5数据进行分词、去停顿词的处理；根据所述搭配词表，对处理后的i5数据进行筛选，当筛选后得到“进水，短路，腐蚀”这组搭配属于“进水”分类的概率是0.7，而“进水，短路”这组搭配属于“进水”分类的概率是0.8，则以最长常用词组合“进水，短路，腐蚀”这组搭配的概率为准，即数据i5的进水的概率是0.7。
假设筛选后得到“烧焦”、“进水，短路”，则分别计算“烧焦”和“进水，短路”在“进水”、“雷击”、“焊接”、“失效”下的概率，即计算“烧焦”和“进水，短路”在“进水”类别下的概率为A1+B1，A1是“烧焦”在“进水”类别下的概率，B1是“进水，短路”在“进水”类别下的概率；计算“烧焦”和“进水，短路”在“雷击”类别下的概率为A2+B2，A2是“烧焦”在“雷击”类别下的概率，B2是“进水，短路”在“雷击”类别下的概率；计算“烧焦”和“进水，短路”在“焊接”类别下的概率为A3+B3，A3是“烧焦”在“焊接”类别下的概率，B3是“进水，短路”在“焊接”类别下的概率；计算“烧焦”和“进水，短路”在“失效”类别下的概率为A4+B4，A4是“烧焦”在“失效”类别下的概率，B4是“进水，短路”在“失效”类别下的概率，归一化后得到数据在所有类别下的概率，即i5数据在“进水”类别下的概率为（A1+B1）/(A1+B1+A2+B2+A3+B3+A4+B4)。
本发明实施例提供一种数据分类的方法，所述方法通过预先定义分类的冲突处理规则，解决分类中有冲突的数据，得到有效数据，从而得到无歧义、无冲突的数据；并使用常用词表，筛选有效数据得到搭配词表，根据所述搭配词表形成概率矩阵，从而避免出现数据稀疏的情况。
参考图2，图2是本发明实施例提供的一种数据分类装置的装置结构图。如图2所示，所述装置包括以下单元：
处理单元201，用于对数据进行分词、去停顿词的处理；
具体的，可以用自然语言处理工具进行处理，完成分词、去停顿词等工作。
第一统计单元202，用于对处理后的数据做词频统计，将所述处理后的数据中的词按照词频由大到小排序，根据预先设置的常用词的取词范围，在所述取词范围中选取常用词生成常用词表；
可选地，所述常用词的取值范围为前20%。
具体的，对所有数据做完处理后，统计处理后的所有数据中的词的频率，并按照频率的大小对所有数据中的词进行排序，选取排序前20%的词作为常用词，生成常用词表。
第一分类单元203，用于将所述处理后的数据进行分类，分类后的所述处理后的数据所属的类别之间的关系是不冲突或者冲突；
具体的，使用传统的方法对所有数据进行分类或者使用朴素贝叶斯方法对所有数据进行分类。假设同一个数据分类后既是A类，又是B类，A类是雷击，B类是进水，则A类和B类是同时出现的，则该数据分类后所属的类别是不冲突的。
解决冲突单元204，用于预先定义冲突处理规则，当同一处理后的数据所属的类别之间的关系有冲突时，根据所述冲突处理规则得到有效数据，使得所述有效数据所属的类别不冲突；
可选地，所述解决冲突单元中执行步骤预先定义冲突处理规则，包括：
当对所述处理后的数据进行分类后，所述处理后的数据同时属于A类和B 类时，当A类和B类不冲突时，则标识所述处理后的数据不冲突，所述处理后的数据同时属于A类和B类；
当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于A类；
或者当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于B类；
当A类和B类互相冲突时，且没有冲突处理规则解决所述A类和B类的冲突时，则标识所述处理后的数据冲突。
具体的，冲突处理规则是由连个分类和一个操作符组成。可以定义一些符号表示这些规则：
A∞B表示A、B不冲突，不冲突。比如，A类是进水，B类是雷击，进水和雷击可能是因为同一个原因下雨而同时出现的，则A类和B类是不冲突的；
A≮B表示A、B两个类互相冲突，而且冲突时以分类B的为准，假设A类是焊接，B类是雷击，根据外部经验，A类和B类是无关的，既无法找到一个原因是既能造成焊接又能造成雷击，因此，A类和B类是冲突的；
A≯B表示A、B两个类互相冲突，而且冲突时以分类A的为准；
比如：焊接≮雷击，或者雷击≯焊接；
A≠B表示A、B两个类互相冲突，但是没有规则解决冲突，比如：进水≠焊接。
可选地，所述解决冲突单元中执行步骤根据所述冲突处理规则得到有效数据，包括：
当对所述处理后的数据进行分类后，所述处理后的数据属于某一个分类时，则标识所述处理后的数据不冲突，所述处理后的数据属于所述某一个分类；
当所述处理后的数据同时属于两个冲突的分类时，则根据所述冲突处理规则，得到有效数据；
当所述处理后的数据同时属于两个以上的分类时，则根据所述冲突处理规则化简所述两个以上的分类集合；
对化简后的分类集合，根据所述冲突处理规则中当A类和B类相互冲突时，且没有冲突处理规则解决A类和B类的冲突时，标识所述处理后的数据为冲突。
其中，所述有效数据是标识为A类和/或B类的数据。
具体的，参考如下：

可选地，所述解决冲突单元中执行步骤根据所述冲突处理规则化简所述两个以上的分类集合，包括：
当所述两个以上的分类集合中A类和B类不冲突时，将A类和B类化简为同一类；
当所述两个以上的分类集合中A类和B类互相冲突时以A类为准，将A类和B类化简为A类；
当所述两个以上的分类集合中A类和B类互相冲突时以B类为准，将A类和B类化简为B类。
筛选单元205，用于根据所述常用词表，筛选所述有效数据得到搭配词表，所述搭配词表包括常用词或者常用词组合；
可选地，所述筛选单元具体用于：
根据所述常用词表，筛选所述有效数据得到所述常用词表中的词，当所述常用词表中的同一个词出现多次时，仅按照一次处理，当筛选后的词少于等于3时，得到所述有效数据的常用词组合，所述常用词组合中对有效数据中的词的顺序不做限制；
对所有有效数据做筛选后，将所述筛选后的词和所述常用词组合形成搭配词表。
具体的，当数据i1根据所述常用词表筛选后，得到“失效”，则搭配词表中会出现“失效”；当数据i2根据所述常用词表筛选后，得到“短路，脱落”，则搭配词表中会出现“短路，脱落”。
同时，当数据i1根据常用词表筛选后，“失效”出现两次，则仅按照一次做处理，即搭配词表中“失效”仅出现一次；当数据i3根据所述常用词表筛选后，得到“脱落，短路”，则搭配词表中可用“短路，脱落”替代，不考虑词的顺序；当数据i4根据常用词表筛选后，出现“脱落，短路，失效，雷击，进水”等四个以上的词时，可不考虑将筛选后的数据i4作为搭配词表中的常用词组合。
搭配词表的格式可如表1所示：
常用词组合词的个数失效1短路，脱落2……

表1
第二统计单元206，用于统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
可选地，所述第二统计单元206，具体用于：
统计每一分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
统计所有分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数。
具体的，统计方法可参考如下：

统计后的表格形式参考表2，
进水雷击焊接失效单板、烧毁、短路329805020烧焦1590705………...

表2
如表2所示，对有效数据根据搭配词表进行筛选，例如，对进水下的所有有效数据根据搭配词表筛选，假设i1数据属于进水，且i1数据根据搭配词表筛选后得到“烧焦”，则统计进水类别下“烧焦”为1，依此类推。假设i1数据筛选后统计到“烧焦”出现次数大于一次，仅以统计一次。
归一化单元207，用于根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵；
可选地，所述归一化单元207，包括：
矩阵单元301，用于将所有分类作为列，将所述搭配词表中常用词或者常用词组合在每一列下出现的次数作为行，形成矩阵；
概率矩阵单元302，用于根据所述矩阵，将所述矩阵中每一行在每一列的次数除以所述每一行在所有列的总次数，得到每一行在每一列的概率，形成概率矩阵。
具体的，参考表3，
进水雷击焊接失效单板、烧毁、短路0.2950.9060.0460.018烧焦0.0830.50.3890.028………...

表3
具体的，以计算“烧焦”为例，在“进水”分类下的概率为15/(15+90+70+5)=0.083,在“雷击”分类下的概率为90/(15+90+70+5)=0.5,在“焊接”分类下的概率为70/(15+90+70+5)=0.389，在“失效”分类下的概率为5/(15+90+70+5)=0.028。
第二分类单元208，用于根据所述概率矩阵对数据进行分类。
可选地，所述第二分类单元208，包括：
筛选子单元401，用于在所述概率矩阵中找到数据筛选后得到的最长的常用词组合在每一列的概率；
第二分类子单元402，用于将概率最大的列对应的类别作为所述数据的类别。
具体的，当新数据i5出现时，对所述i5数据进行分词、去停顿词的处理；根据所述搭配词表，对处理后的i5数据进行筛选，当筛选后得到“进水，短路，腐蚀”这组搭配属于“进水”分类的概率是0.7，而“进水，短路”这组搭配属于“进水”分类的概率是0.8，则以最长常用词组合“进水，短路，腐蚀”这组搭配的概率为准，即数据i5的进水的概率是0.7。
假设筛选后得到“烧焦”、“进水，短路”，则分别计算“烧焦”和“进水，短路”在“进水”、“雷击”、“焊接”、“失效”下的概率，即计算“烧焦”和“进水，短路”在“进水”类别下的概率为A1+B1，A1是“烧焦”在“进水”类别下的概率，B1是“进水，短路”在“进水”类别下的概率；计算“烧焦”和“进水，短路”在“雷击”类别下的概率为A2+B2，A2是“烧焦”在“雷击” 类别下的概率，B2是“进水，短路”在“雷击”类别下的概率；计算“烧焦”和“进水，短路”在“焊接”类别下的概率为A3+B3，A3是“烧焦”在“焊接”类别下的概率，B3是“进水，短路”在“焊接”类别下的概率；计算“烧焦”和“进水，短路”在“失效”类别下的概率为A4+B4，A4是“烧焦”在“失效”类别下的概率，B4是“进水，短路”在“失效”类别下的概率，归一化后得到数据在所有类别下的概率，即i5数据在“进水”类别下的概率为（A1+B1）/(A1+B1+A2+B2+A3+B3+A4+B4)。
本发明实施例提供一种数据分类的装置，所述装置通过预先定义分类的冲突处理规则，解决分类中有冲突的数据，得到有效数据，从而得到无歧义、无冲突的数据；并使用常用词表，筛选有效数据得到搭配词表，根据所述搭配词表形成概率矩阵，从而避免出现数据稀疏的情况。
参考图5，图5是本发明实施例提供的一种数据分类装置的装置结构图。参考图5，图5是本发明实施例提供的一种数据分类装置500，本发明具体实施例并不对所述数据分类装置的具体实现做限定。所述数据分类装置500包括：
处理器(processor)501，通信接口(Communications Interface)502，存储器(memory)503，总线504。
处理器501，通信接口502，存储器503通过总线504完成相互间的通信。
通信接口502，用于与其他数据分类装置进行通信；
处理器501，用于执行程序。
具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。
处理器501可能是一个中央处理器CPU，或者是特定集成电路ASIC（Application Specific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器503，用于存放程序。存储器503可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory）。程序具体用于：
对数据进行分词、去停顿词的处理；
对处理后的数据做词频统计，将所述处理后的数据中的词按照词频由大到小排序，根据预先设置的常用词的取词范围，在所述取词范围中选取常用词生成常用词表；
将所述处理后的数据进行分类，分类后的所述处理后的数据所属的类别之间的关系是不冲突或者冲突；
预先定义冲突处理规则，当同一处理后的数据所属的类别之间的关系有冲突时，根据所述冲突处理规则得到有效数据，使得所述有效数据所属的类别不冲突；
根据所述常用词表，筛选所述有效数据得到搭配词表，所述搭配词表包括常用词或者常用词组合；
统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵；
根据所述概率矩阵对数据进行分类。
所述预先定义冲突处理规则，包括：
当对所述处理后的数据进行分类后，所述处理后的数据同时属于A类和B类时，当A类和B类不冲突时，则标识所述处理后的数据不冲突，所述处理后的数据同时属于A类和B类；
当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于A类；
或者当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于B类；
当A类和B类互相冲突时，且没有冲突处理规则解决所述A类和B类的冲突时，则标识所述处理后的数据冲突。
所述根据所述冲突处理规则得到有效数据，包括：
当对所述处理后的数据进行分类后，所述处理后的数据属于某一个分类时，则标识所述处理后的数据不冲突，所述处理后的数据属于所述某一个分类；
当所述处理后的数据同时属于两个冲突的分类时，则根据所述冲突处理规则，得到有效数据；
当所述处理后的数据同时属于两个以上的分类时，则根据所述冲突处理规则化简所述两个以上的分类集合；
对化简后的分类集合，根据所述冲突处理规则中当A类和B类相互冲突时，且没有冲突处理规则解决A类和B类的冲突时，标识所述处理后的数据为冲突。
所述根据所述冲突处理规则化简所述两个以上的分类集合，包括：
当所述两个以上的分类集合中A类和B类不冲突时，将A类和B类化简为同一类；
当所述两个以上的分类集合中A类和B类互相冲突时以A类为准，将A类和B类化简为A类；
当所述两个以上的分类集合中A类和B类互相冲突时以B类为准，将A类和B类化简为B类。
所述根据所述常用词表，筛选所述有效数据得到搭配词表，包括：
根据所述常用词表，筛选所述有效数据得到所述常用词表中的词，当所述常用词表中的同一个词出现多次时，仅按照一次处理，当筛选后的词少于等于3时，得到所述有效数据的常用词组合，所述常用词组合中对有效数据中的词的顺序不做限制；
对所有有效数据做筛选后，将所述筛选后的词和所述常用词组合形成搭配词表。
所述统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数，包括：
统计每一分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数；
统计所有分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数。
所述根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵，包括：
将所有分类作为列，将所述搭配词表中常用词或者常用词组合在每一列下出现的次数作为行，形成矩阵；
根据所述矩阵，将所述矩阵中每一行在每一列的次数除以所述每一行在所有列的总次数，得到每一行在每一列的概率，形成概率矩阵。
所述根据所述概率矩阵对数据进行分类，包括：
在所述概率矩阵中找到数据筛选后得到的最长的常用词组合在每一列的概率；
将概率最大的列对应的类别作为所述数据的类别。
以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

资源描述

《一种数据分类的方法及装置.pdf》由会员分享，可在线阅读，更多相关《一种数据分类的方法及装置.pdf（25页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104123291A43申请公布日20141029CN104123291A21申请号201310148102322申请日20130425G06F17/3020060171申请人华为技术有限公司地址518129广东省深圳市龙岗区坂田华为总部办公楼72发明人臧文阳齐泉74专利代理机构深圳中一专利商标事务所44237代理人张全文54发明名称一种数据分类的方法及装置57摘要本发明实施例公开了一种数据分类的方法及装置，所述方法通过预先定义分类的冲突处理规则，解决分类中有冲突的数据，得到有效数据，从而得到无歧义、无冲突的数据；并使用常用词表，筛选有效数据得到搭配词表，根据所述搭配词表形成。

2、概率矩阵，从而避免出现数据稀疏的情况。51INTCL权利要求书4页说明书17页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书17页附图3页10申请公布号CN104123291ACN104123291A1/4页21一种数据分类的方法，其特征在于，所述方法包括对数据进行分词、去停顿词的处理；对处理后的数据做词频统计，将所述处理后的数据中的词按照词频由大到小排序，根据预先设置的常用词的取词范围，在所述取词范围中选取常用词生成常用词表；将所述处理后的数据进行分类，分类后的所述处理后的数据所属的类别之间的关系是不冲突或者冲突；预先定义冲突处理规则，当同一处理后的数据所属的类。

3、别之间的关系有冲突时，根据所述冲突处理规则得到有效数据，使得所述有效数据所属的类别不冲突；根据所述常用词表，筛选所述有效数据得到搭配词表，所述搭配词表包括常用词和常用词组合；统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数；根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵；根据所述概率矩阵对数据进行分类。2根据权利要求1所述的方法，其特征在于，所述预先定义冲突处理规则，包括当对所述处理后的数据进行分类后，所述处理后的数据同时属于A类和B类，当A类和B类不冲突时，则标识所述处理后的数据不冲突，所述处。

4、理后的数据同时属于A类和B类；当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于A类；或者当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于B类；当A类和B类互相冲突时，且没有冲突处理规则解决所述A类和B类的冲突时，则标识所述处理后的数据冲突。3根据权利要求2所述的方法，其特征在于，所述根据所述冲突处理规则得到有效数据，包括当对所述处理后的数据进行分类后，所述处理后的数据属于某一个分类时，则标识所述处理后的数据不冲突，所述处理后的数据属于所述某一个分类；当所述处理后的数据同时属于两个冲突的分类时，则根据所述冲突处理规则，得到有效数据；当所述处理后。

5、的数据同时属于两个以上的分类时，则根据所述冲突处理规则化简所述两个以上的分类集合；对化简后的分类集合，根据所述冲突处理规则中当A类和B类相互冲突时，且没有冲突处理规则解决A类和B类的冲突时，标识所述处理后的数据为冲突。4根据权利要求3所述的方法，其特征在于，所述根据所述冲突处理规则化简所述两个以上的分类集合，包括当所述两个以上的分类集合中A类和B类不冲突时，将A类和B类化简为同一类；当所述两个以上的分类集合中A类和B类互相冲突时以A类为准，将A类和B类化简为A类；当所述两个以上的分类集合中A类和B类互相冲突时以B类为准，将A类和B类化简权利要求书CN104123291A2/4页3为B类。5根据。

6、权利要求1至4任意一项所述的方法，其特征在于，所述根据所述常用词表，筛选所述有效数据得到搭配词表，包括根据所述常用词表，筛选所述有效数据得到所述常用词表中的词，当所述常用词表中的同一个词出现多次时，仅按照一次处理，当筛选后的词少于等于3时，得到所述有效数据的常用词组合，所述常用词组合中对有效数据中的词的顺序不做限制；对所有有效数据做筛选后，将所述筛选后的词和所述常用词组合形成搭配词表。6根据权利要求5所述的方法，其特征在于，所述统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数，包括统计每一分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数；统计所有分类中的。

7、所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数。7根据权利要求6所述的方法，其特征在于，所述根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵，包括将所有分类作为列，将所述搭配词表中常用词或者常用词组合在每一列下出现的次数作为行，形成矩阵；根据所述矩阵，将所述矩阵中每一行在每一列的次数除以所述每一行在所有列的总次数，得到每一行在每一列的概率，形成概率矩阵。8根据权利要求1至7所述的方法，其特征在于，所述根据所述概率矩阵对数据进行分类，包括在所述概率矩阵中找到数据筛选后得到的最长的常用词组合在每一列的概率；将概。

8、率最大的列对应的类别作为所述数据的类别。9一种数据分类的装置，其特征在于，所述装置包括处理单元，用于对数据进行分词、去停顿词的处理；第一统计单元，用于对处理后的数据做词频统计，将所述处理后的数据中的词按照词频由大到小排序，根据预先设置的常用词的取词范围，在所述取词范围中选取常用词生成常用词表；第一分类单元，用于将所述处理后的数据进行分类，分类后的所述处理后的数据所属的类别之间的关系是不冲突或者冲突；解决冲突单元，用于预先定义冲突处理规则，当同一处理后的数据所属的类别之间的关系有冲突时，根据所述冲突处理规则得到有效数据，使得所述有效数据所属的类别不冲突；筛选单元，用于根据所述常用词表，筛选所述有。

9、效数据得到搭配词表，所述搭配词表包括常用词或者常用词组合；第二统计单元，用于统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数；归一化单元，用于根据所述常用词或者常用词组合在每一分类中的次数和所有分类中权利要求书CN104123291A3/4页4的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵；第二分类单元，用于根据所述概率矩阵对数据进行分类。10根据权利要求9所述的装置，其特征在于，所述解决冲突单元中执行步骤预先定义冲突处理规则，包括当对所述处理后的数据进行分类后，所述处理后的数据同时属于A类和B类时，当A类和B类不冲突时，则标识所述处理后的数据不冲突，。

10、所述处理后的数据同时属于A类和B类；当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于A类；或者当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于B类；当A类和B类互相冲突时，且没有冲突处理规则解决所述A类和B类的冲突时，则标识所述处理后的数据冲突。11根据权利要求10所述的装置，其特征在于，所述解决冲突单元中执行步骤根据所述冲突处理规则得到有效数据，包括当对所述处理后的数据进行分类后，所述处理后的数据属于某一个分类时，则标识所述处理后的数据不冲突，所述处理后的数据属于所述某一个分类；当所述处理后的数据同时属于两个冲突的分类时，则根据所述冲突处理。

11、规则，得到有效数据；当所述处理后的数据同时属于两个以上的分类时，则根据所述冲突处理规则化简所述两个以上的分类集合；对化简后的分类集合，根据所述冲突处理规则中当A类和B类相互冲突时，且没有冲突处理规则解决A类和B类的冲突时，标识所述处理后的数据为冲突。12根据权利要求11所述的装置，其特征在于，所述解决冲突单元中执行步骤根据所述冲突处理规则化简所述两个以上的分类集合，包括当所述两个以上的分类集合中A类和B类不冲突时，将A类和B类化简为同一类；当所述两个以上的分类集合中A类和B类互相冲突时以A类为准，将A类和B类化简为A类；当所述两个以上的分类集合中A类和B类互相冲突时以B类为准，将A类和B类化简。

12、为B类。13根据权利要求9至12任意一项所述的装置，其特征在于，所述筛选单元具体用于根据所述常用词表，筛选所述有效数据得到所述常用词表中的词，当所述常用词表中的同一个词出现多次时，仅按照一次处理，当筛选后的词少于等于3时，得到所述有效数据的常用词组合，所述常用词组合中对有效数据中的词的顺序不做限制；对所有有效数据做筛选后，将所述筛选后的词和所述常用词组合形成搭配词表。14根据权利要求13所述的装置，其特征在于，所述第二统计单元，具体用于统计每一分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数；统计所有分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次权利要求书C。

13、N104123291A4/4页5数。15根据权利要求14所述的装置，其特征在于，所述归一化单元，包括矩阵单元，用于将所有分类作为列，将所述搭配词表中常用词或者常用词组合在每一列下出现的次数作为行，形成矩阵；概率矩阵单元，用于根据所述矩阵，将所述矩阵中每一行在每一列的次数除以所述每一行在所有列的总次数，得到每一行在每一列的概率，形成概率矩阵。16根据权利要求9至15所述的装置，其特征在于，所述第二分类单元，包括筛选子单元，用于在所述概率矩阵中找到数据筛选后得到的最长的常用词组合在每一列的概率；第二分类子单元，用于将概率最大的列对应的类别作为所述数据的类别。权利要求书CN104123291A1/1。

14、7页6一种数据分类的方法及装置技术领域0001本发明涉及数据分析处理领域，尤其涉及到一种数据分类的方法及装置。背景技术0002实际工作中很多记录都是由人工记录的，属于超短文本，其中很多记录可能会出现描述前后不一致的情况。比如，在同一超短文本中，某些字段中写的故障原因是焊接，但是在某些字段又说明是雷击造成故障。如果在这种数据质量不好的情况下进行数据挖掘，会大大降低分析的准确度，所以有必要对数据进行预处理，对数据按照故障原因分为几类，通过分类方法解决问题。0003IFIDF分类方法的主要思想是如果某个词或者短语在同一超短文本中出现的频率IF高，并且在其他超短文本中很少出现，则认为此词或者短语具有很。

15、好的类别区分能力，适合用来分类。IFIDF实际是IFIDF，IF是词频（TERMFREQUENCY），IDF是反文档频率（INVERSEDOCUMENTFREQUENCY），IF表示词条在超短文本中出现的频率，IDF表示词条在本超短文本和其他超短文本的对比结果，当词条在本超短文本出现频率越高，但在其他超短文本出现频率越低时，说明所述词条具有很好的类别区分能力，则所述词条在本超短文本的IDF值越大。IFIDF分类方法的缺点是没有考虑分类和分类之间的关系；分类与分类之间存在交集，对于交集的超短文本没有做特别的处理；超短文本命中的准确率较低；只体现一个词和分类的关系，没有体现多个词搭配出现时和分类的。

16、关系。0004N元文法分类方法的主要思路是词条的概率是由一组特定的词构成的序列决定的，称为所述词条的历史（HISTORY）。N元文法是大词汇连续出现时常用的一种语言模型，该模型基于这样一种假设，第N个词的出现只与前面N1个词相关，而与其他任何词都不相关，整句的概率就是各个词出现的概率的乘积，而这些概率可以通过直接从语料中统计N个词同时出现的次数得到，常用的是二元文法和三元文法。N元文法的缺点是当由4个以上的词构成序列的情况下，超短文本中数据稀疏非常严重，基本上N元文法没办法使用；同时，序列需要重新训练语言模型，由人工标注，工作量比较大。发明内容0005本发明提供了一种数据分类的方法及装置，所述。

17、方法旨在解决分类时数据冲突及数据稀疏的问题。0006第一方面，一种数据分类的方法，所述方法包括0007对数据进行分词、去停顿词的处理；0008对处理后的数据做词频统计，将所述处理后的数据中的词按照词频由大到小排序，根据预先设置的常用词的取词范围，在所述取词范围中选取常用词生成常用词表；0009将所述处理后的数据进行分类，分类后的所述处理后的数据所属的类别之间的关系是不冲突或者冲突；0010预先定义冲突处理规则，当同一处理后的数据所属的类别之间的关系有冲突时，说明书CN104123291A2/17页7根据所述冲突处理规则得到有效数据，使得所述有效数据所属的类别不冲突；0011根据所述常用词表，筛。

18、选所述有效数据得到搭配词表，所述搭配词表包括常用词和常用词组合；0012统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数；0013根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵；0014根据所述概率矩阵对数据进行分类。0015结合第一方面，在第一方面的第一种可能的实现方式中，所述预先定义冲突处理规则，包括0016当对所述处理后的数据进行分类后，所述处理后的数据同时属于A类和B类时，当A类和B类不冲突时，则标识所述处理后的数据不冲突，所述处理后的数据同时属于A类和B类；0017当A类和B类互相冲突。

19、时，则标识所述处理后的数据不冲突，所述处理后的数据属于A类；0018或者当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于B类；0019当A类和B类互相冲突时，且没有冲突处理规则解决所述A类和B类的冲突时，则标识所述处理后的数据冲突。0020结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述根据所述冲突处理规则得到有效数据，包括0021当对所述处理后的数据进行分类后，所述处理后的数据属于某一个分类时，则标识所述处理后的数据不冲突，所述处理后的数据属于所述某一个分类；0022当所述处理后的数据同时属于两个冲突的分类时，则根据所述冲突处理规则，得到。

20、有效数据；0023当所述处理后的数据同时属于两个以上的分类时，则根据所述冲突处理规则化简所述两个以上的分类集合；0024对化简后的分类集合，根据所述冲突处理规则中当A类和B类相互冲突时，且没有冲突处理规则解决A类和B类的冲突时，标识所述处理后的数据为冲突。0025结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述根据所述冲突处理规则化简所述两个以上的分类集合，包括0026当所述两个以上的分类集合中A类和B类不冲突时，将A类和B类化简为同一类；0027当所述两个以上的分类集合中A类和B类互相冲突时以A类为准，将A类和B类化简为A类；0028当所述两个以上的分类集合中A类。

21、和B类互相冲突时以B类为准，将A类和B类化简为B类。0029结合第一方面或者第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式或者第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述根据所述常用词表，筛选所述有效数据得到搭配词表，包括说明书CN104123291A3/17页80030根据所述常用词表，筛选所述有效数据得到所述常用词表中的词，当所述常用词表中的同一个词出现多次时，仅按照一次处理，当筛选后的词少于等于3时，得到所述有效数据的常用词组合，所述常用词组合中对有效数据中的词的顺序不做限制；0031对所有有效数据做筛选后，将所述筛选后的词和所述常用词组合形。

22、成搭配词表。0032结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，所述统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数，包括0033统计每一分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数；0034统计所有分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数。0035结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，所述根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵，包括0036将所有分类作为列，将所述搭配词表中常用。

23、词或者常用词组合在每一列下出现的次数作为行，形成矩阵；0037根据所述矩阵，将所述矩阵中每一行在每一列的次数除以所述每一行在所有列的总次数，得到每一行在每一列的概率，形成概率矩阵。0038结合第一方面或者第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式或者第一方面的第三种可能的实现方式或者第一方面的第四种可能的实现方式或者第一方面的第五种可能的实现方式或者第一方面的第六种可能的实现方式，在第一方面的第七种可能的实现方式中，所述根据所述概率矩阵对数据进行分类，包括0039在所述概率矩阵中找到数据筛选后得到的最长的常用词组合在每一列的概率；0040将概率最大的列对应的类别作为所述数。

24、据的类别。0041第二方面，一种数据分类的装置，所述装置包括0042处理单元，用于对数据进行分词、去停顿词的处理；0043第一统计单元，用于对处理后的数据做词频统计，将所述处理后的数据中的词按照词频由大到小排序，根据预先设置的常用词的取词范围，在所述取词范围中选取常用词生成常用词表；0044第一分类单元，用于将所述处理后的数据进行分类，分类后的所述处理后的数据所属的类别之间的关系是不冲突或者冲突；0045解决冲突单元，用于预先定义冲突处理规则，当同一处理后的数据所属的类别之间的关系有冲突时，根据所述冲突处理规则得到有效数据，使得所述有效数据所属的类别不冲突；0046筛选单元，用于根据所述常用词。

25、表，筛选所述有效数据得到搭配词表，所述搭配词表包括常用词或者常用词组合；0047第二统计单元，用于统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数；0048归一化单元，用于根据所述常用词或者常用词组合在每一分类中的次数和所有分说明书CN104123291A4/17页9类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵；0049第二分类单元，用于根据所述概率矩阵对数据进行分类。0050结合第二方面，在第二方面的第一种可能的实现方式中，所述解决冲突单元中执行步骤预先定义分类之间的关系和冲突处理规则，包括0051当对所述处理后的数据进行分类后，所述处理后的数。

26、据同时属于A类和B类时，当A类和B类不冲突时，则标识所述处理后的数据不冲突，所述处理后的数据同时属于A类和B类；0052当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于A类；0053或者当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于B类；0054当A类和B类互相冲突时，且没有冲突处理规则解决所述A类和B类的冲突时，则标识所述处理后的数据冲突。0055结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述解决冲突单元中执行步骤根据所述冲突处理规则得到有效数据，包括0056当对所述处理后的数据进行分类后，所述处理后的数据属。

27、于某一个分类时，则标识所述处理后的数据不冲突，所述处理后的数据属于所述某一个分类；0057当所述处理后的数据同时属于两个冲突的分类时，则根据所述冲突处理规则，得到有效数据；0058当所述处理后的数据同时属于两个以上的分类时，则根据所述冲突处理规则化简所述两个以上的分类集合；0059对化简后的分类集合，根据所述冲突处理规则中当A类和B类相互冲突时，且没有冲突处理规则解决A类和B类的冲突时，标识所述处理后的数据为冲突。0060结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述解决冲突单元中执行步骤根据所述冲突处理规则化简所述两个以上的分类集合，包括0061当所述两个以上的。

28、分类集合中A类和B类不冲突时，将A类和B类化简为同一类；0062当所述两个以上的分类集合中A类和B类互相冲突时以A类为准，将A类和B类化简为A类；0063当所述两个以上的分类集合中A类和B类互相冲突时以B类为准，将A类和B类化简为B类。0064结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可能的实现方式或者第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述筛选单元具体用于0065根据所述常用词表，筛选所述有效数据得到所述常用词表中的词，当所述常用词表中的同一个词出现多次时，仅按照一次处理，当筛选后的词少于等于3时，得到所述有效数据的常用词组合，所述常用。

29、词组合中对有效数据中的词的顺序不做限制；0066对所有有效数据做筛选后，将所述筛选后的词和所述常用词组合形成搭配词表。0067结合第二方面的四种可能的实现方式，在第二方面的第五种可能的实现方式中，说明书CN104123291A5/17页10所述第二统计单元，具体用于0068统计每一分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数；0069统计所有分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数。0070结合第二方面的五种可能的实现方式，在第二方面的第六种可能的实现方式中，所述归一化单元，包括0071矩阵单元，用于将所有分类作为列，将所述搭配词表中常用词或者常。

30、用词组合在每一列下出现的次数作为行，形成矩阵；0072概率矩阵单元，用于根据所述矩阵，将所述矩阵中每一行在每一列的次数除以所述每一行在所有列的总次数，得到每一行在每一列的概率，形成概率矩阵。0073结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可能的实现方式或者第二方面的第三种可能的实现方式或者第二方面的第四种可能的实现方式或者第二方面的第五种可能的实现方式或者第二方面的第六种可能的实现方式，在第二方面的第七种可能的实现方式中，所述第二分类单元，包括0074筛选子单元，用于在所述概率矩阵中找到数据筛选后得到的最长的常用词组合在每一列的概率；0075第二分类子单元，用于将概率。

31、最大的列对应的类别作为所述数据的类别。与现有技术相比，本发明实施例提供一种数据分类的方法，所述方法通过预先定义分类的冲突处理规则，解决分类中有冲突的数据，得到有效数据，从而得到无歧义、无冲突的数据；并使用常用词表，筛选有效数据得到搭配词表，根据所述搭配词表形成概率矩阵，从而避免出现数据稀疏的情况。附图说明0076为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。0077图1是本发明实施例提供。

32、的一种数据分类的方法流程图；0078图2是本发明实施例提供的一种数据分类装置的装置结构图；0079图3是本发明实施例提供的一种数据分类装置中归一化单元的装置结构图；0080图4是本发明实施例提供的一种数据分类装置中第二分类单元的装置结构图；0081图5是本发明实施例提供的一种数据分类装置的装置结构图。具体实施方式0082下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。说明书CN1041。

33、23291A106/17页110083参考图1，图1是本发明实施例提供的一种数据分类的方法流程图。如图1所示，所述方法包括以下步骤0084步骤101，对数据进行分词、去停顿词的处理；0085具体的，可以用自然语言处理工具进行处理，完成分词、去停顿词等工作。0086步骤102，对处理后的数据做词频统计，将所述处理后的数据中的词按照词频由大到小排序，根据预先设置的常用词的取词范围，在所述取词范围中选取常用词生成常用词表；0087可选地，所述常用词的取值范围为前20。0088具体的，对所有数据做完处理后，统计处理后的所有数据中的词的频率，并按照频率的大小对所有数据中的词进行排序，选取排序前20的词作。

34、为常用词，生成常用词表。0089步骤103，将所述处理后的数据进行分类，分类后的所述处理后的数据所属的类别之间的关系是不冲突或者冲突；0090具体的，使用传统的方法对所有数据进行分类或者使用朴素贝叶斯方法对所有数据进行分类。假设同一个数据分类后既是A类，又是B类，A类是雷击，B类是进水，则A类和B类是同时出现的，则该数据分类后所属的类别是不冲突的。0091步骤104，预先定义冲突处理规则，当同一处理后的数据所属的类别之间的关系有冲突时，根据所述冲突处理规则得到有效数据，使得所述有效数据所属的类别不冲突；0092可选地，所述预先定义冲突处理规则，包括0093当对所述处理后的数据进行分类后，所述处。

35、理后的数据同时属于A类和B类时，当A类和B类不冲突时，则标识所述处理后的数据不冲突，所述处理后的数据同时属于A类和B类；0094当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于A类；0095或者当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于B类；0096当A类和B类互相冲突时，且没有冲突处理规则解决所述A类和B类的冲突时，则标识所述处理后的数据冲突。0097具体的，冲突处理规则是由连个分类和一个操作符组成。可以定义一些符号表示这些规则0098AB表示A、B不冲突，不冲突。比如，A类是进水，B类是雷击，进水和雷击可能是因为同一个原因下雨而同时。

36、出现的，则A类和B类是不冲突的；0099AB表示A、B两个类互相冲突，而且冲突时以分类B的为准，假设A类是焊接，B类是雷击，根据外部经验，A类和B类是无关的，既无法找到一个原因是既能造成焊接又能造成雷击，因此，A类和B类是冲突的；0100AB表示A、B两个类互相冲突，而且冲突时以分类A的为准；0101比如焊接雷击，或者雷击焊接；0102AB表示A、B两个类互相冲突，但是没有规则解决冲突，比如进水焊接。0103可选地，所述根据所述冲突处理规则得到有效数据，包括0104当对所述处理后的数据进行分类后，所述处理后的数据属于某一个分类时，则标说明书CN104123291A117/17页12识所述处理后。

37、的数据不冲突，所述处理后的数据属于所述某一个分类；0105当所述处理后的数据同时属于两个冲突的分类时，则根据所述冲突处理规则，得到有效数据；0106当所述处理后的数据同时属于两个以上的分类时，则根据所述冲突处理规则化简所述两个以上的分类集合；0107对化简后的分类集合，根据所述冲突处理规则中当A类和B类相互冲突时，且没有冲突处理规则解决A类和B类的冲突时，标识所述处理后的数据为冲突。0108其中，所述有效数据是标识为A类和/或B类的数据。0109具体的，参考如下的伪代码01100111所述根据所述冲突处理规则化简所述两个以上的分类集合，包括0112当所述两个以上的分类集合中A类和B类不冲突时，。

38、将A类和B类化简为同一类；0113当所述两个以上的分类集合中A类和B类互相冲突时以A类为准，将A类和B类化简为A类；0114当所述两个以上的分类集合中A类和B类互相冲突时以B类为准，将A类和B类说明书CN104123291A128/17页13化简为B类。0115步骤105，根据所述常用词表，筛选所述有效数据得到搭配词表，所述搭配词表包括常用词和常用词组合；0116可选地，所述根据所述常用词表，筛选所述有效数据得到搭配词表，包括0117根据所述常用词表，筛选所述有效数据得到所述常用词表中的词，当所述常用词表中的同一个词出现多次时，仅按照一次处理，当筛选后的词少于等于3时，得到所述有效数据的常用词。

39、组合，所述常用词组合中对有效数据中的词的顺序不做限制；0118对所有有效数据做筛选后，将所述筛选后的词和所述常用词组合形成搭配词表。0119具体的，当数据I1根据所述常用词表筛选后，得到“失效”，则搭配词表中会出现“失效”；当数据I2根据所述常用词表筛选后，得到“短路，脱落”，则搭配词表中会出现“短路，脱落”。0120同时，当数据I1根据常用词表筛选后，“失效”出现两次，则仅按照一次做处理，即搭配词表中“失效”仅出现一次；当数据I3根据所述常用词表筛选后，得到“脱落，短路”，则搭配词表中可用“短路，脱落”替代，不考虑词的顺序；当数据I4根据常用词表筛选后，出现“脱落，短路，失效，雷击，进水”等。

40、四个以上的词时，可不考虑将筛选后的数据I4作为搭配词表中的常用词组合。0121搭配词表的格式可如表1所示0122常用词组合词的个数失效1短路，脱落20123表10124步骤106，统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数；0125可选地，所述统计每一分类中的有效数据中出现所述搭配词表中常用词或者常用词组合的次数，形成矩阵，包括0126统计每一分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数；0127统计所有分类中的所有有效数据中出现所述搭配词表中常用词或者常用词组合的次数。0128具体的，统计方法可参考如下的伪代码0129说明书CN1041232。

41、91A139/17页140130统计后的格式可参考表20131进水雷击焊接失效单板、烧毁、短路329805020烧焦15907050132表20133如表2所示，对有效数据根据搭配词表进行筛选，例如，对进水下的所有有效数据根据搭配词表筛选，假设I1数据属于进水，且I1数据根据搭配词表筛选后得到“烧焦”，则统计进水类别下“烧焦”为1，依此类推。假设I1数据筛选后统计到“烧焦”出现次数大于一次，仅以统计一次。0134步骤107，根据所述常用词或者常用词组合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵；0135可选地，所述根据所述常用词或者常用词组。

42、合在每一分类中的次数和所有分类中的次数，对每一分类中的常用词或者常用词组合进行归一化，形成概率矩阵，包括0136将所有分类作为列，将所述搭配词表中常用词或者常用词组合在每一列下出现的次数作为行，形成矩阵；0137根据所述矩阵，将所述矩阵中每一行在每一列的次数除以所述每一行在所有列的总次数，得到每一行在每一列的概率，形成概率矩阵。0138具体的，参考表3，0139进水雷击焊接失效单板、烧毁、短路0295090600460018烧焦00830503890028说明书CN104123291A1410/17页150140表30141具体的，以计算“烧焦”为例，在“进水”分类下的概率为15/159070。

43、50083,在“雷击”分类下的概率为90/159070505,在“焊接”分类下的概率为70/15907050389，在“失效”分类下的概率为5/15907050028。0142步骤108，根据所述概率矩阵对数据进行分类。0143所述根据所述概率矩阵对数据进行分类，包括0144在所述概率矩阵中找到数据筛选后得到的最长的常用词组合在每一列的概率；0145将概率最大的列对应的类别作为所述数据的类别。0146具体的，当新数据I5出现时，对所述I5数据进行分词、去停顿词的处理；根据所述搭配词表，对处理后的I5数据进行筛选，当筛选后得到“进水，短路，腐蚀”这组搭配属于“进水”分类的概率是07，而“进水，短。

44、路”这组搭配属于“进水”分类的概率是08，则以最长常用词组合“进水，短路，腐蚀”这组搭配的概率为准，即数据I5的进水的概率是07。0147假设筛选后得到“烧焦”、“进水，短路”，则分别计算“烧焦”和“进水，短路”在“进水”、“雷击”、“焊接”、“失效”下的概率，即计算“烧焦”和“进水，短路”在“进水”类别下的概率为A1B1，A1是“烧焦”在“进水”类别下的概率，B1是“进水，短路”在“进水”类别下的概率；计算“烧焦”和“进水，短路”在“雷击”类别下的概率为A2B2，A2是“烧焦”在“雷击”类别下的概率，B2是“进水，短路”在“雷击”类别下的概率；计算“烧焦”和“进水，短路”在“焊接”类别下的概。

45、率为A3B3，A3是“烧焦”在“焊接”类别下的概率，B3是“进水，短路”在“焊接”类别下的概率；计算“烧焦”和“进水，短路”在“失效”类别下的概率为A4B4，A4是“烧焦”在“失效”类别下的概率，B4是“进水，短路”在“失效”类别下的概率，归一化后得到数据在所有类别下的概率，即I5数据在“进水”类别下的概率为（A1B1）/A1B1A2B2A3B3A4B4。0148本发明实施例提供一种数据分类的方法，所述方法通过预先定义分类的冲突处理规则，解决分类中有冲突的数据，得到有效数据，从而得到无歧义、无冲突的数据；并使用常用词表，筛选有效数据得到搭配词表，根据所述搭配词表形成概率矩阵，从而避免出现数据稀。

46、疏的情况。0149参考图2，图2是本发明实施例提供的一种数据分类装置的装置结构图。如图2所示，所述装置包括以下单元0150处理单元201，用于对数据进行分词、去停顿词的处理；0151具体的，可以用自然语言处理工具进行处理，完成分词、去停顿词等工作。0152第一统计单元202，用于对处理后的数据做词频统计，将所述处理后的数据中的词按照词频由大到小排序，根据预先设置的常用词的取词范围，在所述取词范围中选取常用词生成常用词表；0153可选地，所述常用词的取值范围为前20。0154具体的，对所有数据做完处理后，统计处理后的所有数据中的词的频率，并按照频率的大小对所有数据中的词进行排序，选取排序前20的。

47、词作为常用词，生成常用词表。0155第一分类单元203，用于将所述处理后的数据进行分类，分类后的所述处理后的数据所属的类别之间的关系是不冲突或者冲突；0156具体的，使用传统的方法对所有数据进行分类或者使用朴素贝叶斯方法对所有数说明书CN104123291A1511/17页16据进行分类。假设同一个数据分类后既是A类，又是B类，A类是雷击，B类是进水，则A类和B类是同时出现的，则该数据分类后所属的类别是不冲突的。0157解决冲突单元204，用于预先定义冲突处理规则，当同一处理后的数据所属的类别之间的关系有冲突时，根据所述冲突处理规则得到有效数据，使得所述有效数据所属的类别不冲突；0158可选地。

48、，所述解决冲突单元中执行步骤预先定义冲突处理规则，包括0159当对所述处理后的数据进行分类后，所述处理后的数据同时属于A类和B类时，当A类和B类不冲突时，则标识所述处理后的数据不冲突，所述处理后的数据同时属于A类和B类；0160当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于A类；0161或者当A类和B类互相冲突时，则标识所述处理后的数据不冲突，所述处理后的数据属于B类；0162当A类和B类互相冲突时，且没有冲突处理规则解决所述A类和B类的冲突时，则标识所述处理后的数据冲突。0163具体的，冲突处理规则是由连个分类和一个操作符组成。可以定义一些符号表示这些规则0164。

49、AB表示A、B不冲突，不冲突。比如，A类是进水，B类是雷击，进水和雷击可能是因为同一个原因下雨而同时出现的，则A类和B类是不冲突的；0165AB表示A、B两个类互相冲突，而且冲突时以分类B的为准，假设A类是焊接，B类是雷击，根据外部经验，A类和B类是无关的，既无法找到一个原因是既能造成焊接又能造成雷击，因此，A类和B类是冲突的；0166AB表示A、B两个类互相冲突，而且冲突时以分类A的为准；0167比如焊接雷击，或者雷击焊接；0168AB表示A、B两个类互相冲突，但是没有规则解决冲突，比如进水焊接。0169可选地，所述解决冲突单元中执行步骤根据所述冲突处理规则得到有效数据，包括0170当对所述处理后的数据进行分类后，所述处理后的数据属于某一个分类时，则标识所述处理后的数据不冲突，所述处理后的数据属于所述某一个分类；0171当所述处理后的数据同时属于两个冲突的分类时，则根据所述冲突处理规则，得到有效数据；0172当所述处理后的数据同时属于两个以上的分类时，则根据所述冲突处理规则化简所述两个以上的分类集合；0173对化简后的分类集合，根据所述冲突处理规则中当A类和B类相互冲突时，且没有冲突处理规则解决A类和B类的冲突时，标识所述处理后的数据为冲突。0174其中，所述有效数据是标识为A类和/或B类的数据。0175具体的，参考如下0176说明书CN1041232。

展开阅读全文