基于不确定推理的文本层次分类方法与装置.pdf

摘要
申请专利号：	CN201010562470.9	申请日：	2010.11.29
公开号：	CN101976270A	公开日：	2011.02.16
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20101129\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	南京师范大学
发明人：	钱钢; 王海; 沈玲玲; 姜乃松; 冯向前; 王艳军
地址：	210097 江苏省南京市鼓楼区宁海路122号
优先权：
专利代理机构：	南京天翼专利代理有限责任公司 32112	代理人：	汤志武
PDF下载：	PDF下载

内容摘要

本发明涉及利用数据挖掘技术进行中文文本处理的信息技术领域，涉及一种基于不确定推理的文本层次分类方法和装置。包括：a)从训练文本中提取特征；b)确定分类问题的辨识框架和焦元；c)利用特征的权重构造基本可信度分配函数；d)利用特征的基本可信度分配函数合成测试文本的信度分布；e)利用信度分布根据分类规则进行分类。本发明具有以下优点：通过将非叶子类构造成虚拟的叶子类参与分类，很好的区分了父类与子类之间的不同特征；利用基本可信度分配函数分配给非叶子类的信度以及pignistic概率将文本的分类可信度表示为一个三角模糊数，在分类时充分地利用了不确定信息，提高了分类的准确程度。

权利要求书

1：一种基于不确定推理的文本层次分类方法，其特征在于，所述方法包括如下步骤：从训练文本中提取特征；确定分类问题的辨识框架和焦元集合；利用特征的权重构造基本可信度分配函数 (BPA) ；根据基本可信度分配函数和待分类文本的特征权重合成待分类文本的信度分配；利用信度分布根据分类规则对待分类文本进行分类。
2：如权利要求 1 的方法，其特征在于，所述从训练文本中提取特征包括：对文本进行分词，统计词频，将文本表示成 TF 向量和 BINARY 向量，计算文本中词的 TF*IDF 值，根据权重提取特征；文本中特征的权重包括：其中， W(di， fj) 为文本 di 中特征 fj 的权重， TF(di， fj) 为文本 di 中特征 fj 的频数， IDF(fj) 为特征 fj 的反文档频率。
3：如权利要求 1 的方法，其特征在于，确定分类问题的辨识框架和焦元集合，是将所有的叶子节点类的集合确定为分类问题的辨识框架；将除根节点外的所有节点类的集合作为分类问题的焦元集合；焦元集合中的非叶子节点类焦元的信度是指分配在该大类上且不确定该分配给该大类的哪个子类的信度。
4：如权利要求 1 的方法，其特征在于，所述根据特征的权重构造基本可信度分配函数包括： fj) ＝ W(di， fj)/Sj m(ci，其中， m(ci， fj) 为特征 fj 属于焦元集合中的类 ci，的可信度， Sj 为焦元集合中的所有类上特征 fj 的权重之和。
5：如权利要求 1 的方法，其特征在于，所述利用信度分布根据分类规则对待分类文本进行分类包括：由待分类文本的 TF 向量按下述公式生成待分类文本的特征证据权重：其中， wj 为待分类文本中特征 fj 的权重， TFj 为待分类文本中特征 fj 出现的频数；利用证据权重对基本可信度分配加权，再利用递推合成算法得到待分类文本属于焦元集合中所有类的信度分布；由信度分布根据分类规则对待分类文本进行分类。
6：如权利要求 5 的方法，其特征在于，所述根据分类规则进行分类包括：利用信度分布计算待分类文本属于每个层次的所有类的概率；利用待分类文本属于每个层次的所有类的概率根据分类规则在每个层次上分类。
7：如权利要求 6 的方法，其特征在于，所述利用信度分布计算待分类文本属于每个层次的所有类的概率包括：将分配给父类的信度根据 Pignistic 概率分配方法分配给其子类，构造子类的信度的三角模糊数的表述形式，并逆模糊化为概率；一个父类的信度等于分配给其所有子类的的概率之和； 2 所述将分配给父类的信度根据 Pignistic 概率分配方法分配给其子类包括：其中， BetP(ci) 为 Pignistic 概率分配给子类 ci 的信度， |cm| 为父类 cm 包含的子类数， m(cm) 为分配给父类 cm 的信度。所述子类的信度的三角模糊数的表述形式包括： (m(ci)， m(ci)+BetP(ci)， m(ci)+m(cm)) 其中， m(ci) 为待分类文本属于类 ci 的最小概率， m(ci)+BetP(ci) 为待分类文本文本属于类 ci 的最可能概率， m(ci)+m(cm) 为待分类文本文本属于类 ci 的最大概率。所述逆模糊化包括： P2(ci) ＝ α·m(ci)+β·(m(ci)+BetP(ci))+γ·(m(ci)+m(cm)) 其中， P2(ci) 为文本属于类的概率， α， β， γ ∈ (0， 1) 且 α+β+γ ＝ 1。
8：如权利要求 6 的方法，其特征在于，所述分类规则包括：如果下一层次概率最大的类别属于上一层次的概率最大的类别，则接受上下两个层次上的分类结果，按各层次最大概率分类；如果下一层次概率最大的类别不属于上一层次的概率最大的类别，但上一层次的最大概率大于预先设定的阀值时，将上一层次按最大概率分类，再在该类别中按照概率最大原则分类；如果下一层次概率最大的类别不属于上一层次的概率最大的类别，同时上一层次的最大概率不大于预先设定的阀值，按照下一层次的概率最大原则确定文本的上下层次分类结果。
9：一种基于不确定推理的文本层次分类装置，其特征在于，包括：文本预处理模块 U1，用于将文本预处理成算法需要的 TF 及 BINARY 向量形式；特征抽取、分类器训练模块 U2，用于对文本预处理模块 U1 处理的文本特征的抽取、训练分类器；即用于利用 TF*IDF 方法提取文本特征，对文本降维，并利用特征权重构造基本可信度分配函数；分类模块 U3，用于根据特征抽取、分类器训练模块 U2 生成的分类器对待分类文本进行分类，并评价分类效率与准确性。
10：如权利要求 9 的文本层次分类装置，其特征在于，所述文本预处理模块 U1 包括：分词单元，用于对输入的文本进行分析，输出分词的结果：词列表；系统词典生成单元，用于统计文本集合中出现的词，并统一编号；文本向量生成单元，用于根据系统词典对每个文本进行分析，生成文本的 TF 向量及 BINARY 向量。
11：如权利要求 9 的文本层次分类装置，其特征在于，所述特征抽取、分类器训练模块 U2 包括：类文本向量生成单元，用于统计每个类，包括叶子节点类和非叶子节点类的文本 TF 向量及 BINARY 向量；特征抽取单元，用于根据特征权重计算公式和权重阀值抽取一定数目的特征；特征 BPA 函数生成单元，用于根据类的文本特征权重向量生成各特征的基本可信度分配 (BPA) 函数。
12：如权利要求 9 的文本层次分类装置，其特征在于，所述分类模块 U3 包括： 3 特征证据权重生成单元，用于对待分类文本表示成特征的 TF 向量形式，并生成归一化的特征证据权重；证据合成单元，用于根据特征抽取、分类器训练模块模块生成的 BPA 函数和特征证据权重对证据进行合成，生成待分类文本属于各类别的信度分布；概率计算单元，用于根据证据合成单元生成的信度分布，利用 Pignistic 概率以及三角模糊数的知识计算待分类文本属于各叶子节点类和非叶子节点类的概率；分类结果判定单元，用于根据概率计算单元输出的待分类文本属于各类别的概率，一用分类规则判定待分类文本的最终分类结果；分类精度评价单元，用于对待分类文本集的分类结果按照通用的评价标准评价分类进度；最优特征数生成单元，用于根据多次具体的分类精度评价值的优劣生成特征提取时的最优特征权重阀值及特征数。

说明书

基于不确定推理的文本层次分类方法与装置
    技术领域：本发明涉及利用数据挖掘技术进行中文文本处理的信息技术领域，特别是涉及一种基于证据推理的无标题文本的分类方法和装置。
     背景技术：随着在行业内部网络或者因特网上的各种技术类、办公类以及其他电子化文档的快速增长，对文档的分类管理效率及性能提出了更高要求。一方面海量的文档导致单层目录导航不再高效，需要更加科学的多层次目录分类系统进行文档分类管理。另一方面单纯依靠手工对大量文档进行分类已经显得不切实际。所以，文本的自动层次分类技术的研究有很强的实际应用意义。然而目前比较成熟的研究与应用大多在文档的单层目录分类上，文本多层次分类技术还处在初步探索阶段，分类的准确度和性能仍是需要解决的关键问题。
     目前探索的层次分类方法的解决方案可以分为两种：
     (1) 自顶向下的方法 (top-down level-based) 现有的大部分层次分类方法都采用这种模式，其特点是在类别树的每一层都构建一个或者多个分类器，每个分类器在所在层像单层文本分类一样工作。一个文本从根节点开始，逐层向下分类，直至到达叶子节点。这种方法具有明显的优点：将大的分类问题转化为小的子问题，能较好地降低时间和空间复杂度。然而这种方法也有明显的缺点：如果一个文本被分入了错误的父类，将不可能分入正确的叶子类。
     (2) 大爆炸方法 (big-bang) 这种方法在整个分类过程中只构造一个分类器。并用来对文本进行分类。虽然克服了方法 1 所述的缺点，但方法的时间空间开销一般比较大，不适合在对时间要求较高的场合比如网络上使用。
     在没有一种方法能保证 100％的正确率的前提下，近可能提高分类准确率就成了分类算法追求的目标。利用特征进行分类的模式下，特征包含的信息是模糊的，不确定的。比如 “电脑” 一词即可能出现在计算机类的文本中，也可能出现在生物科技类的文本，很难确定一个特征词只出现在一个文本类中，不出现在其他类中，这就是当前的分类算法热衷于使用概率来描述特征的区分度的原因。
     发明内容：本发明的目的在于提供一种新的中文文本层次分类方法和装置，用于提高对中文文本分类的准确程度。
     本发明利用不确定推理理论：即证据推理和模糊数的相关理论，充分挖掘特征中的不确定信息，改善分类的准确度。
     本发明是这样来实现的：一种基于不确定推理的文本层次分类方法，包括：
     a) 从训练文本中提取特征；
     b) 确定分类问题的辨识框架和焦元；
     c) 利用特征的权重构造基本可信度分配函数 (BPA) ；
     d) 根据基本可信度分配函数和待分类文本的特征权重合成待分类文本的信度分配；
     e) 利用信度分布根据分类规则对待分类文本进行分类。
     本发明还提供一种文本层次分类装置，包括：
     a) 文本预处理模块 U1，用于将文本预处理成算法需要的 TF 及 BINARY 向量形式；
     b) 特征抽取、分类器训练模块 U2，用于对文本预处理模块 U1 处理的文本特征的抽取、训练分类器；即用于利用 TF*IDF 方法提取文本特征，对文本降维，并利用特征权重构造基本可信度分配函数；
     c) 分类模块 U3，用于根据特征抽取、分类器训练模块 U2 生成的分类器对待分类文本进行分类，并评价分类效率与准确性。
     与现有文本层次分类技术相比，本发明具有以下优点：
     通过将非叶子类构造成虚拟的叶子类参与分类，很好的区分了父类与子类之间的不同特征；利用基本可信度分配函数分配给非叶子类的信度以及 pignistic 概率将文本的分类可信度表示为一个三角模糊数，在分类时充分地利用了不确定信息，提高了分类的准确程度。
     附图说明：图 1 是本发明实施例中文本层次分类方法的流程图；
     图 2 是本发明实施例中分类器训练的流程图；
     图 3 是本发明实施例中分类模块的流程图；
     图 4 是本发明实施例中测试文本的分类结果判定的流程图；图 5A、 5B 是本发明实施例中测试宏平均值及微平均值与每个类选取的特征数之间的关系图；
     图 6 是实现本发明的文本层次分类方法的装置的结构图；
     具体实施方式：以下结合附图对本发明作具体说明。应该指出，所描述的实施例仅仅视为说明的目的，而不是对本发明的限制。
     实施例 1
     本发明的实施例 1 提供了一种文本层次分类方法，如图 1 所示，包括以下步骤：
     步骤 101 ：从训练文本中提取特征；
     步骤 102 ：确定分类问题的辨识框架和焦元，利用特征的权重构造基本可信度分配函数 (BPA) ；
     步骤 103 ：根据基本可信度分配函数和待分类文本的特征权重合成测试文本的信度分配；
     步骤 104 ：利用信度分布根据分类规则对待分类文本进行分类。
     以下进一步详细的说明本发明实施例的文本层次分类方法中的各个细节问题。
     1、语料选择：
     本实施例采用的语料为中文文本分类语料库 -TanCorpV1.0，该语料库分为两个层次，第一层 12 个类别，第二层 60 个类别，共有文本 14150 篇，具体层级结构及文本数见表 1。实验时选取每个类别其中的 70％作为训练语料，剩下的 30％作为测试语料。
     表1
     2、确定辨识框架与焦元：
     对于一个层次分类问题，其类别层次结构可以用一个类别树来表示。类别树由一个根节点、若干中间节点和叶子节点组成。文本层次分类就是要将一个文本通过根节点、中间节点分到某个叶子节点。
     为描述问题方便，下面只说明层次结构为 2 层的情况。设分类问题中共有 CN1 个大类，记为 cm，共 CN2 个小类，其中 cm 类中有 nm 个子类，其中 m 1， 2，…， CN1。类层次关系可以用下面类似矩阵的形式表示：
     于是，所有叶子类构成该分类问题的辨识框架，记为：本发明实施例中假设信度只可能分配到某个具体的类别上，包括层次 1 大类和层次 2 子类，故所有可能的焦元集合可以记为：也就是说： m(2Ω\F) ＝ 0。同时，将文本中的特征及其出现频率作为证据。以下将 F\Ω 中的每个元素看做一个类，即共有 CN1+CN2 个类，显然该集合中有 CN1 个虚拟类，其
     意义为：例如，表示有证据说明文本有 10％的可能性是属于第一大类的，但是却不确定这 10％的可能性是支持文本属于第一大类的哪一个子类的。这种不确定性是由于大类的特征与子类的特征一般不同造成的，它不仅对将文本分入正确的大类很有用，而且利用不确定推理的知识，也可以用之来帮助子类层次的分类。这正是本发明的主要思想之一。 2、特征选取：
     这里选择词作为文本特征。特征选取采用 TF*IDF 方法：选取 TF*IDF 值最大的前一定数目的词作为特征。首先将每个类包含的所有文本 ( 层次 1 大类包含的文本是指其全部子类包含的全部文本 ) 的 TF 向量融合成一个类文本 TF 向量；然后设定想要抽取的类的特征数的阀值 ρ1，并根据类文本的 TF*IDF 值选取制定数目的词作为该类的特征；最后综合得到分类器的特征，特征数记为 N。这种为每个类分别选取特征的方法能使得在总特征数大为缩减的同时还能提高分类精度。最优特征数量由分类测试的结果来确定。
     4、训练分类器
     如图 2 所示，分为如下步骤：
     步骤 201 ：分别生成每个类的文本特征的 TF 向量和 BINARY 向量；步骤 202 ：由下面的公式计算类文本 di 中特征 fj 的权重 W(di， fj) ：由于直觉上词的权重与词频 TF 的关系不应该是 TF*IDF 公式所描述的简单的线性实验证明改进后分类精度得到了改善；关系，本发明将公式中的 TF 改进为
     步骤 203 ：利用特征的权重值构造证据推理的基础：基本可信度分配函数。
     首先给出本发明中使用的基本可信度分配函数的定义：
     定义 1 ：设类文本 di 中特征 fj 的权重为 W(di， fj)，记 Sj ＝∑ iW(di， fj)。定义特征 fj 的基本可信度分配函数：
     m(ci， fj) ＝ W(di， fj)/Sj，
     其中， i ＝ 1， 2， Λ， CN2， CN2+1， Λ， CN2+CN1， j ＝ 1， 2， Λ， N。
     显然，根据定义 1 ： m(Ω， fj) ＝ 0。本发明中这样定义的原因是基于这样的假设：特征至少在一个类 ( 层次 1 大类或者层次 2 子类 ) 中出现过。
     5、分类
     分类的主要思想是将待分类文本中出现的特征及其频度作为证据，结合训练得到的基本可信度分配函数，利用证据推理的理论合成待分类文本在各焦元上的信度分配，在利用信度分配按照分类规则分类，如图 3 所示，具体步骤如下：
     步骤 301 ：读入待分类文本并预处理成特征及其频度的向量形式，记为：
     x ＝ (TF1， TF2， Λ， TFj， Λ， TFN)
     步骤 302 ：将 x 归一化，作为各证据的权重 w ＝ (w1， w2， Λ， wj， Λ， wN)，其中：
     步骤 303 ：利用证据推理知识进行证据合成。共有 N 个证据，其基本可信度分配函数由定义 1 给出，证据权重由步骤 302 给出。本发明实施例采用递推合成算法，该算法属于现有技术。
     记合成后的信度分布为 m(ci)，其中 i ＝ 1， 2， Λ， CN2， CN2+1， Λ， CN2+CN1。当 1 ≤ i ≤ CN2 时， m(ci) 表示证据支持待分类文本属于层次 2 子类 ci 的程度，当 CN2+1 ≤ i ≤ CN2+CN1 时， m(ci) 表示证据支持待分类文本属于层次 1 大类 ci-CN2 的程度，是没有分配给具体层次 2 子类的信度。
     步骤 304 ：利用合成的信度分布根据分类规则，如图 4 所示，分类结果判定流程如下：
     步骤 401 ：利用步骤 303 中的得到的信度分布，计算出待分类文本属于层次 1 大类 cm 的概率 P1(cm)，属于层次 2 子类 ci 的概率 P2(ci)。记 index(max(· )) 表示取最大值的下标索引，即 index(max(P1)) 表示概率最大的层次 1 大类的类标号， index(max(P2)) 表示概率最大的层次 2 子类的类标号。同时记 L1Index(ci) 为层次 2 子类 ci 的层次 1 大类的类标号。这里概率的计算方法如下：
     (1) 测试文本属于层次 2 子类 ci 的概率 P2(ci) 分为两部分，一部分是证据支持待分类文本属于该类的信度 m(ci)，这一部分是确定的；另一部分是证据支持待分类文本属于该类的父类 cm 即层次 1 大类的信度 m(cm)，这一部分是不确定的，即不知道该怎样分配到其子类上。本发明采用根据理由不充分准则而来的 Pignistic 概率分配方法
     其中， ci 为层次 1 大类 cm 的所有子类， |cm| 表示包含的子类数。于是 P2(ci) 可以表示成一个三角模糊数 (m(ci)， m(ci)+BetP(ci)， m(ci)+m(cm))，其意义分别为文本属于层次 2 子类 ci 的概率的下界、最可能值、上界。为了实现三角模糊数的比较，本发明采用逆模糊化的方法：
     P2(ci) ＝ α·m(ci)+β·(m(ci)+BetP(ci))+γ·(m(ci)+m(cm))
     其中 α， β， γ ∈ (0， 1) 且 α+β+γ ＝ 1。
     (2) 待分类文本属于层次 1 大类 cm 的概率 P1(cm) 等于该文本属于大类 cm 的所有子类的概率之和：
     P1(cm) ＝∑ P2(ci)
     其中 ci 为层次 1 大类 cm 的所有子类。
     步骤 402 ：如果 index(max(P1)) 等于 L1Index(index(max(P2)))，也就是待分类文
     本最可能属于的层次 1 大类与文本最可能属于的层次 2 子类所在的大类相同，这时接受分类结果，待分类文本属于层次 1 的第 index(max(P1)) 大类、层次 2 的第 index(max(P2)) 子类，转至步骤 406。否则转入步骤 403。
     步骤 403 ：对于两个错误的分类而言，第一个错误将待分类文本归入正确的层次 1 大类、错误的层次 2 子类，第二个错误将待分类文本归入错误的层次 1 大类，显然前者犯的错误小于后者。在没有办法保证 100％的正确率时，减小分类错误及其后果是很有必要的。因此，基于优先将待分类文本分入正确可能性大的大类的思想，本发明采取如下判断规则：如果 max(P1) 大于某一预先设定的阀值 ρ2，接受第一层次的分类，将待分类文本分入层次 1 的第 index(max(P1)) 大类，转入步骤 404 ；否则转入步骤 405。
     步骤 404 ：在层次 1 大类确定的条件下，根据该类下的子类的概率对待分类文本进行第二层次的分类，分类结果为待分类文本属于层次 2 的第 index(max(P2)) 子类。转入步骤 406。
     步骤 405 ：如果待分类文本属于层次 1 上大类的概率区分度不大，也就是不能比较高概率地判断文本属于哪个大类，这时利用待分类文本属于层次 2 子类的概率进行分类，根据 max(P2) 将文本分入层次 1 第 L1Index(index(max(P2))) 大类、层次 2 第 index(max(P2)) 子类。转入步骤 406。
     步骤 406 ：输出分类结果，分类结束。
     6、评价方法与实施例实验结果
     为了验证本发明的层次分类方法的有效性，采用前述 TanCorpV1.0 语料库的两个层次全部 12 大类 60 小类的文本进行测试。评价指标选择 F1 的宏平均和微平均。在以下的实验中，取阀值 ρ2 ＝ 0.5， α ＝ γ ＝ 1/6， β ＝ 4/6。
     特征提取环节是分类的基础，特征数的多少能直接影响分类的准确性。在本发明的算法中，每个类特征数由预先设定的阀值 ρ1 确定，在实施例中， ρ1 为一个 CN1+CN2 维向量，为选择最优的阀值 ρ1 以及合成后的分类器的特征数，发明人通过单层次的分类实验，如图 5，确定了各层次分类时的最优特征数。图 5A、 5B 分别显示了层次 1 的 CN1 个大类上分类时不同的分类器特征数对应的 F1 的微平均 (MicroF1) 和宏平均 (MacroF1)，同时也显示了在相同条件下利用 SVM 方法分类的 F1 的微平均 (MicroF1) 和宏平均 (MacroF1)，显然本发明提供的方法比 SVM 方法有更好的分类精度。从图中也可以看出，随着特征数的增多，分类准确度也增加，但是特征数太多带来的时间和空间的开销也增大。同时当层次 1 大类的每个类选取的特征数为 350 时，分类性能局部最高，此时，对应的合成后层次 1 大类的分类器特征数为 3527。类似地，在层次 2 小类上进行分类实验，可以确定当当层次 1 大类的每个类选取的特征数为 200 时，分类性能局部最高，此时，对应的合成后层次 2 小类的分类器特征总数为 6258。最后综合得到本发明方法的分类器的特征数为 7960，后面的实验中均取此值。
     选择该特征数阀值，第一层次上的分类和第二层次上的分类精度分别如下表 2 所示。
     表2
     MicroF1 层次 1 层次 2
     MacroF1 89.02％ 74.47％92.72％ 77.66％本发明公开的方法提高了中文文本层次分类的精度，该方法可以应用于涉及对大量文本进行分类管理的知识管理系统或者网络信息处理系统中，对于中文文本特别是无标题文本的自动分类管理提供了更科学高效的方法。例如，搜索引擎的搜索结果分类，有利用用户找到自己感兴趣的类别的搜索结果；知识管理系统中的文本分类，有利用系统挖掘和发现隐藏在类别信息下的知识。
     实施例 2本发明的实施例 2 还提供了一种文本层次分类装置，如图 6 所示，包括：文本预处理模块 U1，用于将文本预处理成算法需要的 TF 及 BINARY 向量形式，包括：分词单元 U11，用于对输入的文本进行分析，输出分词的结果：词列表。
     系统词典生成单元 U12，用于统计文本集合中出现的词，并统一编号。
     文本向量生成单元 U13，用于根据系统词典对每个文本进行分析，生成文本的 TF 及 BINARY 向量。
     特征抽取、分类器训练模块 U2，用于对文本预处理模块 U1 处理的文本特征的抽取，训练分类器，包括：
     类文本向量生成单元 U21，用于统计每个类 ( 包括叶子节点类和非叶子节点类 ) 的文本 TF 及 BINARY 向量。
     特征抽取单元 U22，用于根据特征权重计算公式和特征数阀值抽取一定数目的特征。
     特征 BPA 函数生成单元 U23，用于根据文本的特征权重向量生成各特征的基本可信度分配 (BPA) 函数。
     分类模块 U3，用于根据特征抽取、分类器训练模块 U2 模块生成的分类器对待分类文本进行分类，包括：
     特征证据权重生成单元 U31，用于对待分类文本表示成特征的 TF 向量形式，并生成归一化的特征证据权重。
     证据合成单元 U32，用于根据特征抽取、分类器训练模块 U2 模块生成的 BPA 函数和特征证据权重对证据进行合成，生成待分类文本属于各类别的信度分布。
     概率计算单元 U33，用于根据证据合成单元 U32 生成的信度分布，利用 Pignistic 概率以及三角模糊数的知识计算待分类文本属于各叶子节点类和非叶子节点类的概率。
     分类结果判定单元 U34，用于根据概率计算单元 U33 输出的待分类文本属于各类别的概率，一用分类规则判定待分类文本的最终分类结果。
     分类精度评价单元 U35，用于对待分类文本集的分类结果按照通用的评价标准评价分类进度。
     最优特征数生成单元 U36，用于根据多次具体的分类精度评价值的优劣生成特征提取时的最优特征权重阀值及特征数阀值。

资源描述

《基于不确定推理的文本层次分类方法与装置.pdf》由会员分享，可在线阅读，更多相关《基于不确定推理的文本层次分类方法与装置.pdf（16页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN101976270A43申请公布日20110216CN101976270ACN101976270A21申请号201010562470922申请日20101129G06F17/3020060171申请人南京师范大学地址210097江苏省南京市鼓楼区宁海路122号72发明人钱钢王海沈玲玲姜乃松冯向前王艳军74专利代理机构南京天翼专利代理有限责任公司32112代理人汤志武54发明名称基于不确定推理的文本层次分类方法与装置57摘要本发明涉及利用数据挖掘技术进行中文文本处理的信息技术领域，涉及一种基于不确定推理的文本层次分类方法和装置。包括A从训练文本中提取特征；B确定分类问题的辨识框。

2、架和焦元；C利用特征的权重构造基本可信度分配函数；D利用特征的基本可信度分配函数合成测试文本的信度分布；E利用信度分布根据分类规则进行分类。本发明具有以下优点通过将非叶子类构造成虚拟的叶子类参与分类，很好的区分了父类与子类之间的不同特征；利用基本可信度分配函数分配给非叶子类的信度以及PIGNISTIC概率将文本的分类可信度表示为一个三角模糊数，在分类时充分地利用了不确定信息，提高了分类的准确程度。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书7页附图5页CN101976275A1/3页21一种基于不确定推理的文本层次分类方法，其特征在于，所述方法包括如下步骤。

3、从训练文本中提取特征；确定分类问题的辨识框架和焦元集合；利用特征的权重构造基本可信度分配函数BPA；根据基本可信度分配函数和待分类文本的特征权重合成待分类文本的信度分配；利用信度分布根据分类规则对待分类文本进行分类。2如权利要求1的方法，其特征在于，所述从训练文本中提取特征包括对文本进行分词，统计词频，将文本表示成TF向量和BINARY向量，计算文本中词的TFIDF值，根据权重提取特征；文本中特征的权重包括其中，WDI，FJ为文本DI中特征FJ的权重，TFDI，FJ为文本DI中特征FJ的频数，IDFFJ为特征FJ的反文档频率。3如权利要求1的方法，其特征在于，确定分类问题的辨识框架和焦元集合，。

4、是将所有的叶子节点类的集合确定为分类问题的辨识框架；将除根节点外的所有节点类的集合作为分类问题的焦元集合；焦元集合中的非叶子节点类焦元的信度是指分配在该大类上且不确定该分配给该大类的哪个子类的信度。4如权利要求1的方法，其特征在于，所述根据特征的权重构造基本可信度分配函数包括MCI，FJWDI，FJ/SJ其中，MCI，FJ为特征FJ属于焦元集合中的类CI，的可信度，SJ为焦元集合中的所有类上特征FJ的权重之和。5如权利要求1的方法，其特征在于，所述利用信度分布根据分类规则对待分类文本进行分类包括由待分类文本的TF向量按下述公式生成待分类文本的特征证据权重其中，WJ为待分类文本中特征FJ的权重，。

5、TFJ为待分类文本中特征FJ出现的频数；利用证据权重对基本可信度分配加权，再利用递推合成算法得到待分类文本属于焦元集合中所有类的信度分布；由信度分布根据分类规则对待分类文本进行分类。6如权利要求5的方法，其特征在于，所述根据分类规则进行分类包括利用信度分布计算待分类文本属于每个层次的所有类的概率；利用待分类文本属于每个层次的所有类的概率根据分类规则在每个层次上分类。7如权利要求6的方法，其特征在于，所述利用信度分布计算待分类文本属于每个层次的所有类的概率包括将分配给父类的信度根据PIGNISTIC概率分配方法分配给其子类，构造子类的信度的三角模糊数的表述形式，并逆模糊化为概率；一个父类的信度等。

6、于分配给其所有子类的的概率之和；权利要求书CN101976270ACN101976275A2/3页3所述将分配给父类的信度根据PIGNISTIC概率分配方法分配给其子类包括其中，BETPCI为PIGNISTIC概率分配给子类CI的信度，|CM|为父类CM包含的子类数，MCM为分配给父类CM的信度。所述子类的信度的三角模糊数的表述形式包括MCI，MCIBETPCI，MCIMCM其中，MCI为待分类文本属于类CI的最小概率，MCIBETPCI为待分类文本文本属于类CI的最可能概率，MCIMCM为待分类文本文本属于类CI的最大概率。所述逆模糊化包括P2CIMCIMCIBETPCIMCIMCM其中，P。

7、2CI为文本属于类的概率，0，1且1。8如权利要求6的方法，其特征在于，所述分类规则包括如果下一层次概率最大的类别属于上一层次的概率最大的类别，则接受上下两个层次上的分类结果，按各层次最大概率分类；如果下一层次概率最大的类别不属于上一层次的概率最大的类别，但上一层次的最大概率大于预先设定的阀值时，将上一层次按最大概率分类，再在该类别中按照概率最大原则分类；如果下一层次概率最大的类别不属于上一层次的概率最大的类别，同时上一层次的最大概率不大于预先设定的阀值，按照下一层次的概率最大原则确定文本的上下层次分类结果。9一种基于不确定推理的文本层次分类装置，其特征在于，包括文本预处理模块U1，用于将文本。

8、预处理成算法需要的TF及BINARY向量形式；特征抽取、分类器训练模块U2，用于对文本预处理模块U1处理的文本特征的抽取、训练分类器；即用于利用TFIDF方法提取文本特征，对文本降维，并利用特征权重构造基本可信度分配函数；分类模块U3，用于根据特征抽取、分类器训练模块U2生成的分类器对待分类文本进行分类，并评价分类效率与准确性。10如权利要求9的文本层次分类装置，其特征在于，所述文本预处理模块U1包括分词单元，用于对输入的文本进行分析，输出分词的结果词列表；系统词典生成单元，用于统计文本集合中出现的词，并统一编号；文本向量生成单元，用于根据系统词典对每个文本进行分析，生成文本的TF向量及BIN。

9、ARY向量。11如权利要求9的文本层次分类装置，其特征在于，所述特征抽取、分类器训练模块U2包括类文本向量生成单元，用于统计每个类，包括叶子节点类和非叶子节点类的文本TF向量及BINARY向量；特征抽取单元，用于根据特征权重计算公式和权重阀值抽取一定数目的特征；特征BPA函数生成单元，用于根据类的文本特征权重向量生成各特征的基本可信度分配BPA函数。12如权利要求9的文本层次分类装置，其特征在于，所述分类模块U3包括权利要求书CN101976270ACN101976275A3/3页4特征证据权重生成单元，用于对待分类文本表示成特征的TF向量形式，并生成归一化的特征证据权重；证据合成单元，用于根。

10、据特征抽取、分类器训练模块模块生成的BPA函数和特征证据权重对证据进行合成，生成待分类文本属于各类别的信度分布；概率计算单元，用于根据证据合成单元生成的信度分布，利用PIGNISTIC概率以及三角模糊数的知识计算待分类文本属于各叶子节点类和非叶子节点类的概率；分类结果判定单元，用于根据概率计算单元输出的待分类文本属于各类别的概率，一用分类规则判定待分类文本的最终分类结果；分类精度评价单元，用于对待分类文本集的分类结果按照通用的评价标准评价分类进度；最优特征数生成单元，用于根据多次具体的分类精度评价值的优劣生成特征提取时的最优特征权重阀值及特征数。权利要求书CN101976270ACN10197。

11、6275A1/7页5基于不确定推理的文本层次分类方法与装置0001技术领域本发明涉及利用数据挖掘技术进行中文文本处理的信息技术领域，特别是涉及一种基于证据推理的无标题文本的分类方法和装置。0002背景技术随着在行业内部网络或者因特网上的各种技术类、办公类以及其他电子化文档的快速增长，对文档的分类管理效率及性能提出了更高要求。一方面海量的文档导致单层目录导航不再高效，需要更加科学的多层次目录分类系统进行文档分类管理。另一方面单纯依靠手工对大量文档进行分类已经显得不切实际。所以，文本的自动层次分类技术的研究有很强的实际应用意义。然而目前比较成熟的研究与应用大多在文档的单层目录分类上，文本多层次分类。

12、技术还处在初步探索阶段，分类的准确度和性能仍是需要解决的关键问题。0003目前探索的层次分类方法的解决方案可以分为两种00041自顶向下的方法TOPDOWNLEVELBASED现有的大部分层次分类方法都采用这种模式，其特点是在类别树的每一层都构建一个或者多个分类器，每个分类器在所在层像单层文本分类一样工作。一个文本从根节点开始，逐层向下分类，直至到达叶子节点。这种方法具有明显的优点将大的分类问题转化为小的子问题，能较好地降低时间和空间复杂度。然而这种方法也有明显的缺点如果一个文本被分入了错误的父类，将不可能分入正确的叶子类。00052大爆炸方法BIGBANG这种方法在整个分类过程中只构造一个分。

13、类器。并用来对文本进行分类。虽然克服了方法1所述的缺点，但方法的时间空间开销一般比较大，不适合在对时间要求较高的场合比如网络上使用。0006在没有一种方法能保证100的正确率的前提下，近可能提高分类准确率就成了分类算法追求的目标。利用特征进行分类的模式下，特征包含的信息是模糊的，不确定的。比如“电脑”一词即可能出现在计算机类的文本中，也可能出现在生物科技类的文本，很难确定一个特征词只出现在一个文本类中，不出现在其他类中，这就是当前的分类算法热衷于使用概率来描述特征的区分度的原因。0007发明内容本发明的目的在于提供一种新的中文文本层次分类方法和装置，用于提高对中文文本分类的准确程度。0008本。

14、发明利用不确定推理理论即证据推理和模糊数的相关理论，充分挖掘特征中的不确定信息，改善分类的准确度。0009本发明是这样来实现的一种基于不确定推理的文本层次分类方法，包括0010A从训练文本中提取特征；0011B确定分类问题的辨识框架和焦元；0012C利用特征的权重构造基本可信度分配函数BPA；0013D根据基本可信度分配函数和待分类文本的特征权重合成待分类文本的信度分配；0014E利用信度分布根据分类规则对待分类文本进行分类。0015本发明还提供一种文本层次分类装置，包括说明书CN101976270ACN101976275A2/7页60016A文本预处理模块U1，用于将文本预处理成算法需要的T。

15、F及BINARY向量形式；0017B特征抽取、分类器训练模块U2，用于对文本预处理模块U1处理的文本特征的抽取、训练分类器；即用于利用TFIDF方法提取文本特征，对文本降维，并利用特征权重构造基本可信度分配函数；0018C分类模块U3，用于根据特征抽取、分类器训练模块U2生成的分类器对待分类文本进行分类，并评价分类效率与准确性。0019与现有文本层次分类技术相比，本发明具有以下优点0020通过将非叶子类构造成虚拟的叶子类参与分类，很好的区分了父类与子类之间的不同特征；利用基本可信度分配函数分配给非叶子类的信度以及PIGNISTIC概率将文本的分类可信度表示为一个三角模糊数，在分类时充分地利用了。

16、不确定信息，提高了分类的准确程度。0021附图说明图1是本发明实施例中文本层次分类方法的流程图；0022图2是本发明实施例中分类器训练的流程图；0023图3是本发明实施例中分类模块的流程图；0024图4是本发明实施例中测试文本的分类结果判定的流程图；0025图5A、5B是本发明实施例中测试宏平均值及微平均值与每个类选取的特征数之间的关系图；0026图6是实现本发明的文本层次分类方法的装置的结构图；0027具体实施方式以下结合附图对本发明作具体说明。应该指出，所描述的实施例仅仅视为说明的目的，而不是对本发明的限制。0028实施例10029本发明的实施例1提供了一种文本层次分类方法，如图1所示，包。

17、括以下步骤0030步骤101从训练文本中提取特征；0031步骤102确定分类问题的辨识框架和焦元，利用特征的权重构造基本可信度分配函数BPA；0032步骤103根据基本可信度分配函数和待分类文本的特征权重合成测试文本的信度分配；0033步骤104利用信度分布根据分类规则对待分类文本进行分类。0034以下进一步详细的说明本发明实施例的文本层次分类方法中的各个细节问题。00351、语料选择0036本实施例采用的语料为中文文本分类语料库TANCORPV10，该语料库分为两个层次，第一层12个类别，第二层60个类别，共有文本14150篇，具体层级结构及文本数见表1。实验时选取每个类别其中的70作为训练。

18、语料，剩下的30作为测试语料。0037表1说明书CN101976270ACN101976275A3/7页7003800392、确定辨识框架与焦元0040对于一个层次分类问题，其类别层次结构可以用一个类别树来表示。类别树由一个根节点、若干中间节点和叶子节点组成。文本层次分类就是要将一个文本通过根节点、中间节点分到某个叶子节点。0041为描述问题方便，下面只说明层次结构为2层的情况。设分类问题中共有CN1个大类，记为CM，共CN2个小类，其中CM类中有NM个子类，其中M1，2，CN1。类层次关系可以用下面类似矩阵的形式表示00420043于是，所有叶子类构成该分类问题的辨识框架，记为0044004。

19、5本发明实施例中假设信度只可能分配到某个具体的类别上，包括层次1大类和层次2子类，故所有可能的焦元集合可以记为00460047也就是说M2F0。同时，将文本中的特征及其出现频率作为证据。以下将F中的每个元素看做一个类，即共有CN1CN2个类，显然该集合中有CN1个虚拟类，其说明书CN101976270ACN101976275A4/7页8意义为例如，表示有证据说明文本有10的可能性是属于第一大类的，但是却不确定这10的可能性是支持文本属于第一大类的哪一个子类的。这种不确定性是由于大类的特征与子类的特征一般不同造成的，它不仅对将文本分入正确的大类很有用，而且利用不确定推理的知识，也可以用之来帮助子。

20、类层次的分类。这正是本发明的主要思想之一。00482、特征选取0049这里选择词作为文本特征。特征选取采用TFIDF方法选取TFIDF值最大的前一定数目的词作为特征。首先将每个类包含的所有文本层次1大类包含的文本是指其全部子类包含的全部文本的TF向量融合成一个类文本TF向量；然后设定想要抽取的类的特征数的阀值1，并根据类文本的TFIDF值选取制定数目的词作为该类的特征；最后综合得到分类器的特征，特征数记为N。这种为每个类分别选取特征的方法能使得在总特征数大为缩减的同时还能提高分类精度。最优特征数量由分类测试的结果来确定。00504、训练分类器0051如图2所示，分为如下步骤0052步骤201分。

21、别生成每个类的文本特征的TF向量和BINARY向量；0053步骤202由下面的公式计算类文本DI中特征FJ的权重WDI，FJ00540055由于直觉上词的权重与词频TF的关系不应该是TFIDF公式所描述的简单的线性关系，本发明将公式中的TF改进为实验证明改进后分类精度得到了改善；0056步骤203利用特征的权重值构造证据推理的基础基本可信度分配函数。0057首先给出本发明中使用的基本可信度分配函数的定义0058定义1设类文本DI中特征FJ的权重为WDI，FJ，记SJIWDI，FJ。定义特征FJ的基本可信度分配函数0059MCI，FJWDI，FJ/SJ，0060其中，I1，2，CN2，CN21，。

22、CN2CN1，J1，2，N。0061显然，根据定义1M，FJ0。本发明中这样定义的原因是基于这样的假设特征至少在一个类层次1大类或者层次2子类中出现过。00625、分类0063分类的主要思想是将待分类文本中出现的特征及其频度作为证据，结合训练得到的基本可信度分配函数，利用证据推理的理论合成待分类文本在各焦元上的信度分配，在利用信度分配按照分类规则分类，如图3所示，具体步骤如下0064步骤301读入待分类文本并预处理成特征及其频度的向量形式，记为0065XTF1，TF2，TFJ，TFN0066步骤302将X归一化，作为各证据的权重WW1，W2，WJ，WN，其中00670068步骤303利用证据推。

23、理知识进行证据合成。共有N个证据，其基本可信度分配函数由定义1给出，证据权重由步骤302给出。本发明实施例采用递推合成算法，该算法属于说明书CN101976270ACN101976275A5/7页9现有技术。0069记合成后的信度分布为MCI，其中I1，2，CN2，CN21，CN2CN1。当1ICN2时，MCI表示证据支持待分类文本属于层次2子类CI的程度，当CN21ICN2CN1时，MCI表示证据支持待分类文本属于层次1大类CICN2的程度，是没有分配给具体层次2子类的信度。0070步骤304利用合成的信度分布根据分类规则，如图4所示，分类结果判定流程如下0071步骤401利用步骤303中的。

24、得到的信度分布，计算出待分类文本属于层次1大类CM的概率P1CM，属于层次2子类CI的概率P2CI。记INDEXMAX表示取最大值的下标索引，即INDEXMAXP1表示概率最大的层次1大类的类标号，INDEXMAXP2表示概率最大的层次2子类的类标号。同时记L1INDEXCI为层次2子类CI的层次1大类的类标号。这里概率的计算方法如下00721测试文本属于层次2子类CI的概率P2CI分为两部分，一部分是证据支持待分类文本属于该类的信度MCI，这一部分是确定的；另一部分是证据支持待分类文本属于该类的父类CM即层次1大类的信度MCM，这一部分是不确定的，即不知道该怎样分配到其子类上。本发明采用根据。

25、理由不充分准则而来的PIGNISTIC概率分配方法00730074其中，CI为层次1大类CM的所有子类，|CM|表示包含的子类数。于是P2CI可以表示成一个三角模糊数MCI，MCIBETPCI，MCIMCM，其意义分别为文本属于层次2子类CI的概率的下界、最可能值、上界。为了实现三角模糊数的比较，本发明采用逆模糊化的方法0075P2CIMCIMCIBETPCIMCIMCM0076其中，0，1且1。00772待分类文本属于层次1大类CM的概率P1CM等于该文本属于大类CM的所有子类的概率之和0078P1CMP2CI0079其中CI为层次1大类CM的所有子类。0080步骤402如果INDEXMAX。

26、P1等于L1INDEXINDEXMAXP2，也就是待分类文本最可能属于的层次1大类与文本最可能属于的层次2子类所在的大类相同，这时接受分类结果，待分类文本属于层次1的第INDEXMAXP1大类、层次2的第INDEXMAXP2子类，转至步骤406。否则转入步骤403。0081步骤403对于两个错误的分类而言，第一个错误将待分类文本归入正确的层次1大类、错误的层次2子类，第二个错误将待分类文本归入错误的层次1大类，显然前者犯的错误小于后者。在没有办法保证100的正确率时，减小分类错误及其后果是很有必要的。因此，基于优先将待分类文本分入正确可能性大的大类的思想，本发明采取如下判断规则如果MAXP1大。

27、于某一预先设定的阀值2，接受第一层次的分类，将待分类文本分入层次1的第INDEXMAXP1大类，转入步骤404；否则转入步骤405。0082步骤404在层次1大类确定的条件下，根据该类下的子类的概率对待分类文本进说明书CN101976270ACN101976275A6/7页10行第二层次的分类，分类结果为待分类文本属于层次2的第INDEXMAXP2子类。转入步骤406。0083步骤405如果待分类文本属于层次1上大类的概率区分度不大，也就是不能比较高概率地判断文本属于哪个大类，这时利用待分类文本属于层次2子类的概率进行分类，根据MAXP2将文本分入层次1第L1INDEXINDEXMAXP2大类。

28、、层次2第INDEXMAXP2子类。转入步骤406。0084步骤406输出分类结果，分类结束。00856、评价方法与实施例实验结果0086为了验证本发明的层次分类方法的有效性，采用前述TANCORPV10语料库的两个层次全部12大类60小类的文本进行测试。评价指标选择F1的宏平均和微平均。在以下的实验中，取阀值205，1/6，4/6。0087特征提取环节是分类的基础，特征数的多少能直接影响分类的准确性。在本发明的算法中，每个类特征数由预先设定的阀值1确定，在实施例中，1为一个CN1CN2维向量，为选择最优的阀值1以及合成后的分类器的特征数，发明人通过单层次的分类实验，如图5，确定了各层次分类时。

29、的最优特征数。图5A、5B分别显示了层次1的CN1个大类上分类时不同的分类器特征数对应的F1的微平均MICROF1和宏平均MACROF1，同时也显示了在相同条件下利用SVM方法分类的F1的微平均MICROF1和宏平均MACROF1，显然本发明提供的方法比SVM方法有更好的分类精度。从图中也可以看出，随着特征数的增多，分类准确度也增加，但是特征数太多带来的时间和空间的开销也增大。同时当层次1大类的每个类选取的特征数为350时，分类性能局部最高，此时，对应的合成后层次1大类的分类器特征数为3527。类似地，在层次2小类上进行分类实验，可以确定当当层次1大类的每个类选取的特征数为200时，分类性能局。

30、部最高，此时，对应的合成后层次2小类的分类器特征总数为6258。最后综合得到本发明方法的分类器的特征数为7960，后面的实验中均取此值。0088选择该特征数阀值，第一层次上的分类和第二层次上的分类精度分别如下表2所示。0089表20090MICROF1MACROF1层次192728902层次2776674470091本发明公开的方法提高了中文文本层次分类的精度，该方法可以应用于涉及对大量文本进行分类管理的知识管理系统或者网络信息处理系统中，对于中文文本特别是无标题文本的自动分类管理提供了更科学高效的方法。例如，搜索引擎的搜索结果分类，有利用用户找到自己感兴趣的类别的搜索结果；知识管理系统中的文。

31、本分类，有利用系统挖掘和发现隐藏在类别信息下的知识。0092实施例2说明书CN101976270ACN101976275A7/7页110093本发明的实施例2还提供了一种文本层次分类装置，如图6所示，包括0094文本预处理模块U1，用于将文本预处理成算法需要的TF及BINARY向量形式，包括0095分词单元U11，用于对输入的文本进行分析，输出分词的结果词列表。0096系统词典生成单元U12，用于统计文本集合中出现的词，并统一编号。0097文本向量生成单元U13，用于根据系统词典对每个文本进行分析，生成文本的TF及BINARY向量。0098特征抽取、分类器训练模块U2，用于对文本预处理模块U1。

32、处理的文本特征的抽取，训练分类器，包括0099类文本向量生成单元U21，用于统计每个类包括叶子节点类和非叶子节点类的文本TF及BINARY向量。0100特征抽取单元U22，用于根据特征权重计算公式和特征数阀值抽取一定数目的特征。0101特征BPA函数生成单元U23，用于根据文本的特征权重向量生成各特征的基本可信度分配BPA函数。0102分类模块U3，用于根据特征抽取、分类器训练模块U2模块生成的分类器对待分类文本进行分类，包括0103特征证据权重生成单元U31，用于对待分类文本表示成特征的TF向量形式，并生成归一化的特征证据权重。0104证据合成单元U32，用于根据特征抽取、分类器训练模块U2。

33、模块生成的BPA函数和特征证据权重对证据进行合成，生成待分类文本属于各类别的信度分布。0105概率计算单元U33，用于根据证据合成单元U32生成的信度分布，利用PIGNISTIC概率以及三角模糊数的知识计算待分类文本属于各叶子节点类和非叶子节点类的概率。0106分类结果判定单元U34，用于根据概率计算单元U33输出的待分类文本属于各类别的概率，一用分类规则判定待分类文本的最终分类结果。0107分类精度评价单元U35，用于对待分类文本集的分类结果按照通用的评价标准评价分类进度。0108最优特征数生成单元U36，用于根据多次具体的分类精度评价值的优劣生成特征提取时的最优特征权重阀值及特征数阀值。说明书CN101976270ACN101976275A1/5页12图1图2说明书附图CN101976270ACN101976275A2/5页13图3说明书附图CN101976270ACN101976275A3/5页14图4说明书附图CN101976270ACN101976275A4/5页15图5A图5B说明书附图CN101976270ACN101976275A5/5页16图6说明书附图CN101976270A。

展开阅读全文