一种融合成对约束和关键词的半监督文本聚类方法及装置.pdf

摘要
申请专利号：	CN201010247627.9	申请日：	2010.08.01
公开号：	CN102346753A	公开日：	2012.02.08
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20120208\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20100801\|\|\|公开
IPC分类号：	G06F17/30; G06F17/27	主分类号：	G06F17/30
申请人：	青岛理工大学
发明人：	王金龙; 吴舜尧; 李刚
地址：	266033 山东省青岛市四方区抚顺路11号
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本发明公开了一种融合成对约束和关键词的半监督文本聚类方法及装置。本发明的方法包括：融合成对约束辅助文本聚类并得到初始特征词权重；基于所获得的初始特征词权重，同时融合成对约束和关键词进行半监督聚类；依据用户满意度评估并选择聚类结果。本发明的装置包括预处理模块、融合成对约束的文本聚类模块、融合成对约束和关键词两种信息的半监督文本聚类模块和评价及选择结果模块。由于本发明所提供的半监督文本聚类方法在融合成对约束信息的基础上，继续添加关键词信息，在运用成对约束学习特征词权重的同时，利用关键词信息对相应的特征词权重进行调整，使两种先验信息相互影响，相互促进，所以可获得更准确的聚类结果。

权利要求书

1：一种融合成对约束和关键词的半监督文本聚类方法及装置，其特征在于，该方法及装置包括以下步骤： A、利用融合成对约束的半监督文本聚类方法对文本数据集进行划分，并得到初始特征词权重； B、基于初始特征词权重，同时融合成对约束和关键词两种信息对文本数据集进行聚类划分； C、以用户满意度为指标，评价所产生的文本划分的质量，并选择质量高的聚类结果输出。
2：根据权利要求 1 所述的方法，其特征在于：步骤 A 中初始特征词权重通过测度学习得到。
3：根据权利要求 1 所述的方法，其特征在于：步骤 B 中半监督文本聚类采用广义 I 散度对文本距离进行度量。
4：根据权利要求 1 所述的方法，其特征在于，步骤 A 和步骤 B 中半监督聚类为软限制性优化聚类方法。
5：根据权利要求 1 所述的方法，其特征在于，步骤 C 中用户满意度采用对用户所提供成对约束信息的满足程度度量。
6：根据权利要求 1 所述的方法，其特征在于，步骤 A 之前还包括：对所述文本集进行预处理；所述预处理包括：文本分词、特征词提取、文本向量化和规整数据集。
7：一种融合成对约束和关键词的半监督文本聚类装置，其特征在于，该装置包括：预处理模块、融合成对约束的文本聚类模块、融合成对约束和关键词两种信息的半监督文本聚类模块和评价及选择结果模块；所述预处理模块，用于对文本数据集进行预处理，以得到向量化的文本数据集；所述融合成对约束的文本聚类模块通过学习成对约束，得到初始特征词权重，并对文本数据集进行划分；所述融合成对约束和关键词两种信息的半监督文本聚类模块利用所获得的特征词权重进行初始化，同时融合成对约束和关键词两种信息进行文本聚类；所述评价及选择结果模块以用户满意度为标准评价文本划分结果，并选择其中质量高的结果作为最终聚类结果进行输出。
8：根据权利要求 7 所述的装置，其特征在于，所述预处理模块包括：文本分词单元、特征词提取单元、文本向量化单元和规整数据集单元；所述文本分词单元，用于将文本集中的所有文本划分为若干独立的单词，并统计每个单词在相应文本中出现的次数；所述特征词提取单元，用于去除停用词、出现频率过高或过低的词，提取出重要的词，并构建文本集的词典；所述文本向量化单元，利用词频逆文本频率方法将文本数据集表示为高维欧几里德空间中的文本向量；所述规整数据集单元，用于对向量化后的文本数据进行规整。
9：根据权利要求 7 所述的装置，其特征在于，所述融合成对约束的文本聚类模块包括：初始化特征词权重单元和文本聚类单元； 2 所述初始化特征词权重单元，利用成对约束构建优化问题，而后求解得到初始特征词权重；所述文本聚类单元，依据初始特征词权重对文本数据集进行投影，而后对其进行聚类。

说明书

一种融合成对约束和关键词的半监督文本聚类方法及装置
    技术领域本发明涉及文本聚类方法，尤其是指一种融合成对约束和关键词的半监督文本聚类方法及装置。
     背景技术传统的文本聚类通常采用无监督学习机制，自动将主题相近的文本划分在一起，而将主题不同的文本划分开。然而，这种文本聚类方法的表现常常不令人满意。这由很多原因导致，比如，无法与用户交互，划分结果难于理解等等。
     近些年，许多研究者采用半监督学习策略，融合先验信息以辅助文本聚类，有效提高了聚类质量以及划分结果的可理解性。先验信息主要包含实例层信息和属性层信息。实例层信息包括类标签，成对约束 (pairwise constraints) 等形式的数据。成对约束信息由被确定属于同一类的关系 ( 关联关系 ) 和被确定不属于同一类的关系 ( 非关联关系 ) 组成。关联关系 (x， y) 表示实例 x 和 y 相似、必须被划分在一起；非关联关系 (x， z) 表
     示实例 x 和 z 不同、必须被划分开。相比于类标签，成对约束更易获得。文献 [Jun Sun， Wenbo Zhao， Jiangwei Xue， ZhiyongShen， Yi-Dong Shen.Clustering with feature order preferences.PRICAI 2008， pp.382-393] 定义了一种属性层信息——属性排序，该形式信息用 (s， t， δ)(δ ＞ 0)， ws-wt ≥ δ 进行表示，即属性 s 的权重比属性 t 的权重大 δ，也即说明属性 s 比 t 要重要得多。属性排序是一种常见的属性层信息。对应到文本聚类中，即表示某个词 ( 词组 ) 比另一个词 ( 词组 ) 的重要性程度，这些重要词通常也即一些关键词，然而，在文本聚类中，难以准确指出关键词 s 的权重究竟比其它词重要多少。因此，往往用二元组 (s， δ) 来表示关键词信息 ( 本发明令
     d 表示文本数据集中的特征词总数 )。在实际应用中，用户往往会同时提供成对约束和关键词这两种不同性质的信息。虽然单纯基于其中一种限制性信息的半监督文本聚类方法可有效提高聚类质量，但它们在处理时均未综合考虑这两种不同种类信息的融合问题，导致聚类结果的准确性和稳定性都不高。发明内容有鉴于此，本发明提供一种融合成对约束和关键词的半监督文本聚类方法，充分利用这两种不同性质的信息，有效提高聚类结果的准确性。
     为达到上述目的，本发明的技术方案是这样实现的：
     本发明的实施提供了一种融合成对约束和关键词的半监督文本聚类方法，该方法包括以下步骤：
     A、利用融合成对约束的半监督文本聚类方法对文本数据集进行划分，并得到初始特征词权重；
     B、基于初始特征词权重，同时融合成对约束和关键词两种信息对文本数据集进行
     聚类划分；
     C、以用户满意度为指标，评价所产生的文本划分的质量，并选择质量高的聚类结果输出。
     由上述的技术方案可知，本发明中的半监督文本聚类方法，由于在融合成对约束的基础上，继续添加关键词，在运用成对约束学习特征词权重的同时，利用关键词对相应的特征词权重进行调整，使这两种先验信息相互影响，相互促进，所以可获得更准确的聚类结果。附图说明
     图 1 为本发明实施例中融合成对约束和关键词的半监督文本聚类方法的流程图。
     图 2 为本发明实施例中基于初始特征词权重，同时融合两种信息对文本数据集进行划分的流程图。
     图 3 为本发明实例中一种融合成对约束和关键词的半监督文本聚类装置的结构图。具体实施方式
     为使本发明的目的、技术方案和优点表达得更加清楚明白，下面结合附图及具体实施例对本发明再作进一步详细说明。
     本发明提供了一种半监督文本聚类方法，该方法首先融合成对约束形式的实例层信息以辅助划分文本数据集，并学习得到初始特征词权重。然后，继续添加关键词形式的属性层信息，以有效融合这两种不同性质的先验信息进行文本聚类。最后，依据用户满意度评估上述两步的聚类质量，并选择质量高的文本划分为最终的聚类结果。
     在文本聚类前，需对文本数据集进行预处理，将文本数据集转化为聚类方法可以处理的形式。文本预处理主要由分词处理、特征词提取、文本向量化、规整数据集四个步骤组成。具体的处理过程如下所述：
     1) 分词处理。
     分词是依据某种规则 ( 如英文中的空格 )，将指定文本划分为若干独立的词，并统计每个词在该文本中出现的次数。
     2) 特征词提取。
     文本集中的词非常多，因此需去除不常用的、不重要的词，保留更具代表性的词。在特征词提取时，本发明去除停用词、出现频率过低或过高的词，并依据特征词构建文本集的词典。
     3) 文本向量化。
     文本向量化，即将文本集中的文本表示为高维欧几里德空间中的向量，文本向量的所有维度与词典中的特征词一一对应。本发明使用词频逆文本频率 (TFIDF) 方法来表示文本集：
     其中， di 代表文档集中的第 i 篇文档， tj 代表词典中的第 j 个单词， tf(di， tj) 代表单词 tj 在文档 di 中出现的次数， |D| 代表文档集中的文档总数， df(tj) 代表出现单词 tj 的文档数目。
     4) 规整数据集。
     为了消除文本长度的差异并提高距离度量区分度，本发明依据文献 [ShunyaoWu， Jinlong Wang， Huy Quan Vu， Gang Li.Text clustering with important wordsusing normalization.JCDL 2010， pp.393-394] 的方法对数据集进行归整：
     其中， tfidfi 代表某一文本向量的第 i 维度上的值。经过上述步骤的文本预处理后，即可使用本发明的聚类方法对文本数据集进行划分。图 1 为本发明实施例中融合成对约束和关键词的半监督文本聚类方法的原理图。如图 1 所示，本发明实施例中一种融合成对约束和关键词的半监督文本聚类方法包括如下所述步骤：
     步骤 101，利用融合成对约束的半监督文本聚类方法对文本数据集进行划分，并得到初始特征词权重。
     该步骤的具体方法如下：
     首先，构建测度学习 (metric learning) 的优化式。文献 [Eric P.Xing， AndrewY.Ng， Michael I.Jordan， Stuart J.Russell.Distance metric learning with applicationto clustering with side-information.NIPS 2002， pp.505-512] 基于成对约束学习新的测度，使用方法较简单，且效果较好。因此，本框架采用该方法学习成对约束信息以获得初始特征词权重。同时，为了框架扩展性，本发明使用布雷格曼散度 (Bregman Divergences) 进行距离度量。dφ(·， ·) 即代表布雷格曼散度，给定不同的函数 φ(·)，可得到不同的距离度量。
     其中，和代表任意两个文本向量，为了适应文本聚类工作，本发明令代表函数 φ(·) 的梯度向量。即使用广义 I 散度(generalized I-divergence) 进行距离度量。考虑到广义 I 散度不具备对称性，本发明使用基于平均值的广义 I 散度 (I-divergence to the mean)。
     其中， wi 代表特征词权重向量第 i 维的值， xi( 或 yi) 代表任意文本向量第 i 维上从而，优化问题形式为：的值。
     其中，代表特征词权重向量， S 代表关联关系集合， D 代表非关联关系集合。该优化问题表示尽量最小化所有满足关联关系文本对的差异性，并保证所有满足非关联关系文本对的差异较大。利用 MOSEK 优化软件包工具可对该问题进行求解。另外，本发明令规整项的参数 λ ＝ d。
     将用户所提供的成对约束信息输入上述优化问题，即可学习得到初始特征词权重。然后，本发明利用该特征词权重将文本数据集投影到新的空间中，即 ( 其中 X 代表原文本数据集， X′代表投影后的文本数据集，代表初始特征词权重 )，并使用 k-means 算法对其进行聚类。
     步骤 102，基于初始特征词权重，同时融合成对约束和关键词两种信息对文本数据集进行聚类划分；
     公式 (6) 即为聚类目标函数。其中， n 代表文本数据集中的文本总数， k 代表文本数据集中的簇数目， π 代表文本所隶属的簇标号，则是簇中心。在公式 (6) 中，第一项是聚类客观性指标，用于最小化簇内紧密性；第二项是关键词信息惩罚项，特征词权重对用户所提供关键词信息的满足程度越高，该值越小；第三项是成对约束的惩罚项；最后一项是规整项，确保权重尽可能一致。成对约束的惩罚项包含关联关系的惩罚项和非关联关系的惩罚项，如公式 (7) 所示。
     其中， |Sunsat| 代表被违反的关联关系的数目， |Dunsat| 代表被违反的非关联关系的代表文本向量的标签与文本向量不同，数目；代表文本向量的标签与文本向量相同。
     另外，本发明使用 l2 熵作为规整项，令为了使目标函数中各部分都可起到相应作用，本发明令
     λ2 ＝ 1， λ3 ＝ d。其中， m 表示关键词总数。是聚类过程中优化求解特征词权重所有文本的簇标签 π，簇中心的变量。有效解决该优化问题，即可得到文本聚类划分，本发明采用期望最大化(Expectation-maximization) 框架对该问题进行迭代求解。
     步骤 103，以用户满意度为指标，评价所产生的文本划分的质量，并选择质量高的聚类结果输出。
     本发明依据成对约束的满足程度评价步骤 101 和步骤 102 的文本划分结果。
     其中， sat() 表示聚类结果所满足的成对约束数目， total() 表示用户所提供的成对约束总数。
     当步骤 102 聚类结果对成对约束的满足程度明显低于步骤 101( 有 5％的差别 ) 时，本发明认为此时成对约束和关键词两种先验信息相矛盾，不适合融合这两种先验信息，并以步骤 101 的聚类结果作为最终的文本划分。
     其中，如图 2 所示，步骤 102，基于初始特征词权重，同时融合成对约束和关键词两种信息对文本数据集进行聚类划分的过程包括：
     步骤 201，给定特征词权重和簇中心，获得每个文本所隶属的簇标签。
     初次迭代时，本发明使用步骤 101 得到的特征词权重进行初始化，簇中心则采取随机获取方式。
     为了简捷，本发明按照步骤 101 的方法，利用特征词权重将文本数据集投影到新空间中，而后根据 k-means 算法将每个文本分配给差异性最小的簇中心。
     步骤 202，给定所有文本的簇标签，重新计算簇中心。
     每个簇的簇中心都是该簇中所有文本向量的算术平均值。当采用广义 I 散度为距离度量时，簇中心按下式计算：
     其中， α(0 ＜ α ＜ 1) 为平滑因子 ( 本发明令 α ＝ 0.9)， |πc| 代表第 c 簇中的文本数目。
     步骤 203，给定所有文本的簇标签和簇中心，求解优化问题得到特征词权重。
     其中， P 代表关键词信息集合。
     反复迭代上述步骤，直至收敛。
     综上所示，本发明提供了一种融合成对约束和关键词的半监督文本聚类方法，首先学习成对约束得到初始化特征词权重，而后添加关键词，同时融合两种信息进行半监督文本聚类，最后依据用户满意度评价并选择聚类结果。
     另外，本发明还提供了一种融合成对约束和关键词的半监督文本聚类装置。图 3
     为本发明实例中一种融合成对约束和关键词的半监督文本聚类装置的结构图。如图 3 所示，该装置包括：预处理模块 300、融合成对约束的文本聚类模块 301、融合成对约束和关键词两种信息的半监督文本聚类模块 302 和评价及选择结果模块 303。其中，预处理模块 300 用于对文本数据集进行预处理，以得到向量化的文本数据集；融合成对约束的文本聚类模块 301 通过学习成对约束，得到初始特征词权重，并对文本数据集进行聚类划分；融合成对约束和关键词两种信息的半监督文本聚类模块 302 利用步骤 301 获得的特征词权重进行初始化，同时融合成对约束和关键词两种信息进行半监督文本聚类；评价及选择结果模块 303 以用户满意度为指标，评价模块 301 和模块 302 的文本聚类划分结果，并选择质量高的作为最终的聚类结果进行输出。
     在上述的一种融合成对约束和关键词的半监督文本聚类装置中，预处理模块 300 不是必需的模块，因而用虚线表示。如图 3 所示，预处理模块 300 还包括：文本分词单元 304、特征词提取单元 305、文本向量化单元 306 和规整数据集单元 307。其中，文本分词单元 304，用于将文本集中的所有文本划分为若干独立的单词，并统计每个单词在相应文本中出现的次数；特征词提取单元 305，用于去除停用词、出现频率过高或过低的词，提取出重要的词，并构建文本集的词典；文本向量化单元 306，利用词频逆文本频率方法将文本数据集表示为高维欧几里德空间中的文本向量；规整数据集单元 307，用于对向量化后的文本数据进行规整。
     如图 3 所示，融合成对约束的文本聚类模块 301 包括初始化特征词权重单元 308 和文本聚类单元 309。其中，初始化特征词权重单元 308 利用成对约束构建优化问题，而后求解得到初始特征词权重；文本聚类单元 309 依据初始特征词权重对文本数据集进行投影，而后对其进行聚类。
     如上所述，便可较好地实现本发明。
     以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

资源描述

《一种融合成对约束和关键词的半监督文本聚类方法及装置.pdf》由会员分享，可在线阅读，更多相关《一种融合成对约束和关键词的半监督文本聚类方法及装置.pdf（11页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN102346753A43申请公布日20120208CN102346753ACN102346753A21申请号201010247627922申请日20100801G06F17/30200601G06F17/2720060171申请人青岛理工大学地址266033山东省青岛市四方区抚顺路11号72发明人王金龙吴舜尧李刚54发明名称一种融合成对约束和关键词的半监督文本聚类方法及装置57摘要本发明公开了一种融合成对约束和关键词的半监督文本聚类方法及装置。本发明的方法包括融合成对约束辅助文本聚类并得到初始特征词权重；基于所获得的初始特征词权重，同时融合成对约束和关键词进行半监督聚类；依据。

2、用户满意度评估并选择聚类结果。本发明的装置包括预处理模块、融合成对约束的文本聚类模块、融合成对约束和关键词两种信息的半监督文本聚类模块和评价及选择结果模块。由于本发明所提供的半监督文本聚类方法在融合成对约束信息的基础上，继续添加关键词信息，在运用成对约束学习特征词权重的同时，利用关键词信息对相应的特征词权重进行调整，使两种先验信息相互影响，相互促进，所以可获得更准确的聚类结果。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书6页附图2页CN102346773A1/2页21一种融合成对约束和关键词的半监督文本聚类方法及装置，其特征在于，该方法及装置包括以下步骤A。

3、、利用融合成对约束的半监督文本聚类方法对文本数据集进行划分，并得到初始特征词权重；B、基于初始特征词权重，同时融合成对约束和关键词两种信息对文本数据集进行聚类划分；C、以用户满意度为指标，评价所产生的文本划分的质量，并选择质量高的聚类结果输出。2根据权利要求1所述的方法，其特征在于步骤A中初始特征词权重通过测度学习得到。3根据权利要求1所述的方法，其特征在于步骤B中半监督文本聚类采用广义I散度对文本距离进行度量。4根据权利要求1所述的方法，其特征在于，步骤A和步骤B中半监督聚类为软限制性优化聚类方法。5根据权利要求1所述的方法，其特征在于，步骤C中用户满意度采用对用户所提供成对约束信息的满足程。

4、度度量。6根据权利要求1所述的方法，其特征在于，步骤A之前还包括对所述文本集进行预处理；所述预处理包括文本分词、特征词提取、文本向量化和规整数据集。7一种融合成对约束和关键词的半监督文本聚类装置，其特征在于，该装置包括预处理模块、融合成对约束的文本聚类模块、融合成对约束和关键词两种信息的半监督文本聚类模块和评价及选择结果模块；所述预处理模块，用于对文本数据集进行预处理，以得到向量化的文本数据集；所述融合成对约束的文本聚类模块通过学习成对约束，得到初始特征词权重，并对文本数据集进行划分；所述融合成对约束和关键词两种信息的半监督文本聚类模块利用所获得的特征词权重进行初始化，同时融合成对约束和关键词。

5、两种信息进行文本聚类；所述评价及选择结果模块以用户满意度为标准评价文本划分结果，并选择其中质量高的结果作为最终聚类结果进行输出。8根据权利要求7所述的装置，其特征在于，所述预处理模块包括文本分词单元、特征词提取单元、文本向量化单元和规整数据集单元；所述文本分词单元，用于将文本集中的所有文本划分为若干独立的单词，并统计每个单词在相应文本中出现的次数；所述特征词提取单元，用于去除停用词、出现频率过高或过低的词，提取出重要的词，并构建文本集的词典；所述文本向量化单元，利用词频逆文本频率方法将文本数据集表示为高维欧几里德空间中的文本向量；所述规整数据集单元，用于对向量化后的文本数据进行规整。9根据权利。

6、要求7所述的装置，其特征在于，所述融合成对约束的文本聚类模块包括初始化特征词权重单元和文本聚类单元；权利要求书CN102346753ACN102346773A2/2页3所述初始化特征词权重单元，利用成对约束构建优化问题，而后求解得到初始特征词权重；所述文本聚类单元，依据初始特征词权重对文本数据集进行投影，而后对其进行聚类。权利要求书CN102346753ACN102346773A1/6页4一种融合成对约束和关键词的半监督文本聚类方法及装置技术领域0001本发明涉及文本聚类方法，尤其是指一种融合成对约束和关键词的半监督文本聚类方法及装置。背景技术0002传统的文本聚类通常采用无监督学习机制，自动。

7、将主题相近的文本划分在一起，而将主题不同的文本划分开。然而，这种文本聚类方法的表现常常不令人满意。这由很多原因导致，比如，无法与用户交互，划分结果难于理解等等。0003近些年，许多研究者采用半监督学习策略，融合先验信息以辅助文本聚类，有效提高了聚类质量以及划分结果的可理解性。先验信息主要包含实例层信息和属性层信息。实例层信息包括类标签，成对约束PAIRWISECONSTRAINTS等形式的数据。成对约束信息由被确定属于同一类的关系关联关系和被确定不属于同一类的关系非关联关系组成。关联关系X，Y表示实例X和Y相似、必须被划分在一起；非关联关系X，Z表示实例X和Z不同、必须被划分开。相比于类标签，。

8、成对约束更易获得。文献JUNSUN，WENBOZHAO，JIANGWEIXUE，ZHIYONGSHEN，YIDONGSHENCLUSTERINGWITHFEATUREORDERPREFERENCESPRICAI2008，PP382393定义了一种属性层信息属性排序，该形式信息用S，T，0，WSWT进行表示，即属性S的权重比属性T的权重大，也即说明属性S比T要重要得多。属性排序是一种常见的属性层信息。对应到文本聚类中，即表示某个词词组比另一个词词组的重要性程度，这些重要词通常也即一些关键词，然而，在文本聚类中，难以准确指出关键词S的权重究竟比其它词重要多少。因此，往往用二元组S，来表示关键词信息。

9、本发明令D表示文本数据集中的特征词总数。0004在实际应用中，用户往往会同时提供成对约束和关键词这两种不同性质的信息。虽然单纯基于其中一种限制性信息的半监督文本聚类方法可有效提高聚类质量，但它们在处理时均未综合考虑这两种不同种类信息的融合问题，导致聚类结果的准确性和稳定性都不高。发明内容0005有鉴于此，本发明提供一种融合成对约束和关键词的半监督文本聚类方法，充分利用这两种不同性质的信息，有效提高聚类结果的准确性。0006为达到上述目的，本发明的技术方案是这样实现的0007本发明的实施提供了一种融合成对约束和关键词的半监督文本聚类方法，该方法包括以下步骤0008A、利用融合成对约束的半监督文本。

10、聚类方法对文本数据集进行划分，并得到初始特征词权重；0009B、基于初始特征词权重，同时融合成对约束和关键词两种信息对文本数据集进行说明书CN102346753ACN102346773A2/6页5聚类划分；0010C、以用户满意度为指标，评价所产生的文本划分的质量，并选择质量高的聚类结果输出。0011由上述的技术方案可知，本发明中的半监督文本聚类方法，由于在融合成对约束的基础上，继续添加关键词，在运用成对约束学习特征词权重的同时，利用关键词对相应的特征词权重进行调整，使这两种先验信息相互影响，相互促进，所以可获得更准确的聚类结果。附图说明0012图1为本发明实施例中融合成对约束和关键词的半监督。

11、文本聚类方法的流程图。0013图2为本发明实施例中基于初始特征词权重，同时融合两种信息对文本数据集进行划分的流程图。0014图3为本发明实例中一种融合成对约束和关键词的半监督文本聚类装置的结构图。具体实施方式0015为使本发明的目的、技术方案和优点表达得更加清楚明白，下面结合附图及具体实施例对本发明再作进一步详细说明。0016本发明提供了一种半监督文本聚类方法，该方法首先融合成对约束形式的实例层信息以辅助划分文本数据集，并学习得到初始特征词权重。然后，继续添加关键词形式的属性层信息，以有效融合这两种不同性质的先验信息进行文本聚类。最后，依据用户满意度评估上述两步的聚类质量，并选择质量高的文本划。

12、分为最终的聚类结果。0017在文本聚类前，需对文本数据集进行预处理，将文本数据集转化为聚类方法可以处理的形式。文本预处理主要由分词处理、特征词提取、文本向量化、规整数据集四个步骤组成。具体的处理过程如下所述00181分词处理。0019分词是依据某种规则如英文中的空格，将指定文本划分为若干独立的词，并统计每个词在该文本中出现的次数。00202特征词提取。0021文本集中的词非常多，因此需去除不常用的、不重要的词，保留更具代表性的词。在特征词提取时，本发明去除停用词、出现频率过低或过高的词，并依据特征词构建文本集的词典。00223文本向量化。0023文本向量化，即将文本集中的文本表示为高维欧几里德。

13、空间中的向量，文本向量的所有维度与词典中的特征词一一对应。本发明使用词频逆文本频率TFIDF方法来表示文本集0024说明书CN102346753ACN102346773A3/6页60025其中，DI代表文档集中的第I篇文档，TJ代表词典中的第J个单词，TFDI，TJ代表单词TJ在文档DI中出现的次数，|D|代表文档集中的文档总数，DFTJ代表出现单词TJ的文档数目。00264规整数据集。0027为了消除文本长度的差异并提高距离度量区分度，本发明依据文献SHUNYAOWU，JINLONGWANG，HUYQUANVU，GANGLITEXTCLUSTERINGWITHIMPORTANTWORDSUS。

14、INGNORMALIZATIONJCDL2010，PP393394的方法对数据集进行归整00280029其中，TFIDFI代表某一文本向量的第I维度上的值。0030经过上述步骤的文本预处理后，即可使用本发明的聚类方法对文本数据集进行划分。0031图1为本发明实施例中融合成对约束和关键词的半监督文本聚类方法的原理图。如图1所示，本发明实施例中一种融合成对约束和关键词的半监督文本聚类方法包括如下所述步骤0032步骤101，利用融合成对约束的半监督文本聚类方法对文本数据集进行划分，并得到初始特征词权重。0033该步骤的具体方法如下0034首先，构建测度学习METRICLEARNING的优化式。文献E。

15、RICPXING，ANDREWYNG，MICHAELIJORDAN，STUARTJRUSSELLDISTANCEMETRICLEARNINGWITHAPPLICATIONTOCLUSTERINGWITHSIDEINFORMATIONNIPS2002，PP505512基于成对约束学习新的测度，使用方法较简单，且效果较好。因此，本框架采用该方法学习成对约束信息以获得初始特征词权重。同时，为了框架扩展性，本发明使用布雷格曼散度BREGMANDIVERGENCES进行距离度量。D，即代表布雷格曼散度，给定不同的函数，可得到不同的距离度量。00350036其中，和代表任意两个文本向量，代表函数的梯度向量。

16、。0037为了适应文本聚类工作，本发明令即使用广义I散度GENERALIZEDIDIVERGENCE进行距离度量。考虑到广义I散度不具备对称性，本发明使用基于平均值的广义I散度IDIVERGENCETOTHEMEAN。00380039其中，WI代表特征词权重向量第I维的值，XI或YI代表任意文本向量第I维上的值。0040从而，优化问题形式为说明书CN102346753ACN102346773A4/6页7004100420043其中，代表特征词权重向量，S代表关联关系集合，D代表非关联关系集合。0044该优化问题表示尽量最小化所有满足关联关系文本对的差异性，并保证所有满足非关联关系文本对的差异较。

17、大。利用MOSEK优化软件包工具可对该问题进行求解。另外，本发明令规整项的参数D。0045将用户所提供的成对约束信息输入上述优化问题，即可学习得到初始特征词权重。然后，本发明利用该特征词权重将文本数据集投影到新的空间中，即其中X代表原文本数据集，X代表投影后的文本数据集，代表初始特征词权重，并使用KMEANS算法对其进行聚类。0046步骤102，基于初始特征词权重，同时融合成对约束和关键词两种信息对文本数据集进行聚类划分；00470048公式6即为聚类目标函数。其中，N代表文本数据集中的文本总数，K代表文本数据集中的簇数目，代表文本所隶属的簇标号，则是簇中心。0049在公式6中，第一项是聚类客。

18、观性指标，用于最小化簇内紧密性；第二项是关键词信息惩罚项，特征词权重对用户所提供关键词信息的满足程度越高，该值越小；第三项是成对约束的惩罚项；最后一项是规整项，确保权重尽可能一致。成对约束的惩罚项包含关联关系的惩罚项和非关联关系的惩罚项，如公式7所示。005000510052其中，|SUNSAT|代表被违反的关联关系的数目，|DUNSAT|代表被违反的非关联关系的数目；代表文本向量的标签与文本向量不同，代表文本向量的标签与文本向量相同。0053另外，本发明使用L2熵作为规整项，令为了使目标函数中各部分都可起到相应作用，本发明令21，3D。其中，M表示关键词总数。0054特征词权重所有文本的簇标。

19、签，簇中心是聚类过程中优化求解的变量。有效解决该优化问题，即可得到文本聚类划分，本发明采用期望最大化说明书CN102346753ACN102346773A5/6页8EXPECTATIONMAXIMIZATION框架对该问题进行迭代求解。0055步骤103，以用户满意度为指标，评价所产生的文本划分的质量，并选择质量高的聚类结果输出。0056本发明依据成对约束的满足程度评价步骤101和步骤102的文本划分结果。00570058其中，SAT表示聚类结果所满足的成对约束数目，TOTAL表示用户所提供的成对约束总数。0059当步骤102聚类结果对成对约束的满足程度明显低于步骤101有5的差别时，本发明认。

20、为此时成对约束和关键词两种先验信息相矛盾，不适合融合这两种先验信息，并以步骤101的聚类结果作为最终的文本划分。0060其中，如图2所示，步骤102，基于初始特征词权重，同时融合成对约束和关键词两种信息对文本数据集进行聚类划分的过程包括0061步骤201，给定特征词权重和簇中心，获得每个文本所隶属的簇标签。0062初次迭代时，本发明使用步骤101得到的特征词权重进行初始化，簇中心则采取随机获取方式。0063为了简捷，本发明按照步骤101的方法，利用特征词权重将文本数据集投影到新空间中，而后根据KMEANS算法将每个文本分配给差异性最小的簇中心。0064步骤202，给定所有文本的簇标签，重新计算。

21、簇中心。0065每个簇的簇中心都是该簇中所有文本向量的算术平均值。当采用广义I散度为距离度量时，簇中心按下式计算00660067其中，01为平滑因子本发明令09，|C|代表第C簇中的文本数目。0068步骤203，给定所有文本的簇标签和簇中心，求解优化问题得到特征词权重。00690070007100720073其中，P代表关键词信息集合。0074反复迭代上述步骤，直至收敛。0075综上所示，本发明提供了一种融合成对约束和关键词的半监督文本聚类方法，首先学习成对约束得到初始化特征词权重，而后添加关键词，同时融合两种信息进行半监督文本聚类，最后依据用户满意度评价并选择聚类结果。0076另外，本发明还。

22、提供了一种融合成对约束和关键词的半监督文本聚类装置。图3说明书CN102346753ACN102346773A6/6页9为本发明实例中一种融合成对约束和关键词的半监督文本聚类装置的结构图。如图3所示，该装置包括预处理模块300、融合成对约束的文本聚类模块301、融合成对约束和关键词两种信息的半监督文本聚类模块302和评价及选择结果模块303。其中，预处理模块300用于对文本数据集进行预处理，以得到向量化的文本数据集；融合成对约束的文本聚类模块301通过学习成对约束，得到初始特征词权重，并对文本数据集进行聚类划分；融合成对约束和关键词两种信息的半监督文本聚类模块302利用步骤301获得的特征词权。

23、重进行初始化，同时融合成对约束和关键词两种信息进行半监督文本聚类；评价及选择结果模块303以用户满意度为指标，评价模块301和模块302的文本聚类划分结果，并选择质量高的作为最终的聚类结果进行输出。0077在上述的一种融合成对约束和关键词的半监督文本聚类装置中，预处理模块300不是必需的模块，因而用虚线表示。如图3所示，预处理模块300还包括文本分词单元304、特征词提取单元305、文本向量化单元306和规整数据集单元307。其中，文本分词单元304，用于将文本集中的所有文本划分为若干独立的单词，并统计每个单词在相应文本中出现的次数；特征词提取单元305，用于去除停用词、出现频率过高或过低的词。

24、，提取出重要的词，并构建文本集的词典；文本向量化单元306，利用词频逆文本频率方法将文本数据集表示为高维欧几里德空间中的文本向量；规整数据集单元307，用于对向量化后的文本数据进行规整。0078如图3所示，融合成对约束的文本聚类模块301包括初始化特征词权重单元308和文本聚类单元309。其中，初始化特征词权重单元308利用成对约束构建优化问题，而后求解得到初始特征词权重；文本聚类单元309依据初始特征词权重对文本数据集进行投影，而后对其进行聚类。0079如上所述，便可较好地实现本发明。0080以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。说明书CN102346753ACN102346773A1/2页10图1图2说明书附图CN102346753ACN102346773A2/2页11图3说明书附图CN102346753A。

展开阅读全文