一种融合成对约束和关键词的半监督文本聚类方法及装置 技术领域 本发明涉及文本聚类方法, 尤其是指一种融合成对约束和关键词的半监督文本聚 类方法及装置。
背景技术 传统的文本聚类通常采用无监督学习机制, 自动将主题相近的文本划分在一起, 而将主题不同的文本划分开。然而, 这种文本聚类方法的表现常常不令人满意。这由很多 原因导致, 比如, 无法与用户交互, 划分结果难于理解等等。
近些年, 许多研究者采用半监督学习策略, 融合先验信息以辅助文本聚类, 有效提 高了聚类质量以及划分结果的可理解性。先验信息主要包含实例层信息和属性层信息。实 例层信息包括类标签, 成对约束 (pairwise constraints) 等形式的数据。成对约束信息 由被确定属于同一类的关系 ( 关联关系 ) 和被确定不属于同一类的关系 ( 非关联关系 ) 组成。关联关系 (x, y) 表示实例 x 和 y 相似、 必须被划分在一起 ; 非关联关系 (x, z) 表
示实例 x 和 z 不同、 必须被划分开。相比于类标签, 成对约束更易获得。文献 [Jun Sun, Wenbo Zhao, Jiangwei Xue, ZhiyongShen, Yi-Dong Shen.Clustering with feature order preferences.PRICAI 2008, pp.382-393] 定义了一种属性层信息——属性排序, 该形式信 息用 (s, t, δ)(δ > 0), ws-wt ≥ δ 进行表示, 即属性 s 的权重比属性 t 的权重大 δ, 也即 说明属性 s 比 t 要重要得多。属性排序是一种常见的属性层信息。对应到文本聚类中, 即 表示某个词 ( 词组 ) 比另一个词 ( 词组 ) 的重要性程度, 这些重要词通常也即一些关键词, 然而, 在文本聚类中, 难以准确指出关键词 s 的权重究竟比其它词重要多少。因此, 往往用 二元组 (s, δ) 来表示关键词信息 ( 本发明令
d 表示文本数据集中的特征词总数 )。在实际应用中, 用户往往会同时提供成对约束和关键词这两种不同性质的信息。 虽然单纯基于其中一种限制性信息的半监督文本聚类方法可有效提高聚类质量, 但它们在 处理时均未综合考虑这两种不同种类信息的融合问题, 导致聚类结果的准确性和稳定性都 不高。 发明内容 有鉴于此, 本发明提供一种融合成对约束和关键词的半监督文本聚类方法, 充分 利用这两种不同性质的信息, 有效提高聚类结果的准确性。
为达到上述目的, 本发明的技术方案是这样实现的 :
本发明的实施提供了一种融合成对约束和关键词的半监督文本聚类方法, 该方法 包括以下步骤 :
A、 利用融合成对约束的半监督文本聚类方法对文本数据集进行划分, 并得到初始 特征词权重 ;
B、 基于初始特征词权重, 同时融合成对约束和关键词两种信息对文本数据集进行
聚类划分 ;
C、 以用户满意度为指标, 评价所产生的文本划分的质量, 并选择质量高的聚类结 果输出。
由上述的技术方案可知, 本发明中的半监督文本聚类方法, 由于在融合成对约束 的基础上, 继续添加关键词, 在运用成对约束学习特征词权重的同时, 利用关键词对相应的 特征词权重进行调整, 使这两种先验信息相互影响, 相互促进, 所以可获得更准确的聚类结 果。 附图说明
图 1 为本发明实施例中融合成对约束和关键词的半监督文本聚类方法的流程图。
图 2 为本发明实施例中基于初始特征词权重, 同时融合两种信息对文本数据集进 行划分的流程图。
图 3 为本发明实例中一种融合成对约束和关键词的半监督文本聚类装置的结构 图。 具体实施方式
为使本发明的目的、 技术方案和优点表达得更加清楚明白, 下面结合附图及具体 实施例对本发明再作进一步详细说明。
本发明提供了一种半监督文本聚类方法, 该方法首先融合成对约束形式的实例层 信息以辅助划分文本数据集, 并学习得到初始特征词权重。 然后, 继续添加关键词形式的属 性层信息, 以有效融合这两种不同性质的先验信息进行文本聚类。 最后, 依据用户满意度评 估上述两步的聚类质量, 并选择质量高的文本划分为最终的聚类结果。
在文本聚类前, 需对文本数据集进行预处理, 将文本数据集转化为聚类方法可以 处理的形式。文本预处理主要由分词处理、 特征词提取、 文本向量化、 规整数据集四个步骤 组成。具体的处理过程如下所述 :
1) 分词处理。
分词是依据某种规则 ( 如英文中的空格 ), 将指定文本划分为若干独立的词, 并统 计每个词在该文本中出现的次数。
2) 特征词提取。
文本集中的词非常多, 因此需去除不常用的、 不重要的词, 保留更具代表性的词。 在特征词提取时, 本发明去除停用词、 出现频率过低或过高的词, 并依据特征词构建文本集 的词典。
3) 文本向量化。
文本向量化, 即将文本集中的文本表示为高维欧几里德空间中的向量, 文本向量 的所有维度与词典中的特征词一一对应。本发明使用词频逆文本频率 (TFIDF) 方法来表示 文本集 :
其中, di 代表文档集中的第 i 篇文档, tj 代表词典中的第 j 个单词, tf(di, tj) 代 表单词 tj 在文档 di 中出现的次数, |D| 代表文档集中的文档总数, df(tj) 代表出现单词 tj 的文档数目。
4) 规整数据集。
为了消除文本长度的差异并提高距离度量区分度, 本发明依据文献 [ShunyaoWu, Jinlong Wang, Huy Quan Vu, Gang Li.Text clustering with important wordsusing normalization.JCDL 2010, pp.393-394] 的方法对数据集进行归整 :
其中, tfidfi 代表某一文本向量的第 i 维度上的值。 经过上述步骤的文本预处理后, 即可使用本发明的聚类方法对文本数据集进行划分。 图 1 为本发明实施例中融合成对约束和关键词的半监督文本聚类方法的原理图。 如图 1 所示, 本发明实施例中一种融合成对约束和关键词的半监督文本聚类方法包括如下 所述步骤 :
步骤 101, 利用融合成对约束的半监督文本聚类方法对文本数据集进行划分, 并得 到初始特征词权重。
该步骤的具体方法如下 :
首 先, 构 建 测 度 学 习 (metric learning) 的 优 化 式。 文 献 [Eric P.Xing, AndrewY.Ng, Michael I.Jordan, Stuart J.Russell.Distance metric learning with applicationto clustering with side-information.NIPS 2002, pp.505-512] 基于成对 约束学习新的测度, 使用方法较简单, 且效果较好。因此, 本框架采用该方法学习成对约束 信息以获得初始特征词权重。同时, 为了框架扩展性, 本发明使用布雷格曼散度 (Bregman Divergences) 进行距离度量。dφ(·, ·) 即代表布雷格曼散度, 给定不同的函数 φ(·), 可得到不同的距离度量。
其中, 和 代表任意两个文本向量, 为 了 适 应 文 本 聚 类 工 作, 本发明令代表函数 φ(·) 的梯度向量。 即使用广义 I 散度(generalized I-divergence) 进行距离度量。考虑到广义 I 散度不具备对称性, 本发明使 用基于平均值的广义 I 散度 (I-divergence to the mean)。
其中, wi 代表特征词权重向量第 i 维的值, xi( 或 yi) 代表任意文本向量第 i 维上 从而, 优化问题形式为 :的值。
其中, 代表特征词权重向量, S 代表关联关系集合, D 代表非关联关系集合。该优化问题表示尽量最小化所有满足关联关系文本对的差异性, 并保证所有满足 非关联关系文本对的差异较大。利用 MOSEK 优化软件包工具可对该问题进行求解。另外, 本发明令规整项的参数 λ = d。
将用户所提供的成对约束信息输入上述优化问题, 即可学习得到初始特征词权 重。然后, 本发明利用该特征词权重将文本数据集投影到新的空间中, 即 ( 其中 X 代表原文本数据集, X′代表投影后的文本数据集, 代表初始特征词权重 ), 并使用 k-means 算法对其进行聚类。
步骤 102, 基于初始特征词权重, 同时融合成对约束和关键词两种信息对文本数据 集进行聚类划分 ;
公式 (6) 即为聚类目标函数。其中, n 代表文本数据集中的文本总数, k 代表文本数据集中的簇数目, π 代表文本所隶属的簇标号, 则是簇中心。 在公式 (6) 中, 第一项是聚类客观性指标, 用于最小化簇内紧密性 ; 第二项是关键 词信息惩罚项, 特征词权重对用户所提供关键词信息的满足程度越高, 该值越小 ; 第三项是 成对约束的惩罚项 ; 最后一项是规整项, 确保权重尽可能一致。 成对约束的惩罚项包含关联 关系的惩罚项和非关联关系的惩罚项, 如公式 (7) 所示。
其中, |Sunsat| 代表被违反的关联关系的数目, |Dunsat| 代表被违反的非关联关系的 代表文本向量 的标签与文本向量 不同,数目 ;代表文本向量 的标签与文本向量 相同。
另外, 本发明使用 l2 熵作为规整项, 令为了使目标函数中各部分都可起到相应作用, 本发明令
λ2 = 1, λ3 = d。其中, m 表示关键词总数。 是聚类过程中优化求解特征词权重所 有 文 本 的 簇 标 签 π, 簇中心的 变 量。 有 效 解 决 该 优 化 问 题, 即 可 得 到 文 本 聚 类 划 分, 本发明采用期望最大化(Expectation-maximization) 框架对该问题进行迭代求解。
步骤 103, 以用户满意度为指标, 评价所产生的文本划分的质量, 并选择质量高的 聚类结果输出。
本发明依据成对约束的满足程度评价步骤 101 和步骤 102 的文本划分结果。
其中, sat() 表示聚类结果所满足的成对约束数目, total() 表示用户所提供的成 对约束总数。
当步骤 102 聚类结果对成对约束的满足程度明显低于步骤 101( 有 5%的差别 ) 时, 本发明认为此时成对约束和关键词两种先验信息相矛盾, 不适合融合这两种先验信息, 并以步骤 101 的聚类结果作为最终的文本划分。
其中, 如图 2 所示, 步骤 102, 基于初始特征词权重, 同时融合成对约束和关键词两 种信息对文本数据集进行聚类划分的过程包括 :
步骤 201, 给定特征词权重和簇中心, 获得每个文本所隶属的簇标签。
初次迭代时, 本发明使用步骤 101 得到的特征词权重进行初始化, 簇中心则采取 随机获取方式。
为了简捷, 本发明按照步骤 101 的方法, 利用特征词权重将文本数据集投影到新 空间中, 而后根据 k-means 算法将每个文本分配给差异性最小的簇中心。
步骤 202, 给定所有文本的簇标签, 重新计算簇中心。
每个簇的簇中心都是该簇中所有文本向量的算术平均值。当采用广义 I 散度为距 离度量时, 簇中心按下式计算 :
其中, α(0 < α < 1) 为平滑因子 ( 本发明令 α = 0.9), |πc| 代表第 c 簇中的 文本数目。
步骤 203, 给定所有文本的簇标签和簇中心, 求解优化问题得到特征词权重。
其中, P 代表关键词信息集合。
反复迭代上述步骤, 直至收敛。
综上所示, 本发明提供了一种融合成对约束和关键词的半监督文本聚类方法, 首 先学习成对约束得到初始化特征词权重, 而后添加关键词, 同时融合两种信息进行半监督 文本聚类, 最后依据用户满意度评价并选择聚类结果。
另外, 本发明还提供了一种融合成对约束和关键词的半监督文本聚类装置。图 3
为本发明实例中一种融合成对约束和关键词的半监督文本聚类装置的结构图。如图 3 所 示, 该装置包括 : 预处理模块 300、 融合成对约束的文本聚类模块 301、 融合成对约束和关键 词两种信息的半监督文本聚类模块 302 和评价及选择结果模块 303。其中, 预处理模块 300 用于对文本数据集进行预处理, 以得到向量化的文本数据集 ; 融合成对约束的文本聚类模 块 301 通过学习成对约束, 得到初始特征词权重, 并对文本数据集进行聚类划分 ; 融合成对 约束和关键词两种信息的半监督文本聚类模块 302 利用步骤 301 获得的特征词权重进行 初始化, 同时融合成对约束和关键词两种信息进行半监督文本聚类 ; 评价及选择结果模块 303 以用户满意度为指标, 评价模块 301 和模块 302 的文本聚类划分结果, 并选择质量高的 作为最终的聚类结果进行输出。
在上述的一种融合成对约束和关键词的半监督文本聚类装置中, 预处理模块 300 不是必需的模块, 因而用虚线表示。如图 3 所示, 预处理模块 300 还包括 : 文本分词单元 304、 特征词提取单元 305、 文本向量化单元 306 和规整数据集单元 307。其中, 文本分词单 元 304, 用于将文本集中的所有文本划分为若干独立的单词, 并统计每个单词在相应文本中 出现的次数 ; 特征词提取单元 305, 用于去除停用词、 出现频率过高或过低的词, 提取出重 要的词, 并构建文本集的词典 ; 文本向量化单元 306, 利用词频逆文本频率方法将文本数据 集表示为高维欧几里德空间中的文本向量 ; 规整数据集单元 307, 用于对向量化后的文本 数据进行规整。
如图 3 所示, 融合成对约束的文本聚类模块 301 包括初始化特征词权重单元 308 和文本聚类单元 309。其中, 初始化特征词权重单元 308 利用成对约束构建优化问题, 而 后求解得到初始特征词权重 ; 文本聚类单元 309 依据初始特征词权重对文本数据集进行投 影, 而后对其进行聚类。
如上所述, 便可较好地实现本发明。
以上所述, 仅为本发明的较佳实施例而已, 并非用于限定本发明的保护范围。 凡在 本发明的精神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的保护 范围之内。