数据聚类方法和装置.pdf

上传人:b*** 文档编号:1281246 上传时间:2018-04-12 格式:PDF 页数:20 大小:547.45KB
返回 下载 相关 举报
摘要
申请专利号:

CN200910161158.6

申请日:

2009.08.06

公开号:

CN101989289A

公开日:

2011.03.23

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20090806|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

富士通株式会社

发明人:

吴科; 夏迎炬; 于浩

地址:

日本神奈川县

优先权:

专利代理机构:

北京集佳知识产权代理有限公司 11227

代理人:

康建峰;郎晓虹

PDF下载: PDF下载
内容摘要

本发明提供了数据聚类方法和装置。所述数据聚类方法可包括:初始聚类步骤:对多个数据样本进行初始聚类;标注对象选取步骤:根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象;标注信息获取步骤:获取针对所述标注对象的标注信息;及二次聚类步骤:将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。

权利要求书

1: 一种数据聚类方法, 包括 : 初始聚类步骤 : 对多个数据样本进行初始聚类 ; 标注对象选取步骤 : 根据初始聚类的结果选取所述多个数据样本中的一个或多个作为 标注对象 ; 标注信息获取步骤 : 获取针对所述标注对象的标注信息 ; 及 二次聚类步骤 : 将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。
2: 根据权利要求 1 所述的数据聚类方法, 其中, 所述标注对象选取步骤包括 : 选择在初 始聚类步骤中获得的每一个初始簇的边缘的数据样本中的一个或者多个作为所述标注对 象。
3: 根据权利要求 1 所述的数据聚类方法, 其中, 所述标注信息获取步骤包括 : 将所述标注对象提供给用户, 以得到用户输入的标注信息。
4: 根据权利要求 1 所述的数据聚类方法, 其中, 所述多个数据样本是多个文本, 并且在 所述初始聚类步骤之前, 所述方法还包括 : 向量化步骤 : 根据所述多个文本的语言类别, 将所述多个文本中的每一个转换为空间 向量表示。
5: 根据权利要求 4 所述的数据聚类方法, 其中, 在所述向量化步骤之前, 所述方法还包 括: 统一编码步骤 : 将所述多个文本转换为统一的编码格式 ; 语言分类步骤 : 统计各文本中的特殊字符, 并根据统计结果将所述多个文本分类成至 少两个语言类别。
6: 一种数据聚类装置, 包括 : 初始聚类模块, 用于对多个数据样本进行初始聚类 ; 标注对象选取模块, 用于根据初始聚类的结果选取所述多个数据样本中的一个或多个 作为标注对象 ; 标注信息获取模块, 用于获取针对所述标注对象的标注信息 ; 及 二次聚类模块, 用于将所述标注信息作为约束信息对所述多个数据样本进行二次聚 类。
7: 根据权利要求 6 所述的数据聚类装置, 其中, 所述标注对象选取模块还被配置用于 : 选择在所述初始聚类模块获得的每一个初始簇的边缘的数据样本中的一个或者多个 作为所述标注对象。
8: 根据权利要求 6 所述的数据聚类装置, 其中, 所述标注信息获取模块还被配置用于 : 将所述标注对象提供给用户, 以得到用户输入的标注信息。
9: 根据权利要求 6 所述的数据聚类装置, 其中, 所述多个数据样本是多个文本, 所述数 据聚类装置还包括 : 向量化模块, 用于根据所述多个文本的语言类别, 将所述多个文本中的每一个转换为 空间向量表示。
10: 根据权利要求 9 所述的数据聚类装置, 还包括 : 统一编码模块, 用于将所述多个文本转换为统一的编码格式 ; 及 语言分类模块, 用于根据所述统一编码模块输出的经统一编码的文本来统计各文本中 2 的特殊字符, 并根据统计结果将所述多个文本分类成至少两个语言类别。

说明书


数据聚类方法和装置

    技术领域 本发明涉及信息处理领域, 具体地, 涉及一种数据聚类方法和装置以及一种文本 分类方法和装置。
     背景技术 随着因特网的迅速发展, 电子信息 ( 如电子文档等 ) 呈现爆炸式的增长。如何迅 速有效地组织和管理这些电子信息是一个亟待解决的问题。目前, 数据聚类 ( 包括文本聚 类 ) 的方法在业界倍受关注。
     发明内容 在下文中给出关于本发明的简要概述, 以便提供关于本发明的某些方面的基本理 解。应当理解, 这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关 键或重要部分, 也不是意图限定本发明的范围。 其目的仅仅是以简化的形式给出某些概念, 以此作为稍后论述的更详细描述的前序。
     根据本发明的一个方面, 提供了一种数据聚类方法。 该数据聚类方法包括 : 初始聚 类步骤 : 对多个数据样本进行初始聚类 ; 标注对象选取步骤 : 根据初始聚类的结果选取所 述多个数据样本中的一个或多个作为标注对象 ; 标注信息获取步骤 : 获取针对所述标注对 象的标注信息 ; 及二次聚类步骤 : 将所述标注信息作为约束信息对所述多个数据样本进行 二次聚类
     根据本发明的另一方面, 提供了一种数据聚类装置。 该数据聚类装置包括 : 初始聚 类模块, 用于对多个数据样本进行初始聚类 ; 标注对象选取模块, 用于根据初始聚类的结果 选取所述多个数据样本中的一个或多个作为标注对象 ; 标注信息获取模块, 用于获取针对 所述标注对象的标注信息 ; 及二次聚类模块, 用于将所述标注信息作为约束信息对所述多 个数据样本进行二次聚类。
     根据本发明的另一方面, 提供了一种文本分类方法。 该文本分类方法包括 : 统计文 本中的特殊字符, 并根据统计结果判断所述文本的语言类别。
     根据本发明的另一方面, 提供了一种文本分类装置。 该文本分类装置包括 : 统计模 块, 用于统计文本中的特殊字符 ; 以及分类模块, 用于根据统计结果来判断所述文本的语言 类别。
     另外, 本发明的实施例还提供了用于实现上述数据聚类方法和 / 或文本分类方法 的计算机程序。
     此外, 本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品, 其 上记录有用于实现上述数据聚类方法和 / 或文本分类方法的计算机程序代码。
     附图说明
     参照下面结合附图对本发明实施例的说明, 会更加容易地理解本发明的以上和其它目的、 特点和优点。附图中的部件只是为了示出本发明的原理。在附图中, 相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。
     图 1 是示出了根据本发明一个实施例的数据聚类方法的示意性流程图 ;
     图 2 是示出了根据本发明另一实施例的数据聚类方法的示意性流程图 ;
     图 3 是示出了根据本发明一个实施例的文本分类方法的示意性流程图 ;
     图 4 是示出了根据本发明另一实施例的数据聚类方法的示意性流程图 ;
     图 5-7 分别是示出了根据本发明的实施例的文本分类方法的示意性流程图 ;
     图 8-10 分别是示出了根据本发明的实施例的数据聚类装置的示意性框图 ;
     图 11-12 分别是示出了根据本发明的实施例的文本分类装置的示意性框图 ; 以及
     图 13 是示出了可用于实施根据本发明的实施例的计算机的示意性框图。 具体实施方式
     下面参照附图来说明本发明的实施例。 在本发明的一个附图或一种实施方式中描 述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。 应 当注意, 为了清楚的目的, 附图和说明中省略了与本发明无关的、 本领域普通技术人员已知 的部件和处理的表示和描述。
     一些数据聚类方法采用完全自动化的手段对信息进行管理, 但是由于缺乏人工干 预, 聚类结果往往不能满足用户的需求。为了解决这个问题, 出现了半监督的聚类方法。半 监督的聚类方法通常随机地选取数据样本对提供给用户进行标注, 并将用户提供的标注信 息作为数据聚类的约束条件。但是, 在这些方法中, 由于数据样本是随机选取的, 往往会导 致大量的冗余标注信息。另外, 由于样本选取的随机性, 也容易导致用户标注错误。下面描 述根据本发明的实施例的数据聚类方法。
     图 1 示出了根据本发明一个实施例的数据聚类方法的示意性流程图。
     在该方法中, 首先对待处理的数据样本进行初始聚类, 然后根据初始聚类的结果 选取一个或多个数据样本作为标注对象供用户标注, 从而获得用户输入的标注信息。 之后, 将所述标注信息作为约束条件对数据样本进行再次聚类。如图 1 所示, 该数据聚类方法可 包括以下步骤 106-112。
     在步骤 106 中, 对多个数据样本进行初始聚类。为了描述方便, 下文中也将这一步 骤称为初始聚类步骤。
     该初始聚类步骤可以采用任何适当的聚类方法对数据样本进行聚类。 在一个示例 中, 出于效率的考虑, 可以采用 K 均值 (K-means) 法。在其他示例中, 还可以采用其他聚类 方法, 如模糊 C 均值 (Fuzzy C-means) 算法、 单连接算法 (Single Link Algorithm)、 完全算 法 (CompleteAlgorithm) 等等, 这里不一一列举。
     通过所述初始聚类步骤, 数据样本被聚类成一个或多个初始簇。
     在步骤 108 中, 根据初始聚类的结果选取所述多个数据样本中的一个或多个, 作 为标注对象, 用于提供给用户进行标注。这一步骤也称为标注对象选取步骤。
     可以利用多种方法来选择标注对象。作为一个示例, 可以在每个初始簇中随机选 择一个或多个数据样本作为标注对象。在另一示例中, 考虑到通常情况下簇的边缘点 ( 即 位于簇的边缘的数据样本 ) 是容易出错的点, 因此, 可以在每个初始簇中选择距离簇的中心点较远的数据点 ( 数据样本 ) 作为标注对象, 从而进一步降低后续步骤中用户标注的出 错概率。
     下面给出选择簇的边缘点的一个示例性方法。首先, 可利用下面的公式 (1) 来计 算簇的中心点的向量 :
     其中 : 1 ≤ j ≤ k, 1 ≤ i ≤ n,||Sj|| 表示对 Sj 进行取模运算, πj 表示第 j 簇, |πj| 表示第 j 簇中的元素的个 数 ( 即该簇中数据样本的个数 ), cj 表示第 j 簇的中心点的向量, xi 表示第 j 簇中的某个数 据点的向量, k 表示簇的数目, n 表示第 j 簇中数据样本的数目。
     在确定了簇的中心点的向量之后, 计算各数据点的向量与中心点的向量的距离。 作为一个示例, 数据点的向量距离簇的中心点的向量的距离可以通过下面的内积公式 (2) 来计算 :
     Di = cj·xi (2)
     其中, cj 表示第 j 簇的中心点的向量, xi 表示簇中的某个数据点的向量, 1 ≤ i ≤ n。 应该理解, 上述示例仅仅是示例性的, 本发明并不局限于此。在其他示例中, 还可以通过欧 式距离、 KL 距离、 余弦距离等其他方法来计算所述距离, 这里不一一列举。
     所计算的各数据点的向量与中心点的向量的距离即可作为各数据点距离中心点 的距离。之后, 根据所计算的距离值, 可选取距离中心点较远的数据点作为标注对象。作为 一个示例, 可以根据各数据点 ( 即数据样本 ) 与各自中心点的距离值, 将所有初始簇中的数 据样本排序, 选取前 M 个 (M ≥ 1) 作为标注对象。作为另一示例, 可以根据各数据点距中心 点的距离对每个簇中的数据样本分别进行排序, 从每个簇中分别选取一个或多个 ( 例如 M/ k 个 ) 作为标注对象。作为一个示例, 还可以选取一阈值, 将各簇中与中心点的距离大于或 等于该阈值的各数据样本作为标注对象。
     应该理解, 上述选取标注对象的各种方法仅仅是示例性的, 本发明不应局限于此。 在其他示例中, 还可以采用其他适当的方法来选择标注对象, 这里不一一列举。
     在步骤 110 中, 获取针对所选取的标注对象的标注信息。
     具体地, 将所选取的标注对象提供给用户, 由用户进行标注, 从而获得用户提供的 标注信息。这一步骤也称为标注信息获取步骤。
     在一个示例中, 可以通过人机交互技术向用户提供标注对象并获取用户的标注信 息。作为一个示例, 可以通过人机交互界面 ( 例如 Windows 界面或其他操作系统的界面 ) 将标注对象显示 ( 例如通过机器的显示屏 ) 给用户, 并获取用户利用输入装置 ( 例如键盘、 鼠标、 触摸键 / 触摸屏等 ) 输入的标注信息。当然, 这里的人机交互界面仅仅是示例性的, 本发明不应视为局限于此。 可以采用任何适当的技术来实现人机交互以向用户提供信息并 获取用户输入的信息, 这里不一一列举。在步骤 112 中, 将所获得的标注信息作为约束信息对所述多个数据样本再次进行 聚类。这一步骤也称为二次聚类步骤。该二次聚类步骤可以采用任何适当的半监督的聚类 方法。如 COP K 均值 (COP K-means) 算法、 PCK 均值 (PCKMeans) 算法等等, 这里不一一列 举。
     在上述数据聚类方法中, 在将数据样本提供给用户进行标注之前, 首先对数据样 本进行初始聚类, 并根据初始聚类的结果在数据样本中选择一个或多个作为标注对象供用 户标注。 通过初始聚类以及标注对象选取, 可减少提供给用户的冗余信息, 从而提高用户标 注的效率, 使得能够使用较少的用户标注信息达到较好的聚类效果。 另外, 在所有数据样本 中随机选取样本供用户标注往往比较枯燥, 而在上述实施例中, 提供给用户的数据样本是 经过初始聚类的, 相对于自己提出意见来说, 人们往往更喜欢批评已有的意见, 因此, 这种 初始聚类的结果有助于提高用户标注时的警觉度, 从而降低用户标注错误的概率。
     在一个示例中, 为了进一步简化用户的操作从而提高用户标注的效率并降低出错 概率, 所选择的标注对象可以成对地提供给用户, 用户进行简单地判断 ( 例如标注 “是” 或 “否” ) 即可完成标注。作为另一示例, 还可以每次从两个或更多个相邻簇的每个中分别选 择一个标注对象同时提供给用户, 以便引起用户的警觉, 从而进一步降低标注出错的概率, 提高聚类的准确度。当然, 上述仅仅是示例性的, 还可以将标注对象每三个 ( 或更多个 ) 作 为一组提供给用户进行标注, 这里不一一列举。 图 2 是示出了根据本发明另一实施例的数据聚类方法的示意性流程图。图 2 所示 的方法与图 1 类似, 不同之处在于, 图 2 所示的方法所针对的数据样本是文本, 且在初始聚 类步骤之前, 还包括将各文本向量化的步骤。
     如图 2 所示, 在步骤 204 中, 根据每个文本的语言类别, 将每个文本转换为空间向 量表示。这一步骤也称为向量化步骤。在后续的初始聚类、 标注对象选取以及二次聚类等 步骤中, 对所述文本的空间向量表示进行处理。步骤 206-212 分别与图 1 所示实施例的步 骤 106-112 相似, 这里不再赘述。
     本领域的普通技术人员应理解, 可以采用任何适当的方法对文本进行向量化, 这 里不一一列举。作为一个示例, 所述向量化步骤可以包括如下步骤 2041-2043 :
     在步骤 2041 中, 根据文本的语言类别将各文本分别切分成多个语义单元。
     在步骤 2042 中, 对文本进行特征提取。在对各文本进行切分之后, 所得到的语义 单元会比较多, 而很多词对聚类的区分是没有积极作用的。 因此, 需要对切分得到的语义单 元进行特征提取。特征提取的目的在于消除不利于聚类区分的词, 另一方面在于降低计算 消耗。作为示例, 可采取的特征选择方法包括 : 去除过多或者过少的语义单元、 去除在单个 文本中出现次数过少的语义单元和出现在过少文本中的语义单元等。例如, 可以去除掉出 现在少于 3 个文本中的语义单元。
     在步骤 2043 中, 进行特征权重赋值。将每个文本使用向量空间模型来表示。这 个表示中的每一维对应一个语义单元, 一个文本在每一维上的取值就是该维所对应的语义 单元在该文本向量所对应的文本中的权重。文本向量权重可以采用任何适当的方法来计 算。 作为示例, 计算方法可以包括词频 ( 英文全称为 Term Frequency, 简称 TF)、 反文档频率 ( 英文全称 Inverse Document Frequency, 简称 IDF)、 词频反文档频率 ( 英文全称为 Term Frequency Inverse Document Frequency, 简称 TFIDF)、 TFC 权重、 LTC 权重等方法, 这里不
     一一列举。下面的公式 (3) 是 LTC 权重方法的一个示例 :
     其中, N 表示文本的数目, V 表示语义单元的数目, fik 表示第 i(1 ≤ i ≤ V) 个语义 单元在第 k 个文本中出现的次数, ni 表示含有第个 i 语义单元的文本的数目, Wik 表示第 k 个文本中的第 i 个语义单元的权重, 1 ≤ j ≤ k。
     在一个示例中, 所述向量化步骤还可以包括对各文本的向量进行归一化的步骤。 本领域的普通技术人员应理解, 可以采用任何适当的方法对文本的向量进行归一化, 这里 不一一列举。
     在上述实施例中, 通过对文本进行向量化, 可以大大减少冗余信息, 从而进一步提 高数据聚类的效率。
     本发明的一个实施例还提供了对文本进行分类的方法。图 3 示出了根据该实施例 的文本分类方法的示意性流程。 在该实施例中, 将文本的语言分为两种, 一种是利用特殊符 号 ( 如空白字符或标点符号, 所述空白字符包括空格、 水平制表符、 垂直制表符、 换页符、 回 车和换行符等等 ) 隔开的语言 ( 如某些西方语种, 诸如英语、 法语等等 ), 另外一种是各字符
     之间没有特殊符号分隔的语言 ( 如某些东方语种, 诸如汉语、 日语等 )。 因此, 通过统计文本 中的特殊字符 ( 例如空白字符 ), 即可将文本分类为两种语言类别。如图 3 所示, 所述文本 分类方法包括如下步骤 303 和 305。在步骤 303 中, 对文本中的特殊字符进行统计。在步骤 305 中, 根据特殊字符的统计结果来确定该文本的语言类别。
     图 5 示出了所述文本分类方法的一个示例。如图 5 所示, 在步骤 503 中, 可以计算 文本中的特殊字符的数量与文本中全部字符的比例, 而在步骤 305 中可以判断所计算的比 例是否超过一阈值, 如果是则判断所述文本的为第一语言类别, 否则判断所述文本为第二 语言类别。在实际应用中, 所述阈值可以根据对各种语言类别的文本进行大量统计之后来 确定。例如, 在利用空白字符作为特殊字符的情况下, 所述阈值可以设置为 10%。换言之, 如果文本中空白字符的比例超过 10%, 则认为所述文本的为第一语言类别 ( 如某些西方语 种, 诸如英语、 法语等等 ), 否则判断所述文本为第二语言类别 ( 如某些东方语种, 诸如汉 语、 日语等 )。
     图 6 示出了所述文本分类方法的另一实施例。图 6 所示的实施例与图 3 所示的实 施例相似, 不同之处在于, 图 6 的实施例在特殊字符统计步骤之前还包括对文本中的特殊 字符进行预处理的步骤。作为一个示例, 通常情况下一个英文文本中的空格与全部字符的 比例会远高于一个汉语文本中的空格与全部字符的比例。 但是, 在某些情况下, 汉语文本中 也会包括远高于通常比例的空格, 例如, 一个包括多个连续的回车换行或空格的汉语文本。 在这些情况下, 如果按照图 3 或图 5 的方法就有可能对该文本的语言类别做出错误的判断。 图 6 的实施例能够避免出现这样的错误判断。如图 6 所示, 在步骤 601 中, 首先将文本中连 续出现的多个特殊字符合并为一个特殊字符。然后在步骤 603-605 中进行特殊字符的统计 以及文本语言类别的判断。步骤 603 和 605 分别与图 3 所示的步骤 303 和 305 相似, 这里 不再赘述。图 7 示出了图 6 所示的方法的一个示例。如图 7 所示, 在步骤 701 中, 首先将文本 中连续出现的多个特殊字符合并为一个特殊字符。然后, 在步骤 703 中, 计算文本中的特殊 字符的数量与文本中全部字符的比例。在步骤 705 中, 判断所计算的比例是否超过一阈值, 如果是则判断所述文本的为第一语言类别, 否则判断所述文本为第二语言类别。 如上所述, 所述阈值可以根据对各种语言类别的文本进行大量统计之后来确定。例如, 在利用空白字 符作为特殊字符的情况下, 所述阈值可以设置为 10%。 换言之, 如果文本中空白字符的比例 超过 10%, 则认为所述文本的为第一语言类别 ( 如某些西方语种, 诸如英语、 法语等等 ), 否 则判断所述文本为第二语言类别 ( 如某些东方语种, 诸如汉语、 日语等 )。
     在另一示例中, 步骤 601/701 中还可以包括其他处理, 例如还可以删除文本中的 空行, 这里所谓的空行包括含有的字符全部为不可见的字符的行。步骤 601/701 还可以包 括对文本中的回车换行符进行处理, 如果回车换行符前后的字符均为字母字符, 则将其替 换为空格, 否则删除掉该回车换行符。
     图 4 是示出了根据本发明另一实施例的数据聚类方法的示意性流程图。图 4 所示 的实施例与图 2 所示的实施例相似, 不同之处在于, 图 4 所示的实施例还包括对文本的语言 类别进行判断从而实现跨语种的预处理的步骤。在实现跨语种的预处理时, 通常采用 n 元 模型 (n-gram) 方法。但是, 这种方法对基于字的语言 ( 如汉语 ) 是有效的。而对于基于 词的语言 ( 如英语 ), 如果仍然按基于字的 n 元模型来处理, 并不会带来理想的效果。在图 4 所示的实施例中, 利用图 3、 5-7 所示的文本分类方法来确定文本的语言类别, 并根据各文 本的不同语言类别采取不同的处理策略, 从而实现了跨语种的文本预处理。
     如图 4 所示, 在步骤 402 中, 首先对待处理的多个文本进行统一编码, 即将各文本 转换成统一的编码格式。这一步骤主要是为了便于后续的字符统计等, 也称为统一编码步 骤。在该统一编码步骤中, 可以将文本统一成任何适当的编码格式, 如 UNICODE( 如 UTF-8, UTF-16 和 UTF-32 等 ) 编码等等, 这里不一一列举。
     在步骤 403 中, 统计各文本中的特殊字符, 并根据统计结果将这些文本分类成至 少两个语言类别。这一步骤也称为语言分类步骤。该语言分类步骤可以采用如 3、 5-7 中所 示的文本分类方法, 这里不再赘述。
     步骤 404 为向量化步骤, 在该步骤中, 根据每个文本的语言类别, 将每个文本转换 为空间向量表示。对于不同语言类别的文本可以采取不同的处理策略。例如, 对于第一类 语言 ( 如某些西方语种, 诸如英语、 法语等等 ) 可以使用空白符号和标点符号这些分隔符进 行语义单元切分, 而对于第二类语言 ( 如某些东方语种, 诸如汉语、 日语等 ) 则可以使用 n 元模型 ( 例如二元模型 ) 来进行语义单元切分。该向量化步骤的后续的特征提取等处理与 前述实施例 / 示例相似, 这里不再赘述。
     步骤 406-412 分别与图 2 所示实施例的步骤 206-212 相似, 这里不再赘述。
     在上述实施例中, 首先对文本的语言类别进行判断, 然后在向量化步骤中根据语 言类别采取不同的策略, 从而实现了跨语种的预处理, 进一步提高了数据聚类的效率和精 度。
     图 8 示出了根据本发明的一个实施例的数据聚类装置的示意性框图。 如图 8 所示, 该数据聚类装置可包括初始聚类模块 802、 标注对象选取模块 804、 标注信息获取模块 806 和二次聚类模块 808。初始聚类模块 802 可用于对多个数据样本进行初始聚类。通过所述初始聚类, 初 始聚类模块 802 将多个数据样本聚类成一个或多个初始簇。
     标注对象选取模块 804 可用于根据初始聚类的结果选取所述多个数据样本中的 一个或多个作为标注对象, 供用户标注。标注对象选取模块 804 可以利用多种方法来选择 标注对象。作为一个示例, 标注对象选取模块 804 可以在每个初始簇中随机选择一个或多 个数据样本作为标注对象。在另一示例中, 考虑到通常情况下簇的边缘点 ( 即位于簇的边 缘的数据样本 ) 是容易出错的点, 因此, 标注对象选取模块 804 可以在每个初始簇中选择位 于簇的边缘的一个或多个数据样本作为标注对象, 从而进一步降低后续步骤中用户标注的 出错概率。确定簇的边缘点的方法与前述实施例 / 示例相同, 这里不再赘述。
     标注信息获取模块 806 可用于获取针对所述标注对象的标注信息。具体地, 标注 信息获取模块 806 将标注对象选取模块 804 所选取的标注对象提供给用户, 由用户进行标 注, 并获得用户提供的标注信息。在一个示例中, 标注信息获取模块 806 可以通过人机交互 向用户提供标注对象并获取用户的标注信息。 例如, 可以通过人机交互界面 ( 例如 Windows 界面或其他操作系统的界面 ) 将标注对象显示 ( 例如通过机器的显示屏 ) 给用户, 并保存 用户利用输入装置 ( 例如键盘、 鼠标、 触摸键 / 触摸屏等 ) 输入的标注信息。 当然, 这里的人 机交互示例仅仅是示例性的, 本发明不应视为局限于此。可以采用任何适当的技术来实现 人机交互以向用户提供信息并获取用户输入信息, 这里不一一列举。 在一个示例中, 为了进 一步简化用户的操作从而提高用户标注的效率并降低出错概率, 标注信息获取模块 806 可 以将所选择的标注对象成对地提供给用户, 用户进行简单地判断 ( 例如标注 “是” 或 “否” ) 即可完成标注。作为另一示例, 还可以每次从两个或更多个相邻簇的每个中分别选择一个 标注对象同时提供给用户, 以便引起用户的警觉, 从而进一步降低标注出错的概率, 提高聚 类的准确度。当然, 这仅仅是示例性的, 标注信息获取模块 806 还可以将标注对象每三个 ( 或更多个 ) 作为一组提供给用户进行标注, 这里不一一列举。
     二次聚类模块 808 可用于将标注信息获取模块 806 获取的标注信息作为约束信息 对所述多个数据样本再次进行聚类。
     应理解, 初始聚类模块 802 可以采用任何适当的聚类方法对数据样本进行聚类。 在一个示例中, 出于效率的考虑, 可以采用 K 均值法。在其他示例中, 还可以采用其他聚类 方法, 如模糊 C 均值算法、 单连接算法、 完全算法等等, 这里不一一列举。二次聚类模块 808 可以采用任何适当的半监督的聚类方法。 如 COP K 均值算法、 PCK 均值算法等等, 限于篇幅, 这里也不一一列举。
     在上述数据聚类装置中, 通过初始聚类以及标注对象选取, 可减少提供给用户的 冗余信息, 从而提高用户标注的效率, 使得能够使用较少的用户标注信息而达到较好的聚 类效果。 另外, 在所有数据样本中随机选取样本供用户标注往往比较枯燥, 而在上述实施例 中, 提供给用户的数据样本是经过初始聚类的, 相对于自己提出意见来说, 人们往往更喜欢 批评已有的意见, 因此, 这种初始聚类的结果有助于提高用户标注时的警觉度, 从而降低用 户标注错误的概率。
     图 9 示出了根据本发明的另一实施例的数据聚类装置的示意性框图。图 9 所示的 实施例与图 8 相似, 不同之处在于, 图 9 所示的数据聚类装置还包括向量化模块 910。
     向量化模块 910 可以用于根据多个文本的语言类别, 将多个文本中的每一个转换为空间向量表示。本领域的普通技术人员应理解, 向量化模块 910 可以采用任何适当的方 法 ( 如前述实施例 / 示例中的向量化方法 ) 对文本进行向量化, 这里不一一列举。初始聚 类模块 902、 标注对象选取模块标 904、 标注信息获取模块 906 和二次聚类模块 908 分别与 图 8 所示的模块 802-808 功能相似, 这里不再赘述。
     作为一个示例, 向量化模块 910 还可以包括如下功能 : (1) 根据文本的语言类别采 取不同的策略将各文本分别切分成多个语义单元 ; (2) 对文本进行特征提取 ; (3) 进行特征 权重赋值。所述语义单元切分、 特征提取和特征权重赋值的方法与前述实施例 / 示例中的 方法相同, 这里不再赘述。
     在另一示例中, 向量化模块 910 还可以用于对各文本的向量进行归一化。本领域 的普通技术人员应理解, 可以采用任何适当的方法对文本的向量进行归一化, 这里不一一 列举。
     在上述数据聚类装置中, 通过对文本进行向量化, 可以大大减少冗余信息, 从而进 一步提高数据聚类的效率。
     图 10 示出了根据本发明的另一实施例的数据聚类装置的示意性框图。图 10 所示 的实施例与图 9 相似, 不同之处在于, 图 10 所示的数据聚类装置还包括统一编码模块 1012 和语言分类模块 1014。 统一编码模块 1012 可用于将多个文本转换为统一的编码格式。应理解, 统一编码 模块 1012 可以将文本统一成任何适当的编码格式, 如 UNICODE( 如 UTF-8, UTF-16 和 UTF-32 等 ) 编码等等, 这里不一一列举。
     语言分类模块 1014 可用于根据所述统一编码模块输出的经统一编码的文本来统 计各文本中的特殊字符, 并根据统计结果将所述多个文本分类成至少两个语言类别。语言 分类模块 1014 可以采用如图 3、 5-7 中所示的文本分类方法对文本进行分类, 这里不再赘 述。
     向量化模块 1010 可用于根据每个文本的语言类别, 将每个文本转换为空间向量 表示。对于不同语言类别的文本, 向量化模块 1010 可以采取不同的策略。例如, 对于第一 类语言可以使用空白符号和标点符号这些分隔符进行语义单元切分, 而对于第二类语言则 可以 n 元模型 ( 例如二元模型 ) 来进行语义单元切分。向量化模块 1010 与图 9 所示的模 块 910 相似, 可以采取与前述实施例 / 示例中的方法对文本进行向量化, 这里不再赘述。初 始聚类模块 1002、 标注对象选取模块标 1004、 标注信息获取模块 1006 和二次聚类模块 1008 分别与图 9 所示的模块 902-908 功能相似, 这里也不再赘述。
     在上述数据聚类装置中, 首先对文本的语言类别进行判断, 使得向量化模块可以 根据语言类别采取不同的策略, 从而实现了跨语种的预处理, 进一步提高了数据聚类的效 率和精度。
     图 11 示出了根据本发明的一个实施例的文本分类装置的示意性框图。如图 11 所 示, 所述文本分类装置包括统计模块 1102 和分类模块 1104。
     在该实施例中, 将文本的语言分为两种, 一种是利用特殊符号 ( 譬如, 空白字符或 标点符号, 所述空白字符包括空格、 水平制表符、 垂直制表符、 换页符、 回车和换行符等等 ) 隔开的语言 ( 如某些西方语种, 诸如英语、 法语等等 ), 另外一种是各字符之间没有特殊符 号分隔的语言 ( 如某些东方语种, 诸如汉语、 日语等 )。因此, 通过统计文本中的特殊字符
     ( 例如空白字符 ), 即可将文本分类为两种语言类别。统计模块 1102 可用于统计文本中的 特殊字符。分类模块 1104 可用于根据统计结果来判断所述文本的语言类别。在一个示例 中, 统计模块 1102 还可被配置用于计算所述文本中特殊字符的数量与全部字符数量的比 例; 而分类模块 1104 还可被配置用于判断所计算的比例是否超过一阈值, 如果是则将文本 归为第一语言类别, 否则将所述文本归为第二语言类别。 在实际应用中, 所述阈值可以根据 对各种语言类别的文本进行大量统计之后来确定。例如, 在利用空白字符作为特殊字符的 情况下, 所述阈值可以设置为 10%。换言之, 如果文本中空白字符的比例超过 10%, 则认为 所述文本的为第一语言类别 ( 如某些西方语种, 诸如英语、 法语等等 ), 否则判断所述文本 为第二语言类别 ( 如某些东方语种, 诸如汉语、 日语等 )。
     图 12 示出了根据本发明的另一实施例的文本分类装置的示意性框图。图 12 所示 的文本分类装置与图 11 所示的相似, 不同之处在于, 图 12 所示的文本分类装置还包括预处 理模块 1201。
     作为一个示例, 通常情况下一个英文文本中的空格与全部字符的比例会远高于一 个汉语文本中的空格与全部字符的比例。 但是, 在某些情况下, 汉语文本中也会包括远高于 通常比例的空格, 例如, 一个包括多个连续的回车换行、 或空格的汉语文本。 在这些情况下, 如果利用上述实施例 / 示例所示的文本分类装置就有可能对该文本的语言类别做出错误 的判断。图 12 的文本分类装置通过利用预处理模块 1201 对文本进行预处理, 能够避免出 现这样的错误判断。 预处理模块 1201 可用于将文本中连续的多个特殊字符合并为一个特殊字符, 从 而减少对文本进行特殊字符统计、 分类时的误判。
     作为一个示例, 预处理模块 1201 还可以对文本进行其他处理。例如, 预处理模块 1201 可以包括删除文本中的空行。 这里所谓的空行包括含有的字符全部为不可见的字符的 情况。预处理模块 1201 还可以对文本中的回车换行符进行处理, 如果回车换行符前后的字 符均为字母字符, 则将其替换为空格, 否则删除掉该回车换行符。
     在图 12 所示的文本分类装置中, 统计模块 1202 和分类模块 1204 与图 11 所示的 模块 1102-1104 功能相似, 这里不再赘述。
     另外, 应理解, 本文所述的各种示例和实施例均是示例性的, 本发明不限于此。在 本说明书中, “第一” 、 “第二” 等表述仅仅是为了将所描述的特征在文字上区分开, 以清楚地 描述本发明。因此, 不应将其视为具有任何限定性的含义。
     上述装置中各个组成模块、 单元可通过软件、 固件、 硬件或其组合的方式进行配 置。配置可使用的具体手段或方式为本领域技术人员所熟知, 在此不再赘述。在通过软件 或固件实现的情况下, 从存储介质或网络向具有专用硬件结构的计算机 ( 例如图 13 所示的 通用计算机 1300) 安装构成该软件的程序, 该计算机在安装有各种程序时, 能够执行各种 功能等。
     在图 13 中, 中央处理单元 (CPU)1301 根据只读存储器 (ROM)1302 中存储的程序或 从存储部分 1308 加载到随机存取存储器 (RAM)1303 的程序执行各种处理。 在 RAM 1303 中, 也根据需要存储当 CPU 1301 执行各种处理等等时所需的数据。CPU 1301、 ROM 1302 和 RAM 1303 经由总线 1304 彼此连接。输入 / 输出接口 1305 也连接到总线 1304。
     下述部件连接到输入 / 输出接口 1305 : 输入部分 1306( 包括键盘、 鼠标等等 )、 输
     出部分 1307( 包括显示器, 比如阴极射线管 (CRT)、 液晶显示器 (LCD) 等, 和扬声器等 )、 存 储部分 1308( 包括硬盘等 )、 通信部分 1309( 包括网络接口卡比如 LAN 卡、 调制解调器等 )。 通信部分 1309 经由网络比如因特网执行通信处理。根据需要, 驱动器 1310 也可连接到输 入 / 输出接口 1305。 可拆卸介质 1311 比如磁盘、 光盘、 磁光盘、 半导体存储器等等根据需要 被安装在驱动器 1310 上, 使得从中读出的计算机程序根据需要被安装到存储部分 1308 中。
     在通过软件实现上述系列处理的情况下, 从网络比如因特网或存储介质比如可拆 卸介质 1311 安装构成软件的程序。
     本领域的技术人员应当理解, 这种存储介质不局限于图 13 所示的其中存储有程 序、 与设备相分离地分发以向用户提供程序的可拆卸介质 1311。可拆卸介质 1311 的例子 包含磁盘 ( 包含软盘 ( 注册商标 ))、 光盘 ( 包含光盘只读存储器 (CD-ROM) 和数字通用盘 (DVD))、 磁光盘 ( 包含迷你盘 (MD)( 注册商标 )) 和半导体存储器。或者, 存储介质可以是 ROM 1302、 存储部分 1308 中包含的硬盘等等, 其中存有程序, 并且与包含它们的设备一起 被分发给用户。
     本发明还提出一种存储有机器可读取的指令代码的程序产品。 所述指令代码由机 器读取并执行时, 可执行上述根据本发明实施例的方法。
     相应地, 用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包 括在本发明的公开中。所述存储介质包括但不限于软盘、 光盘、 磁光盘、 存储卡、 存储棒等 等。
     在上面对本发明具体实施例的描述中, 针对一种实施方式描述和 / 或示出的特征 可以以相同或类似的方式在一个或更多个其它实施方式中使用, 与其它实施方式中的特征 相组合, 或替代其它实施方式中的特征。
     应该强调, 术语 “包括 / 包含” 在本文使用时指特征、 要素、 步骤或组件的存在, 但 并不排除一个或更多个其它特征、 要素、 步骤或组件的存在或附加。
     此外, 本发明的方法不限于按照说明书中描述的时间顺序来执行, 也可以按照其 他的时间顺序地、 并行地或独立地执行。 因此, 本说明书中描述的方法的执行顺序不对本发 明的技术范围构成限制。
     通过以上的描述不难看出, 根据本发明的实施例, 提供了如下的方案 :
     附记 1. 一种数据聚类方法, 包括 :
     初始聚类步骤 : 对多个数据样本进行初始聚类 ;
     标注对象选取步骤 : 根据初始聚类的结果选取所述多个数据样本中的一个或多个 作为标注对象 ;
     标注信息获取步骤 : 获取针对所述标注对象的标注信息 ; 及
     二次聚类步骤 : 将所述标注信息作为约束信息对所述多个数据样本进行二次聚 类。
     附记 2. 根据附记 1 所述的数据聚类方法, 其中, 所述标注对象选取步骤包括 : 选择 在初始聚类步骤中获得的每一个初始簇的边缘的数据样本中的一个或者多个作为所述标 注对象。
     附记 3. 根据附记 1 所述的数据聚类方法, 其中, 所述标注信息获取步骤包括 :
     将所述标注对象提供给用户, 以得到用户输入的标注信息。附记 4. 根据附记 1 所述的数据聚类方法, 其中, 所述多个数据样本是多个文本, 并 且在所述初始聚类步骤之前, 所述方法还包括 :
     向量化步骤 : 根据所述多个文本的语言类别, 将所述多个文本中的每一个转换为 空间向量表示。
     附记 5. 根据附记 4 所述的数据聚类方法, 其中, 在所述向量化步骤之前, 所述方法 还包括 :
     统一编码步骤 : 将所述多个文本转换为统一的编码格式 ;
     语言分类步骤 : 统计各文本中的特殊字符, 并根据统计结果将所述多个文本分类 成至少两个语言类别。
     附记 6. 一种数据聚类装置, 包括 :
     初始聚类模块, 用于对多个数据样本进行初始聚类 ;
     标注对象选取模块, 用于根据初始聚类的结果选取所述多个数据样本中的一个或 多个作为标注对象 ;
     标注信息获取模块, 用于获取针对所述标注对象的标注信息 ; 及
     二次聚类模块, 用于将所述标注信息作为约束信息对所述多个数据样本进行二次 聚类。
     附记 7. 根据附记 6 所述的数据聚类装置, 其中, 所述标注对象选取模块还被配置 用于 :
     选择在所述初始聚类模块获得的每一个初始簇的边缘的数据样本中的一个或者 多个作为所述标注对象。
     附记 8. 根据附记 6 所述的数据聚类装置, 其中, 所述标注信息获取模块还被配置 用于 :
     将所述标注对象提供给用户, 以得到用户输入的标注信息。
     附记 9. 根据附记 6 所述的数据聚类装置, 其中, 所述多个数据样本是多个文本, 所 述数据聚类装置还包括 :
     向量化模块, 用于根据所述多个文本的语言类别, 将所述多个文本中的每一个转 换为空间向量表示。
     附记 10. 根据附记 9 所述的数据聚类装置, 还包括 :
     统一编码模块, 用于将所述多个文本转换为统一的编码格式 ; 及
     语言分类模块, 用于根据所述统一编码模块输出的经统一编码的文本来统计各文 本中的特殊字符, 并根据统计结果将所述多个文本分类成至少两个语言类别。
     附记 11. 一种程序产品, 该程序产品包括机器可执行的指令, 当在信息处理设备 上执行所述指令时, 所述指令使得所述信息处理设备执行如附记 1 所述的方法。
     附记 12. 一种存储介质, 该存储介质包括机器可读的程序代码, 当在信息处理设 备上执行所述程序代码时, 所述程序代码使得所述信息处理设备执行如附记 1 所述的方 法。
     附记 13. 一种文本分类方法, 包括 :
     统计文本中的特殊字符, 并根据统计结果判断所述文本的语言类别。
     附记 14. 根据附记 13 所述的文本分类方法, 其中 :统计文本中的特殊字符包括 : 计算所述文本中特殊字符的数量与全部字符数量的 比例 ; 以及其中 :
     根据统计结果判断所述文本的语言类别的步骤包括 : 判断所述比例是否超过一阈 值, 如果是, 则将所述文本归为第一语言类别, 否则将所述文本归为第二语言类别。
     附记 15. 根据附记 13 所述的文本分类方法, 其中, 在统计文本中的特殊字符之前, 所述方法还包括 :
     将所述文本中的连续的多个特殊字符合并为一个特殊字符。
     附记 16. 根据附记 13 所述的文本分类方法, 其中, 所述特殊字符为空白字符。
     附记 17. 一种文本分类装置, 包括 :
     统计模块, 用于统计文本中的特殊字符 ; 以及
     分类模块, 用于根据统计结果来判断所述文本的语言类别。
     附记 18. 根据附记 17 所述的文本分类装置, 其中 :
     所述统计模块还被配置用于计算所述文本中特殊字符的数量与全部字符数量的 比例 ;
     所述分类模块还被配置用于判断所述比例是否超过一阈值, 如果是则将所述文本 归为第一语言类别, 否则将所述文本归为第二语言类别。 附记 19. 根据附记 17 所述的文本分类装置, 还包括 :
     预处理模块, 用于将所述文本中连续的多个特殊字符合并为一个特殊字符。
     附记 20. 根据附记 17 所述的文本分类装置, 其中, 所述特殊字符为空白字符。
     尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露, 但是, 应 该理解, 上述的所有实施例和示例均是示例性的, 而非限制性的。 本领域的技术人员可在所 附权利要求的精神和范围内设计对本发明的各种修改、 改进或者等同物。 这些修改、 改进或 者等同物也应当被认为包括在本发明的保护范围内。
    

数据聚类方法和装置.pdf_第1页
第1页 / 共20页
数据聚类方法和装置.pdf_第2页
第2页 / 共20页
数据聚类方法和装置.pdf_第3页
第3页 / 共20页
点击查看更多>>
资源描述

《数据聚类方法和装置.pdf》由会员分享,可在线阅读,更多相关《数据聚类方法和装置.pdf(20页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN101989289A43申请公布日20110323CN101989289ACN101989289A21申请号200910161158622申请日20090806G06F17/3020060171申请人富士通株式会社地址日本神奈川县72发明人吴科夏迎炬于浩74专利代理机构北京集佳知识产权代理有限公司11227代理人康建峰郎晓虹54发明名称数据聚类方法和装置57摘要本发明提供了数据聚类方法和装置。所述数据聚类方法可包括初始聚类步骤对多个数据样本进行初始聚类;标注对象选取步骤根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象;标注信息获取步骤获取针对所述标注对象的标注。

2、信息;及二次聚类步骤将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书12页附图5页CN101989289A1/2页21一种数据聚类方法,包括初始聚类步骤对多个数据样本进行初始聚类;标注对象选取步骤根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象;标注信息获取步骤获取针对所述标注对象的标注信息;及二次聚类步骤将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。2根据权利要求1所述的数据聚类方法,其中,所述标注对象选取步骤包括选择在初始聚类步骤中获得的每一个初始簇的边缘的数据样本中的一。

3、个或者多个作为所述标注对象。3根据权利要求1所述的数据聚类方法,其中,所述标注信息获取步骤包括将所述标注对象提供给用户,以得到用户输入的标注信息。4根据权利要求1所述的数据聚类方法,其中,所述多个数据样本是多个文本,并且在所述初始聚类步骤之前,所述方法还包括向量化步骤根据所述多个文本的语言类别,将所述多个文本中的每一个转换为空间向量表示。5根据权利要求4所述的数据聚类方法,其中,在所述向量化步骤之前,所述方法还包括统一编码步骤将所述多个文本转换为统一的编码格式;语言分类步骤统计各文本中的特殊字符,并根据统计结果将所述多个文本分类成至少两个语言类别。6一种数据聚类装置,包括初始聚类模块,用于对多。

4、个数据样本进行初始聚类;标注对象选取模块,用于根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象;标注信息获取模块,用于获取针对所述标注对象的标注信息;及二次聚类模块,用于将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。7根据权利要求6所述的数据聚类装置,其中,所述标注对象选取模块还被配置用于选择在所述初始聚类模块获得的每一个初始簇的边缘的数据样本中的一个或者多个作为所述标注对象。8根据权利要求6所述的数据聚类装置,其中,所述标注信息获取模块还被配置用于将所述标注对象提供给用户,以得到用户输入的标注信息。9根据权利要求6所述的数据聚类装置,其中,所述多个数据样本是多个文。

5、本,所述数据聚类装置还包括向量化模块,用于根据所述多个文本的语言类别,将所述多个文本中的每一个转换为空间向量表示。10根据权利要求9所述的数据聚类装置,还包括统一编码模块,用于将所述多个文本转换为统一的编码格式;及语言分类模块,用于根据所述统一编码模块输出的经统一编码的文本来统计各文本中权利要求书CN101989289A2/2页3的特殊字符,并根据统计结果将所述多个文本分类成至少两个语言类别。权利要求书CN101989289A1/12页4数据聚类方法和装置技术领域0001本发明涉及信息处理领域,具体地,涉及一种数据聚类方法和装置以及一种文本分类方法和装置。背景技术0002随着因特网的迅速发展,。

6、电子信息如电子文档等呈现爆炸式的增长。如何迅速有效地组织和管理这些电子信息是一个亟待解决的问题。目前,数据聚类包括文本聚类的方法在业界倍受关注。发明内容0003在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。0004根据本发明的一个方面,提供了一种数据聚类方法。该数据聚类方法包括初始聚类步骤对多个数据样本进行初始聚类;标注对象选取步骤根据初始聚类的结果选取所述多个数据样本中的一个或。

7、多个作为标注对象;标注信息获取步骤获取针对所述标注对象的标注信息;及二次聚类步骤将所述标注信息作为约束信息对所述多个数据样本进行二次聚类0005根据本发明的另一方面,提供了一种数据聚类装置。该数据聚类装置包括初始聚类模块,用于对多个数据样本进行初始聚类;标注对象选取模块,用于根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象;标注信息获取模块,用于获取针对所述标注对象的标注信息;及二次聚类模块,用于将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。0006根据本发明的另一方面,提供了一种文本分类方法。该文本分类方法包括统计文本中的特殊字符,并根据统计结果判断所述文本的语言。

8、类别。0007根据本发明的另一方面,提供了一种文本分类装置。该文本分类装置包括统计模块,用于统计文本中的特殊字符;以及分类模块,用于根据统计结果来判断所述文本的语言类别。0008另外,本发明的实施例还提供了用于实现上述数据聚类方法和/或文本分类方法的计算机程序。0009此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述数据聚类方法和/或文本分类方法的计算机程序代码。附图说明0010参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其说明书CN101989289A2/12页5它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图。

9、中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。0011图1是示出了根据本发明一个实施例的数据聚类方法的示意性流程图;0012图2是示出了根据本发明另一实施例的数据聚类方法的示意性流程图;0013图3是示出了根据本发明一个实施例的文本分类方法的示意性流程图;0014图4是示出了根据本发明另一实施例的数据聚类方法的示意性流程图;0015图57分别是示出了根据本发明的实施例的文本分类方法的示意性流程图;0016图810分别是示出了根据本发明的实施例的数据聚类装置的示意性框图;0017图1112分别是示出了根据本发明的实施例的文本分类装置的示意性框图;以及0018图13是示出了可用。

10、于实施根据本发明的实施例的计算机的示意性框图。具体实施方式0019下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。0020一些数据聚类方法采用完全自动化的手段对信息进行管理,但是由于缺乏人工干预,聚类结果往往不能满足用户的需求。为了解决这个问题,出现了半监督的聚类方法。半监督的聚类方法通常随机地选取数据样本对提供给用户进行标注,并将用户提供的标注信息作为数据聚类的约束条件。但是,在这些方法中。

11、,由于数据样本是随机选取的,往往会导致大量的冗余标注信息。另外,由于样本选取的随机性,也容易导致用户标注错误。下面描述根据本发明的实施例的数据聚类方法。0021图1示出了根据本发明一个实施例的数据聚类方法的示意性流程图。0022在该方法中,首先对待处理的数据样本进行初始聚类,然后根据初始聚类的结果选取一个或多个数据样本作为标注对象供用户标注,从而获得用户输入的标注信息。之后,将所述标注信息作为约束条件对数据样本进行再次聚类。如图1所示,该数据聚类方法可包括以下步骤106112。0023在步骤106中,对多个数据样本进行初始聚类。为了描述方便,下文中也将这一步骤称为初始聚类步骤。0024该初始聚。

12、类步骤可以采用任何适当的聚类方法对数据样本进行聚类。在一个示例中,出于效率的考虑,可以采用K均值KMEANS法。在其他示例中,还可以采用其他聚类方法,如模糊C均值FUZZYCMEANS算法、单连接算法SINGLELINKALGORITHM、完全算法COMPLETEALGORITHM等等,这里不一一列举。0025通过所述初始聚类步骤,数据样本被聚类成一个或多个初始簇。0026在步骤108中,根据初始聚类的结果选取所述多个数据样本中的一个或多个,作为标注对象,用于提供给用户进行标注。这一步骤也称为标注对象选取步骤。0027可以利用多种方法来选择标注对象。作为一个示例,可以在每个初始簇中随机选择一个。

13、或多个数据样本作为标注对象。在另一示例中,考虑到通常情况下簇的边缘点即位于簇的边缘的数据样本是容易出错的点,因此,可以在每个初始簇中选择距离簇的中说明书CN101989289A3/12页6心点较远的数据点数据样本作为标注对象,从而进一步降低后续步骤中用户标注的出错概率。0028下面给出选择簇的边缘点的一个示例性方法。首先,可利用下面的公式1来计算簇的中心点的向量00290030其中00311JK,1IN,0032|SJ|表示对SJ进行取模运算,J表示第J簇,|J|表示第J簇中的元素的个数即该簇中数据样本的个数,CJ表示第J簇的中心点的向量,XI表示第J簇中的某个数据点的向量,K表示簇的数目,N。

14、表示第J簇中数据样本的数目。0033在确定了簇的中心点的向量之后,计算各数据点的向量与中心点的向量的距离。作为一个示例,数据点的向量距离簇的中心点的向量的距离可以通过下面的内积公式2来计算0034DICJXI20035其中,CJ表示第J簇的中心点的向量,XI表示簇中的某个数据点的向量,1IN。应该理解,上述示例仅仅是示例性的,本发明并不局限于此。在其他示例中,还可以通过欧式距离、KL距离、余弦距离等其他方法来计算所述距离,这里不一一列举。0036所计算的各数据点的向量与中心点的向量的距离即可作为各数据点距离中心点的距离。之后,根据所计算的距离值,可选取距离中心点较远的数据点作为标注对象。作为一。

15、个示例,可以根据各数据点即数据样本与各自中心点的距离值,将所有初始簇中的数据样本排序,选取前M个M1作为标注对象。作为另一示例,可以根据各数据点距中心点的距离对每个簇中的数据样本分别进行排序,从每个簇中分别选取一个或多个例如M/K个作为标注对象。作为一个示例,还可以选取一阈值,将各簇中与中心点的距离大于或等于该阈值的各数据样本作为标注对象。0037应该理解,上述选取标注对象的各种方法仅仅是示例性的,本发明不应局限于此。在其他示例中,还可以采用其他适当的方法来选择标注对象,这里不一一列举。0038在步骤110中,获取针对所选取的标注对象的标注信息。0039具体地,将所选取的标注对象提供给用户,由。

16、用户进行标注,从而获得用户提供的标注信息。这一步骤也称为标注信息获取步骤。0040在一个示例中,可以通过人机交互技术向用户提供标注对象并获取用户的标注信息。作为一个示例,可以通过人机交互界面例如WINDOWS界面或其他操作系统的界面将标注对象显示例如通过机器的显示屏给用户,并获取用户利用输入装置例如键盘、鼠标、触摸键/触摸屏等输入的标注信息。当然,这里的人机交互界面仅仅是示例性的,本发明不应视为局限于此。可以采用任何适当的技术来实现人机交互以向用户提供信息并获取用户输入的信息,这里不一一列举。说明书CN101989289A4/12页70041在步骤112中,将所获得的标注信息作为约束信息对所述。

17、多个数据样本再次进行聚类。这一步骤也称为二次聚类步骤。该二次聚类步骤可以采用任何适当的半监督的聚类方法。如COPK均值COPKMEANS算法、PCK均值PCKMEANS算法等等,这里不一一列举。0042在上述数据聚类方法中,在将数据样本提供给用户进行标注之前,首先对数据样本进行初始聚类,并根据初始聚类的结果在数据样本中选择一个或多个作为标注对象供用户标注。通过初始聚类以及标注对象选取,可减少提供给用户的冗余信息,从而提高用户标注的效率,使得能够使用较少的用户标注信息达到较好的聚类效果。另外,在所有数据样本中随机选取样本供用户标注往往比较枯燥,而在上述实施例中,提供给用户的数据样本是经过初始聚类。

18、的,相对于自己提出意见来说,人们往往更喜欢批评已有的意见,因此,这种初始聚类的结果有助于提高用户标注时的警觉度,从而降低用户标注错误的概率。0043在一个示例中,为了进一步简化用户的操作从而提高用户标注的效率并降低出错概率,所选择的标注对象可以成对地提供给用户,用户进行简单地判断例如标注“是”或“否”即可完成标注。作为另一示例,还可以每次从两个或更多个相邻簇的每个中分别选择一个标注对象同时提供给用户,以便引起用户的警觉,从而进一步降低标注出错的概率,提高聚类的准确度。当然,上述仅仅是示例性的,还可以将标注对象每三个或更多个作为一组提供给用户进行标注,这里不一一列举。0044图2是示出了根据本发。

19、明另一实施例的数据聚类方法的示意性流程图。图2所示的方法与图1类似,不同之处在于,图2所示的方法所针对的数据样本是文本,且在初始聚类步骤之前,还包括将各文本向量化的步骤。0045如图2所示,在步骤204中,根据每个文本的语言类别,将每个文本转换为空间向量表示。这一步骤也称为向量化步骤。在后续的初始聚类、标注对象选取以及二次聚类等步骤中,对所述文本的空间向量表示进行处理。步骤206212分别与图1所示实施例的步骤106112相似,这里不再赘述。0046本领域的普通技术人员应理解,可以采用任何适当的方法对文本进行向量化,这里不一一列举。作为一个示例,所述向量化步骤可以包括如下步骤204120430。

20、047在步骤2041中,根据文本的语言类别将各文本分别切分成多个语义单元。0048在步骤2042中,对文本进行特征提取。在对各文本进行切分之后,所得到的语义单元会比较多,而很多词对聚类的区分是没有积极作用的。因此,需要对切分得到的语义单元进行特征提取。特征提取的目的在于消除不利于聚类区分的词,另一方面在于降低计算消耗。作为示例,可采取的特征选择方法包括去除过多或者过少的语义单元、去除在单个文本中出现次数过少的语义单元和出现在过少文本中的语义单元等。例如,可以去除掉出现在少于3个文本中的语义单元。0049在步骤2043中,进行特征权重赋值。将每个文本使用向量空间模型来表示。这个表示中的每一维对应。

21、一个语义单元,一个文本在每一维上的取值就是该维所对应的语义单元在该文本向量所对应的文本中的权重。文本向量权重可以采用任何适当的方法来计算。作为示例,计算方法可以包括词频英文全称为TERMFREQUENCY,简称TF、反文档频率英文全称INVERSEDOCUMENTFREQUENCY,简称IDF、词频反文档频率英文全称为TERMFREQUENCYINVERSEDOCUMENTFREQUENCY,简称TFIDF、TFC权重、LTC权重等方法,这里不说明书CN101989289A5/12页8一一列举。下面的公式3是LTC权重方法的一个示例00500051其中,N表示文本的数目,V表示语义单元的数目,。

22、FIK表示第I1IV个语义单元在第K个文本中出现的次数,NI表示含有第个I语义单元的文本的数目,WIK表示第K个文本中的第I个语义单元的权重,1JK。0052在一个示例中,所述向量化步骤还可以包括对各文本的向量进行归一化的步骤。本领域的普通技术人员应理解,可以采用任何适当的方法对文本的向量进行归一化,这里不一一列举。0053在上述实施例中,通过对文本进行向量化,可以大大减少冗余信息,从而进一步提高数据聚类的效率。0054本发明的一个实施例还提供了对文本进行分类的方法。图3示出了根据该实施例的文本分类方法的示意性流程。在该实施例中,将文本的语言分为两种,一种是利用特殊符号如空白字符或标点符号,所。

23、述空白字符包括空格、水平制表符、垂直制表符、换页符、回车和换行符等等隔开的语言如某些西方语种,诸如英语、法语等等,另外一种是各字符之间没有特殊符号分隔的语言如某些东方语种,诸如汉语、日语等。因此,通过统计文本中的特殊字符例如空白字符,即可将文本分类为两种语言类别。如图3所示,所述文本分类方法包括如下步骤303和305。在步骤303中,对文本中的特殊字符进行统计。在步骤305中,根据特殊字符的统计结果来确定该文本的语言类别。0055图5示出了所述文本分类方法的一个示例。如图5所示,在步骤503中,可以计算文本中的特殊字符的数量与文本中全部字符的比例,而在步骤305中可以判断所计算的比例是否超过一。

24、阈值,如果是则判断所述文本的为第一语言类别,否则判断所述文本为第二语言类别。在实际应用中,所述阈值可以根据对各种语言类别的文本进行大量统计之后来确定。例如,在利用空白字符作为特殊字符的情况下,所述阈值可以设置为10。换言之,如果文本中空白字符的比例超过10,则认为所述文本的为第一语言类别如某些西方语种,诸如英语、法语等等,否则判断所述文本为第二语言类别如某些东方语种,诸如汉语、日语等。0056图6示出了所述文本分类方法的另一实施例。图6所示的实施例与图3所示的实施例相似,不同之处在于,图6的实施例在特殊字符统计步骤之前还包括对文本中的特殊字符进行预处理的步骤。作为一个示例,通常情况下一个英文文。

25、本中的空格与全部字符的比例会远高于一个汉语文本中的空格与全部字符的比例。但是,在某些情况下,汉语文本中也会包括远高于通常比例的空格,例如,一个包括多个连续的回车换行或空格的汉语文本。在这些情况下,如果按照图3或图5的方法就有可能对该文本的语言类别做出错误的判断。图6的实施例能够避免出现这样的错误判断。如图6所示,在步骤601中,首先将文本中连续出现的多个特殊字符合并为一个特殊字符。然后在步骤603605中进行特殊字符的统计以及文本语言类别的判断。步骤603和605分别与图3所示的步骤303和305相似,这里不再赘述。说明书CN101989289A6/12页90057图7示出了图6所示的方法的一。

26、个示例。如图7所示,在步骤701中,首先将文本中连续出现的多个特殊字符合并为一个特殊字符。然后,在步骤703中,计算文本中的特殊字符的数量与文本中全部字符的比例。在步骤705中,判断所计算的比例是否超过一阈值,如果是则判断所述文本的为第一语言类别,否则判断所述文本为第二语言类别。如上所述,所述阈值可以根据对各种语言类别的文本进行大量统计之后来确定。例如,在利用空白字符作为特殊字符的情况下,所述阈值可以设置为10。换言之,如果文本中空白字符的比例超过10,则认为所述文本的为第一语言类别如某些西方语种,诸如英语、法语等等,否则判断所述文本为第二语言类别如某些东方语种,诸如汉语、日语等。0058在另。

27、一示例中,步骤601/701中还可以包括其他处理,例如还可以删除文本中的空行,这里所谓的空行包括含有的字符全部为不可见的字符的行。步骤601/701还可以包括对文本中的回车换行符进行处理,如果回车换行符前后的字符均为字母字符,则将其替换为空格,否则删除掉该回车换行符。0059图4是示出了根据本发明另一实施例的数据聚类方法的示意性流程图。图4所示的实施例与图2所示的实施例相似,不同之处在于,图4所示的实施例还包括对文本的语言类别进行判断从而实现跨语种的预处理的步骤。在实现跨语种的预处理时,通常采用N元模型NGRAM方法。但是,这种方法对基于字的语言如汉语是有效的。而对于基于词的语言如英语,如果仍。

28、然按基于字的N元模型来处理,并不会带来理想的效果。在图4所示的实施例中,利用图3、57所示的文本分类方法来确定文本的语言类别,并根据各文本的不同语言类别采取不同的处理策略,从而实现了跨语种的文本预处理。0060如图4所示,在步骤402中,首先对待处理的多个文本进行统一编码,即将各文本转换成统一的编码格式。这一步骤主要是为了便于后续的字符统计等,也称为统一编码步骤。在该统一编码步骤中,可以将文本统一成任何适当的编码格式,如UNICODE如UTF8,UTF16和UTF32等编码等等,这里不一一列举。0061在步骤403中,统计各文本中的特殊字符,并根据统计结果将这些文本分类成至少两个语言类别。这一。

29、步骤也称为语言分类步骤。该语言分类步骤可以采用如3、57中所示的文本分类方法,这里不再赘述。0062步骤404为向量化步骤,在该步骤中,根据每个文本的语言类别,将每个文本转换为空间向量表示。对于不同语言类别的文本可以采取不同的处理策略。例如,对于第一类语言如某些西方语种,诸如英语、法语等等可以使用空白符号和标点符号这些分隔符进行语义单元切分,而对于第二类语言如某些东方语种,诸如汉语、日语等则可以使用N元模型例如二元模型来进行语义单元切分。该向量化步骤的后续的特征提取等处理与前述实施例/示例相似,这里不再赘述。0063步骤406412分别与图2所示实施例的步骤206212相似,这里不再赘述。00。

30、64在上述实施例中,首先对文本的语言类别进行判断,然后在向量化步骤中根据语言类别采取不同的策略,从而实现了跨语种的预处理,进一步提高了数据聚类的效率和精度。0065图8示出了根据本发明的一个实施例的数据聚类装置的示意性框图。如图8所示,该数据聚类装置可包括初始聚类模块802、标注对象选取模块804、标注信息获取模块806和二次聚类模块808。说明书CN101989289A7/12页100066初始聚类模块802可用于对多个数据样本进行初始聚类。通过所述初始聚类,初始聚类模块802将多个数据样本聚类成一个或多个初始簇。0067标注对象选取模块804可用于根据初始聚类的结果选取所述多个数据样本中的。

31、一个或多个作为标注对象,供用户标注。标注对象选取模块804可以利用多种方法来选择标注对象。作为一个示例,标注对象选取模块804可以在每个初始簇中随机选择一个或多个数据样本作为标注对象。在另一示例中,考虑到通常情况下簇的边缘点即位于簇的边缘的数据样本是容易出错的点,因此,标注对象选取模块804可以在每个初始簇中选择位于簇的边缘的一个或多个数据样本作为标注对象,从而进一步降低后续步骤中用户标注的出错概率。确定簇的边缘点的方法与前述实施例/示例相同,这里不再赘述。0068标注信息获取模块806可用于获取针对所述标注对象的标注信息。具体地,标注信息获取模块806将标注对象选取模块804所选取的标注对象。

32、提供给用户,由用户进行标注,并获得用户提供的标注信息。在一个示例中,标注信息获取模块806可以通过人机交互向用户提供标注对象并获取用户的标注信息。例如,可以通过人机交互界面例如WINDOWS界面或其他操作系统的界面将标注对象显示例如通过机器的显示屏给用户,并保存用户利用输入装置例如键盘、鼠标、触摸键/触摸屏等输入的标注信息。当然,这里的人机交互示例仅仅是示例性的,本发明不应视为局限于此。可以采用任何适当的技术来实现人机交互以向用户提供信息并获取用户输入信息,这里不一一列举。在一个示例中,为了进一步简化用户的操作从而提高用户标注的效率并降低出错概率,标注信息获取模块806可以将所选择的标注对象成。

33、对地提供给用户,用户进行简单地判断例如标注“是”或“否”即可完成标注。作为另一示例,还可以每次从两个或更多个相邻簇的每个中分别选择一个标注对象同时提供给用户,以便引起用户的警觉,从而进一步降低标注出错的概率,提高聚类的准确度。当然,这仅仅是示例性的,标注信息获取模块806还可以将标注对象每三个或更多个作为一组提供给用户进行标注,这里不一一列举。0069二次聚类模块808可用于将标注信息获取模块806获取的标注信息作为约束信息对所述多个数据样本再次进行聚类。0070应理解,初始聚类模块802可以采用任何适当的聚类方法对数据样本进行聚类。在一个示例中,出于效率的考虑,可以采用K均值法。在其他示例中。

34、,还可以采用其他聚类方法,如模糊C均值算法、单连接算法、完全算法等等,这里不一一列举。二次聚类模块808可以采用任何适当的半监督的聚类方法。如COPK均值算法、PCK均值算法等等,限于篇幅,这里也不一一列举。0071在上述数据聚类装置中,通过初始聚类以及标注对象选取,可减少提供给用户的冗余信息,从而提高用户标注的效率,使得能够使用较少的用户标注信息而达到较好的聚类效果。另外,在所有数据样本中随机选取样本供用户标注往往比较枯燥,而在上述实施例中,提供给用户的数据样本是经过初始聚类的,相对于自己提出意见来说,人们往往更喜欢批评已有的意见,因此,这种初始聚类的结果有助于提高用户标注时的警觉度,从而降。

35、低用户标注错误的概率。0072图9示出了根据本发明的另一实施例的数据聚类装置的示意性框图。图9所示的实施例与图8相似,不同之处在于,图9所示的数据聚类装置还包括向量化模块910。0073向量化模块910可以用于根据多个文本的语言类别,将多个文本中的每一个转换说明书CN101989289A8/12页11为空间向量表示。本领域的普通技术人员应理解,向量化模块910可以采用任何适当的方法如前述实施例/示例中的向量化方法对文本进行向量化,这里不一一列举。初始聚类模块902、标注对象选取模块标904、标注信息获取模块906和二次聚类模块908分别与图8所示的模块802808功能相似,这里不再赘述。007。

36、4作为一个示例,向量化模块910还可以包括如下功能1根据文本的语言类别采取不同的策略将各文本分别切分成多个语义单元;2对文本进行特征提取;3进行特征权重赋值。所述语义单元切分、特征提取和特征权重赋值的方法与前述实施例/示例中的方法相同,这里不再赘述。0075在另一示例中,向量化模块910还可以用于对各文本的向量进行归一化。本领域的普通技术人员应理解,可以采用任何适当的方法对文本的向量进行归一化,这里不一一列举。0076在上述数据聚类装置中,通过对文本进行向量化,可以大大减少冗余信息,从而进一步提高数据聚类的效率。0077图10示出了根据本发明的另一实施例的数据聚类装置的示意性框图。图10所示的。

37、实施例与图9相似,不同之处在于,图10所示的数据聚类装置还包括统一编码模块1012和语言分类模块1014。0078统一编码模块1012可用于将多个文本转换为统一的编码格式。应理解,统一编码模块1012可以将文本统一成任何适当的编码格式,如UNICODE如UTF8,UTF16和UTF32等编码等等,这里不一一列举。0079语言分类模块1014可用于根据所述统一编码模块输出的经统一编码的文本来统计各文本中的特殊字符,并根据统计结果将所述多个文本分类成至少两个语言类别。语言分类模块1014可以采用如图3、57中所示的文本分类方法对文本进行分类,这里不再赘述。0080向量化模块1010可用于根据每个文。

38、本的语言类别,将每个文本转换为空间向量表示。对于不同语言类别的文本,向量化模块1010可以采取不同的策略。例如,对于第一类语言可以使用空白符号和标点符号这些分隔符进行语义单元切分,而对于第二类语言则可以N元模型例如二元模型来进行语义单元切分。向量化模块1010与图9所示的模块910相似,可以采取与前述实施例/示例中的方法对文本进行向量化,这里不再赘述。初始聚类模块1002、标注对象选取模块标1004、标注信息获取模块1006和二次聚类模块1008分别与图9所示的模块902908功能相似,这里也不再赘述。0081在上述数据聚类装置中,首先对文本的语言类别进行判断,使得向量化模块可以根据语言类别采。

39、取不同的策略,从而实现了跨语种的预处理,进一步提高了数据聚类的效率和精度。0082图11示出了根据本发明的一个实施例的文本分类装置的示意性框图。如图11所示,所述文本分类装置包括统计模块1102和分类模块1104。0083在该实施例中,将文本的语言分为两种,一种是利用特殊符号譬如,空白字符或标点符号,所述空白字符包括空格、水平制表符、垂直制表符、换页符、回车和换行符等等隔开的语言如某些西方语种,诸如英语、法语等等,另外一种是各字符之间没有特殊符号分隔的语言如某些东方语种,诸如汉语、日语等。因此,通过统计文本中的特殊字符说明书CN101989289A9/12页12例如空白字符,即可将文本分类为两。

40、种语言类别。统计模块1102可用于统计文本中的特殊字符。分类模块1104可用于根据统计结果来判断所述文本的语言类别。在一个示例中,统计模块1102还可被配置用于计算所述文本中特殊字符的数量与全部字符数量的比例;而分类模块1104还可被配置用于判断所计算的比例是否超过一阈值,如果是则将文本归为第一语言类别,否则将所述文本归为第二语言类别。在实际应用中,所述阈值可以根据对各种语言类别的文本进行大量统计之后来确定。例如,在利用空白字符作为特殊字符的情况下,所述阈值可以设置为10。换言之,如果文本中空白字符的比例超过10,则认为所述文本的为第一语言类别如某些西方语种,诸如英语、法语等等,否则判断所述文。

41、本为第二语言类别如某些东方语种,诸如汉语、日语等。0084图12示出了根据本发明的另一实施例的文本分类装置的示意性框图。图12所示的文本分类装置与图11所示的相似,不同之处在于,图12所示的文本分类装置还包括预处理模块1201。0085作为一个示例,通常情况下一个英文文本中的空格与全部字符的比例会远高于一个汉语文本中的空格与全部字符的比例。但是,在某些情况下,汉语文本中也会包括远高于通常比例的空格,例如,一个包括多个连续的回车换行、或空格的汉语文本。在这些情况下,如果利用上述实施例/示例所示的文本分类装置就有可能对该文本的语言类别做出错误的判断。图12的文本分类装置通过利用预处理模块1201对。

42、文本进行预处理,能够避免出现这样的错误判断。0086预处理模块1201可用于将文本中连续的多个特殊字符合并为一个特殊字符,从而减少对文本进行特殊字符统计、分类时的误判。0087作为一个示例,预处理模块1201还可以对文本进行其他处理。例如,预处理模块1201可以包括删除文本中的空行。这里所谓的空行包括含有的字符全部为不可见的字符的情况。预处理模块1201还可以对文本中的回车换行符进行处理,如果回车换行符前后的字符均为字母字符,则将其替换为空格,否则删除掉该回车换行符。0088在图12所示的文本分类装置中,统计模块1202和分类模块1204与图11所示的模块11021104功能相似,这里不再赘述。

43、。0089另外,应理解,本文所述的各种示例和实施例均是示例性的,本发明不限于此。在本说明书中,“第一”、“第二”等表述仅仅是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。0090上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机例如图13所示的通用计算机1300安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。0091在图13中,中央处理单元CPU1301根据只读存储器。

44、ROM1302中存储的程序或从存储部分1308加载到随机存取存储器RAM1303的程序执行各种处理。在RAM1303中,也根据需要存储当CPU1301执行各种处理等等时所需的数据。CPU1301、ROM1302和RAM1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。0092下述部件连接到输入/输出接口1305输入部分1306包括键盘、鼠标等等、输说明书CN101989289A10/12页13出部分1307包括显示器,比如阴极射线管CRT、液晶显示器LCD等,和扬声器等、存储部分1308包括硬盘等、通信部分1309包括网络接口卡比如LAN卡、调制解调器等。通信部分1。

45、309经由网络比如因特网执行通信处理。根据需要,驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上,使得从中读出的计算机程序根据需要被安装到存储部分1308中。0093在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。0094本领域的技术人员应当理解,这种存储介质不局限于图13所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘包含软盘注册商标、光盘包含光盘只读存储器CDROM和数字通用盘DVD、。

46、磁光盘包含迷你盘MD注册商标和半导体存储器。或者,存储介质可以是ROM1302、存储部分1308中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。0095本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。0096相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。0097在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施。

47、方式中的特征相组合,或替代其它实施方式中的特征。0098应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。0099此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。0100通过以上的描述不难看出,根据本发明的实施例,提供了如下的方案0101附记1一种数据聚类方法,包括0102初始聚类步骤对多个数据样本进行初始聚类;0103标注对象选取步骤根据初始聚类的结果选取所述多个数据样本中的一个或多个作。

48、为标注对象;0104标注信息获取步骤获取针对所述标注对象的标注信息;及0105二次聚类步骤将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。0106附记2根据附记1所述的数据聚类方法,其中,所述标注对象选取步骤包括选择在初始聚类步骤中获得的每一个初始簇的边缘的数据样本中的一个或者多个作为所述标注对象。0107附记3根据附记1所述的数据聚类方法,其中,所述标注信息获取步骤包括0108将所述标注对象提供给用户,以得到用户输入的标注信息。说明书CN101989289A11/12页140109附记4根据附记1所述的数据聚类方法,其中,所述多个数据样本是多个文本,并且在所述初始聚类步骤之前,所述。

49、方法还包括0110向量化步骤根据所述多个文本的语言类别,将所述多个文本中的每一个转换为空间向量表示。0111附记5根据附记4所述的数据聚类方法,其中,在所述向量化步骤之前,所述方法还包括0112统一编码步骤将所述多个文本转换为统一的编码格式;0113语言分类步骤统计各文本中的特殊字符,并根据统计结果将所述多个文本分类成至少两个语言类别。0114附记6一种数据聚类装置,包括0115初始聚类模块,用于对多个数据样本进行初始聚类;0116标注对象选取模块,用于根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象;0117标注信息获取模块,用于获取针对所述标注对象的标注信息;及0118二次聚类模块,用于将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。0119附记7根据附记6所述的数据聚类装置,其中,所述标注对象选取模块还被配置用于0120选择在所述初始聚类模块获得的每一个初始簇的边缘的数据样本中的一个或者多个作为所述标注对象。0121附记8根据附记6所述的数据聚类装置,其中,所述标注信息获取模块还被配置用于0122将所述标注对象提供给用户,以得到用户输入的标注信息。0123附记9根据附记6所述的数据聚类装置,其中,所述多个数据样本是多个文本,所述数据聚类装置还包括0124向量化模块,用于根据所述多个文本的语言类别,将所述多个。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1