基于海量网络舆情信息的PL聚类处理方法.pdf

摘要
申请专利号：	CN201010028036.2	申请日：	2010.01.06
公开号：	CN101763431A	公开日：	2010.06.30
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20100630\|\|\|公开
IPC分类号：	G06F17/30; G06Q30/00	主分类号：	G06F17/30
申请人：	电子科技大学
发明人：	佘堃; 王驰; 崔鸿; 朱梦龙
地址：	610054 四川省成都市建设北路二段4号
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

基于海量网络舆情信息的PL聚类处理方法，包括对各舆情信息进行分词预处理、舆情信息的特征分词选取、舆情信息的向量化和基于PL算法的聚类。其实质是用分词工具对文本进行分词，通过改进的信息增益算法进行特征分词选取，对特征分词向量化后用PL算法进行聚类的过程。本发明对海量网络舆情处理时可有效过滤噪声数据，拥有较低的时间、空间复杂度。本发明可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来，并且概括出每一类消费者的消费模式或者消费习惯。

权利要求书

1. 基于海量网络舆情信息的聚类处理，它包括如下步骤：
一、对各舆情信息进行分词预处理，包括以下步骤：
1)、利用分词工具(中科院的ICTCLAS)对各个舆情信息分别进行分词；
2)、除去分词里面的常用停用词；
3)、对每个舆情信息的分词进行初步筛选，选取其中的名词和动词(名词和动词更能体现出舆情的信息)，并对这些分词进行词频统计，保存在Map<K，V>里面，其中K是分词，而V为K所对应的词频；
4)、将各舆情信息统计出的Map添加到Vector<Map>里面保存；
二、舆情信息的特征分词选取(目的是实现降维)，包括以下步骤：
1)、利用改进过后的信息增益算法，计算各分词的信息增益值，改进后的公式如下：
IG(t)＝f(t)×(H(C)-H(C|T))
IG(t)：表示分词t对整个信息所产生的信息增益值
H(C)：表示整个舆情信息的信息熵，H(C)=-Σi=1NP(ci)log2P(ci),]]>其中C表示类别，在这里我们把每个舆情信息作为一个分类，P(c_i)表示类别c_i(即第i个舆情信息)在整个舆情信息里面出现的概率。
P(ci)=Vector.get(i).size()/Σj=1NVector.get(j).size(),]]>N为舆情信息总的个数
H(C|T)：表示分词的条件熵，
H(C|T)=-P(t)Σi=1kP(ci|t)log2P(ci|t)-P(t&OverBar;)Σi=1N-kP(ci|t&OverBar;)log2P(ci|t&OverBar;)]]>
其中，k为包含分词t的类别个数，P(t)表示分词t出现的概率，P(t)＝包含分词t的舆情信息个数÷N
P(c_i|t)表示分词t出现时类别c_i出现的条件概率，
P(c_i|t)＝c_i中的分词总数÷包含有分词t的所有类别的分词总数，c_i是含有分词t的类别，
P(t)表示分词t不出现的概率，P(t)＝1-P(t)，
P(c_i|t)表示分词t不出现时类别c_i出现的条件概率，
P(c_i|t)＝c_i中的分词总数÷不包含分词t的所有类别的分词总数，c_i是不包含分词t的类别，
f(t)表示一个修正函数，f(t)＝log₂(n_t+0.01)，其中n_t为包含分词t的类别个数，函数的作用是为了避免将舆情信息转化为向量时得到零向量，或向量中出现过多的零。
2)、将分词的信息增益值进行快速排序(从大到小)，结果保存到数组IG[]里面；
3)、将排序结果的前M＝100(M可以自己设定)个分词作为特征分词；
三、舆情信息的向量化，包括以下步骤：
1)、利用改进过后的权重公式对M个特征分词分别在每个舆情信息中进行权重计算，改进后的公式如下：
W_ij＝TF_ij×IDF^*×IG(i)
W_ij表示第i个特征分词在第j个舆情信息中的权重
TF_ij表示第i个特征分词在第j个舆情信息出现的次数，即词频
IDF^*表示改进后的反文档频率，IDF^*＝log₂(N/n_i+k)，其中n_i指所有舆情信息中出现过第i个特征分词的信息个数，k是一个修正常数，这里取值为k＝0.01，目的是为了防止第i个特征分词在每个信息中都出现过，从而导致反文档频率出现0的现象
IG(i)表示第i个特征分词的信息增益值
2)、得到第j个舆情信息通过特征分词所对应的向量Vector_j＝(W_1j，W_2j，…，W_Mj)；
3)、向量归一化处理，Vector_j＝(W_1j^*，W_2j^*，…，W_Mj^*)，其中，Wij*=Wij÷(Σk=1MWkj2)1/2;]]>
四、在平面划分方法与层次凝聚方法基础上提出了新的聚类方法(PL算法)，PL算法结合了两者的优点，具体实现步骤如下：
对于给定的向量集合V＝{Vector₁，Vector₂，……，Vector_N}，其中Vector_i是第i个舆情信息所对应的特征向量。
1)、将V中的每个特征向量Vector_i作为具有一个成员的簇C_i＝{Vector_i}；
2)、任意选取其中一个簇C_i作为聚类的起始点，给定一个初始阈值d(d＝0.7)；
3)、在其余未聚类的向量中，找到dist(Ci*,Vectorj)<d,]]>将Vector_j归入C_i形成一个新的簇；
C_i＝C_i∪Vector_j，计算新的阈值d
4)、重复步骤3)，直至与C_i^*距离最近的向量到C_i^*的距离超过阈值d，此时认为已经聚完一类；
5)、选择一个未聚类的单个成员簇，重复步骤3)和4)，开始新的一轮聚类，直至所有的单个成员簇C_i都参与了聚类；
若Vector_i＝(x₁，x₂，…，x_M)，Vector_j＝(y₁，y₂，…，y_M)，dist(Vector_i，Vector_j)表示这两向量之间的欧几里德距离，则dist(Vectori,Vectorj)=[Σk=1M(xk-yk)2]1/2;]]>
若簇C_i与Vector_j合并，则产生新的簇中心C_i^*，C_i^*为簇C_i中心所对应的向量，若C_i中包含了K个向量，即其中1＜＝i₁，i₂，…，i_k＜＝N，则Ci*=Σj=1kVectorij÷k,]]>而新的阈值d=max(dist(Ci*,Vectorj),dist(Ci*,Vectori1),dist(Ci*,Vectori2),···,dist(Ci*,Vectorik)).]]>

说明书

基于海量网络舆情信息的PL聚类处理方法
一、技术领域
本发明属于计算机信息安全技术领域，具体包括对各舆情信息进行分词预处理、舆情信息的特征分词选取、舆情信息的向量化和基于PL算法的聚类。本发明可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来，并且概括出每一类消费者的消费模式或者消费习惯。
二、背景技术
在网络和通信技术迅速发展的今天，Internet已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道，人们越来越感受到了信息的冲击，而文本是信息的重要载体，70％以上的网络信息均以文本形式体现。信息内容和格式的多样化、复杂化，信息更新速度之快，使为管理收集到的文本信息进行文本分类变得越来越困难。这就需要对文本进行聚类处理，聚类处理主要包括三个部分：特征分词选取、权重计算和文本聚类。
1.特征词提取技术
由于文本数据具有半结构化甚至无结构化的特点，致使文本数据的特征向量的维数高达几万甚至几十万维。即使经过初始的筛选处理，还会有很高维数的特征向量。在这些多维特征中，并不是都对文本分类有用，反而增加了机器运算的负担，增加计算时间。因此，在研究文本分类过程中，特征词提取是非常关键的环节，具有降低向量空间维数、简化计算、防止过分拟合以及去除噪声等作用，特征选择的好坏将直接影响着文本分类的准确率。特征选择并没有改变原始特征空间的性质，只是从原始特征空间选择了一部分重要的特征，组成一个新的低维空间。评价函数的好坏是影响特征选择的关键问题。目前比较成熟的特征选择方法主要有：文本频率(document frequency，DF)、信息增益(information gain，IG)、互信息(mutual information，MI)、期望交叉熵(Expected CrossEntropy：ECE)、开方校验(χ²test，CHI)等下面将对DF、IG进行简单介绍：
①、文档频率DF(Document Frequency：DF)
文档频率DF是指在所有的训练文本中某一特征词出现的文档频率。在使用DF时是基于如下基本假设：DF值低于某个事先确定的阈值的词条是低频词，它们不含有类别信息，将这样的词条从原始特征空间中移除后能够降低特征空间的维数，不会对分类器的性能造成影响。如果低频词恰好是噪音词，还有可能提高分类器的正确率。
文档频率DF是最简单的一种评估函数。文档频率的计算复杂度较低，随着训练集的增加而线性增加，能够适用于大规模语料库。但是在信息抽取(InformationExtraction)研究中却通常认为DF值低的词条相对于DF值高的词条具有较多的信息量，将这些词条从特征空间中移除会降低分类器的准确率，因此，该方法通常用作辅助的特征提取方法。
②、信息增益方法IG(Information Gain：IG)
信息增益被广泛地应用于机器学习领域，它是信息论中的一个重要概念，表示某个特征项的存在与否对类别预测的影响。在文本特征选择中，对于词条t和类别C，信息增益IG通过考察C中出现和不出现t的文档频率来衡量t对于C的信息增益。信息增益的计算公式如下：
IG(t)=-Σi=1mP(ci)log2P(ci)+P(t)Σi=1mP(ci|t)log2P(ci|t)+P(t&OverBar;)Σi=1mP(ci|t&OverBar;)log2P(ci|t&OverBar;)]]>
其中c_i为第i类文档，t表示特征t不出现，其中i＝1，2，…，m。
P(c_i)表示c_i类文档在语料集合中出现的概率，P(t)表示语料集合中特征t出现的概率，P(c_i|t)表示特征t在c_i类文档集合中出现的条件概率；P(t)表示语料集合特征t不出现的概率，P(c_i|t)表示c_i类中不包含特征t的文档的概率；m为类别个数。
特征项的信息增益值越大，在分类中起的作用就越大，越重要。因此，在进行特征选择时，应该选取信息增益值大的若干特征项来构造文档的特征向量。
信息增益的不足之处在于它考虑了特征不出现的情况，虽然某个特征不出现也可能对判断文本类别有贡献，但实验证明这种贡献往往远小于考虑特征不出现情况所带来的干扰。特别是在类分布和特征分布高度不平衡的情况下，在多数类中绝大多数特征都是“不出现”的，此时信息增益值大的特征主要是信息增益公式中后一部分(代表特征项不出现的情况)，而非前一部分(代表特征项出现的情况)大，这样信息增益的效果就会大大降低了。
而本专利中所采用的改进过后的信息增益算法，是在事先没有分类的情况下，将每一个信息文档作为一个类别进行处理的，并根据特征提取过后得出的特征向量数据中包含了过多的零向量或过多的零元素，提出了修正函数f(t)，目的就是要消除过多的零向量和零元素。
特征词提取的主要用于排除文本中的一些在特征空间中被认为是无关的或者是相关性不大的一些特征。主要应用如下：
1)、垃圾邮件过滤
2)、数字图像处理分析
3)、模式识别(包括人脸识别)
2、特征词权重计算
目前常用的特征词权重计算函数有以下几种：布尔函数、TF函数、IDF函数和TFIDF公式法。
①、布尔函数
wi=1TF(ti)>=10TF(ti)=0,]]>其中，TF(t_i)是特征项t_i在文本中的出现次数。布尔权重是一种最简单的赋值方法，如果特征项t_i的出现次数为0，则权重w_i为0，否则权重w_i为1。
②、TF权值(Term Frequency)
TF(Term Frequency)是词频，或称为特征词频率，它是文本分类的重要参考之一。一般来讲，如果一个特征词在某类文档中经常出现，即其出现频率高，TF很大，说明这个特征词对该类文档具有很强的代表性，该特征词在该类文档中应该赋予较高的权重。TF越大，其权重就越大，表示这个特征词对文档越重要。如“计算机”这个词在计算机类的文档中出现的频率显然要高于政治类的文档。TF的计算公式为：w_i＝TF(t_i)＝特征项t在类c文本中出现的次数。
由于TF权值仅考虑了词频信息，这样会造成对高频词的过度依赖，从而抛弃了那些带有很大信息量的低频词。
③、IDF权值(Inverse Document Frequency反文档频率)
反文档频率IDF是特征词在文档集分布情况的量化，以出现特征词的文档数为参数，构建特征词的权重。反文档频率IDF的出发点是一个特征词的文档数越高，其包含的类别信息就越低，就越不重要。应用时经常采用对数形式，其计算方法为：IDF(t_i)＝log(N/n_i+L)
其中，L的取值通过实验来确定(通常取0.01)。N文档集中的总文档数，n_i为出现特征词t_i的文档数。
IDF算法的核心思想是，出现在大多数文档中的特征词不如只在小部分文档中出现的特征词重要，即如果一个词在一篇文档中出现，同时它也出现在其它很多文档中，则该词缺乏类别区分能力，其重要性较低。IDF算法能够弱化一些在大多数文档中都出现的高频特征词的重要度，同时增强一些在小部分文档中出现的低频特征词的重要度。
④、TFIDF公式
一个有效的特征词应既能体现所属类别的内容，又能将该类别同其它类别相区分开。所以，在实际应用中TF与IDF通常是联合使用的。TF与IDF的联合公式：TFIDF(t)＝TF(t)×IDF(t)
本专利中的权重计算公式不但包含了TFIDF公式的优点，还将信息增益结合了起来，从多方面对信息文本的信息进行了提取。
3、文本聚类技术
文档聚类主要是依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效地组织、摘要和导航的重要手段，为越来越多的研究人员所关注。其主要应用如下：
1)、文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤，比较典型的例子是哥伦比亚大学开发的多文档文摘系统Newsblaster。
2)、对搜索引擎返回的结果进行聚类，使用户迅速定位到所需要的信息。
3)、对用户感兴趣的文档(如用户浏览器cache中的网页)聚类，从而发现用户的兴趣模式并用于信息过滤和信息主动推荐等服务。
4)、聚类技术还可以用来改善文本分类的结果，如俄亥俄州立大学的Y.C.Fang，S.Parthasarathy和F.Schwartz等人的工作。
5)、数字图书馆服务。
6)、文档集合的自动整理。
涉及文本聚类的主要算法有：
①、K-means算法
k-means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。其处理流程为：
(1)、从n个数据对象任意选择k个对象作为初始聚类中心；
(2)、循环(3)到(4)直到每个聚类不再发生变化为止；
(3)、根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；
(4)、重新计算每个(有变化)聚类的均值(中心对象)；
②、层次凝聚法
创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。对于给定的文件集合D＝{d₁，d₂，…，d_n}，层次凝聚法的具体过程如下：
(1)、将D中的每个文件di看成一个具有单个成员的簇ci＝{di}，这些簇构成了D的一个聚类C＝{c₁，c₂，…，c_n}；
(2)、计算C中每对簇(c_i，c_j)之间的相似度sim(c_i，c_j)；
(3)、选取具有最大相似度的簇对(c_i，c_j)将c_i和c_j合并为一个新的簇c_k＝c_i∪c_j，从而构成了D的一个新的聚类C＝{c₁，c₂，…，c_n-1}；
(4)、重复上述步骤，直至C中剩下一个簇为止。该过程构造出一棵生成树，其中包含了簇的层次信息以及所有簇内和簇间的相似度.
在专利中所采用的PL算法，是将K-means与层次凝聚法相结合的结果，不但回避了K-means要事先确定聚类个数K的问题，继承了其聚类速度快的优点，在聚类准确度方面还保留了层次凝聚法的优点。总之，PL算法速度更快、灵活性也更高。
三、发明内容及实施步骤
本发明针对目前基于海量网络舆情信息进行特征提取技术，并进行聚类的不足，提出了一系列对中间过程的改进算法。在网络和通信技术迅速发展的今天，Internet已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道，人们越来越感受到了信息的冲击，而文本是信息的重要载体，70％以上的网络信息均以文本形式体现。信息内容和格式的多样化、复杂化，信息更新速度之快，使为管理收集到的文本信息进行文本分类变得越来越困难。本发明将特征提取、权重计算、聚类算法都分别进行了改进，从而在对海量网络信息进行处理时，不管是从效率还是从结果的准确度来说，都得到了很大的提高。
本发明详细技术方案如下：
基于海量网络舆情信息的聚类处理，它包括如下步骤：
一、对各舆情信息进行分词预处理，包括以下步骤：
1)、利用分词工具(中科院的ICTCLAS)对各个舆情信息分别进行分词1；
2)、除去分词里面的常用停用词；
3)、对每个舆情信息的分词进行初步筛选，选取其中的名词和动词(名词和动词更能体现出舆情的信息)，并对这些分词进行词频统计，保存在Map<K，V>里面，其中K是分词，而V为K所对应的词频；
4)、将各舆情信息统计出的Map添加到Vector<Map>里面保存’；
二、舆情信息的特征分词选取(目的是实现降维)，包括以下步骤：
1)、利用改进过后的信息增益算法，计算各分词的信息增益值，改进后的公式如下：
IG(t)＝f(t)×(H(C)-H(C|T))
IG(t)：表示分词t对整个信息所产生的信息增益值
H(C)：表示整个舆情信息的信息熵，H(C)=-Σi=1NP(ci)log2P(ci),]]>其中C表示类别，在这里我们把每个舆情信息作为一个分类，P(c_i)表示类别c_i(即第i个舆情信息)在整个舆情信息里面出现的概率。
P(ci)=Vector.get(i).size()/Σj=1NVector.get(j).size(),]]>N为舆情信息总的个数
H(C|T)：表示分词的条件熵，
H(C|T)=-P(t)Σi=1kP(ci|t)log2P(ci|t)-P(t&OverBar;)Σi=1N-kP(ci|t&OverBar;)log2P(ci|t&OverBar;)]]>
其中，k为包含分词t的类别个数，P(t)表示分词t出现的概率，P(t)＝包含分词t的舆情信息个数÷N
P(c_i|t)表示分词t出现时类别c_i出现的条件概率，
P(c_i|t)＝c_i中的分词总数÷包含有分词t的所有类别的分词总数，c_i是含有分词t的类别，
P(t)表示分词t不出现的概率，P(t)＝1-P(t)，
P(c_i|t)表示分词t不出现时类别c_i出现的条件概率，
P(c_i|t)＝c_i中的分词总数÷不包含分词t的所有类别的分词总数，c_i是不包含分词t的类别，
f(t)表示一个修正函数，f(t)＝log₂(n_t+0.01)，其中n_t为包含分词t的类别个数，函数的作用是为了避免将舆情信息转化为向量时得到零向量，或向量中出现过多的零。
2)、将分词的信息增益值进行快速排序(从大到小)，结果保存到数组IG[]里面；
3)、将排序结果的前M＝100(M可以自己设定)个分词作为特征分词；
三、舆情信息的向量化，包括以下步骤：
1)、利用改进过后的权重公式对M个特征分词分别在每个舆情信息中进行权重计算，改进后的公式如下：
W_ij＝TF_ij×IDF^*×IG(i)
W_ij表示第i个特征分词在第j个舆情信息中的权重
TF_ij表示第i个特征分词在第j个舆情信息出现的次数，即词频
IDF^*表示改进后的反文档频率，IDF^*＝log₂(N/n_i+k)，其中n_i指所有舆情信息中出现过第i个特征分词的信息个数，k是一个修正常数，这里取值为k＝0.01，目的是为了防止第i个特征分词在每个信息中都出现过，从而导致反文档频率出现0的现象
IG(i)表示第i个特征分词的信息增益值
2)、得到第j个舆情信息通过特征分词所对应的向量
Vector_j＝(W_1j，W_2j，…，W_Mj)；
3)、向量归一化处理，Vector_j＝(W_1j^*，W_2j^*，...，W_Mj^*)，其中，
Wij*=Wij÷(Σk=1MWkj2)1/2;]]>
四、在平面划分方法与层次凝聚方法基础上提出了新的聚类方法(PL算法)，PL算法结合了两者的优点，具体实现步骤如下：
对于给定的向量集合V＝{Vector₁，Vector₂，……，Vector_N}，其中Vector_i是第i个舆情信息所对应的特征向量。
1)、将V中的每个特征向量Vector_i作为具有一个成员的簇C_i＝{Vector_i}；
2)、任意选取其中一个簇C_i作为聚类的起始点，给定一个初始阈值d(d＝0.7)；
3)、在其余未聚类的向量中，找到dist(Ci*,Vectorj)<d,]]>将Vector_j归入C_i形成一个新的簇；
C_i＝C_i∪Vector_j，计算新的阈值d
4)、重复步骤3)，直至与C_i^*距离最近的向量到C_i^*的距离超过阈值d，此时认为已经聚完一类；
5)、选择一个未聚类的单个成员簇，重复步骤3)和4)，开始新的一轮聚类，直至所有的单个成员簇C_i都参与了聚类；
若Vector_i＝(x₁，x₂，…，x_M)，Vector_j＝(y₁，y₂，…，y_M)，dist(Vector_i，Vector_j)表示这两向量之间的欧几里德距离，则dist(Vectori,Vectorj)=[Σk=1M(xk-yk)2]1/2;]]>
若簇C_i与Vector_j合并，则产生新的簇中心C_i^*，C_i^*为簇C_i中心所对应的向量，若C_i中包含了K个向量，即其中1＜＝i₁，i₂，…，i_k＜＝N，则Ci*=Σj=1kVectorij÷k,]]>而新的阈值
d=max(dist(Ci*,Vectorj),dist(Ci*,Vectori1),dist(Ci*,Vectori2),...,dist(Ci*,Vectorik))]]>
四、附图说明
图1：基于海量网络舆情信息特征向量产生方法的流程图；
图2：PL聚类方法的流程图。