一种针对特定群体的微博热点话题检测方法及装置.pdf

摘要
申请专利号：	CN201410085760.7	申请日：	2014.03.10
公开号：	CN103823890A	公开日：	2014.05.28
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20140310\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	中国科学院信息工程研究所
发明人：	谭郅聪; 张鹏; 翟立东; 杜跃进; 谭建龙; 郭莉
地址：	100093 北京市海淀区闵庄路甲89号
优先权：
专利代理机构：	北京轻创知识产权代理有限公司 11212	代理人：	杨立
PDF下载：	PDF下载

内容摘要

本发明涉及一种针对特定群体的微博热点话题检测方法及装置，包括以下步骤：根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类；根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类；根据用户社区和概要话题类构建社区话题矩阵；将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类分别进行聚簇分类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。本发明获取热点话题事件的多层次结果，最终通过微博来代表某个社区所感兴趣的热点事件。

权利要求书

权利要求书
1.  一种针对特定群体的微博热点话题检测方法，其特征在于，包括以下步骤：
步骤1：获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多个用户社区；
步骤2：根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中；
步骤3：根据用户社区和概要话题类构建社区话题矩阵，社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值；
步骤4：采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；
步骤5：选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。

2.  根据权利要求1所述的微博热点话题检测方法，其特征在于，所述步骤3中社区话题矩阵中的矩阵元素数值的计算方法具体为：
Ei,j=Σk=1nCj(Ti,k)*N(Ti,k)]]>
其中，Ei,j是第i，第j列的矩阵元素，k是代表每个话题的词语数量，Ti,k是代表话题i的第k个词语，Cj(Ti,k)是词语Ti,k在社区j的出现次数，N(Ti,k)是词语Ti,k的权重。

3.  根据权利要求1所述的微博热点话题检测方法，其特征在于，所述步骤5中进行聚簇分类时采用的分类公式为：
V=argssinΣi=1kΣxj&Element;Si||xj-ui||2]]>
V表示均方差目标函数，(x1,x2,x3,...,xn)表示给定的观测点集合，n表示观测点的个数，k表示分类的集合个数,算法意在将n个观测点分类进入k个集合中，S＝{S1,S2,...,Sk}表示k个分类集合,从而使得目标函数群组内部均方差总和最小，假设有k个群组Si,(1=<i<=k)，ui表示群组Si所有元素的中心点。

4.  根据权利要求1所述的微博热点话题检测方法，其特征在于，所述步骤5中提取每个事件聚簇类的中心热点事件时采用的函数为：
Ti＝(Ri+2*Ci)*Si,k*100
其中，Ti表示用来筛选中心热点微博的分数，Ri表示微博i的转发数量，Ci表示微博i的评论数量，Si,k表示微博i和话题k的余弦相似度。

5.  一种针对特定群体的微博热点话题检测装置，其特征在于：包括获取分类模块（1），抽取模块（2），构建模块（3），余弦相似度分类模块（4）和聚簇提取模块（5）；
获取分类模块（1），用于获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多个用户社区；
抽取模块（2），用于根据获取分类模块（1）获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中；
构建模块（3），用于根据获取分类模块（1）得到的用户社区和抽取模块（2）概要话题类构建社区话题矩阵，社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值；
余弦相似度分类模块（4），用于采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；
聚簇提取模块（5），用于选取构建模块（3）构建的社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的由余弦相似度分类模块（4）放入的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。

6.  根据权利要求5所述的微博热点话题检测装置，其特征在于:所述构建模块（3）中社区话题矩阵中的矩阵元素数值的计算方法具体为：
Ei,j=Σk=1nCj(Ti,k)*N(Ti,k)]]>
其中，Ei,j是第i，第j列的矩阵元素，k是代表每个话题的词语数量，Ti,k是代表话题i的第k个词语，Cj(Ti,k)是词语Ti,k在社区j的出现次数，N(Ti,k)是词语Ti,k的权重。

7.  根据权利要求5所述的微博热点话题检测装置，其特征在于:所述聚簇提取模块（5）中进行聚簇分类时采用的分类公式为：
V=argssinΣi=1kΣxj&Element;Si||xj-ui||2]]>
V表示均方差目标函数，(x1,x2,x3,...,xn)表示给定的观测点集合，n表示观测点的个数，k表示分类的集合个数,算法意在将n个观测点分类进入k个集合中，S＝{S1,S2,...,Sk}表示k个分类集合,从而使得目标函数群组内部均方差总和最小，假设有k个群组Si,(1=<i<=k)，ui表示群组Si所有元素的中心点。

8.  根据权利要求5所述的微博热点话题检测装置，其特征在于:所述聚簇提取模块（5）中提取每个事件聚簇类的中心热点事件时采用的函数为：
Ti＝(Ri+2*Ci)*Si,k*100
其中，Ti表示用来筛选中心热点微博的分数，Ri表示微博i的转发数量，Ci表示微博i的评论数量，Si,k表示微博i和话题k的余弦相似度。

说明书

说明书一种针对特定群体的微博热点话题检测方法及装置
技术领域
本发明涉及数据挖掘的舆情态势感知领域，特别涉及一种针对特定群体的微博热点话题检测方法及装置。
背景技术
近年来，以微博为代表的社交网络正在人们生活中扮演着越来越重要的角色，社交网络的用户的规模也迅速上升。而大量的用户规模和由此产生的大量微博蕴含着丰富的舆情信息，这些舆情信息对捕捉当前社会热点，跟踪舆情导向和社会态势具有十分重要的意义。因此，针对微博的热点话题检测技术成为了近年来的一个核心舆情研究点。由于微博文本具有长度较短（不超过140个中文字符），并且更新快，新词多，流量巨大等特点，针对微博热点话题的检测仍然是一个研究难点。目前对微博热点话题的检测方法主要使用典型的分类算法进行相似度计算来进行话题的分类，并且是针对全网用户挖掘的普遍意义上的热点话题。虽然这类方法也能够在一定程度上成功地进行微博热点挖掘，但是他们无法解决以下二个问题：第一、挖掘的热点话题不具有针对性，由于微博产生的舆情信息不仅仅具有文本内容，还有明显的用户兴趣分布，因此，特定的热点话题只有指定其感兴趣的特定用户群体才有现实意义。而如何准确进行基于用户兴趣的社区分类并且在该基础上进行用户社区的兴趣挖掘是进行针对特定群体的微博热点话题检测技术的重要基础。第二、当前的热点挖掘方法挖掘出的仅仅一些短语性的概要热点话题，并不能充分反映当前的热点事件。一个完整的热点事件至少包含事件六要素，即时间，地点，人物，事件内容，时间起因和事件发展过程。如果要完整地描述一个事件，至少需要以上六要素中的四个要素。并且当前的热点话题的定义非常模糊，从一条短语到一个微博事件都可以理解成为热点话题，因为，挖掘的结果形式也不统一。综上所述，如何对特定的用户群体挖掘具有明确事件意义的微博热点话题成为最重要的研究内容。
发明内容
本发明所要解决的技术问题是提供一种能够进行多层次热点话题挖掘、并且针对不同用户群体展示不同热点话题的微博热点话题检测方法及装置。
本发明解决上述技术问题的技术方案如下：一种针对特定群体的微博热点话题检测方法，包括以下步骤：
步骤1：获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多个用户社区；
步骤2：根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中；
步骤3：根据用户社区和概要话题类构建社区话题矩阵，社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值；
步骤4：采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；
步骤5：选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。
本发明的有益效果是：选取矩阵元素数值最大的前N个概要话题进行事件聚簇并且进行中心热点事件的抽取保证了提供给相应用户社区的热点事件符合社区用户的兴趣，并且通过使用具体的微博代表热点话题赋予热点话题更明确的事件意义。
在上述技术方案的基础上，本发明还可以做如下改进。
进一步，所述步骤3中社区话题矩阵中的元素数值的计算方法具体为：
Ei,j=Σk=1nCj(Ti,k)*N(Ti,k)]]>
其中，Ei,j是第i，第j列的矩阵元素，k是代表每个话题的词语数量，Ti,k是代表话题i的第k个词语，Cj(Ti,k)是词语Ti,k在社区j的出现次数，N(Ti,k)是词语Ti,k的权重。
采用上述进一步方案的有益效果是：通过计算话题的代表词语在用户社区发言内容中加权权重来代表每个用户社区对该话题的感兴趣程度能够非常好的量化捕捉每个社区用户兴趣所在，进而为下一步的基于用户社区兴趣的热点话题发现提供了依据。
进一步，所述步骤5中进行聚簇分类时采用的分类公式为：
V=argssinΣi=1kΣxj&Element;Si||xj-ui||2]]>
V表示均方差目标函数，(x1,x2,x3,...,xn)表示给定的观测点集合，n表示观测点的个数，k表示分类的集合个数,算法意在将n个观测点分类进入k个集合中，S＝{S1,S2,...,Sk}表示k个分类集合,从而使得目标函数群组内部均方差总和最小，假设有k个群组Si,(1=<i<=k)，ui表示群组Si所有元素的中心点。
采用上述进一步方案的有益效果是：在概要话题类的基础上进一步细分将概要话题类细分成事件聚簇，每个事件聚簇来描述粒度更细的某一具体事件。
进一步，所述步骤5中提取每个事件聚簇类的中心热点事件时采用的函数为：
Ti＝(Ri+2*Ci)*Si,k*100
其中，Ti表示用来筛选中心热点微博的分数，Ri表示微博i的转发数量，Ci表示微博i的评论数量，Si,k表示微博i和话题k的余弦相似度。
采用上述进一步方案的有益效果是：从每个事件聚簇中抽取最能够代表该事件聚簇的某一具体的微博，并且使用该微博代表相应对用社区所感兴趣的热点事件，使得挖掘出的结果具备事件级别的意义。
进一步，一种针对特定群体的微博热点话题检测装置，包括获取分类模块，抽取模块，构建模块，余弦相似度分类模块和聚簇提取模块；
获取分类模块，用于获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多个用户社区；
抽取模块，用于根据获取分类模块获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中；
构建模块，用于根据获取分类模块得到的用户社区和抽取模块概要话题类构建社区话题矩阵，社区话题矩阵中的元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值；
余弦相似度分类模块，用于采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；
聚簇提取模块，用于选取构建模块构建的社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的由余弦相似度分类模块放入的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。
采用上述进一步方案的有益效果是：选取矩阵元素数值最大的前N个概要话题进行事件聚簇并且进行中心热点事件的抽取保证了提供给相应用户社区的热点事件符合社区用户的兴趣，并且通过使用具体的微博代表热点话题赋予热点话题更明确的事件意义。
进一步，所述构建模块中社区话题矩阵中的矩阵元素数值的计算方法具体为：
Ei,j=Σk=1nCj(Ti,k)*N(Ti,k)]]>
其中，Ei,j是第i，第j列的矩阵元素，k是代表每个话题的词语数量，Ti,k是代表话题i的第k个词语，Cj(Ti,k)是词语Ti,k在社区j的出现次数，N(Ti,k)是词语Ti,k的权重。
采用上述进一步方案的有益效果是：在概要话题类的基础上进一步细分将概要话题类细分成事件聚簇，每个事件聚簇来描述粒度更细的某一具体事件。
进一步，所述聚簇提取模块中进行聚簇分类时采用的分类公式为：
V=argssinΣi=1kΣxj&Element;Si||xj-ui||2]]>
V表示均方差目标函数，(x1,x2,x3,...,xn)表示给定的观测点集合，n表示观测点的个数，k表示分类的集合个数,算法意在将n个观测点分类进入k个集合中，S＝{S1,S2,...,Sk}表示k个分类集合,从而使得目标函数群组内部均方差总和最小，假设有k个群组Si,(1=<i<=k)，ui表示群组Si所有元素的中心点。
采用上述进一步方案的有益效果是：采用上述进一步方案的有益效果是：在概要话题类的基础上进一步细分将概要话题类细分成事件聚簇，每个事件聚簇来描述粒度更细的某一具体事件。
进一步，所述聚簇提取模块中提取每个事件聚簇类的中心热点事件时采用的函数为：
Ti＝(Ri+2*Ci)*Si,k*100
其中，Ti表示用来筛选中心热点微博的分数，Ri表示微博i的转发数量，Ci表示微博i的评论数量，Si,k表示微博i和话题k的余弦相似度。
采用上述进一步方案的有益效果是：从每个事件聚簇中抽取最能够代表该事件聚簇的某一具体的微博，并且使用该微博代表相应对用社区所感兴趣的热点事件，使得挖掘出的结果具备事件级别的意义。
附图说明
图1为本发明方法步骤流程图；
图2为本发明装置结构图；
图3为本发明总体话题检测模型示意图；
图4为本发明步骤2中话题模型生成的部分话题的示意图；
图5为本发明步骤5中某个特定用户社区话题检测的排名示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。
如图1所示，为本发明方法步骤流程图；图2为本发明装置结构图；图3为本发明总体话题检测模型示意图；图4为本发明步骤2中话题模型生成的部分话题的示意图；图5为本发明步骤5中某个特定用户社区话题检测的排名示意图。
实施例1
一种针对特定群体的微博热点话题检测方法，包括以下步骤：
步骤1：获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多个用户社区；
此过程针对获取的微博用户关系数据进行社区分类，采用的一种凝聚聚类的方法，使用该方法能够使不同的用户社区的模块聚簇度达到最优。采用从新浪微博上选取的各领域的若干位大V用户作为种子节点，采用广度优先搜索的策略获取他们所关注的用户并且获取这些用户之间共有相联系的边，每条边代表用户之间的关注关系。通过进行社区分类得到若干用户社区。每个用户社区和对应的所有用户ID存贮在用户文件中；
步骤2：根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中；
步骤2中对步骤（一）获取的微博用户的微博内容进行话题生成，使用LDA模型对这些非结构化的文本进行话题的抽取。在实验中，对于LDA模型的输入参数，我们设定话题数量为50，用来表示每个话题词语数量为25。其生成结果的前十个话题如图2.该步骤生成的每个话题由一组相关词汇表示，这样一个话题类成为概要话题类，用户能够通过该概要话题类的一系列描述性的词语来确定该概要话题描述的内容。该步骤从数据库中读取原始微博文本，处理生成的微博话题存储于文件中；
步骤3：根据用户社区和概要话题类构建社区话题矩阵，社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值；
步骤3中用户兴趣特征的抽取最关键的步骤是构造社区话题矩阵。该矩阵的列是代表步骤（一）中获取的用户社区，该矩阵的行是步骤（二）中生成的微博话题。每个矩阵元素可以反映不同的用户社区对不同话题的感兴趣程度，矩阵元素数值越大，表明对应的用户社区对某个话题的兴趣程度越大。对某一特定的用户社区，只需要针对话题兴趣较高的话题进行热点话题检测，从而个性化地开展热点话题检测工作；
步骤4：采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；
此过程中采集种子用户及中所有用户在特定时间内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和步骤（二）中得到的概要话题类进行矢量化处理，计算每条微博文本矢量与每个概要话题类矢量的余弦相似度，把微博文本放到获得最大余弦相似度的概要话题类中；
步骤5：选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。
步骤五中采用事件聚簇分类的目的就是为了使得每个事件聚簇描述同一个微博事件，进而为下一步的中心事件挖掘做准备。完成了事件聚簇分类后，下一步要对每个事件聚簇提取中心热点事件。中心热点事件是在事件聚簇中占有非常重要地位的热点事件，这样的事件能够代表整个事件聚簇；
所述步骤3中社区话题矩阵中的矩阵元素数值的计算方法具体为：
Ei,j=Σk=1nCj(Ti,k)*N(Ti,k)]]>
其中，Ei,j是第i，第j列的矩阵元素，k是代表每个话题的词语数量，Ti,k是代表话题i的第k个词语，Cj(Ti,k)是词语Ti,k在社区j的出现次数，N(Ti,k)是词语Ti,k的权重。
所述步骤5中进行聚簇分类时采用的分类公式为：
V=argssinΣi=1kΣxj&Element;Si||xj-ui||2]]>
V表示均方差目标函数，(x1,x2,x3,...,xn)表示给定的观测点集合，n表示观测点的个数，k表示分类的集合个数,算法意在将n个观测点分类进入k个集合中，S＝{S1,S2,...,Sk}表示k个分类集合,从而使得目标函数群组内部均方差总和最小，假设有k个群组Si,(1=<i<=k)，ui表示群组Si所有元素的中心点。
所述步骤5中提取每个事件聚簇类的中心热点事件时采用的函数为：
Ti＝(Ri+2*Ci)*Si,k*100
其中，Ti表示用来筛选中心热点微博的分数，Ri表示微博i的转发数量，Ci表示微博i的评论数量，Si,k表示微博i和话题k的余弦相似度。
一种针对特定群体的微博热点话题检测装置，包括获取分类模块1，抽取模块2，构建模块3，余弦相似度分类模块4和聚簇提取模块5；
获取分类模块1，用于获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多个用户社区；
抽取模块2，用于根据获取分类模块1获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中；
构建模块3，用于根据获取分类模块1得到的用户社区和抽取模块2概要话题类构建社区话题矩阵，社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值；
余弦相似度分类模块4，用于采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；
聚簇提取模块5，用于选取构建模块3构建的社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的由余弦相似度分类模块4放入的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。
所述构建模块3中社区话题矩阵中的矩阵元素数值的计算方法具体为：
Ei,j=Σk=1nCj(Ti,k)*N(Ti,k)]]>
其中，Ei,j是第i，第j列的矩阵元素，k是代表每个话题的词语数量，Ti,k是代表话题i的第k个词语，Cj(Ti,k)是词语Ti,k在社区j的出现次数，N(Ti,k)是词语Ti,k的权重。
所述聚簇提取模块5中进行聚簇分类时采用的分类公式为：
V=argssinΣi=1kΣxj&Element;Si||xj-ui||2]]>
V表示均方差目标函数，(x1,x2,x3,...,xn)表示给定的观测点集合，n表示观测点的个数，k表示分类的集合个数,算法意在将n个观测点分类进入k 个集合中，S＝{S1,S2,...,Sk}表示k个分类集合,从而使得目标函数群组内部均方差总和最小，假设有k个群组Si,(1=<i<=k)，ui表示群组Si所有元素的中心点。
我们设置迭代次数为10,每个概要话题类的事件聚簇数量为5，通过对50个概要话题类的事件聚簇分类之后，得到250个事件聚簇类。
所述聚簇提取模块5中提取每个事件聚簇类的中心热点事件时采用的函数为：
Ti＝(Ri+2*Ci)*Si,k*100
其中，Ti表示用来筛选中心热点微博的分数，Ri表示微博i的转发数量，Ci表示微博i的评论数量，Si,k表示微博i和话题k的余弦相似度。
对完成中文分词，去停用词之后的文本，我们需要进行文本的概要话题分类。对于要进行话题分类的文本获取，我们首先选取300种子微博用户，选择这些用户在2013年4月24号到2013年4月26号的微博，我们从这三天的微博中采用每天的4800条微博作为我们的测试数据集。
对于完成测试集按照本发明提出的模型进行热点话题检测能够很好的发现当前针对特定用户群体兴趣的热点话题。具体的话题检测结果排名（第50个事件聚簇的排名前十名的微博）如图5。
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

资源描述

《一种针对特定群体的微博热点话题检测方法及装置.pdf》由会员分享，可在线阅读，更多相关《一种针对特定群体的微博热点话题检测方法及装置.pdf（14页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103823890 A (43)申请公布日 2014.05.28 CN 103823890 A (21)申请号 201410085760.7 (22)申请日 2014.03.10 G06F 17/30(2006.01) (71)申请人中国科学院信息工程研究所地址 100093 北京市海淀区闵庄路甲 89 号 (72)发明人谭郅聪张鹏翟立东杜跃进谭建龙郭莉 (74)专利代理机构北京轻创知识产权代理有限公司 11212 代理人杨立 (54) 发明名称一种针对特定群体的微博热点话题检测方法及装置 (57) 摘要本发明涉及一种针对特定群体的微博热点。

2、话题检测方法及装置，包括以下步骤：根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类；根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类；根据用户社区和概要话题类构建社区话题矩阵；将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类分别进行聚簇分类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。本发明获取热点话题事件的多层次结果，最终通过微博来代表某个社区所感兴趣的热点。

3、事件。 (51)Int.Cl. 权利要求书 2 页说明书 7 页附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书2页说明书7页附图4页 (10)申请公布号 CN 103823890 A CN 103823890 A 1/2 页 2 1. 一种针对特定群体的微博热点话题检测方法，其特征在于，包括以下步骤：步骤 1 ：获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多。

4、个用户社区；步骤 2 ：根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中；步骤 3 ：根据用户社区和概要话题类构建社区话题矩阵，社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值；步骤 4 ：采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量。

5、对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；步骤 5 ：选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。 2.根据权利要求1所述的微博热点话题检测方法，其特征在于，所述步骤3中社区话题矩阵中的矩阵元素数值的计算方法具体为：其中， Ei,j是第 i，第 j 列的矩阵元素， k 是代表每个话题的词语数量， Ti,k是代表话题 i 的第 k 个词语， Cj(Ti,k) 是词语。

6、 Ti,k在社区 j 的出现次数， N(Ti,k) 是词语 Ti,k的权重。 3.根据权利要求1所述的微博热点话题检测方法，其特征在于，所述步骤5中进行聚簇分类时采用的分类公式为： V 表示均方差目标函数， (x1,x2,x3,.,xn) 表示给定的观测点集合， n 表示观测点的个数， k 表示分类的集合个数 , 算法意在将 n 个观测点分类进入 k 个集合中， S S1,S2,.,Sk 表示 k 个分类集合 , 从而使得目标函数群组内部均方差总和最小，假设有 k 个群组 Si,(1=i=k)， ui表示群组 Si 所有元素的中心点。 4.根据权利要求1所述的微博热点话题检测方法，。

7、其特征在于，所述步骤5中提取每个事件聚簇类的中心热点事件时采用的函数为： Ti (Ri+2*Ci)*Si,k*100 其中， Ti表示用来筛选中心热点微博的分数， Ri表示微博 i 的转发数量， Ci表示微博 i 的评论数量， Si,k表示微博 i 和话题 k 的余弦相似度。 5. 一种针对特定群体的微博热点话题检测装置，其特征在于：包括获取分类模块（1），权利要求书 CN 103823890 A 2 2/2 页 3 抽取模块（2），构建模块（3），余弦相似度分类模块（4）和聚簇提取模块（5）；获取分类模块（1），用于获取微博上各领域中各。

8、个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多个用户社区；抽取模块（2），用于根据获取分类模块（1）获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中；构建模块（3），用于根据获取分类模块（1）得到的用户社区和抽取模块（2）概要话题类构建社区话题矩阵，社区话题矩阵中的矩阵元素为反应不同用户社区对。

9、不同概要话题类的感兴趣程度的数值；余弦相似度分类模块（4），用于采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；聚簇提取模块（5），用于选取构建模块（3）构建的社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的由余弦相似度分类模块（4）放入的所有微博文本分别进行聚簇分类，每个。

10、概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。 6. 根据权利要求 5 所述的微博热点话题检测装置，其特征在于 : 所述构建模块（3）中社区话题矩阵中的矩阵元素数值的计算方法具体为：其中， Ei,j是第 i，第 j 列的矩阵元素， k 是代表每个话题的词语数量， Ti,k是代表话题 i 的第 k 个词语， Cj(Ti,k) 是词语 Ti,k在社区 j 的出现次数， N(Ti,k) 是词语 Ti,k的权重。 7. 根据权利要求 5 所述的微博热点话题检测装置，其特征在于 : 所述聚簇提取模块（5）中进行。

11、聚簇分类时采用的分类公式为： V 表示均方差目标函数， (x1,x2,x3,.,xn) 表示给定的观测点集合， n 表示观测点的个数， k 表示分类的集合个数 , 算法意在将 n 个观测点分类进入 k 个集合中， S S1,S2,.,Sk 表示 k 个分类集合 , 从而使得目标函数群组内部均方差总和最小，假设有 k 个群组 Si,(1=i=k)， ui表示群组 Si 所有元素的中心点。 8. 根据权利要求 5 所述的微博热点话题检测装置，其特征在于 : 所述聚簇提取模块（5）中提取每个事件聚簇类的中心热点事件时采用的函数为： Ti (Ri+2*Ci)*Si,k*100 其中， T。

12、i表示用来筛选中心热点微博的分数， Ri表示微博 i 的转发数量， Ci表示微博 i 的评论数量， Si,k表示微博 i 和话题 k 的余弦相似度。权利要求书 CN 103823890 A 3 1/7 页 4 一种针对特定群体的微博热点话题检测方法及装置技术领域 0001 本发明涉及数据挖掘的舆情态势感知领域，特别涉及一种针对特定群体的微博热点话题检测方法及装置。背景技术 0002 近年来，以微博为代表的社交网络正在人们生活中扮演着越来越重要的角色，社交网络的用户的规模也迅速上升。而大量的用户规模和由此产生的大量微博蕴含着丰富的舆情信息，这些舆情信息对捕捉当前社会。

13、热点，跟踪舆情导向和社会态势具有十分重要的意义。因此，针对微博的热点话题检测技术成为了近年来的一个核心舆情研究点。由于微博文本具有长度较短（不超过140个中文字符），并且更新快，新词多，流量巨大等特点，针对微博热点话题的检测仍然是一个研究难点。目前对微博热点话题的检测方法主要使用典型的分类算法进行相似度计算来进行话题的分类，并且是针对全网用户挖掘的普遍意义上的热点话题。虽然这类方法也能够在一定程度上成功地进行微博热点挖掘，但是他们无法解决以下二个问题：第一、挖掘的热点话题不具有针对性，由于微博产生的舆情信息不仅仅具有文本内容，还有明显的用户兴趣。

14、分布，因此，特定的热点话题只有指定其感兴趣的特定用户群体才有现实意义。而如何准确进行基于用户兴趣的社区分类并且在该基础上进行用户社区的兴趣挖掘是进行针对特定群体的微博热点话题检测技术的重要基础。第二、当前的热点挖掘方法挖掘出的仅仅一些短语性的概要热点话题，并不能充分反映当前的热点事件。一个完整的热点事件至少包含事件六要素，即时间，地点，人物，事件内容，时间起因和事件发展过程。如果要完整地描述一个事件，至少需要以上六要素中的四个要素。并且当前的热点话题的定义非常模糊，从一条短语到一个微博事件都可以理解成为热点话题，因为，挖掘的结果形式也不统一。综上所述，。

15、如何对特定的用户群体挖掘具有明确事件意义的微博热点话题成为最重要的研究内容。发明内容 0003 本发明所要解决的技术问题是提供一种能够进行多层次热点话题挖掘、并且针对不同用户群体展示不同热点话题的微博热点话题检测方法及装置。 0004 本发明解决上述技术问题的技术方案如下：一种针对特定群体的微博热点话题检测方法，包括以下步骤： 0005 步骤 1 ：获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到。

16、多个用户社区； 0006 步骤 2 ：根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中；说明书 CN 103823890 A 4 2/7 页 5 0007 步骤 3 ：根据用户社区和概要话题类构建社区话题矩阵，社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值； 0008 步骤 4 ：采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢。

17、量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中； 0009 步骤 5 ：选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。 0010 本发明的有益效果是：选取矩阵元素数值最大的前 N 个概要话题进行事件聚簇并且进行中心热点事件的抽取保证了提供给相应用户社区的热点事件符合社区用户的兴趣，并且通。

18、过使用具体的微博代表热点话题赋予热点话题更明确的事件意义。 0011 在上述技术方案的基础上，本发明还可以做如下改进。 0012 进一步，所述步骤 3 中社区话题矩阵中的元素数值的计算方法具体为： 0013 0014 其中， Ei,j是第 i，第 j 列的矩阵元素， k 是代表每个话题的词语数量， Ti,k是代表话题 i 的第 k 个词语， Cj(Ti,k) 是词语 Ti,k在社区 j 的出现次数， N(Ti,k) 是词语 Ti,k的权重。 0015 采用上述进一步方案的有益效果是：通过计算话题的代表词语在用户社区发言内容中加权权重来代表每个用户社区对该话题的感兴趣程度能够非常。

19、好的量化捕捉每个社区用户兴趣所在，进而为下一步的基于用户社区兴趣的热点话题发现提供了依据。 0016 进一步，所述步骤 5 中进行聚簇分类时采用的分类公式为： 0017 0018 V 表示均方差目标函数， (x1,x2,x3,.,xn) 表示给定的观测点集合， n 表示观测点的个数， k 表示分类的集合个数 , 算法意在将 n 个观测点分类进入 k 个集合中， S S1,S2,.,Sk 表示 k 个分类集合 , 从而使得目标函数群组内部均方差总和最小，假设有 k 个群组 Si,(1=i=k)， ui表示群组 Si 所有元素的中心点。 0019 采用上述进一步方案的有益效果是：在。

20、概要话题类的基础上进一步细分将概要话题类细分成事件聚簇，每个事件聚簇来描述粒度更细的某一具体事件。 0020 进一步，所述步骤 5 中提取每个事件聚簇类的中心热点事件时采用的函数为： 0021 Ti (Ri+2*Ci)*Si,k*100 0022 其中， Ti表示用来筛选中心热点微博的分数， Ri表示微博 i 的转发数量， Ci表示微博 i 的评论数量， Si,k表示微博 i 和话题 k 的余弦相似度。 0023 采用上述进一步方案的有益效果是：从每个事件聚簇中抽取最能够代表该事件聚簇的某一具体的微博，并且使用该微博代表相应对用社区所感兴趣的热点事件，使得挖掘出的结果具备。

21、事件级别的意义。说明书 CN 103823890 A 5 3/7 页 6 0024 进一步，一种针对特定群体的微博热点话题检测装置，包括获取分类模块，抽取模块，构建模块，余弦相似度分类模块和聚簇提取模块； 0025 获取分类模块，用于获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多个用户社区； 0026 抽取模块，用于根据获取分类模块获取的各个认证用户及其关注的用户发布的微博的内容抽取话题。

22、，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中； 0027 构建模块，用于根据获取分类模块得到的用户社区和抽取模块概要话题类构建社区话题矩阵，社区话题矩阵中的元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值； 0028 余弦相似度分类模块，用于采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余。

23、弦相似度最大的概要话题类中； 0029 聚簇提取模块，用于选取构建模块构建的社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的由余弦相似度分类模块放入的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。 0030 采用上述进一步方案的有益效果是：选取矩阵元素数值最大的前 N 个概要话题进行事件聚簇并且进行中心热点事件的抽取保证了提供给相应用户社区的热点事件符合社区用户的兴趣，并且通过使用具体的微博代表热点话题赋予热点话题更明确的事件意义。 003。

24、1 进一步，所述构建模块中社区话题矩阵中的矩阵元素数值的计算方法具体为： 0032 0033 其中， Ei,j是第 i，第 j 列的矩阵元素， k 是代表每个话题的词语数量， Ti,k是代表话题 i 的第 k 个词语， Cj(Ti,k) 是词语 Ti,k在社区 j 的出现次数， N(Ti,k) 是词语 Ti,k的权重。 0034 采用上述进一步方案的有益效果是：在概要话题类的基础上进一步细分将概要话题类细分成事件聚簇，每个事件聚簇来描述粒度更细的某一具体事件。 0035 进一步，所述聚簇提取模块中进行聚簇分类时采用的分类公式为： 0036 0037 V 表示均方差目标函数，。

25、 (x1,x2,x3,.,xn) 表示给定的观测点集合， n 表示观测点的个数， k 表示分类的集合个数 , 算法意在将 n 个观测点分类进入 k 个集合中， S S1,S2,.,Sk 表示 k 个分类集合 , 从而使得目标函数群组内部均方差总和最小，假设有 k 个群组 Si,(1=i=k)， ui表示群组 Si 所有元素的中心点。 0038 采用上述进一步方案的有益效果是：采用上述进一步方案的有益效果是：在概要说明书 CN 103823890 A 6 4/7 页 7 话题类的基础上进一步细分将概要话题类细分成事件聚簇，每个事件聚簇来描述粒度更细的某一具体事件。 0039。

26、进一步，所述聚簇提取模块中提取每个事件聚簇类的中心热点事件时采用的函数为： 0040 Ti (Ri+2*Ci)*Si,k*100 0041 其中， Ti表示用来筛选中心热点微博的分数， Ri表示微博 i 的转发数量， Ci表示微博 i 的评论数量， Si,k表示微博 i 和话题 k 的余弦相似度。 0042 采用上述进一步方案的有益效果是：从每个事件聚簇中抽取最能够代表该事件聚簇的某一具体的微博，并且使用该微博代表相应对用社区所感兴趣的热点事件，使得挖掘出的结果具备事件级别的意义。附图说明 0043 图 1 为本发明方法步骤流程图； 0044 图 2 为本发明装置结构。

27、图； 0045 图 3 为本发明总体话题检测模型示意图； 0046 图 4 为本发明步骤 2 中话题模型生成的部分话题的示意图； 0047 图 5 为本发明步骤 5 中某个特定用户社区话题检测的排名示意图。具体实施方式 0048 以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。 0049 如图 1 所示，为本发明方法步骤流程图；图 2 为本发明装置结构图；图 3 为本发明总体话题检测模型示意图；图4为本发明步骤2中话题模型生成的部分话题的示意图；图5 为本发明步骤 5 中某个特定用户社区话题检测的排名示意图。 00。

28、50 实施例 1 0051 一种针对特定群体的微博热点话题检测方法，包括以下步骤： 0052 步骤 1 ：获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多个用户社区； 0053 此过程针对获取的微博用户关系数据进行社区分类，采用的一种凝聚聚类的方法，使用该方法能够使不同的用户社区的模块聚簇度达到最优。采用从新浪微博上选取的各领域的若干位大 V 用户作为种子节点，采用广度优先搜索的策略获取他们所关注。

29、的用户并且获取这些用户之间共有相联系的边，每条边代表用户之间的关注关系。通过进行社区分类得到若干用户社区。每个用户社区和对应的所有用户 ID 存贮在用户文件中； 0054 步骤 2 ：根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中； 0055 步骤 2 中对步骤（一）获取的微博用户的微博内容进行话题生成，使用 LDA 模型对说明书 CN 103823890 A 7 5/7 页 8 这些非结构化的文本进行话题的抽取。在实验中，对于 LDA 模型的输入参数，我。

30、们设定话题数量为 50，用来表示每个话题词语数量为 25。其生成结果的前十个话题如图 2. 该步骤生成的每个话题由一组相关词汇表示，这样一个话题类成为概要话题类，用户能够通过该概要话题类的一系列描述性的词语来确定该概要话题描述的内容。该步骤从数据库中读取原始微博文本，处理生成的微博话题存储于文件中； 0056 步骤 3 ：根据用户社区和概要话题类构建社区话题矩阵，社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值； 0057 步骤 3 中用户兴趣特征的抽取最关键的步骤是构造社区话题矩阵。该矩阵的列是代表步骤（一）中获取的用户社区，该。

31、矩阵的行是步骤（二）中生成的微博话题。每个矩阵元素可以反映不同的用户社区对不同话题的感兴趣程度，矩阵元素数值越大，表明对应的用户社区对某个话题的兴趣程度越大。对某一特定的用户社区，只需要针对话题兴趣较高的话题进行热点话题检测，从而个性化地开展热点话题检测工作； 0058 步骤 4 ：采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的。

32、概要话题类中； 0059 此过程中采集种子用户及中所有用户在特定时间内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和步骤（二）中得到的概要话题类进行矢量化处理，计算每条微博文本矢量与每个概要话题类矢量的余弦相似度，把微博文本放到获得最大余弦相似度的概要话题类中； 0060 步骤 5 ：选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。 0061 步骤五中采用事件聚簇分。

33、类的目的就是为了使得每个事件聚簇描述同一个微博事件，进而为下一步的中心事件挖掘做准备。完成了事件聚簇分类后，下一步要对每个事件聚簇提取中心热点事件。中心热点事件是在事件聚簇中占有非常重要地位的热点事件，这样的事件能够代表整个事件聚簇； 0062 所述步骤 3 中社区话题矩阵中的矩阵元素数值的计算方法具体为： 0063 0064 其中， Ei,j是第 i，第 j 列的矩阵元素， k 是代表每个话题的词语数量， Ti,k是代表话题 i 的第 k 个词语， Cj(Ti,k) 是词语 Ti,k在社区 j 的出现次数， N(Ti,k) 是词语 Ti,k的权重。 0065 所述步骤。

34、5 中进行聚簇分类时采用的分类公式为： 0066 0067 V 表示均方差目标函数， (x1,x2,x3,.,xn) 表示给定的观测点集合， n 表示观测说明书 CN 103823890 A 8 6/7 页 9 点的个数， k 表示分类的集合个数 , 算法意在将 n 个观测点分类进入 k 个集合中， S S1,S2,.,Sk 表示 k 个分类集合 , 从而使得目标函数群组内部均方差总和最小，假设有 k 个群组 Si,(1=i=k)， ui表示群组 Si 所有元素的中心点。 0068 所述步骤 5 中提取每个事件聚簇类的中心热点事件时采用的函数为： 0069 Ti (Ri+2*Ci)。

35、*Si,k*100 0070 其中， Ti表示用来筛选中心热点微博的分数， Ri表示微博 i 的转发数量， Ci表示微博 i 的评论数量， Si,k表示微博 i 和话题 k 的余弦相似度。 0071 一种针对特定群体的微博热点话题检测装置，包括获取分类模块 1，抽取模块 2，构建模块 3，余弦相似度分类模块 4 和聚簇提取模块 5 ； 0072 获取分类模块 1，用于获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类。

36、，得到多个用户社区； 0073 抽取模块 2，用于根据获取分类模块 1 获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中； 0074 构建模块3，用于根据获取分类模块1得到的用户社区和抽取模块2概要话题类构建社区话题矩阵，社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值； 0075 余弦相似度分类模块 4，用于采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量。

37、处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中； 0076 聚簇提取模块 5，用于选取构建模块 3 构建的社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的由余弦相似度分类模块 4 放入的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。 0077 所述构建模块 3 中社区话题矩阵中的矩阵元素数值的计算方法具体为： 0078 。

38、0079 其中， Ei,j是第 i，第 j 列的矩阵元素， k 是代表每个话题的词语数量， Ti,k是代表话题 i 的第 k 个词语， Cj(Ti,k) 是词语 Ti,k在社区 j 的出现次数， N(Ti,k) 是词语 Ti,k的权重。 0080 所述聚簇提取模块 5 中进行聚簇分类时采用的分类公式为： 0081 0082 V 表示均方差目标函数， (x1,x2,x3,.,xn) 表示给定的观测点集合， n 表示观测点的个数， k 表示分类的集合个数 , 算法意在将 n 个观测点分类进入 k 个集合中， S S1,S2,.,Sk 表示 k 个分类集合 , 从而使得目标函数群组内部均方差。

39、总和最小，假设有 k 说明书 CN 103823890 A 9 7/7 页 10 个群组 Si,(1=i=k)， ui表示群组 Si 所有元素的中心点。 0083 我们设置迭代次数为 10, 每个概要话题类的事件聚簇数量为 5，通过对 50 个概要话题类的事件聚簇分类之后，得到 250 个事件聚簇类。 0084 所述聚簇提取模块 5 中提取每个事件聚簇类的中心热点事件时采用的函数为： 0085 Ti (Ri+2*Ci)*Si,k*100 0086 其中， Ti表示用来筛选中心热点微博的分数， Ri表示微博 i 的转发数量， Ci表示微博 i 的评论数量， Si,k表示微博 i 。

40、和话题 k 的余弦相似度。 0087 对完成中文分词，去停用词之后的文本，我们需要进行文本的概要话题分类。对于要进行话题分类的文本获取，我们首先选取 300 种子微博用户，选择这些用户在 2013 年 4 月 24 号到 2013 年 4 月 26 号的微博，我们从这三天的微博中采用每天的 4800 条微博作为我们的测试数据集。 0088 对于完成测试集按照本发明提出的模型进行热点话题检测能够很好的发现当前针对特定用户群体兴趣的热点话题。具体的话题检测结果排名（第 50 个事件聚簇的排名前十名的微博）如图 5。 0089 以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。说明书 CN 103823890 A 10 1/4 页 11 图 1 说明书附图 CN 103823890 A 11 2/4 页 12 图 2 图 3 说明书附图 CN 103823890 A 12 3/4 页 13 图 4 说明书附图 CN 103823890 A 13 4/4 页 14 图 5 说明书附图 CN 103823890 A 14 。

展开阅读全文