CN201510009995.2
2015.01.09
CN104537097A
2015.04.22
授权
有权
授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20150109|||公开
G06F17/30; G06F17/27
G06F17/30
成都布林特信息技术有限公司
张鹏
610000四川省成都市高新区神仙树南路1号附3号
北京天奇智新知识产权代理有限公司11340
郭霞
本发明公开了一种微博舆情监测系统,该系统包括舆情热度获取模块、智能爬虫爬取模块、提取和预处理模块、特征短语过滤模块、舆情分析模块、情感倾向性分析模块、以及用户交互模块;该系统通过分布式的云计算方式,使用多种微博舆情监测算法获取微博舆情热点,对获取的微博舆情热点进行综合判断分类评估,从而实现对微博舆情热点话题较高效、准确的监测。
权利要求书1. 一种微博舆情监测系统,该系统包括:舆情热度获取模块(1)、智能爬虫 爬取模块(2)、提取和预处理模块(3)、特征短语过滤模块(4)、舆情分析模 块(5)、情感倾向性分析模块(6)、以及用户交互模块(7),其中 舆情热度获取模块(1)用于根据微博的舆情热度权值来筛选需要进行舆情 分析的微博页面; 智能爬虫爬取模块(2)用于通过对指定的微博页面爬取指定时间内的微博 数据,并根据预定义的事件对所爬取的微博数据进行分析,过滤掉与要监测的 舆情无关的微博数据; 提取和预处理模块(3)用于将智能爬虫爬取模块(2)获取的微博数据中的 信息进行提取和预处理; 特征短语过滤模块(4)用于对提取和预处理模块(3)处理后的微博数据中 的特征短语进行过滤筛选; 舆情分析模块(5)用于以特征短语过滤模块(4)处理后的微博数据为基础, 发现微博舆情热点; 情感倾向性分析模块(6)用于对所发现的微博舆情热点执行情感倾向性分 析; 用户交互模块(7)用于以图表或报告形式显示输出微博舆情分析结果,实 现用户交互功能。 2. 根据权利要求1所述的微博舆情监测系统,其特征在于: 所述舆情热度获取模块(1)计算所述微博的舆情热度权值ρ,若ρ大于预 先设定的阈值Tρ,则将该微博作为舆情分析的数据来源和分析依据,具体地: 假设微博的浏览点击数为K1,评论数为K2,回复数为K3,点击支持数为K4, 点击反对数为K5,转发数为K6,收藏数为K7,β1~β4为预先设定的且可调整 的系数,则 ρ=(lg(K1)3/4+0.03)*β1+(lg((K2)2/3+(K3)2/3)+0.02)*β2 +(lg((K4)1/2+(K5)1/2)+0.01)*β3+(lg((K6)1/3+(K7)1/3)+0.005)* β4; 其中,β1~β4可以设置为:β1=0.4;β2=0.2;β3=0.1;β4=0.1。 3. 根据权利要求2所述的微博舆情监测系统,其特征在于: 所述智能爬虫爬取模块(2)执行以下步骤: 步骤2-1,通过系统预定义的事件对微博页面进行分析,以此将与要监测的 预定义的事件无关的链接过滤掉,剩下与预定义的事件有关的链接,将这些与 预定义的事件有关的链接保留下来,并把它们存入等待抓取页面的URL队列; 步骤2-2,根据预先定义的搜索策略,从所述URL队列中选出根据所述预先 定义的搜索策略抓取的页面所对应的URL,重复步骤2-1,当满足了系统预设的 停止条件后则停止爬取过程。 4. 根据权利要求3所述的微博舆情监测系统,其特征在于: 所述提取和预处理模块(3)执行以下步骤: 首先,提取对微博舆情分析有用的微博正文部分的信息,对微博正文部分进 行重构,将具有主题代表性的微博数据聚集在一起; 其次,对所述微博数据进行分词处理、过滤停用词、命名实体识别、语法解 析、词性标注、情感识别、特征词提取;然后进行特征短语提取。 5. 根据权利要求4所述的微博舆情监测系统,其特征在于: 所述特征短语过滤模块(4)执行以下步骤: 步骤4-1,对特征短语进行去重,包括:记录微博的文本中出现的重复性特 征短语以及其出现的次数,过滤掉出现频率低于重复阈值的重复性特征短语和 长度低于重复阈值的重复性特征短语; 步骤4-2,对特征短语进行分组,包括:计算每个特征短语与其他特征短语 之间的相似度值,将相似度值高于相似度阈值的特征短语分入相同的组;如果 一个特征短语与所有其他特征短语之间的相似度值都为0,则将该特征短语过滤 掉;具体地,可以选择以下两个步骤之一来计算所述两个特征短语X、Y的相似 度值Sims(X,Y),然后进行特征短语分组: 步骤4-2-1: 首先,假设同时出现特征短语X、Y的句子的数量为sum(XY);仅出现特征短 语X,不出现特征短语Y的句子的数量为sum(X);仅出现特征短语Y,不出现特 征短语X的句子的数量为sum(Y);此时,特征短语X、Y的相似度值Sims(X,Y) 计算公式如下: Sims(X,Y)=log2(sum(XY))/log2(sum(X))+log2(sum(XY))/log2(sum(Y)); 其次,如果Sims(X,Y)≤阈值TD1,则将特征短语Y分入特征短语X所在 的组; 步骤4-2-2: 首先,假设两个特征短语X、Y中包括字符的个数分别为m和n,令k取m、 n中的较小值,分别以Xi、Yi代表特征短语X、Y中前i个字符组成的子短语, 其中,i=1,2,…,k;定义|Xi-Yi|表示子短语Xi、Yi的最长公共字符串中 包含的字符数量,则特征短语X、Y的相似度值Sims(X,Y)计算公式如下: Sims(X,Y)=(|X1-Y1|3+|X2-Y2|3+…+|Xk-Yk|3)1/3; 其次,如果Sims(X,Y)≤阈值TD2,则将特征短语Y分入特征短语X所在 的组; 步骤4-3,对特征短语进行熵值过滤,包括:计算特征短语的熵值,过滤掉 熵值低于预设的下阈值的特征短语以及熵值高于预设的上阈值的特征短语。 6. 根据权利要求5所述的微博舆情监测系统,其特征在于: 所述舆情分析模块(5)用于分析并发现微博舆情热点,包括如下步骤: 首先,使用多个微博热点发现子模块,通过并行的MapReduce分布式计算方 式来获取微博舆情热点,所述微博热点发现子模块包括: 1)Single-Pass微博热点发现子模块(5.1),采用single pass算法; 2)KNN微博热点发现子模块(5.2),采用KNN最近邻分类算法; 3)SVM微博热点发现子模块(5.3),采用支持向量机SVM算法; 4)K-means微博热点发现子模块(5.4),采用K平均聚类算法;以及 5)SOM微博热点发现子模块(5.5),采用自组织映射SOM神经网络聚类算法; 其次,对上述各个微博热点发现子模块所分别获取的所有微博舆情热点进行 汇总,进行以下分类判断: 如果获取的微博舆情热点来源于上述三个以上热点发现子模块,则将该微博 舆情热点的类别标记为高级微博舆情热点; 如果获取的微博舆情热点来源于上述两个热点发现子模块,则将该微博舆情 热点的类别标记为中级微博舆情热点; 如果获取的微博舆情热点仅来源于上述一个热点发现子模块,则将该微博舆 情热点的类别标记为初级微博舆情热点; 最后,将所述高级微博舆情热点、中级微博舆情热点和初级微博舆情热点依 次发送到所述情感倾向性分析模块(6)。 7. 根据权利要求6所述的微博舆情监测系统,其特征在于: 所述情感倾向性分析模块(6)用于执行微博的文本情感倾向性分析,包括 以下步骤: 步骤6-1,人工选取若干常见的情感倾向性的中文和英文的形容词、名词和 动词和作为初始化种子集;其中,所述初始化种子集中,形容词的数量可以是 50,名词和动词的数量可以是100; 步骤6-2,将微博的文本中所有具有指代关系的代词还原为名词性的原始指 代对象,以防止分析过程中对象的漏判或错判; 步骤6-3,以微博的句子为单位,利用词性标注POS和语义角色标注SRL分 析微博中每个句子的句子成分,提取每个句子中的主观性词语; 步骤6-4,依次输入每个句子中的主观性词语,根据所述种子集对微博的句 子中的主观性词语进行情感倾向性自动标注;对于无法自动标注的主观性词语, 由人工判断其情感倾向性后,将该主观性词语补充入所述种子集。 8. 根据权利要求7所述的微博舆情监测系统,其特征在于: 所述用户交互模块(7)用于实现用户交互功能,可形成的图表或报告包括: 微博舆情信息热度排行报表、微博舆情预警信息分布报表、微博舆情地理信息 分布报表、微博舆情情感分析报表、微博舆情状态统计报表以及微博舆情趋势 走向分析图。
说明书微博舆情监测系统 技术领域 本发明涉及互联网信息处理技术领域,具体来讲,涉及一种微博舆情监测系 统。 背景技术 随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广 播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。 网络舆情是通过互联网传播的,公众对现实生活中某些热点、焦点问题所 持的有较强影响力、倾向性的情感、态度、意见、言论或观点,其主要通过论 坛BBS上的发帖评论及跟贴、新闻、博客Blog等实现并加以强化。由于互联网具 有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通 过这种渠道来表达观点、传播思想。 随着互联网技术的迅速发展,以微博媒体等为代表的新一代媒体打破信息 的控制和垄断,在网络上人们自由表达自己的态度和意见,不再像过去那么容 易地无条件接受,相反,不同阶层的利益诉求纷纷呈现,不同思想观点正面碰 撞。对相关政府部门来说,如何及时准确的了解网络微博舆情,加强对网络微 博舆论的及时监测、有效引导,成为网络微博舆情管理的一大难点。在这种情 况下,建设能够覆盖微博数据源的微博舆情监测系统十分必要,此类系统可针 对新的微博媒介传播环境,进一步深入研究微博舆情的热点研判方法以及新媒 体带来的影响,对微博舆情研究进行丰富和完善。 虽然目前已经有很多单位针对网络微博舆情监控提出了一些不同的解决方 案。但是,需要本领域技术人员解决的技术问题是如何提高判断网络微博舆情 信息的效率和精确度。因为截至目前,尚未有较为高效、准确的针对微博媒体 数据的网络舆情监测系统。 发明内容 本发明就是针对上述背景技术中的不足之处,而提出的一种微博媒体的舆 情监测系统,其具有较高的准确率。本发明的目的是通过如下技术措施来实现 的。 本发明提出一种微博舆情监测系统,该系统包括:舆情热度获取模块1、智 能爬虫爬取模块2、提取和预处理模块3、特征短语过滤模块4、舆情分析模块 5、情感倾向性分析模块6、以及用户交互模块7,其中 舆情热度获取模块1用于根据微博的舆情热度权值来筛选需要进行舆情分析 的微博页面; 智能爬虫爬取模块2用于通过对指定的微博页面爬取指定时间内的微博数 据,并根据预定义的事件对所爬取的微博数据进行分析,过滤掉与要监测的舆 情无关的微博数据; 提取和预处理模块3用于将智能爬虫爬取模块2获取的微博数据中的信息进 行提取和预处理; 特征短语过滤模块4用于对提取和预处理模块3处理后的微博数据中的特征 短语进行过滤筛选; 舆情分析模块5用于以特征短语过滤模块4处理后的微博数据为基础,发现 微博舆情热点; 情感倾向性分析模块6用于对所发现的微博舆情热点执行情感倾向性分析; 用户交互模块7用于以图表或报告形式显示输出微博舆情分析结果,实现用 户交互功能。 优选地,所述舆情热度获取模块1计算所述微博的舆情热度权值ρ,若ρ大 于预先设定的阈值Tρ,则将该微博作为舆情分析的数据来源和分析依据,具体 地: 假设微博的浏览点击数为K1,评论数为K2,回复数为K3,点击支持数为K4, 点击反对数为K5,转发数为K6,收藏数为K7,β1~β4为预先设定的且可调整 的系数,则 ρ=(lg(K1)3/4+0.03)*β1+(lg((K2)2/3+(K3)2/3)+0.02)*β2 +(lg((K4)1/2+(K5)1/2)+0.01)*β3+(lg((K6)1/3+(K7)1/3)+0.005)* β4; 其中,β1~β4可以设置为:β1=0.4;β2=0.2;β3=0.1;β4=0.1。 优选地,所述智能爬虫爬取模块2执行以下步骤: 步骤2-1,通过系统预定义的事件对微博页面进行分析,以此将与要监测的 预定义的事件无关的链接过滤掉,剩下与预定义的事件有关的链接,将这些与 预定义的事件有关的链接保留下来,并把它们存入等待抓取页面的URL队列; 步骤2-2,根据预先定义的搜索策略,从所述URL队列中选出根据所述预先 定义的搜索策略抓取的页面所对应的URL,重复步骤2-1,当满足了系统预设的 停止条件后则停止爬取过程。 优选地,所述提取和预处理模块3执行以下步骤: 首先,提取对微博舆情分析有用的微博正文部分的信息,对微博正文部分进 行重构,将具有主题代表性的微博数据聚集在一起; 其次,对所述微博数据进行分词处理、过滤停用词、命名实体识别、语法解 析、词性标注、情感识别、特征词提取;然后进行特征短语提取。 优选地,所述特征短语过滤模块4执行以下步骤: 步骤4-1,对特征短语进行去重,包括:记录微博的文本中出现的重复性特 征短语以及其出现的次数,过滤掉出现频率低于重复阈值的重复性特征短语和 长度低于重复阈值的重复性特征短语; 步骤4-2,对特征短语进行分组,包括:计算每个特征短语与其他特征短语 之间的相似度值,将相似度值高于相似度阈值的特征短语分入相同的组;如果 一个特征短语与所有其他特征短语之间的相似度值都为0,则将该特征短语过滤 掉;具体地,可以选择以下两个步骤之一来计算所述两个特征短语X、Y的相似 度值Sims(X,Y),然后进行特征短语分组: 步骤4-2-1: 首先,假设同时出现特征短语X、Y的句子的数量为sum(XY);仅出现特征短 语X,不出现特征短语Y的句子的数量为sum(X);仅出现特征短语Y,不出现特 征短语X的句子的数量为sum(Y);此时,特征短语X、Y的相似度值Sims(X,Y) 计算公式如下: Sims(X,Y)=log2(sum(XY))/log2(sum(X))+log2(sum(XY))/log2(sum(Y)); 其次,如果Sims(X,Y)≤阈值TD1,则将特征短语Y分入特征短语X所在 的组; 步骤4-2-2: 首先,假设两个特征短语X、Y中包括字符的个数分别为m和n,令k取m、 n中的较小值,分别以Xi、Yi代表特征短语X、Y中前i个字符组成的子短语, 其中,i=1,2,…,k;定义|Xi-Yi|表示子短语Xi、Yi的最长公共字符串中 包含的字符数量,则特征短语X、Y的相似度值Sims(X,Y)计算公式如下: Sims(X,Y)=(|X1-Y1|3+|X2-Y2|3+…+|Xk-Yk|3)1/3; 其次,如果Sims(X,Y)≤阈值TD2,则将特征短语Y分入特征短语X所在 的组; 步骤4-3,对特征短语进行熵值过滤,包括:计算特征短语的熵值,过滤掉 熵值低于预设的下阈值的特征短语以及熵值高于预设的上阈值的特征短语。 优选地,所述舆情分析模块5用于分析并发现微博舆情热点,包括如下步骤: 首先,使用多个微博热点发现子模块,通过并行的MapReduce分布式计算方 式来获取微博舆情热点,所述微博热点发现子模块包括: 1)Single-Pass微博热点发现子模块5.1,采用single pass算法; 2)KNN微博热点发现子模块5.2,采用KNN最近邻分类算法; 3)SVM微博热点发现子模块5.3,采用支持向量机SVM算法; 4)K-means微博热点发现子模块5.4,采用K平均聚类算法;以及 5)SOM微博热点发现子模块5.5,采用自组织映射SOM神经网络聚类算法; 其次,对上述各个微博热点发现子模块所分别获取的所有微博舆情热点进行 汇总,进行以下分类判断: 如果获取的微博舆情热点来源于上述三个以上热点发现子模块,则将该微博 舆情热点的类别标记为高级微博舆情热点; 如果获取的微博舆情热点来源于上述两个热点发现子模块,则将该微博舆情 热点的类别标记为中级微博舆情热点; 如果获取的微博舆情热点仅来源于上述一个热点发现子模块,则将该微博舆 情热点的类别标记为初级微博舆情热点; 最后,将所述高级微博舆情热点、中级微博舆情热点和初级微博舆情热点依 次发送到所述情感倾向性分析模块6。 优选地,所述情感倾向性分析模块6用于执行微博的文本情感倾向性分析, 包括以下步骤: 步骤6-1,人工选取若干常见的情感倾向性的中文和英文的形容词、名词和 动词和作为初始化种子集;其中,所述初始化种子集中,形容词的数量可以是 50,名词和动词的数量可以是100; 步骤6-2,将微博的文本中所有具有指代关系的代词还原为名词性的原始指 代对象,以防止分析过程中对象的漏判或错判; 步骤6-3,以微博的句子为单位,利用词性标注POS和语义角色标注SRL分 析微博中每个句子的句子成分,提取每个句子中的主观性词语; 步骤6-4,依次输入每个句子中的主观性词语,根据所述种子集对微博的句 子中的主观性词语进行情感倾向性自动标注;对于无法自动标注的主观性词语, 由人工判断其情感倾向性后,将该主观性词语补充入所述种子集。 优选地,所述用户交互模块7用于实现用户交互功能,可形成的图表或报告 包括:微博舆情信息热度排行报表、微博舆情预警信息分布报表、微博舆情地 理信息分布报表、微博舆情情感分析报表、微博舆情状态统计报表以及微博舆 情趋势走向分析图。 现有技术中,网络舆情的主要数据来源一般是各种网站或论坛,而单独针 对微博舆情数据的监测系统则比较少;即使是专门针对微博舆情数据的监测系 统,也往往由于各种原因而准确率或效率较低。而本发明提出了一种专门针对 微博网络数据源的舆情数据的监测系统。 与现有技术相比,本发明包括以下优点: 首先,本发明的微博舆情监测系统面向微博网络资源,所采集的微博数据 经舆情热度获取、智能爬虫爬取、提取和预处理、特征短语过滤、舆情分析、 情感倾向性分析等数据处理步骤,有效提高了微博网络数据源的微博舆情数据 过滤效率; 其次,通过分布式的云计算方式,能够对大规模采集数据进行挖掘、分析, 并能够基于多种微博舆情监测算法模块来获取微博舆情热点,对所述微博舆情 热点综合判断分类,从而实现对微博舆情热点话题的发现及追踪、对微博的社 会网络分析,分析结果可视化呈现,为党政机关、大型企业等单位和组织及时 发现微博敏感信息、掌握微博舆情热点、把握微博舆情趋势、应对微博舆情危 机提供自动化、系统化和科学化的信息支持。有效提高了所述微博舆情监测系 统判断的准确性,为网络微博舆情信息的后续处理提供了更为真实、准确的基 础。 附图说明 下面结合附图对本发明的技术方案进行进一步的说明。所述附图仅用于示出 优选实施方式的目的,而并不认为是对本发明的限制。 图1示出了根据本发明的实施例的微博舆情监测系统的功能结构图。 具体实施方式 通过下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。所述描述仅是本发明技术方案的概述,为了能够更 清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本 发明的上述和其它目的、特征和优点能够更明显易懂。 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本 公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这 里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公 开,并且能够将本公开的范围完整的传达给本领域的技术人员。 本发明请求保护一种微博舆情监测系统,该系统包括:舆情热度获取模块、 智能爬虫爬取模块、提取和预处理模块、特征短语过滤模块、舆情分析模块、 情感倾向性分析模块、以及用户交互模块。其中,所述舆情分析模块通过分布 式的云计算方式,使用多种微博舆情监测算法子模块来获取微博舆情热点,并 对获取的微博舆情热点进行综合判断分类评估,从而实现对微博舆情热点话题 较高效、准确的监测。 图1是根据本发明的实施例的微博舆情监测系统的功能结构图。 如图1所示,所述微博舆情监测系统包括7个模块,分别为:舆情热度获取 模块1、智能爬虫爬取模块2、提取和预处理模块3、特征短语过滤模块4、舆 情分析模块5、情感倾向性分析模块6、以及用户交互模块7。其中: 舆情热度获取模块1用于根据微博的舆情热度权值来筛选需要进行舆情分析 的微博页面; 智能爬虫爬取模块2用于通过对指定的微博页面爬取指定时间内的微博数 据,并根据预定义的事件对所爬取的微博数据进行分析,过滤掉与要监测的舆 情无关的微博数据; 提取和预处理模块3用于将智能爬虫爬取模块2获取的微博数据中的信息进 行提取和预处理; 特征短语过滤模块4用于对提取和预处理模块3处理后的微博数据中的特征 短语进行过滤筛选; 舆情分析模块5用于以特征短语过滤模块4处理后的微博数据为基础,发现 微博舆情热点; 情感倾向性分析模块6用于对所发现的微博舆情热点执行情感倾向性分析; 用户交互模块7用于以图表或报告形式显示输出微博舆情分析结果,实现用 户交互功能。 具体地,所述舆情热度获取模块1计算所述微博的舆情热度权值ρ,若ρ大 于预先设定的阈值Tρ,则将该微博作为舆情分析的数据来源和分析依据,具体 地: 假设微博的浏览点击数为K1,评论数为K2,回复数为K3,点击支持数为K4, 点击反对数为K5,转发数为K6,收藏数为K7,β1~β4为预先设定的且可调整 的系数,则 ρ=(lg(K1)3/4+0.03)*β1+(lg((K2)2/3+(K3)2/3)+0.02)*β2 +(lg((K4)1/2+(K5)1/2)+0.01)*β3+(lg((K6)1/3+(K7)1/3)+0.005)* β4; 优选地,上述系数β1~β4可以设置为:β1=0.4;β2=0.2;β3=0.1; β4=0.1。 具体地,所述智能爬虫爬取模块2执行以下步骤: 步骤2-1,通过系统预定义的事件对微博页面进行分析,以此将与要监测的 预定义的事件无关的链接过滤掉,剩下与预定义的事件有关的链接,将这些与 预定义的事件有关的链接保留下来,并把它们存入等待抓取页面的URL队列; 步骤2-2,根据预先定义的搜索策略,从所述URL队列中选出根据所述预先 定义的搜索策略抓取的页面所对应的URL,重复步骤2-1,当满足了系统预设的 停止条件后则停止爬取过程。 具体地,所述提取和预处理模块3执行以下步骤: 首先,提取对微博舆情分析有用的微博正文部分的信息,对微博正文部分进 行重构,将具有主题代表性的微博数据聚集在一起; 其次,对所述微博数据进行分词处理、过滤停用词、命名实体识别、语法解 析、词性标注、情感识别、特征词提取;然后进行特征短语提取。 具体地,所述特征短语过滤模块4执行以下步骤: 步骤4-1,对特征短语进行去重,包括:记录微博的文本中出现的重复性特 征短语以及其出现的次数,过滤掉出现频率低于重复阈值的重复性特征短语和 长度低于重复阈值的重复性特征短语; 步骤4-2,对特征短语进行分组,包括:计算每个特征短语与其他特征短语 之间的相似度值,将相似度值高于相似度阈值的特征短语分入相同的组;如果 一个特征短语与所有其他特征短语之间的相似度值都为0,则将该特征短语过滤 掉;具体地,可以选择以下两个步骤之一来计算所述两个特征短语X、Y的相似 度值Sims(X,Y),然后进行特征短语分组: 步骤4-2-1: 首先,假设同时出现特征短语X、Y的句子的数量为sum(XY);仅出现特征短 语X,不出现特征短语Y的句子的数量为sum(X);仅出现特征短语Y,不出现特 征短语X的句子的数量为sum(Y);此时,特征短语X、Y的相似度值Sims(X,Y) 计算公式如下: Sims(X,Y)=log2(sum(XY))/log2(sum(X))+log2(sum(XY))/log2(sum(Y)); 其次,如果Sims(X,Y)≤阈值TD1,则将特征短语Y分入特征短语X所在 的组; 步骤4-2-2: 首先,假设两个特征短语X、Y中包括字符的个数分别为m和n,令k取m、 n中的较小值,分别以Xi、Yi代表特征短语X、Y中前i个字符组成的子短语, 其中,i=1,2,…,k;定义|Xi-Yi|表示子短语Xi、Yi的最长公共字符串中 包含的字符数量,则特征短语X、Y的相似度值Sims(X,Y)计算公式如下: Sims(X,Y)=(|X1-Y1|3+|X2-Y2|3+…+|Xk-Yk|3)1/3; 其次,如果Sims(X,Y)≤阈值TD2,则将特征短语Y分入特征短语X所在 的组; 步骤4-3,对特征短语进行熵值过滤,包括:计算特征短语的熵值,过滤掉 熵值低于预设的下阈值的特征短语以及熵值高于预设的上阈值的特征短语。 具体地,所述舆情分析模块5用于分析并发现微博舆情热点,所述舆情分析 模块5的工作原理如下: 本发明采用分布式的云计算方式,能够对大规模采集微博数据进行挖掘、分 析;并能够基于多种舆情监测算法模块来获取微博舆情热点,对所述微博舆情 热点综合判断分类,从而实现对微博舆情热点话题的发现及追踪、对微博的社 会网络分析,分析结果可视化呈现,为党政机关、大型企业等单位和组织及时 发现微博敏感信息、掌握微博舆情热点、把握微博舆情趋势、应对微博舆情危 机提供自动化、系统化和科学化的信息支持。有效提高了所述微博舆情监测系 统判断的准确性,为网络微博舆情信息的后续处理提供了更为真实、准确的基 础。具体地: 通过分布式存储层存储采集的微博数据以及分析结果,所述分布式存储层基 于HDFS实现; 而在分布式计算层,采用MapReduce并行计算方法实现并行化计算; 通过HDFS文件存储和传输优化、MapReduce并行计算优化,实现了海量的微 博舆情监测的优化,并实现了稳定、高效的大数据存储优化,使得海量的微博 舆情数据查询处理优化,具有良好的可扩展性、可靠性、安全性。该系统基于 云平台,具有良好的响应速度,支持海量微博数据分析与挖掘服务。 所述舆情分析模块5分析并发现微博舆情热点的步骤如下: 首先,使用多个微博热点发现子模块,通过并行的分布式计算方式来获取微 博舆情热点,所述微博热点发现子模块包括: 1)Single-Pass微博热点发现子模块5.1,该子模块采用基于MapReduce的 single pass算法; 2)KNN微博热点发现子模块5.2,该子模块采用基于MapReduce的KNN最近 邻分类算法; 3)SVM微博热点发现子模块5.3,该子模块采用基于MapReduce的支持向量 机SVM算法; 4)K-means微博热点发现子模块5.4,该子模块采用基于MapReduce的K平 均聚类(K-means)算法;以及 5)SOM微博热点发现子模块5.5,该子模块采用基于MapReduce的自组织映 射SOM神经网络聚类算法; 其次,对上述各个微博热点发现子模块所分别获取的所有微博舆情热点进行 汇总,进行以下分类判断: 如果获取的微博舆情热点来源于上述三个以上热点发现子模块,则将该微博 舆情热点的类别标记为高级微博舆情热点; 如果获取的微博舆情热点来源于上述两个热点发现子模块,则将该微博舆情 热点的类别标记为中级微博舆情热点; 如果获取的微博舆情热点仅来源于上述一个热点发现子模块,则将该微博舆 情热点的类别标记为初级微博舆情热点; 最后,将所述高级微博舆情热点、中级微博舆情热点和初级微博舆情热点依 次发送到所述情感倾向性分析模块6。 上述的热点发现子模块5.1~5.5所采用的算法都采用一般意义上的本领域的 通用算法。因此本发明的改进之处并非在于上述几种算法本身。因为在现有的 微博舆情监测系统中,往往只是使用了其中的一种微博舆情热点发现算法,而 尚未发现将上述多种微博舆情热点发现算法同时使用,并对集中算法的结果进 行等级分类的系统。并且,虽然本发明的微博舆情监测系统使用了多种舆情热 点发现算法,但由于本发明的系统采用了基于云计算的分布式架构,因此并不 会带来难以承受的开销,并由于多种方式的组合,大大提高了微博舆情监测系 统的准确性,取得了较好的技术效果。 具体地,所述情感倾向性分析模块6用于执行微博的文本情感倾向性分析, 包括以下步骤: 步骤6-1,人工选取若干常见的情感倾向性的中文和英文的形容词、名词和 动词和作为初始化种子集;作为优选,所述初始化种子集中,形容词的数量可 以是50,名词和动词的数量可以是100; 步骤6-2,将微博的文本中所有具有指代关系的代词还原为名词性的原始指 代对象,以防止分析过程中对象的漏判或错判; 步骤6-3,以微博的句子为单位,利用词性标注POS和语义角色标注SRL分 析微博中每个句子的句子成分,提取每个句子中的主观性词语; 步骤6-4,依次输入每个句子中的主观性词语,根据所述种子集对微博的句 子中的主观性词语进行情感倾向性自动标注;对于无法自动标注的主观性词语, 由人工判断其情感倾向性后,将该主观性词语补充入所述种子集。 具体地,所述用户交互模块7可为用户形成的图表或报告包括:微博舆情信 息热度排行报表、微博舆情预警信息分布报表、微博舆情地理信息分布报表、 微博舆情情感分析报表、微博舆情状态统计报表以及微博舆情趋势走向分析图。 本说明书中所描述的系统及其组成模块的实施例仅仅是示意性的,可以根据 实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本 领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。 综上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限 于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想 到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范 围应该以权利要求的保护范围为准。
《微博舆情监测系统.pdf》由会员分享,可在线阅读,更多相关《微博舆情监测系统.pdf(13页珍藏版)》请在专利查询网上搜索。
本发明公开了一种微博舆情监测系统,该系统包括舆情热度获取模块、智能爬虫爬取模块、提取和预处理模块、特征短语过滤模块、舆情分析模块、情感倾向性分析模块、以及用户交互模块;该系统通过分布式的云计算方式,使用多种微博舆情监测算法获取微博舆情热点,对获取的微博舆情热点进行综合判断分类评估,从而实现对微博舆情热点话题较高效、准确的监测。。
copyright@ 2017-2020 zhuanlichaxun.net网站版权所有经营许可证编号:粤ICP备2021068784号-1