《一种对重点人员言论监督与关联关系挖掘的方法.pdf》由会员分享,可在线阅读,更多相关《一种对重点人员言论监督与关联关系挖掘的方法.pdf(6页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104199947A43申请公布日20141210CN104199947A21申请号201410459905522申请日20140911G06F17/3020060171申请人浪潮集团有限公司地址250101山东省济南市高新区舜雅路1036号72发明人范莹于治楼梁华勇74专利代理机构济南信达专利事务所有限公司37100代理人姜明54发明名称一种对重点人员言论监督与关联关系挖掘的方法57摘要本发明公开了一种对重点人员言论监督与关联关系挖掘的方法,该方法步骤如下1)建立HADOOP大数据平台;2)微博数据采集及解析;3)数据清洗及人员匹配;4)言论倾向及关联关系分析;5)数据可视。
2、化展现。本发明的一种对重点人员言论监督与关联关系挖掘的方法和现有技术相比,具有设计合理、使用方便等特点,系统在大数据平台基础上,应用分布式存储和处理技术,采集网民在微博的注册信息和浏览信息,经过信息匹配和关联关系挖掘,分析出给定重点关注人员的言论倾向与关联关系,将挖掘数据进行可视化展现,并根据微博刷新情况持续跟踪。51INTCL权利要求书1页说明书3页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书3页附图1页10申请公布号CN104199947ACN104199947A1/1页21一种对重点人员言论监督与关联关系挖掘的方法,其特征在于该方法步骤如下1)建立HADO。
3、OP大数据平台建立由11个节点组成的HADOOP集群;2)微博数据采集及解析网络爬虫采用经过二次开发的NUTCH,实现主题爬虫采集;对与给定重点关注人员的相关信息作为主题,爬取互联网上的微博数据,并根据自定义词库进行分词解析,将预定义的特征属性值存入数据库,形成结构化数据;3)数据清洗及人员匹配对结构化数据进行数据预处理,使用欧式距离,与提供的重点关注人员特性向量进行相似度计算,选取相似度超过阈值的网民信息作为分析对象;4)言论倾向及关联关系分析根据自定义词库,采用语义分析与词频统计等技术对重点关注人员言论倾向进行分析;根据从微博采集的人员互动信息,采用关联关系算法挖掘重点关注人员的关系网,并。
4、根据微博更新情况进行追踪;5)数据可视化展现对重点关注人员的言论倾向和关联关系进行可视化展现。2根据权利要求1所述的一种对重点人员言论监督与关联关系挖掘的方法,其特征在于,所述的步骤1)中,11个节点包括1个NAMENODE节点、1个SECONDARYNAMENODE节点、1个ZOOKEEPER节点和8个DATANODE/TASKTRACKER节点。3根据权利要求1所述的一种对重点人员言论监督与关联关系挖掘的方法,其特征在于,所述的步骤2)中的数据库采用HBASE。4根据权利要求1所述的一种对重点人员言论监督与关联关系挖掘的方法,其特征在于,所述的步骤3)中数据预处理包括制定空缺值填充规则、差。
5、值计算规则。权利要求书CN104199947A1/3页3一种对重点人员言论监督与关联关系挖掘的方法技术领域0001本发明涉及基于云计算大数据的舆情监督和关联关系的技术领域,具体地说是一种对重点人员言论监督与关联关系挖掘的方法。背景技术0002HADOOP是一个分布式系统基础架构,由APACHE基金会所开发。HADOOP是在INTERNET上对搜索关键字进行内容分类的工具。0003NAMENODE是一个通常在HDFS实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NAMENODE决定是否将文件映射到DATANODE上的复制块上。0004DATANODE也是一个通常。
6、在HDFS实例中的单独机器上运行的软件。DATANODE通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。0005ZOOKEEPER是HADOOP的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括配置维护、名字服务、分布式同步、组服务等。0006HBASE是一个分布式的、面向列的开源数据库。HBASE不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBASE基于列的而不是基于行的模式。0007微博是一个基于用户关系信息分享、传播以及获取的平台,注重时效性和随意性,微博客更能表达出每时每刻的思想和最新动态。近几年,微博客人数与发博信息量。
7、暴增,已成为国内网民可以独立自主且相对自由的发声渠道,不论富贵贫穷的公开平台,数据量也达到大数据级别。根据监督微博内容,更能够真实、实时的跟踪重点关注人员的思想动态、言论倾向以及关联关系。同时,HADOOP生态系统提供的分布式存储、计算、NOSQL数据库、数据查询处理工具以及数据挖掘算法等的日趋成熟,也为微博大数据挖掘提供了技术平台。目前,还没有处理基于云计算大数据对重点人员言论监督与关联关系的合理的方法。发明内容0008本发明的技术任务是提供一种对重点人员言论监督与关联关系挖掘的方法。0009本发明的技术任务是按以下方式实现的,该方法步骤如下1)建立HADOOP大数据平台建立由11个节点组成。
8、的HADOOP集群;2)微博数据采集及解析网络爬虫采用经过二次开发的NUTCH,实现主题爬虫采集;对与给定重点关注人员的相关信息作为主题,爬取互联网上的微博数据,并根据自定义词库进行分词解析,将预定义的特征属性值存入数据库,形成结构化数据;3)数据清洗及人员匹配对结构化数据进行数据预处理,使用欧式距离,与提供的重点关注人员特性向量进行相似度计算,选取相似度超过阈值的网民信息作为分析对象;4)言论倾向及关联关系分析根据自定义词库,采用语义分析与词频统计等技术对重点关注人员言论倾向进行分析;根据从微博采集的人员互动信息,采用关联关系算法挖掘说明书CN104199947A2/3页4重点关注人员的关系。
9、网,并根据微博更新情况进行追踪;5)数据可视化展现对重点关注人员的言论倾向和关联关系进行可视化展现。0010所述的步骤1)中,11个节点包括1个NAMENODE节点、1个SECONDARYNAMENODE节点、1个ZOOKEEPER节点和8个DATANODE/TASKTRACKER节点。0011所述的步骤2)中的数据库采用HBASE。0012所述的步骤3)中数据预处理包括制定空缺值填充规则、差值计算规则。0013本发明的一种对重点人员言论监督与关联关系挖掘的方法和现有技术相比,具有设计合理、使用方便等特点,系统在大数据平台基础上,应用分布式存储和处理技术,采集网民在微博的注册信息和浏览信息,经。
10、过信息匹配和关联关系挖掘,分析出给定重点关注人员的言论倾向与关联关系,将挖掘数据进行可视化展现,并根据微博刷新情况持续跟踪。附图说明0014附图为一种对重点人员言论监督与关联关系挖掘的方法的流程示意图。具体实施方式0015实施例1该对重点人员言论监督与关联关系挖掘的方法步骤如下1)建立HADOOP大数据平台建立由11个节点组成的HADOOP集群;2)微博数据采集及解析网络爬虫采用经过二次开发的NUTCH,实现主题爬虫采集;对与给定重点关注人员的相关信息作为主题,爬取互联网上的微博数据,并根据自定义词库进行分词解析,将预定义的特征属性值存入数据库,形成结构化数据;3)数据清洗及人员匹配对结构化数。
11、据进行数据预处理,制定空缺值填充规则、差值计算规则,使用欧式距离,与提供的重点关注人员特性向量进行相似度计算,选取相似度超过阈值的网民信息作为分析对象;4)言论倾向及关联关系分析根据自定义词库,采用语义分析与词频统计等技术对重点关注人员言论倾向进行分析;根据从微博采集的人员互动信息,采用关联关系算法挖掘重点关注人员的关系网,并根据微博更新情况进行追踪;5)数据可视化展现对重点关注人员的言论倾向和关联关系进行可视化展现。0016实施例2该对重点人员言论监督与关联关系挖掘的方法步骤如下1)建立HADOOP大数据平台建立由11个节点组成的HADOOP集群,包括1个NAMENODE节点、1个SECON。
12、DARYNAMENODE节点、1个ZOOKEEPER节点和8个DATANODE/TASKTRACKER节点。00172)微博数据采集及解析网络爬虫采用经过二次开发的NUTCH,实现主题爬虫采集;对与给定重点关注人员的相关信息作为主题,爬取互联网上的微博数据,并根据自定义词库进行分词解析,将预定义的特征属性值存入HBASE数据库,形成结构化数据;3)数据清洗及人员匹配对结构化数据进行数据预处理,制定空缺值填充规则、差值计算规则,使用欧式距离,与提供的重点关注人员特性向量进行相似度计算,选取相似度超过阈值的网民信息作为分析对象;说明书CN104199947A3/3页54)言论倾向及关联关系分析根据自定义词库,采用语义分析与词频统计等技术对重点关注人员言论倾向进行分析;根据从微博采集的人员互动信息,采用关联关系算法挖掘重点关注人员的关系网,并根据微博更新情况进行追踪;5)数据可视化展现对重点关注人员的言论倾向和关联关系进行可视化展现。0018通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。说明书CN104199947A1/1页6图1说明书附图CN104199947A。