《一种基于改进的PAGERANK的微博关键用户识别方法.pdf》由会员分享,可在线阅读,更多相关《一种基于改进的PAGERANK的微博关键用户识别方法.pdf(10页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN103530402A43申请公布日20140122CN103530402A21申请号201310502924722申请日20131023G06F17/3020060171申请人北京航空航天大学地址100191北京市海淀区学院路37号72发明人程工刘春阳张旭庞琳吴俊杰韩洋刘洪甫韩小汀54发明名称一种基于改进的PAGERANK的微博关键用户识别方法57摘要本发明公开了一种基于改进的PAGERANK的微博关键用户识别方法,包括输入微博信息数据,其中包括N条微博;对N条微博文本进行分词处理;根据分词结果建立倒排索引结构,便于根据指定关键词检索;根据检索到的相关微博提取其转发层级信息,。
2、构建加权有向图即转发网络G;将转发网络G划分为若干个极大连通子图GI;利用并行化计算技术在每个子网络GI应用PAGERANK算法;将各个子网络的计算结果融合生成整个网络生成整个网络G的排序结果;将排序结果选择前M条作为关键用户输出。本发明采用并行计算技术,在大数据环境下针对微博平台的动态转发网络进行排序计算,从而识别信息传播过程中的关键用户,应用于网络舆情分析等领域。51INTCL权利要求书1页说明书6页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书6页附图2页10申请公布号CN103530402ACN103530402A1/1页21基于改进的PAGERANK的微。
3、博关键用户识别方法,其特征在于,包括以下步骤步骤一,输入微博信息数据,其中包括N条微博的用户、文本、时间信息等;步骤二,根据含有M个词汇的预设词库,对N条微博的文本进行分词处理;步骤三,根据分词后的结果建立倒排索引结构,便于根据指定关键词检索;步骤四,根据检索到的相关微博提取其转发层级信息,构建加权有向转发网络G;步骤五,将转发网络G划分为若干个极大连通子图GI;步骤六,在各个子网络上分别采用并行计算技术,应用PAGERANK算法得出各个子网络的排序结果后再融合;步骤七,排序结果输出。2如权利要求1所述的基于改进的PAGERANK的微博关键用户识别方法,其特征在于,所述步骤一中的微博信息数据来。
4、源于在互联网、微博平台API上抓取一预设时间段内的微博信息数据。3如权利要求1所述的基于改进的PAGERANK的微博关键用户识别方法,其特征在于,对每条微博的文本进行分词处理都包括以下步骤1)去掉文本中的停止词;2)根据预设词库中的词汇,按照文本文字从前到后的顺序,对文本中的文字进行分词拆分。4如权利要求1所述的基于改进的PAGERANK的微博关键用户识别方法,其特征在于,在权利要求1所述步骤三中建立微博分词结果到微博之间的倒排索引,方便根据关键词检索指定微博。5如权利要求1所述的基于改进的PAGERANK的微博关键用户识别方法,其特征在于,在权利要求1所述步骤四中,根据微博文本的信息提取其转。
5、发层级信息,构建加权有向图。6如权利要求1所述的基于改进的PAGERANK的微博关键用户识别方法,其特征在于,在权利要求1所述步骤五中,将转发网络分解为若干个极大连通子图,并为每个子网络赋予权值。7如权利要求1所述的基于改进的PAGERANK的微博关键用户识别方法,其特征在于,在权利要求1所述步骤六中,在各个子网络采用PAGERANK算法。8如权利要求1所述的基于改进的PAGERANK的微博关键用户识别方法,其特征在于,在权利要求1所述步骤六中,在各个子网络采用基于MAPREDUCE计算模型的并行计算技术来实现PAGERANK算法。9如权利要求1所述的基于改进的PAGERANK的微博关键用户识。
6、别方法,其特征在于,在权利要求1所述步骤六中,在各个子网络的计算结果融合后形成整个转发网络的排序计算结果。权利要求书CN103530402A1/6页3一种基于改进的PAGERANK的微博关键用户识别方法技术领域0001本发明涉及微博关键用户识别方法,特别是一种基于改进的PAGERANK的微博关键用户识别方法,属于复杂网络和数据挖掘领域,特别针对海量的微博数据分析。背景技术0002微博平台关键用户是对信息的传播与扩散起到重要作用的用户。关键用户在大众传播效果的形成过程中起着重要的中介或过滤的作用,他们将信息扩散给受众,形成信息的级联传播。因此,关键用户的识别在信息的发现以及传播分析方面起到重要的。
7、作用,对于网络舆情分析等工作具有重大指导意义。然而,基于内容的关键用户识别,由于微博短文本的特点往往不够准确;基于结构的关键用户识别,即认为由用户构成的网络结构中关键用户均是重要节点,并且只考虑静态的关注粉丝关系网络,但由于相关度、用户活跃度等原因导致很多重要节点并不具备关键用户的特征。有鉴于此,本发明结合内容和网络结构两方面特点,利用微博平台中的转发信息构建主题相关的动态网络,将关键用户的识别转化为有向图上基于PAGERANK的排序问题。另外,考虑到微博平台具有海量数据的特点,动态生成的网络往往规模巨大,并且需要即时计算结果,因此传统的幂迭代算法在计算时间与空间上的消耗都难以满足需求。采用并。
8、行计算技术可以将大规模的计算分解到若干可扩展的计算节点上,降低了算法的时空复杂度以及对于单节点的计算能力的要求,特别适合在云计算平台上部署与应用。所以本发明采用MAPREDUCE实现PAGERANK并行计算,在大数据环境下针对微博短文本信息进行挖掘,从而识别信息传播过程中的关键用户。发明内容0003本发明提出一种基于改进的PAGERANK的微博平台关键用户识别方法。该方法以PAGERANK为核心,从微博文本结构提取转发信息构建由转发关系形成的网络,进而利用PAGERANK最终获得具有高鲁棒性和高质量的关键用户识别结果。利用转发关系可以得到查询相关的质量较高的动态转发网络,从一定程度上克服由短文。
9、本、相关性、静态网络结构导致的劣解;多个动态转发网络通过PAGERANK分别计算后进行组合提高计算效率和算法鲁棒性。一种基于改进的PAGERANK的微博关键用户识别方法,包括如下步骤0004步骤1利用网络爬虫和微博API收集互联网上的微博客数据,主要包括微博的作者信息、文本信息、原创作者信息以及时间信息。0005步骤2将微博数据中的文本数据进行分词处理。0006步骤3停用词移除、词干提取。0007步骤4构建倒排索引结构,便于快速从关键词检索微博。0008步骤5动态转发网络的构建,针对每一条转发的微博提取其转发层级信息,如图2所示,包括从原创作者到发表作者以及之间传播经过的用户,由此构建有向网络。
10、,节点为用户,边为转发的关系,这里是将信息流相反的方向作为边的方向,边的权重为转发出现的次数,方向为作者指向其转发的作者,最终形成的数据结构为加权有向图。说明书CN103530402A2/6页40009步骤6转发网络的分解,将转发网络G划分为若干个极大连通子图,对于每一个子网络GI,赋予其权重,即WIVGI/VG,其中VG代表图G中的节点数。0010步骤7并行迭代,求解子网络中每个节点的PAGERANK(PR)值。0011(1)初始阶段,对于每个子网络GI的每一个节点V赋予初始PAGERANK值PRI0V1/VGI。0012(2)迭代阶段,利用MAPREDUCE并行技术计算子网中各节点PAGE。
11、RANK值,其计算公式为PRIK1DE/NDAITPRIK1,其中K为当前迭代阶段;D为阻尼系数,一般设为085;N为网络中的节点数;E为全1向量;AI为子网络GI的邻接矩阵。迭代的终止条件可以为K达到指定的阈值或两次迭代产生的结果差值小于指定的阈值,即|PRIKPRIK1|。0013步骤8排序结果的融合,将每个子网络GI的排序结果PRI,乘以其权重WI,再将每个子网络的结果合并最后得到G的排序结果PR。0014步骤9结果排序输出,将PR按照值排序,输出用户重要度排序列表,前M个用户即为关键用户。0015本发明利用动态转发关系构建用户网络,并将多个动态转发网络排序结果进行融合,大大提高大数据环。
12、境下微博平台关键用户识别的效率和质量,还具有很强的鲁棒性。本发明的方法能够克服短文本以及静态网络结构的缺点,能有效提高网络舆情分析的效率。附图说明0016图1为本发明的整体框架图。0017图2为转发信息示例图。0018图3为动态网络图。0019图4为MAPREDUCE示意图。具体实施方式0020下面将结合附图和具体实施实例对本发明做出进一步的说明。0021本发明提出一种基于改进的PAGERANK的微博平台关键用户识别方法。该方法以PAGERANK为核心,采用MAPREDUCE并行计算技术克服微博大数据的计算效率低的问题,从微博文本结构提取转发信息构建由转发关系形成的网络,进而利用PAGERAN。
13、K最终获得具有高鲁棒性和高质量的关键用户识别结果。利用转发关系可以得到查询相关的质量较高的动态转发网络,从一定程度上克服由短文本、相关性、静态网络结构导致的劣解;多个动态转发网络通过PAGERANK分别计算后进行组合提高结果的鲁棒性。0022一种基于改进的PAGERANK的微博平台关键用户识别方法,分为三个模块数据收集与预处理模块,动态转发网络构建模块和PAGERANK计算与融合模块,其中数据收集与预处理模块包括数据收集、处理、停用词移除、提取词干和生成倒排索引等过程,动态转发网络构建模块利用微博信息提取转发关系构建转发网络,PAGERANK计算与融合模块包括转发网络划分、PAGERANK计算。
14、、计算结果融合以及最后的排序和输出,具体实施过程如下00231利用网络爬虫和微博API收集互联网上的微博客数据,主要包括微博的作者信息、文本信息、原创作者信息以及时间信息。以新浪微博为例,本发明在通过API获取数据阶段可能需要的字段包括说明书CN103530402A3/6页500240025其中一条转发微博的部分数据结构JSON格式如下00260027说明书CN103530402A4/6页60028此外需要注意的是对于这里的RETWEETED_STAUS项,不一定是用户直接转发的微博,但肯定是溯源微博,即是信息传播的发起点,即图2转发信息中的用户E。00292将微博数据中的文本数据进行分词处理。
15、。00303停用词移除、词干提取。00314构建倒排索引结构,便于快速从关键词检索微博。00325动态转发网络的构建,针对每一条转发的微博提取其转发的层级信息,包括从原创作者到发表作者以及之间传播经过的用户,由此构建有向网络,节点为用户,边为转发的关系,需要注意的是将信息流相反的方向作为边的方向,边的权重为转发出现的次数,方向为作者指向其转发的作者,最终形成的数据结构为加权有向图。下面以图3为例具体说明转发网络的构建过程。0033该图中共有2条转发信息,共涉及A、B、C、D和E共5个用户,图中每一条边代表转发关系,如AB表明A转发了B的信息,该条边上的权重为A转发了B的信息的次数,在该图中为2。
16、次。00346转发网络的分解,将转发网络G划分为若干个极大连通子图,对于每一个子网络GI,赋予其权重,即WIVGI/VG,其中VG代表图G中的顶点数。00357子网络并行计算。0036(1)初始阶段,对于每个子网络GI的每一个节点V赋予初始值PRI0V1/VGI。0037(2)迭代阶段,PAGERANK原始公式为PRIK1DE/NDAITPRIK1,其中K为当前迭代阶段;D为阻尼系数,一般设为085;N为网络中的节点数;E为全1向量;AI为子网络GI的邻接矩阵。迭代的终止条件可以为K达到指定的阈值或两次迭代产生的结果差值小于指定的阈值即|PRIKPRIK1|。0038普通的PAGERANK算法。
17、收敛速度很慢,当数据规模非常大时,会大大降低算法的执行效率。本发明通过MAPREDUCE计算模型,将算法求解的问题转化为若干个小问题,用于在不同的计算节点做分布式并行计算,最后再做归并汇总。下面结合图3介绍MAPREDUCE并行计算PAGERANK的原理。0039MAPREDUCE的核心数据结构为“键值对”结构,这里用KEY,VALUE表示。其中KEY代表键,VALUE代表值。0040在本发明中,将网络中的节点看作是键,即将每一个节点的PR值及其出度节点作为值,即VALUEIPRI,OUTLINKSVI,G,其中OUTLINKSV,G示节点V在图G中的出度节点,如图4中的输入阶段所示。最后将整。
18、个动态转发网络结构转化为行的集合,其中每一行为一个键值对。即说明书CN103530402A5/6页700410042MAPREDUCE的核心计算过程可以理解为下面两个步骤0043(A)映射MAP将一对键值对通过转发关系与另一个或几个键值对应,如下所示00440045其中M是映射函数。0046(B)化简REDUCE将若干个具有相同键的键值对合并将它们的值化简,如下所示0047KEY1,VALUE100480049KEY1,VALUE3,0050其中R是化简函数0051值得注意的是,其中化简REDUCE过程中生成的结果也是键值对的集合,可以继续用于做映射MAP过程的输入,这为实现一些迭代算法提供了。
19、可能。0052在本应用中,映射过程将网络中的节点的出度节点作为新的键,将节点的PAGERANK值除以出度节点的总数量作为新的值,生出新的键值对,即00530054在化简过程中,对于每一个键,其值为指向该键所对应的节点的所有链接的PAGERANK值之和,即00550056其中D为PAGERANK算法的阻尼系数,一般设置为085,N为网络中节点的总数目。0057最后化简结果又可以作为下一次映射的输入,由此可以不断进行迭代,直到达到终止条件。需要注意的是,在上述过程中没有将节点的出度节点信息在映射化简中传递,实际是需要在映射中不光生成节点的新PR值,也要保存其原始的结构关系。0058(3)融合阶段,。
20、将每个子网络GI的排序结果PRI,乘以其权重WI,再将每个子网络的结果合并最后得到G的排序结果PR。00598结果排序输出,将PR按照值排序,得到节点即关键用户的排序列表,PR值越大,表明该用户越重要。0060本发明提出了一种基于改进的PAGERANK的微博平台关键用户识别方法,该方法结合了内容和动态网络的结构信息,对用户进行排序,并采用MAPREDUCE并行技术加快运行速度。该方法从一定程度上克服由短文本、相关性、静态网络结构导致的劣解;多个动态说明书CN103530402A6/6页8转发网络通过PAGERANK分别计算后进行组合提高结果的鲁棒性。0061尽管本发明的实施方案公开如上,但其不仅仅限于说明书和实施方案中所列运用,它完全可以被适用于各种适合本发明的领域,对于本领域的人员而言,可容易地实施另外的修改,因此,在不背离权力要求及等同范围所限定的一般概念下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。说明书CN103530402A1/2页9图1图2图3说明书附图CN103530402A2/2页10图4说明书附图CN103530402A10。