《一种基于话题影响力的微博话题溯源方法.pdf》由会员分享,可在线阅读,更多相关《一种基于话题影响力的微博话题溯源方法.pdf(11页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104133897A43申请公布日20141105CN104133897A21申请号201410374437122申请日20140801G06F17/3020060171申请人哈尔滨工程大学地址150001黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室72发明人杨静董圆张健沛王勇初妍张乐君杨悦张泽宝国林54发明名称一种基于话题影响力的微博话题溯源方法57摘要本发明属于话题溯源范畴语义社会网络中的数据挖掘领域,具体涉及一种基于话题影响力的微博话题溯源方法。本发明包括根据信息检索领域的隐形语义查询扩展方法,对输入的话题词组TP进行语义扩展,得到与给定话题。
2、相关的前K个话题;确定微博网络中的用户关系及信息传播规律,确定话题影响力TIN;根据影响力计算公式,以1H为一个时间步计算话题的影响力,得到话题在传播过程中随着时间变化的影响力趋势,其影响力强度从话题初期的缓慢增长到急剧上升最后达到平稳状态,即话题成长为热点;推导话题溯源递推公式,并确定其溯源递推终止条件,输出引发话题的源头。本发明使话题溯源递推的终止条件更加准确,溯源更加准确有效。51INTCL权利要求书2页说明书6页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书6页附图2页10申请公布号CN104133897ACN104133897A1/2页21一种基于话题影。
3、响力的微博话题溯源方法,其特征在于1根据信息检索领域的隐形语义查询扩展方法,对输入的话题词组TP进行语义扩展,得到与给定话题相关的前K个话题11对数据集中的所有微博进行去停用词、词干化预处理,构建基于向量空间模型的文本数据库;12对用户提交的查询话题进行去停用词、词干化预处理,形成查询的向量形式TP;13根据隐形语义索引LSI方法获得与给定话题语义相关的前K个话题;2确定微博网络中的用户关系及信息传播规律,确定话题影响力TIN21在微博中搜索话题TPK包含的所有微博WBJ,J1N;22计算每条微博WBJ的影响力WBINJ;WBINJLOGFWJLOGCMJCPJ,其中,FWJ代表微博的被转发数。
4、,CMJ代表微博的回复数,CPJ代表微博的有效回复率即回复的微博中有效回复数占回复数之比;23通过标签字段判断话题TPK所属的类别,确定话题类别在话题影响力计算公式中的权重TC;TC0代表话题类别的初始权重,WB代表某一时间段内要溯源的话题TPK的微博数量,WBA表示这一时间段内网络中的所有微博数;24计算话题TPK的内容影响力CIN;25计算话题的意见领袖的影响力LIN,其中影响因素包括用户对话题的敏感度贡献度UC和权威度UA,用户的影响力排名中前5位用户为话题的意见领袖,他们的影响力之和为话题的意见领袖影响力;T表示实验持续时间,BUTPI表示距实验起始时间第I个时间步用户U所发布的与话题。
5、TP有关的微博数,包括转发、回复、原创微博,代表BUTPI的均值;BITP表示距实权利要求书CN104133897A2/2页3验起始时间第I个时间步与话题TP有关的微博数,代表BITP的均值,以1H为一个时间步,U1代表该用户之前他的关注者中参与话题的人数,U2代表该用户之后他的粉丝中参与话题的人数,B1代表用户参与话题前他的关注者发表的与话题相关的微博数,B2代表用户参与话题后他的粉丝发表的与话题相关的微博数,在影响力计算中的权重分配为机构和媒体,UA10;明星达人,UA08;草根用户,UA04;26计算话题的影响力强度TIN;TINCINLIN;27重复上述21到26步,计算出与话题TP相。
6、关的K个话题的影响力;3根据影响力计算公式,以1H为一个时间步计算话题的影响力,得到话题在传播过程中随着时间变化的的影响力趋势,其影响力强度从话题初期的缓慢增长到急剧上升最后达到平稳状态,即话题成长为热点;4推导话题溯源递推公式,并确定其溯源递推终止条件,输出引发话题的源头WBP41根据话题的影响力变化趋势逆向推导,得到溯源递推公式TINTPMINTINTPK;42对话题的溯源模型进行动力学分析,仿真话题传播的演化过程,当演化曲线趋于平稳时即停止话题的溯源递推,话题溯源模型包括三个状态,以N表示未接触话题状态即未激活状态,A表示接触话题并传播状态即激活状态,R表示接触话题而不愿传播状态即免疫状。
7、态;未激活态到激活态的概率为,激活态到免疫态的概率为,未激活态到免疫态的概率为;AT,NT,RT分别为A,N,R状态的密度;43输出曲线中处于话题从出现到发展成为热门话题的临界区间的微博WBP,P1N。权利要求书CN104133897A1/6页4一种基于话题影响力的微博话题溯源方法技术领域0001本发明属于话题溯源范畴语义社会网络中的数据挖掘领域,具体涉及一种基于话题影响力的微博话题溯源方法。背景技术0002本文所提出的话题溯源方法主要依据话题影响力的变化趋势,故量化话题的影响力成为关键。目前,在线社会网络的影响力研究主要分为两大类一是从结点的属性特征分析影响力;二是基于社会网络的拓扑结构计算。
8、影响力。较早的研究常采用用户的粉丝数作为度量影响力的指标,这种方法过于直接简单缺乏理论分析,在多数情况下并不准确。另外,也有其他研究者借鉴WEB数据挖掘中链接分析的方法,如LEADERRANK方法,在网络中增加一个与所有节点双向联通的节点来改进PAGERANK方法在非连通图下排序不唯一的缺点;还有一种类PAGERANK方法称为TWITTERRANK。该方法对主题内容敏感,并且认为用户的影响力是其所有粉丝影响力的总和;由于上述方法仅依靠网络结构,使得某些节点能够采用增加虚假粉丝的手段提高影响力。针对以上方法存在的缺陷,本文通过话题的内容与话题中意见领袖的影响力确定话题在网络中的全局影响力,使得话。
9、题的影响力度量更为全面准确,并适合于话题溯源研究。0003目前在话题研究方面,有学者提出一种K树模型,根据事件发生的时间戳,推测信息传播的路径以此达到溯源的目的;另有学者将互联网上的话题溯源抽象为一个排序问题,并提出基于文档时间、话题相关性和文档之间关系三者结合的TCL话题溯源模型;还有人通过分析博客空间的转发网络,根据时间和链接关系进行回溯抽取出信息传播的骨干关系。当前的话题溯源方法大多基于内容相似度、时间顺序以及链接关系,而如今的微博不同于以往的信息载体,其文本短小且用户经常采用转发机制来推动信息传播,并不适合进行页面相似度分析。由于话题在传播扩散过程中影响力不断变化,因此可以通过分析语义。
10、相似的话题间影响力的变化情况,根据传播理论中的动力学分析逐层缩小话题溯源的范围,最终达到溯源的目的。基于以上分析,本发明提出了一种基于话题影响力的微博话题溯源方法。发明内容0004本发明的目的在于提出一种溯源准确度更高的基于话题影响力的微博话题溯源方法。0005本发明的目的是这样实现的00061根据信息检索领域的隐形语义查询扩展方法,对输入的话题词组TP进行语义扩展,得到与给定话题相关的前K个话题000711对数据集中的所有微博进行去停用词、词干化预处理,构建基于向量空间模型的文本数据库;000812对用户提交的查询话题进行去停用词、词干化预处理,形成查询的向量形式说明书CN104133897。
11、A2/6页5TP;000913根据隐形语义索引LSI方法获得与给定话题语义相关的前K个话题;00102确定微博网络中的用户关系及信息传播规律,确定话题影响力TIN001121在微博中搜索话题TPK包含的所有微博WBJ,J1N;001222计算每条微博WBJ的影响力WBINJ;0013WBINJLOGFWJLOGCMJCPJ,0014其中,FWJ代表微博的被转发数,CMJ代表微博的回复数,CPJ代表微博的有效回复率即回复的微博中有效回复数占回复数之比;001523通过标签字段判断话题TPK所属的类别,确定话题类别在话题影响力计算公式中的权重TC;001600170018TC0代表话题类别的初始权。
12、重,WB代表某一时间段内要溯源的话题TPK的微博数量,WBA表示这一时间段内网络中的所有微博数;001924计算话题TPK的内容影响力CIN;0020002125计算话题的意见领袖的影响力LIN,其中影响因素包括用户对话题的敏感度贡献度UC和权威度UA,用户的影响力排名中前5位用户为话题的意见领袖,他们的影响力之和为话题的意见领袖影响力;002200230024T表示实验持续时间,BUTPI表示距实验起始时间第I个时间步用户U所发布的与话题TP有关的微博数,包括转发、回复、原创微博,代表BUTPI的均值;BITP表示距实验起始时间第I个时间步与话题TP有关的微博数,代表BITP的均值,以1H为。
13、一个时间步,说明书CN104133897A3/6页600250026U1代表该用户之前他的关注者中参与话题的人数,U2代表该用户之后他的粉丝中参与话题的人数,B1代表用户参与话题前他的关注者发表的与话题相关的微博数,B2代表用户参与话题后他的粉丝发表的与话题相关的微博数,在影响力计算中的权重分配为机构和媒体,UA10;明星达人,UA08;草根用户,UA04;002726计算话题的影响力强度TIN;0028TINCINLIN;002927重复上述21到26步,计算出与话题TP相关的K个话题的影响力;00303根据影响力计算公式,以1H为一个时间步计算话题的影响力,得到话题在传播过程中随着时间变化。
14、的的影响力趋势,其影响力强度从话题初期的缓慢增长到急剧上升最后达到平稳状态,即话题成长为热点;00314推导话题溯源递推公式,并确定其溯源递推终止条件,输出引发话题的源头WBP003241根据话题的影响力变化趋势逆向推导,得到溯源递推公式0033TINTPMINTINTPK;003442对话题的溯源模型进行动力学分析,仿真话题传播的演化过程,当演化曲线趋于平稳时即停止话题的溯源递推,0035003600370038话题溯源模型包括三个状态,以N表示未接触话题状态即未激活状态,A表示接触话题并传播状态即激活状态,R表示接触话题而不愿传播状态即免疫状态;未激活态到激活态的概率为,激活态到免疫态的概。
15、率为,未激活态到免疫态的概率为;AT,NT,RT分别为A,N,R状态的密度;003943输出曲线中处于话题从出现到发展成为热门话题的临界区间的微博WBP,P1N。0040本发明的有益效果是00411、改进微博网络中的影响力计算方法,从宏观层面考虑话题的影响力,使话题的影响力的度量方法更加全面并适合于话题溯源模型。00422、对话题溯源递推公式加入了动力学分析,改进了传统SIR传染病模型中不同类型节点的状态转移关系,使得话题溯源递推的终止条件更加准确。00433、由话题的影响力变化规律来构建话题的溯源递推公式,将话题的相似性与社会影响力相结合进行溯源的方法在以短文本信息为主的微博网络中更加准确有。
16、效。附图说明说明书CN104133897A4/6页70044图1为基于话题影响力的话题溯源的系统流程图;0045图2为话题溯源递推算法的流程图。具体实施方式0046下面结合附图对本发明作进一步描述。0047本发明的功能实现包括下述模块00481查询话题扩展模块0049根据信息检索领域的隐形语义查询扩展方法,对输入的话题词组进行语义扩展,得到与给定话题相关的其他话题;00502微博话题的影响力计算模块0051对微博网络中的用户关系及信息传播规律进行探究,确定话题影响力由话题内容和意见领袖的影响力共同决定,并分别给出话题内容影响力计算公式和意见领袖的影响力计算公式;00523话题影响力变化趋势分析。
17、模块0053根据话题影响力计算公式绘制话题在传播过程中的影响力变化趋势曲线,并分析其传播规律;00544话题溯源递推模块0055推导话题溯源递推公式,并确定其溯源递推终止条件,最终输出引发话题的源头。0056查询话题扩展模块的步骤为1对数据集中的所有微博进行预处理,构建基于向量空间的文本数据库;2对用户提交的查询话题进行预处理,形成查询的向量形式;3根据隐形语义查询扩展方法获得与给定话题语义相关的其他话题。0057微博话题影响力计算模块的步骤为1根据公式计算话题内每条微博的内容影响力;2所有微博内容影响力的平均值作为话题的内容影响力;3根据公式计算参与话题的每位用户的影响力;4用户影响力排名中。
18、前5位用户为该话题的意见领袖,其影响力之和作为话题的意见领袖的影响力;5将话题的内容影响力和意见领袖影响力相加得到话题的影响力强度。0058话题影响力变化趋势分析模块通过话题影响力计算公式可以得到话题在传播过程中的影响力变化趋势,并构建基于影响力的话题传播、演化路径。0059话题溯源递推模块的步骤为1根据话题传播的影响力变化趋势,建立话题溯源递推公式;2对话题的传播过程进行动力学分析确定溯源递推的终止条件;3输出引发话题的初始微博集合。0060参照图1,本发明提出了一种基于话题影响力的微博话题溯源方法,该方法包括下述几个步骤00611根据已有的信息检索领域的隐形语义查询扩展方法,对输入的话题词。
19、组TP进行语义扩展,得到与给定话题相关的前K个话题,其具体如下006211对数据集中的所有微博进行去停用词、词干化等预处理,构建基于向量空间模型的文本数据库。006312对用户提交的查询话题进行去停用词、词干化等预处理,形成查询的向量形式TP。说明书CN104133897A5/6页8006413根据隐形语义索引LSI方法获得与给定话题语义相关的前K个话题。00652对微博网络中的用户关系及信息传播规律进行探究,确定话题影响力TIN。006621在微博中搜索话题TPK包含的所有微博WBJ,J1N。006722计算每条微博WBJ的影响力WBINJ。0068WBINJLOGFWJLOGCMJCPJ0。
20、069其中,FWJ代表微博的被转发数,CMJ代表微博的回复数,CPJ代表微博的有效回复率回复的微博中有效回复数占回复数之比,判断某条回复微博是否为有效回复将采用话题检测与跟踪技术中的TFIDF距离计算,将余弦函数作为相似性函数。007023通过标签字段判断话题TPK所属的类别,确定话题类别在话题影响力计算公式中的权重TC。007100720073TC0代表话题类别的初始权重,根据各个类别话题在网络中被关注度的不同分成不同等级。WB代表某一时间段内要溯源的话题TPK的微博数量,WBA表示这一时间段内网络中的所有微博数。007424计算话题TPK的内容影响力CIN。0075007625计算话题的意。
21、见领袖的影响力LIN,其中影响因素包括用户对话题的敏感度贡献度UC和权威度UA。用户的影响力排名中前5位用户为话题的意见领袖,他们的影响力之和为话题的意见领袖影响力。007700780079T表示实验持续时间,BUTPI表示距实验起始时间第I个时间步用户U所发布的与话题TP有关的微博数包括转发、回复、原创微博,代表BUTPI的均值;BITP表示距实验起始时间第I个时间步与话题TP有关的微博数,代表BITP的均值,以1H为一说明书CN104133897A6/6页9个时间步。00800081U1代表该用户之前他的关注者中参与话题的人数,U2代表该用户之后他的粉丝中参与话题的人数,B1代表用户参与话。
22、题前他的关注者发表的与话题相关的微博数,B2代表用户参与话题后他的粉丝发表的与话题相关的微博数。0082根据对新浪微博的用户分析,大致分为机构和媒体、明星达人、草根用户这三个类别。不同类别的权威度也不同。所以,在在影响力计算中的权重分配为机构和媒体,UA10;明星达人,UA08;草根用户,UA04。008326计算话题的影响力强度TIN。0084TINCINLIN008527重复上述1到6步,计算出与话题TP相关的K个话题的影响力。00863根据影响力计算公式,以1H为一个时间步计算话题的影响力,得到话题在传播过程中随着时间变化的的影响力趋势,其影响力强度从话题初期的缓慢增长到急剧上升最后达到。
23、平稳状态,即话题成长为热点。00874推导话题溯源递推公式,并确定其溯源递推终止条件,最终输出引发话题的源头WBP。008841根据话题的影响力变化趋势逆向推导,得到溯源递推公式。0089TINTPMINTINTPK009042对话题的溯源模型进行动力学分析,仿真话题传播的演化过程。当演化曲线趋于平稳时即停止话题的溯源递推。0091009200930094话题溯源模型包括三个状态,以N表示未接触话题状态未激活状态,A表示接触话题并传播状态激活状态,R表示接触话题而不愿传播状态即免疫状态;未激活态到激活态的概率为,激活态到免疫态的概率为,未激活态到免疫态的概率为;AT,NT,RT分别为A,N,R状态的密度。009543输出曲线中处于话题从出现到发展成为热门话题的临界区间的微博WBP,P1N;。说明书CN104133897A1/2页10图1说明书附图CN104133897A102/2页11图2说明书附图CN104133897A11。