《基于在线自中心模型的动态网络分析系统及方法.pdf》由会员分享,可在线阅读,更多相关《基于在线自中心模型的动态网络分析系统及方法.pdf(20页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN103345581A43申请公布日20131009CN103345581ACN103345581A21申请号201310280241122申请日20130704G06F19/0020110171申请人上海交通大学地址200240上海市闵行区东川路800号72发明人李武军王灏过敏意74专利代理机构上海思微知识产权代理事务所普通合伙31237代理人郑玮54发明名称基于在线自中心模型的动态网络分析系统及方法57摘要本发明公开了一种基于在线自中心模型的动态网络分析系统及方法,该系统至少包括目标函数建立模组,在动态自中心模型基础上,以需要学习的参数与话题比例K作为变量建立目标函数;目标。
2、函数最小化模块,于一个新事件或者一系列新事件发生后,利用交替投影算法交替更新该需要学习的参数向量与该话题比例K,获得目标函数的最优解,本发明通过对时变的话题特征与模型参数进行建模,从而使得模型随着时间推移预测的准确度不会下降。51INTCL权利要求书3页说明书14页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书14页附图2页10申请公布号CN103345581ACN103345581A1/3页21一种基于在线自中心模型的动态网络分析系统,至少包括目标函数建立模组,在动态自中心模型基础上,以需要学习的参数与话题比例K作为变量建立目标函数;目标函数最小化模块,于一个新。
3、事件或者一系列新事件发生后,利用交替投影算法交替更新该需要学习的参数向量与该话题比例K,获得目标函数的最优解。2如权利要求1所述的一种基于在线自中心模型的动态网络分析系统,其特征在于,该目标函数为其中K是待学习的节点K的新话题比例,THA_K是节点K当前的话题比例,表示K中的每一个元素都是非负的,1是一个元素全为1的向量,这些限制用于保证K中的所有元素都是非负的而且元素和为1,是一个控制两个项之间权重的超参数。3如权利要求2所述的一种基于在线自中心模型的动态网络分析系统,其特征在于,该目标函数最小化模块包括参数更新模块,于固定话题比例后使用牛顿法更新参数需要学习的参数;话题比例更新模块,于固定。
4、后在当前话题比例K的基础上,最小化该目标函数以获得更新后的话题比例K。4如权利要求3所述的一种基于在线自中心模型的动态网络分析系统,其特征在于该参数更新模块与该话题比例更新模块在每Q次引用事件后更新一次。5如权利要求4所述的一种基于在线自中心模型的动态网络分析系统,其特征在于,该参数更新模块在固定后,需要学习的参数的目标函数如下其中X是MINIBATCH中的第一个事件,Q是MINIBATCH中的事件数,MINIBATCH为累积的事件集合。6如权利要求5所述的一种基于在线自中心模型的动态网络分析系统,其特征在于该话题比例更新模块每一次只更新一篇文章的话题比例K,在更新K时,其他文章的话题比例I|。
5、IK保持不变。7如权利要求8所述的一种基于在线自中心模型的动态网络分析系统,其特征在于,该话题比例更新模块需优化的目标函数为其中,权利要求书CN103345581A2/3页3AITI,BUTU。8如权利要求7所述的一种基于在线自中心模型的动态网络分析系统,其特征在于该话题比例更新模块根据对需优化的目标函数偏导获得近似梯度,根据近似梯度得到目标函数的近似目标函数。9一种基于在线自中心模型的动态网络分析方法,包括如下步骤步骤一,在动态自中心模型基础上,以需要学习的参数向量与话题比例K作为变量建立目标函数;步骤二,于一个新事件或者一系列新事件发生后,利用交替投影算法交替更新该需要学习的参数向量与话题。
6、比例,获得目标函数的最优解。10如权利要求9所述的一种基于在线自中心模型的动态网络分析方法,其特征在于,该目标函数为其中K是待学习的节点K的新话题比例,THA_K是节点K当前的话题比例,表示K中的每一个元素都是非负的,1是一个元素全为1的向量,这些限制用于保证K中的所有元素都是非负的而且元素和为1,是一个控制两个项之间权重的超参数。11如权利要求10所述的一种基于在线自中心模型的动态网络分析方法,其特征在于,该步骤二包括如下步骤步骤11于固定话题比例后使用牛顿法更新参数需要学习的参数;步骤12于固定后在当前话题比例K的基础上,最小化该目标函数以获得更新后的话题比例K;重复步骤11及步骤12直至。
7、符合终止条件。12如权利要求11所述的一种基于在线自中心模型的动态网络分析方法,其特征在于该步骤二在每Q次引用事件后更新一次。13如权利要求12所述的一种基于在线自中心模型的动态网络分析方法,其特征在于该步骤11在固定后,需要学习的参数的目标函数如下权利要求书CN103345581A3/3页4其中X是MINIBATCH中的第一个事件,Q是MINIBATCH中的事件数,MINIBATCH为累积的事件集合。14如权利要求13所述的一种基于在线自中心模型的动态网络分析方法,其特征在于该步骤12每次只更新一篇文章的话题比例K,在更新K时,其他文章的话题比例I|IK保持不变。15如权利要求14所述的一种。
8、基于在线自中心模型的动态网络分析方法,其特征在于,于步骤12中,需优化的目标函数为其中,AITT,BUTU。16如权利要求15所述的一种基于在线自中心模型的动态网络分析方法,其特征在于于步骤12中,对该需优化的目标函数偏导获得近似梯度,根据近似梯度得到目标函数的近似目标函数。权利要求书CN103345581A1/14页5基于在线自中心模型的动态网络分析系统及方法技术领域0001本发明关于一种动态网络分析系统及方法,特别是涉及一种基于在线自中心模型的动态网络分析系统及方法。背景技术0002网络分析,特别是动态网络分析(DYNAMICNETWORKANALYSIS,即DNA)在包括社会科学与生物学。
9、在内的许多领域中已经显得越来越重要。虽然现在已经有不少关于动态网络分析的工作,但是其中绝大多数要不就是只关注极粗的细粒度下的大规模数据,要不就是只关注在一个很小的网络中的微细粒度的分析。近年来,有人提出了动态自中心模型(DYNAMICEGOCENTRICMODEL,即DEM),这个模型基于多变量计数过程并成功地对微细粒度的大规模的时变引用网络进行建模。一般来说,在DEM原文中,有两个DEM的变种一个只对链接特征进行建模,另一个同时对链接特征与话题特征(文本信息)进行建模。由于后者的准确度远高于前者并且一篇文章的文本信息是较容易得到的,除非特殊说明,在本发明中的DEM指的是后者。以下简单介绍DE。
10、M0003N是网络中节点(文章)的总数。DEM试图通过在每个节点II1,2,N上放置一个计数过程NIT以对动态网络进行建模。其中NIT表示节点I上“事件”的截止时间T的累计发生次数。这里“事件”的定义要取决于上下文。比如,在引用网络中,一个“事件”可以对应着一次引用。0004虽然可以最大化这些计数过程的全概率,推出一个连续时间的模型,但是对于引用网络来说,显然通过最大化偏概率的方法来估计那些与时变统计量相关的参数会更加实际。所以DEM试图最大化下面整个网络的LIKELIHOOD00050006其中M是引用事件的总次数,E是每次引用事件的索引,IE表示在事件E中被引用的文章,TE表示事件E发生的。
11、时间,YIT的值当节点I在时间T存在是为1,否则为0。SITE表示节点I在时间TE的特征向量。是需要学习的参数向量。0007SITE中的向量可以分为两类。一类称为“链接特征(统计量)”,另一类称为“话题特征”。在DEM中有8个链接特征,包括三个PREFERENTIALATTACHMENT统计量、三个TRIANGLE统计量与两个OUTPATH统计量。另外还通过对文章的摘要运行LDA对每篇文章提取了50个话题特征。更具体地,假设在时间TE新到的文章为I,可以如下计算任何已有文章J的话题特征00080009其中I表示文章I的话题比例,为向量间的元素逐项相乘。0010由上可知,SITE是一个含有58个。
12、特征的向量,其中前8个特征为链接特征,后面说明书CN103345581A2/14页650个为话题特征。对应地,为一个长度为58的参数向量。0011然而,虽然在动态网络的预测过程中,DEM能够动态地更新节点(在原文中表示文章)的链接特征,但DEM学习出来的参数与话题特征I在预测过程中却是固定的。因此,DEM随着时间的推移,预测的准确度会严重地下降,因为实际上话题特征与参数都应该是随着时间变化的。比如,模型的链接特征之一是截至某个时间点节点的入度(文章被引用的次数),随着时间的推移,一篇文章的被引用次数会变得越来越多,因此整个数据集中引用数的分布也会随着时间而改变,这样的结果就是,对应这个特征的参。
13、数,甚至是其他参数,也应该跟着改变。另外,关于话题特征,虽然乍一看,一篇文章的话题特征会随着时间改变可能显得有点不可思议,因为按常理来讲,一篇发表的文章的文字都是不会随着时间改变的,然而,引用这篇文章的许多文章却时时在变化。因此,将引用信息与文本内容信息结合起来决定一篇文章的话题特征要更加合理。比如,一篇关于神经网络的文章在20世纪50年代可能会被认为是与心理学或者生物学高度相关的,但是在今天,它却更可能被划分为关于机器学习的文章,因为几十年来有越来越多发表的文章引用了它。由此可知,一篇文章的话题特征显然是会随着时间改变的,只是幅度的大小不同而已。由于无法对时变的参数与话题参数建模,DEM并没。
14、法很好地对动态网络进行精确的建模从而使得预测的准确度会随着时间而下降。发明内容0012为克服上述现有技术存在的不足,本发明之目的在于提供一种基于在线自中心模型的动态网络分析系统及方法,其通过对时变的话题特征与模型参数进行建模,从而使得模型随着时间推移预测的准确度不会下降。0013为达上述及其它目的,本发明提出一种基于在线自中心模型的动态网络分析系统,至少包括0014目标函数建立模组,在动态自中心模型基础上,以需要学习的参数与话题比例K作为变量建立目标函数;0015目标函数最小化模块,于一个新事件或者一系列新事件发生后,利用交替投影算法交替更新该需要学习的参数向量与该话题比例K,获得目标函数的最。
15、优解。0016进一步地,该目标函数为001700180019其中K是待学习的节点K的新话题比例,THA_K是节点K当前的话题比例,表示K中的每一个元素都是非负的,1是一个元素全为1的向量,这些限制用于保证K中的所有元素都是非负的而且元素和为1,是一个控制两个项之间权重的超参数。0020进一步地,该目标函数最小化模块包括0021参数更新模块,于固定话题比例后使用牛顿法更新参数需要学习的参数说明书CN103345581A3/14页7;0022话题比例更新模块111,于固定后在当前话题比例K的基础上,最小化该目标函数以获得更新后的话题比例K。0023进一步地,该参数更新模块与该话题比例更新模块在每Q。
16、次引用事件后更新一次。0024该参数更新模块在固定后,需要学习的参数的目标函数如下00250026其中X是MINIBATCH中的第一个事件,Q是MINIBATCH中的事件数,MINIBATCH为累积的事件集合。0027进一步地,该话题比例更新模块每一次只更新一篇文章的话题比例K,在更新K时,其他文章的话题比例保持不变。00287、如权利要求8所述的一种基于在线自中心模型的动态网络分析系统,其特征在于,该话题比例更新模块需优化的目标函数为00290030其中,00310032003300340035AITI,0036BUTU0037进一步地,该话题比例更新模块根据对需优化的目标函数偏导获得近似梯。
17、度,根据近似梯度得到目标函数的近似目标函数。0038为达到上述及其他目的,本发明还提供一种基于在线自中心模型的动态网络分析方法,包括如下步骤0039步骤一,在动态自中心模型基础上,以需要学习的参数向量与话题比例K作为变量建立目标函数;0040步骤二,于一个新事件或者一系列新事件发生后,利用交替投影算法交替更新该需要学习的参数向量与话题比例,获得目标函数的最优解。0041进一步地,该目标函数为0042说明书CN103345581A4/14页800430044其中K是待学习的节点K的新话题比例,THA_K是节点K当前的话题比例,表示K中的每一个元素都是非负的,1是一个元素全为1的向量,这些限制用于。
18、保证K中的所有元素都是非负的而且元素和为1,是一个控制两个项之间权重的超参数。0045进一步地,该步骤二包括如下步骤0046步骤11于固定话题比例后使用牛顿法更新参数需要学习的参数;0047步骤12于固定后在当前话题比例K的基础上,最小化该目标函数以获得更新后的话题比例K;0048重复步骤11及步骤12直至符合终止条件。0049进一步地,该步骤二在每Q次引用事件后更新一次。0050进一步地,该步骤11在固定后,需要学习的参数的目标函数如下00510052其中X是MINIBATCH中的第一个事件,Q是MINIBATCH中的事件数,MINIBATCH为累积的事件集合。0053进一步地,该步骤12每。
19、次只更新一篇文章的话题比例K,在更新K时,其他文章的话题比例I|IK保持不变。0054进一步地,于步骤12中,需优化的目标函数为00550056其中,00570058005900600061AITI,0062BUTU。0063进一步地,于步骤12中,对该需优化的目标函数偏导获得近似梯度,根据近似梯度得到目标函数的近似目标函数。0064与现有技术相比,本发明一种基于在线自中心模型的动态网络分析系统及方法以对时变的动态网络进行建模,通过随着时间调整学习模型参数与话题特征,使得本发明克服了DEM的缺点,避免了DEM存在的准确率随着时间严重下降的问题。说明书CN103345581A5/14页9附图说明。
20、0065图1为本发明一种基于在线自中心模型的动态网络分析系统的系统架构图;0066图2为本发明一种基于在线自中心模型的动态网络分析方法的步骤流程图;0067图3为图2之步骤202的细部步骤流程图;0068图4为本发明之实验结果比较示意图。具体实施方式0069以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。0070图1为本发明一种基于在线自中心模型的动态网络分析系统的系统架构图。如图1所。
21、示,本发明一种基于在线自中心模型(OEM)的动态网络分析系统,至少包括目标函数建立模组10以及目标函数最小化模块11。0071其中,目标函数建立模组10在动态自中心模型基础上,以需要学习的参数向量与话题比例K作为变量建立目标函数。0072虽然可以从整个文章的集合中完整地学习LDALATENTDIRICHLETALLOCATION,三层贝叶斯概率模型,但是显然如果直接使用在线的LDA模型的话会十分的耗费时间。因此,在本发明中,先固定话题后再学习话题比例。因为在引用网络中,即使一些文章本身的话题比例会随着时间而改变,主要的话题是相对稳定不变的,所以这么做是合理的。0073需说明的是,在本发明实施例。
22、中,只需要在每隔一段比较长的时间更新全部的话题。从实验可以看出,这样做依然可以达到很好的准确度。0074因此,在本发明较佳实施例中,目标函数为007500760077其中K是待学习的节点K的新话题比例,THA_K是节点K当前的话题比例,L,的定义与DEM的式子(1)中的L相同,除了这里将BETA与话题比例都作为变量(注意L,与L是不同的,在L中,只有是变量而是常数)。表示K中的每一个元素都是非负的,1是一个元素全为1的向量,这些限制用于保证K中的所有元素都是非负的而且元素和为1。是一个控制两个项之间权重的超参数。0078目标函数最小化模块11,于一个新事件或者一系列新事件发生后,利用交替投影算。
23、法(ALTERNATINGPROJECTION)交替更新需要学习的参数向量与话题比例,获得目标函数的最优解。0079当一个新事件或者一系列新事件被观察到,式子(2)中的第二项会保证更新后的话题比例K不会距离目前的话题比例K太远。除此之外,本发明使用旧的作为初始说明书CN103345581A6/14页10值来更新。0080显然可见,式子(2)的优化问题并不是对,联合凸的。但是可以证明这个目标函数是在一个变量固定时,关于另外一个变量是凸的。于是本发明设计了一个交替投影算法(ALTERNATINGPROJECTION)以找出目标函数的最优解。具体地说,目标函数最小化模块11进一步包括参数更新模块11。
24、0以及话题比例更新模块111,其中,参数更新模块110,于固定话题比例后使用牛顿法更新参数需要学习的参数,初始化用的是当前的;话题比例更新模块111,于固定后在当前话题比例K的基础上,最小化目标函数以获得更新后的话题比例K。参数更新模块110与话题比例更新模块111往往需要重复几次直到符合终止条件。0081需说明的是,每次一篇新文章I出现,可以将它加入原引用网络中后马上使用利用参数更新模块110与话题比例更新模块111直至收敛。但是,这对于大规模的引用网络来说是十分耗时间的。因此,在本发明中,可以等新文章积累到一定数量后才开始更新。这种MINIBATCH技巧不仅可以节省计算时间,而且可以减少噪。
25、声的影响。因此在本发明之较佳实施例中,参数更新模块110与话题比例更新模块111在每Q次引用事件后更新一次而非每次事件后更新一次。Q在实验中设置为1500左右0082具体地说,参数更新模块110在固定后,需要学习的参数的目标函数如下00830084其中X是MINIBATCH中的第一个事件,Q是MINIBATCH中的事件数。0085为了避免在更新BETA时遍历所有之前的引用事件,本发明用了一个训练窗口,使得在训练参数BETA时只需要考虑引用事件中的一个比较小的子集。若训练窗口的宽度为WT1WTQ,可以通过优化下面式子来学习00860087而且本发明还可以缓存每个节点的链接特征以进一步减小计算负担。
26、,正如DEM所做的。0088由于一次性地更新中的所有话题比例将会极其耗费时间,话题比例更新模块111每一次只更新一篇文章的话题比例K,在更新K时,其他文章的话题比例I|IK保持不变。如果在一个大小为Q的MINIBATCH中,节点K在引用事件E1,E2,EP中被引用而在时间EP1,EP2,EQ没有被引用(注意E_2发生的时间不一定在EP2之前,虽然前者的下标较后者小),0089这里,需要优化的目标函数FK是00900091其中说明书CN103345581A107/14页1100920093009400950096AITI,0097BUTU0098这里,L包含着参数的前8个元素(对应着链接特征),。
27、T包含着参数的后50个元素(对应的是话题特征),I是引用事件EI的引用者的话题比例,是引用事件EI中的节点K的链接特征(前8个特征),CU是一个与K无关的常数。0099式子(3)的一阶与二阶偏导如下010001010102010301040105其中I是单位矩阵。0106从上面式子可以看出HESSIAN矩阵正定(PD)的,因此(3)的函数是凸的。此时,可以直接使用SOLVER来找到全局最优解。0107较佳的,在式子(4)中,AI远大于与且P在每个BATCH中都相对较小。同理,BU远大于与而QP也相对较小。因此,(4)中的第二与第三项要远小于其它两项。这意味着可以删去较小的两项以得到一个近似的梯。
28、度01080109基于上面的近似梯度,可以恢复(2)的近似目标函数01100111说明书CN103345581A118/14页120112本发明将(5)这个OEM的变种称为“近似OEM”(APPROXIMATIVEOEM),而将原来的OEM称为“满OEM”(FULLOEM)。在实验中可以发现近似OEM可以达到与满OEM接近的准确度而需要少很多的时间。0113图2为本发明一种基于在线自中心模型的动态网络分析方法的步骤流程图。如图2所示,本发明一种基于在线自中心模型的动态网络分析方法,包括如下步骤0114步骤201,在动态自中心模型基础上,以需要学习的参数向量与话题比例K作为变量建立目标函数。01。
29、15在步骤201,建立的目标函数为011601170118其中K是待学习的节点K的新话题比例,THA_K是节点K当前的话题比例,L,的定义与DEM的式子(1)中的L相同,除了这里将BETA与话题比例都作为变量(注意L,与L是不同的,在L中,只有是变量而是常数)。表示K中的每一个元素都是非负的,1是一个元素全为1的向量,这些限制用于保证K中的所有元素都是非负的而且元素和为1。是一个控制两个项之间权重的超参数。0119步骤202,于一个新事件或者一系列新事件发生后,利用交替投影算法(ALTERNATINGPROJECTION)交替更新需要学习的参数向量与话题比例,获得目标函数的最优解。0120当一。
30、个新事件或者一系列新事件被观察到,式子(2)中的第二项会保证更新后的话题比例K不会距离目前的话题比例K太远。除此之外,本发明使用旧的作为初始值来更新。0121显然可见,式子(2)的优化问题并不是对,联合凸的。但是可以证明这个目标函数是在一个变量固定时,关于另外一个变量是凸的。于是本发明设计了一个交替投影算法(ALTERNATINGPROJECTION)以找出目标函数的最优解。更具体地,每次迭代中,我们固定两个变量中的一个并更新另一个。具体地说,步骤202进一步包括如下步骤(如图3所示)0122步骤301,在线步骤(ONLINESTEP)固定后使用牛顿法更新参数,初始化用的是当前的;0123步骤。
31、302,在线话题步骤(ONLINETOPICSTEP)固定后在当前话题比例K的基础上,最小化式子(2)以获得更新后的话题比例K。0124上述过程需要重复几次直到符合终止条件。0125需说明的是,每次一篇新文章I出现,可以将它加入原引用网络中后马上使用利用参数更新模块110与话题比例更新模块111直至收敛。但是,这对于大规模的引用网络来说是十分耗时间的。因此,在本发明中,可以等新文章积累到一定数量后才开始更说明书CN103345581A129/14页13新。这种MINIBATCH技巧不仅可以节省计算时间,而且可以减少噪声的影响。因此在本发明之较佳实施例中,每Q次引用事件后更新一次而非每次事件后更。
32、新一次。Q在实验中设置为1500左右0126在在线步骤中,在固定后,需要学习的参数的目标函数如下01270128其中X是MINIBATCH中的第一个事件,Q是MINIBATCH中的事件数。0129为了避免在更新BETA时遍历所有之前的引用事件,本发明用了一个训练窗口,使得在训练参数BETA时只需要考虑引用事件中的一个比较小的子集。若训练窗口的宽度为WT1WTQ,可以通过优化下面式子来学习01300131而且本发明还可以缓存每个节点的链接特征以进一步减小计算负担,正如DEM所做的。0132由于一次性地更新中的所有话题比例将会极其耗费时间,在线话题步骤中,设计了一个交替的算法来更新。更具体地,每一。
33、次只更新一篇文章的话题比例K,在更新K时,其他文章的话题比例I|IK保持不变。如果在一个大小为Q的MINIBATCH中,节点K在引用事件E1,E2,EP中被引用而在时间EP1,EP2,,EQ没有被引用(注意E_2发生的时间不一定在EP2之前,虽然前者的下标较后者小)。0133这里需要优化的目标函数FK是01340135其中01360137013801390140AITI,0141BUTU0142这里,L包含着参数的前8个元素(对应着链接特征),T包含着参数的后50个元素(对应的是话题特征),I是引用事件EI的引用者的话题比例,是引用事件EI中的节点K的链接特征(前8个特征),CU是一个与K无关。
34、的常数。0143式子(3)的一阶与二阶偏导如下说明书CN103345581A1310/14页14014401450146014701480149其中I是单位矩阵。0150从上面式子可以看出HESSIAN矩阵正定(PD)的,因此(3)的函数是凸的。此时,可以直接使用SOLVER来找到全局最优解。0151较佳地,在式子(4)中,AI远大于与且P在每个BATCH中都相对较小。同理,BU远大于与而QP也相对较小。因此,(4)中的第二与第三项要远小于其它两项。这意味着可以删去较小的两项以得到一个近似的梯度01520153基于上面的近似梯度,可以恢复(2)的近似目标函数015401550156本发明将(5。
35、)这个OEM的变种称为“近似OEM”(APPROXIMATIVEOEM),而将原来的OEM称为“满OEM”(FULLOEM)。在实验中可以发现近似OEM可以达到与满OEM接近的准确度而需要少很多的时间。0157由于在每次迭代中,学习的算法保证目标函数的值总是下降,而且目标函数值总是大于等于0,因此本发明是收敛的。0158以下将通过将现有技术的DEM与本发明之OEM应用于两个引用网络并比较两个模型的实验结果来说明本发明的进步性,同时还分析了文章话题比例的演变。01591、数据集0160引用网络分析是动态网络分析中最重要的应用之一,在本发明实验中,用的是两个引用网络的数据集ARXIVTH与ARXI。
36、VPH。两个数据集都是从ARXIV(HTTP/SNAPSTANFORDEDU/DATA)爬取的。数据集的主要信息见表1。0161表1数据集信息说明书CN103345581A1411/14页1501620163ARXIVTH数据集是关于高能物理理论的一系列文章。时间的范围是1993年到1997年,这个数据集有很高的时间解析度(精确到毫秒)。ARXIVPH数据集是关于高能物理现象的一系列文章,时间范围为1993年到1997年,时间精确到每天。由于数据集中的时间解析度非常高,可以假设每篇新文章都在不同的时间加入到网络中而且显然同一个时间中可能有不止一个引用事件。正如前一节提到的,一个BATCH一个B。
37、ATCH地更新话题比例与参数。更具体地,本发明将数据集划分成一个个的MINIBATCH,每个MINIBATCH中包含着在一段时间中发生的引用时间。对于ARXIVTH每个MINIBATCH中的时间戳数为100,而对于ARXIVPH是20。对应与每一个MINIBATCH的事件数大约为1500。01642、基线0165在实验中,比较了下面4个模型的性能0166(1)DEM原来的有8个链接特征与50个话题特征的DEM。注意原来的DEM并不是在线(ONLINE),参数与话题特征在训练后是固定的。0167(2)OEM只带有在线步的OEM,这个模型中,会随时间更新但是话题特征不会。0168(3)OEMFUL。
38、L带有在线步与话题步的满OEM,话题特征与参数都会随着时间改变,使用了目标函数(2)。0169(4)OEMAPPR带有在线步与近似话题步的OEM,话题特征与参数都会随着时间改变,使用了目标函数(5)。01703、评测标准0171与DEM类似,本发明用下面三个标准来评测上面的模型0172(1)平均测试LOGLIKELIHOOD(AVERAGEHELDOUTLOGLIKELIHOOD)在每个测试引用事件中对式子(1)中的LIKELIHOODL取LOG后即可得到测试LOGLIKELIHOOD。将所有测试事件的测试LOGLIKELIHOOD的和除以本BATCH中事件的总数,即可以得到平均测试LOGLI。
39、KELIHOOD。这个数值越高,则说明测试准确度越高。0173(2)召回率K(RECALLOFTOPKRECOMMENDATIONLIST)这里的召回率定义为K个最可能的引用事件中真实发生的比例。这里的K是一个切分点(CUTPOINT)。0174(3)平均测试正规排名(AVERAGEHELDOUTNORMALIZEDRANK)这里每个引用事件的排名(RANK)指的是这个引用在已排序好的推荐列表中的实际位置。这个排名除以可能引用事件的总数即得到正规化(NORMALIZE)后的排名。这个数值越低,表示预测性能越好。01754、结果与分析0176如DEM,本发明将每个数据集分为三个部分建立阶段、训练。
40、阶段与测试阶段。建立阶段主要是为了建立起引用网络的统计量,一般它的时间范围会较长以缓解截断效应(1993年前的引用时间没有出现在数据集中)并避免BIAS。在训练阶段中,我们训练出初始的模型参数与话题特征。为了更加全面的展示并比较模型的预测性能,这里的测试阶段比较长。测试阶段被划分为24个BATCH。注意统计量(链接特征)在训练阶段与测试阶段中说明书CN103345581A1512/14页16都是会动态改变的。每个阶段的数据大小(用引用事件数表示)如表2所示。0177表2数据集建立、训练、测试阶段的分割01780179为了进一步减少OEM训练与测试的时间,在每个BATCH中只随机选取了一部分的时。
41、间中的引用事件来优化文章的话题比例。比如当优化文章I的话题比例时,在第1个BATCH到达后,随机选取10(这里将10称为CITER百分比,下文亦然)的引用者(CITER)而不是全部引用者。这可以一定程度加速计算。在OEM中,设超参数01,设CITER百分比为10,除非另外说明。超参数CITER百分比与对模型的影响会在接下来的实验中具体说明。0180OEM的测试过程的细节如下。先用建立阶段与训练阶段的数据训练一个初始的OEM。显然此时这个初始的OEM等价于DEM。然后评测这个模型在BATCH1的预测性能(注意到我们在训练时并没有用到BATCH1的数据)。之后再将BATCH1的数据吸收为额外的训练。
42、数据并更新OEM的参数与特征。然后再接着使用现在这个已更新的OEM来预测BATCH2。由此可见,在测试某一个BATCH之前,并没有将这个BATCH的数据用于训练。因此测试的结果会真实地反映OEM的泛化/预测能力。0181图4(A)和(B)是所有模型的平均测试LOGLIKELIHOOD。由于初始的OEM与DEM是等价的,可以看到所有的模型在测试BATCH1时的性能都是相同的。然而,随着时间的推移,DEM的预测性能会严重地下降,而OEM的各个变种则不会。比如,从图4(A)可以看出,DEM的LOGLIKELIHOOD随着时间下降十分明显,而OEM只是从824下降到897。OEMFULL的预测能力超过。
43、了前面两个模型,LOGLIKELIHOOD的范围是789到838。OEMAPPR则从824下降到856。0182图4(A)与(B)是测试引用事件的平均测试LOGLIKELIHOOD。(C)与(D)前K推荐列表中的召回率。(E)与(F)为平均测试正规排名。由于所有的模型在建立阶段与训练阶段后的初始参数相同,它们在第1个测试BATCH的性能是相同的。这个从(A)到(F)可以看到。(G)与(H)是在第8001与第8005个时间点是被引用的两个文章集的话题演变。为了防止图像的混乱,我们只画出了比例最高的前几个话题。0183图4(C)和(D)是前K推荐列表中的召回率,K取值250。可以发现DEM、OEM。
44、与OEMAPPR的性能都随着时间而下降,然而OEMFULL却不会。虽然OEMAPPR的预测性能也会随着时间下降,但是它的性能依然明显超过DEM。OEMBETA的性能与DEM差不多,都不理想。这意味着话题特征的信息量是十分大的,只是更新是远不够的。注意K取其他值时也可以得到相似的结果,由于篇幅所限这里不予讨论。0184图4(E)与(F)是平均测试正规排名。可以发现DEM与OEM的性能无法随着时间而提高。而OEMFULL与OEMAPPR则可以。注意排名数值越低意味着预测能力越高。与前面相似,OEM的不理想效果进一步说明了话题特征的更新对这一项评测标准的重要性。因为越到后面的BATCH,候选的引用事。
45、件数会越多,如果用绝对的排名,DEM的性能实际上是随着时间而下降的。但是MBOXOEMFULL却可以防止性能的下降,即使是从绝对排说明书CN103345581A1613/14页17名的角度来看。这个与图4(A)、(B)、(C)与(D)的结果相符。0185表3比较了OEM与近似OEM的计算消耗。由表可知,虽然近似OEM比满OEM预测性能稍差,但是却节省了50的时间。0186表301时OEMFULL与OEMAPPR的计算时间(秒)01870188表4CITER百分比为10时的平均测试LOGLIKELIHOOD01890190表501时的平均测试LOGLIKELIHOOD01910192为了研究超参。
46、数(CITER百分比与)对预测性能的影响,本发明使用ARXIVTH数据集并计算了CITER百分比与取不同值时所有测试BATCH的平均测试LOGLIKELIHOOD。结果详见表4与表5。由表4可知,01为的最优值。从表5可以看出在CITER百分比大于10后,预测性能随着CITER百分比的提高较小,而时间消耗却有很大的增加,这意味着选择10为CITER百分比是合理的。0193总而言之,模型OEM对于这些超参数并不敏感。0194本发明从ARXIVTH数据集中选择了2个文章集合来说明文章的话题演变。为了避免混乱对每个文章集合的话题比例取平均,图中只画出了平均的话题比例。由于话题数共有50个,只选择了占。
47、的比例最大的话题。具体地说,令STR1,R2,RL表示在时间T被引用的文章集合(同一个集合中的文章被用一篇文章引用)。则是文章集合ST的平均话题向量。这里选择了S8001与S8005作为说明的例子,如图4(G)与(H)。0195从图4(G)可知,话题7的比例与话题46的比例是随着时间下降的。然而话题15的比例与话题44的比例则相反。一个解释是这个在第8001个时间点被引用的文章集合原来是关于某个物理学的子领域,但是随着时间的推移,这些文章的价值被其他子领域的研究者发现了。再被其他子领域的文章引用了足够多次之后,这个文章集合的话题开始从原话题(话题7与话题46)向新话题(话题15与话题44)转移。
48、。同样的事情会发生在统计学、心理学等领域(原领域)与机器学习等领域(新领域)上面。在第8005个时间点被引用的文章集合(S8005)的话题演变与第8001个时间点的类似,如图4(H)所示。0196综上所述,本发明一种基于在线自中心模型的动态网络分析系统及方法以对时变的动态网络进行建模,通过随着时间调整学习模型参数与话题特征,使得本发明克服了DEM说明书CN103345581A1714/14页18的缺点,避免了DEM存在的准确率随着时间严重下降的问题,在两个真实数据集上的实验结果表明,本发明在实际应用中能达到十分可观的预测性能。0197虽然本发明的实验仅限于文章引用网络,如DEM所说,本发明也可以适用于其他类型的网络,本发明不以此为限。0198上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。说明书CN103345581A181/2页19图1图2说明书附图CN103345581A192/2页20图3图4说明书附图CN103345581A20。