《面向个性化应用的跨网络行为关联方法.pdf》由会员分享,可在线阅读,更多相关《面向个性化应用的跨网络行为关联方法.pdf(12页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104090971A43申请公布日20141008CN104090971A21申请号201410341643222申请日20140717G06F17/3020060171申请人中国科学院自动化研究所地址100190北京市海淀区中关村东路95号72发明人徐常胜严明桑基韬74专利代理机构中科专利商标代理有限责任公司11021代理人宋焰琴54发明名称面向个性化应用的跨网络行为关联方法57摘要本发明是一种面向个性化应用的跨网络行为关联方法,首先确定不同网络特有的异构信息并分别对其在各自网络进行主题建模,得到相应信息的主题分布表示;然后,聚合用户在各自网络的行为信息来分别计算得到用户在。
2、不同网络的主题分布表示,并利用跨网络关联用户在不同网络上主题分布的一一对应关系分别对不同网络学习一组网络相关的用户属性因子向量;最后,通过不同网络的用户属性因子向量使不同网络信息的主题分布可以进行互相转换,达到跨网络行为信息关联的目的。本发明通过引入主题模型和用户感知,使该关联突破语义关联的局限性,在更细的粒度下进行感知。51INTCL权利要求书2页说明书6页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书6页附图3页10申请公布号CN104090971ACN104090971A1/2页21一种跨网络行为关联方法,其特征在于,所述方法包括如下步骤S1、分别对两个具有。
3、异构知识实体和用户行为的网络进行主题建模,分别得到反映用户行为的异构知识在不同主题空间的主题分布;S2、将用户在所述两个网络的行为信息进行主题聚合,得到用户在所述两个网络的主题分布;S3、基于潜在用户属性发现对所述两个网络进行跨网络主题关联;S4、将所述跨网络的主题关联转换为跨网络的用户行为分布关联。2如权利要求1所述的跨网络行为关联方法,其特征在于,所述两个具有异构知识实体和用户行为的网络是视频分享网络和社交网络。3如权利要求2所述的跨网络行为关联方法,其特征在于,所述步骤S1包括S11、对所述视频分享网络上的视频提取文本描述信息以及关键帧视觉信息并建立视频语义视觉文档,对每个视频文档,进行。
4、多模态主题建模ICORRLDA,最终得到每个视频在其语义空间上的主题分布向量;S12、提取所述社交网络上用户的社会关系信息,然后对用户的社会关系图进行标准的潜在狄利克雷分布主题建模LDA,最终得到每个用户在该用户兴趣空间上的主题分布向量。4如权利要求2所述的跨网络行为关联方法,其特征在于,所述步骤S2为聚合用户在所述视频分享网络中感兴趣的视频的主题分布,得到用户在视频语义空间上的主题分布,使所述视频分享网络和所述社交网络上行为的主题分布表示都上升到用户层次。5如权利要求4所述的跨网络行为关联方法,其特征在于,在步骤S2中,对任意给定的视频分享网络用户,把该用户上传的视频,最喜爱的视频以及播放列。
5、表里的视频作为他感兴趣的视频集合,已知用户U感兴趣的视频集合以及第一步异质主题建模后得到的视频主题分布PZY|V,得到用户U的主题分布如下其中,NVF和NVW表示视频V的关键帧总数和标签总数,分别表示用户U感兴趣的视频集合VU包含的关键帧总数以及标签单词总数。6如权利要求2所述的跨网络行为关联方法,其特征在于,所述步骤S3为利用跨网络关联用户在所述视频分享网络和社交网络上主题分布的一一对应关系,分别对所述两个网络各自学习一组网络相关的用户属性因子向量,使用户在该两个网络的主题分布投影到相应的用户属性因子向量构成的空间后得到一致的用户表示。7如权利要求6所述的跨网络行为关联方法,其特征在于,在步。
6、骤S3中,所述视频分享网络和所述社交网络共有的跨网络用户子集为UOUYUT,其中UY和UT分别为视频分享网络和社交网络所有用户总集,通过如下优化目标函数来学习和发现每种潜在用户属性在视频分享网络和社交网络所对应的成对用户因子向量权利要求书CN104090971A2/2页3其中DY和DT分别为视频分享网络和社交网络上所有成对的用户因子向量的矩阵表示,该矩阵的每一列D表示一个用户因子向量,两个矩阵上相同位置的列反映同一种用户属性;S为跨网络用户在不同的网络上共有的潜在用户属性表示,该矩阵的每一列S表示某个用户的主题分布投影到成对的用户因子向量空间后的属性表示。8如权利要求7所述的跨网络行为关联方法。
7、,其特征在于,所述步骤S4为利用视频分享网络和社交网络各自学到的用户属性因子向量使对主题分布进行转换。9如权利要求8所述的跨网络行为关联方法,其特征在于,在所述步骤S4中,当给定新用户在所述视频分享网络的主题分布UY,通过稀疏编码的方式得到该用户投影到DY构成的用户属性空间后的潜在属性表示如下通过用户因子向量矩阵DT重建该用户的社交网络主题分布UTDTS。权利要求书CN104090971A1/6页4面向个性化应用的跨网络行为关联方法技术领域0001本发明属于社会媒体计算技术领域,涉及一种面向个性化应用的跨网络行为关联方法。背景技术0002随着互联网技术的发展,各种社会媒体和网络应用应运而生。为。
8、更好进行社交和信息获取,用户越来越频繁的使用多种社会媒体服务,这也使得用户的信息分散在不同的网络平台上,只从单一的网络平台去分析用户的行为无法全方位的理解用户。因此,将不同网络平台用户的行为进行整合可以更好的分析用户兴趣,从而有助于设计更加精准的个性化应用。然而,用户在不同网络平台的行为往往是异构的,这种异构的跨网络行为经常无法简单的进行一一加和。因此,如何将不同网络平台的异构行为进行有效的整合是一个亟待解决的问题,而这里的关键就是找到跨网络异构行为之间的关联模式。0003目前,跨网络分析和应用研究是一个相对崭新的领域,还处在起步阶段。研究者们目前主要从两方面研究该领域多网络拓扑结构分析和跨网。
9、络用户建模。多网络拓扑结构分析主要利用社会网络分析SOCIALNETWORKANALYSIS,SNA的方法研究多网络下总体网络拓扑结构和属性,并分析不同网络平台属性和结构的相似性和差异性,以及信息在多网络结构下的传播机制。跨网络用户建模专注于将不同网络平台的同质用户行为进行聚合,比如将不同网络平台用户的标签和简介聚合起来,作为一个更加完整的用户文档来表示用户,然后基于该聚合文档对用户进行用户建模,得到多网络聚合的用户兴趣。这两方面研究目前还是主要分别从社会关系结构和同质行为比如用户标签来研究多网络场景下的相应特性,然而多网络情形下往往伴随着多种异构行为比如用户标签和用户好友关系,这些异构的跨网。
10、络行为有时才能反映更加稳定的用户兴趣,因此如果能挖掘出跨网络异构行为之间的关联模式,则可以更好的理解跨网络下的用户兴趣和不同网络的知识特性。0004迁移学习TRANSFERLEARNING和子空间学习SUBSPACELEARNING是学习不同网络空间关联的两种重要技术。前者通过找一些共现数据COOCCURRENCEDATA来学习得到不同平台的潜在关联模式,并将知识从源网络迁移到目标网络来解决目标网络上的分类、回归等问题。后者的主要思想是通过学习一个公共的子空间来同时表达不同类型的异构数据,使得不同形式的异构数据可以在这个公共的子空间进行直接的比较。但这些技术都没有考虑过从跨网络关联用户的角度去。
11、对不同网络的异构行为进行关联,进而以用户集体智慧的方式发现不同网络间的关联模式。发明内容0005一要解决的技术问题0006本发明的目的是将不同网络上的异构行为信息进行用户层的关联,并基于此关联设计个性化的应用。为此提出利用跨网络关联用户作为连接不同网络的桥梁,基于潜在用户属性发现的跨网络行为关联方法。说明书CN104090971A2/6页50007二技术方案0008为实现上述目的,本发明提供面向个性化应用的跨网络行为关联方法包括0009S1、分别对两个具有异构知识实体和用户行为的网络进行主题建模,分别得到反映用户行为的异构知识在不同主题空间的主题分布;0010S2、将用户在所述两个网络的行为信。
12、息进行主题聚合,得到用户在所述两个网络的主题分布;0011S3、基于潜在用户属性发现对所述两个网络进行跨网络主题关联;0012S4、将所述跨网络的主题关联转换为跨网络的用户行为分布关联。0013三有益效果0014从上述技术方案可以看出,本发明面向个性化应用的跨网络行为关联方法具有以下有益效果00151利用跨网络关联用户的集体智慧,使不同网络的异构行为能在用户层上进行跨网络关联,同时通过引入主题模型和用户感知,使该关联突破语义关联的局限性,在更细的粒度下进行感知。00162该发明提出了一种用户感知的跨网络异构行为关联方法,基于该关联可以从多种方向设计跨网络的个性化应用,有效的缓解了冷启动和数据稀。
13、疏性问题。附图说明0017图1是本发明面向个性化应用的跨网络行为关联方法的流程图;0018图2是本发明一个实施例中视频主题空间多模态主题建模ICORRLDA的图表示;0019图3和图4分别是本发明实施例中对步骤S1异质主题建模学到的视频主题空间和社交网络用户兴趣空间的可视化表示。具体实施方式0020本发明的目的是跨网络的行为关联。该问题存在如下挑战首先,不同网络具有异构的知识实体和行为,例如视频兴趣行为和社交网络社会关系行为,如何对它们进行合理的泛化表示;另外,不同网络的知识间没有直接的显式关联,也无法直观的给出不同网络上知识和行为的相关性指标,如何在跨平台网络间建立合理的联系。0021本发明。
14、中所称的异构的知识实体和行为是指知识实体的内容属性,以及用户对知识实体的行为属性均不相同。上述的视频兴趣行为也可以扩展到音频兴趣或者商品兴趣行为等,社交网络社会关系行为也可以是微博文本兴趣行为或者加入圈子行为等。0022为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。在下面的实施例中,主要以视频行为和社会关系行为的异构关联为例进行说明,但本发明并不局限于此。0023该实施例中,具有异构的知识实体和用户行为的两个不同网络为社交网络推特TWITTER和视频分享网络优突博YOUTUBE。0024图1是本发明面向个性化应用的跨网络行为关联方法的。
15、流程图。如图1所示,本发明首先用恰当的主题模型将不同网络的异构行为进行主题层泛化,然后利用跨网络关联用说明书CN104090971A3/6页6户的集体智慧将不同网络的主题进行量化关联,使不同网络的异构行为表示可以通过潜在的用户属性因子向量相互转换,基于此可以进而从多方向设计跨网络的个性化应用。所谓跨网络关联用户是指在不同网络均有账号的关联用户。由此,本发明提出了一种全新的用户感知的跨网络行为关联方法,为理解多网络情景下用户的异构行为奠定了坚实基础。本发明主要分以下几个主要步骤S1、异质主题建模;S2、用户主题分布聚合;S3、基于潜在用户属性发现的跨网络主题关联;S4、基于主题关联的跨网络行为分。
16、布转换。0025这里的主题是指用户的兴趣主题。0026S1、分别对两个具有异构知识实体和用户行为的网络进行主题建模,分别得到反映用户行为的异构知识在不同主题空间的主题分布。0027该步骤的目的是发现视频分享网络和社交网络空间行为的潜在泛化结构,有助于后续的基于主题层次的分析和应用。我们设计生成式的主题模型分别对优突博视频和社交网络用户进行主题建模,分别得到优突博视频和社交网络用户在各自主题空间的主题分布。在具体实施例中,步骤S1包括如下步骤0028S11对所述视频分享网络上的视频提取文本描述信息以及关键帧视觉信息并建立视频语义视觉文档,对每个视频文档,进行多模态主题建模ICORRLDA,最终得。
17、到每个视频在其语义空间上的主题分布向量。0029为了使学到的视频主题能同时涵盖视频的文本和视觉描述信息,我们设计了一种变体的多模态主题模型ICORRLDA。在我们的问题中,每个优突博视频可以表示为一个二元组F;W,其中F为该视频的N个关键帧的视觉特征向量集合,W为该视频的M个标签单词集合,我们对跨网络数据集中所有优突博用户的视频二元组集合进行多模态主题建模,得到每个视频的视觉语义主题分布。具体来说,首先从标准的潜在狄利克雷分布主题模型LDA中抽样得到视频的M个标签单词。然后,对视频的每个关键帧,先抽样得到一个标签单词,再从生成该标签单词的主题上抽样得到相应的关键帧视觉单词。该多模态主题模型IC。
18、ORRLDA的图表示参见图2。其中,为该主题模型的超参数,可以通过吉布斯采样方法进行近似求解;Y为离散指示变量,等概率的在1到M间取整数值来控制选择合适的标签单词。图3抽样了两个视频主题进行可视化呈现,其中每个主题给出了该主题的前5个生成概率最大的标签单词以及前3个生成概率最大的视频。可以看出,这两个主题都有很明确的领域主题游戏和德国,同时这两个学到的主题在视觉表示和文本语义表示上也具有很高的一致性。0030S12提取所述社交网络上用户的社会关系信息,然后对用户的社会关系图进行标准的潜在狄利克雷分布主题建模LDA,最终得到每个用户在该用户兴趣空间上的主题分布向量。0031在社交网络中,用户会根。
19、据自己的兴趣任意的关注各种感兴趣的门户账号、领域专家以及真实好友等,用户的好友关系作为社交网络上的一种重要的用户行为,反映了一段时间内稳定的用户兴趣。因此,我们这里主要研究推特社交网络上的用户好友关系行为数据,进而对用户的兴趣进行主题建模。具体地说,我们将推特用户作为标准主题模型的“文档”,该用户的所有粉丝作为相应的“文档单词”,然后对该用户文档进行标准的潜在狄利克雷分布主题建模LDA,以得到每个推特用户在这种用户粉丝社交图谱结构空间的主题分布。由于主题建模本质上是利用了单词的共现关系,得到的推特社会关系用户主题说明书CN104090971A4/6页7实际上捕捉到的是每个粉丝群子集共同感兴趣的。
20、一些专业用户,反映了每个粉丝群子集的公共兴趣。同时,由于一段时间内用户的社会关系一般基本保持不变,通过用户的社会关系学得的用户兴趣因此也将会更加稳定和准确。图4抽样了3个学到的推特社会关系用户主题,其中每个主题给出了该主题的前3个生成概率最大的热门用户,每个热门用户由其用户ID,用户名,居住地,粉丝数量以及自我描述所表示。可以看出,学得的推特主题在粒度上有着很广的覆盖性有游戏这种一般的主题,也有专门由福布斯影响力用户构成的特有主题,还有由来自同一个地方德国用户组成的地域性主题。以这种方式学得的多角度细粒度的主题也使得后续学得的跨网络关联具有更大的随意性,便于捕捉到更精准的跨网络主题关系。003。
21、2S2、将用户在所述两个网络的行为信息进行主题聚合,得到用户在所述两个网络的主题分布。0033由于不同网络的行为和信息都是由用户创造的,同一个用户在不同网络的行为应该具有一定的关联性,因此我们希望通过以同一个用户在视频分享网络和社交网络上主题分布的一一对应关系为约束,通过大量跨网络关联用户的集体智慧来求得跨网络主题间的关系。所以,首先我们需要将用户在各自网络的行为信息分别进行主题聚合,得到用户在各自网络的兴趣主题分布。0034在该实施例中,步骤S2聚合用户在所述视频分享网络中感兴趣的视频的主题分布,得到用户在视频语义空间上的主题分布,使所述视频分享网络和所述社交网络上行为的主题分布表示都上升到。
22、用户层次。0035由于在社交网络上,我们直接对用户的社会关系进行主题建模,所以我们已经得到了用户的兴趣主题分布。因此,我们只需将用户在视频分享网络的视频行为进行主题聚合即可。具体地说,对任意给定的优突博用户,我们把该用户上传的视频,最喜爱的视频以及播放列表里的视频作为他感兴趣的视频集合,已知用户U感兴趣的视频集合以及第一步异质主题建模后得到的视频主题分布PZY|V,通过简单的推导,我们可以得到用户U的主题分布如下00360037其中,NVF和NVW表示视频V的关键帧总数和标签总数,分别表示用户U感兴趣的视频集合VU包含的关键帧总数以及标签单词总数。通过用户主题分布聚合后,我们便可得到所有优突博。
23、用户在视频空间的主题分布表示。0038S3、基于潜在用户属性发现对所述两个网络进行跨网络主题关联。0039在具体实施例中,利用跨网络关联用户在所述视频分享网络和社交网络上主题分布的一一对应关系,分别对所述两个网络各自学习一组网络相关的用户属性因子向量,使用户在该两个网络的主题分布投影到相应的用户属性因子向量构成的空间后得到一致的用户表示。0040我们利用跨网络关联用户作为不同网络间连接的桥梁来进行跨网络关联挖掘,其说明书CN104090971A5/6页8中基本的原理是如果同一组跨网络关联用户都很关注网络X的主题A以及网络Y的主题B,那么有很大可能网络X的主题A和网络Y的主题B具有强关联性。基于。
24、大量的跨网络关联用户的集体智慧,我们便可以计算得到量化的跨网络主题关系,为此我们提出了一种基于潜在用户属性发现的跨网络主题关联方法。假设优突博和推特共有的跨网络用户子集为UOUYUT,其中UY和UT分别为优突博和推特数据集所有用户总集。对于跨网络用户来说,他们在不同网络的不同行为导致了他们的不同主题分布。我们认为反映用户各种行为的背后的主要决定因素是用户的属性比如用户年龄、性别、职业以及居住地等,由于不同的用户属性而导致了用户不同的行为,进而产生用户在不同网络的主题分布,这些属性是用户固有的,它们不随网络的改变而改变,因此通过挖掘出这样的共有用户属性,我们可以进一步计算得到用户在不同网络中的主。
25、题分布。在每个网络上,一组具有代表性的主题分布向量因子向量被提取作为网络相关的用户因子来表示潜在的用户属性,即每种潜在的用户属性在不同的网络中都对应一个相应的用户因子向量,这些因子向量是网络相关的。0041具体来说,每种用户属性在优突博和推特都有一套成对的用户因子向量,它们反映了同一种用户属性在不同网络的不同表示。通过保证跨网络用户子集UO内用户的主题分布在投影到成对的因子向量空间后共享同样唯一的固有用户属性,我们提出如下优化目标函数来学习和发现每种潜在用户属性在不同网络所对应的成对用户因子向量004200430044其中,和分别为所有跨网络用户在优突博视频空间和推特用户兴趣空间上的主题分布向。
26、量的矩阵表示;DY和DT分别为优突博视频空间和推特用户兴趣空间上所有成对的用户因子向量的矩阵表示,该矩阵的每一列D表示一个用户因子向量,两个矩阵上相同位置的列反映同一种用户属性;S为跨网络用户在不同的网络上共有的潜在用户属性表示,该矩阵的每一列S表示某个用户的主题分布投影到成对的用户因子向量空间后的属性表示,对于同一个用户,该属性表示是唯一的,并不随网络的改变而改变,我们的算法的主要目标就是通过挖掘出用户唯一的属性表示来进行跨网络关联。对因子向量进行二范限制是为了防止学到的因子向量取值任意大,在目标函数引入L1范惩罚是为了有助于学到一个更紧凑的属性空间,使用户在该空间上能够被稀疏表示,是相应的。
27、平衡参数。0045上式2又可以被重写为如下形式00460047其中,说明书CN104090971A6/6页900480049上面式子3的优化问题可以通过稀疏编码SPARSECODING的经典算法对DY,DT和S进行有效的迭代求解,直到算法收敛。最后我们得到一对网络相关的用户属性因子向量矩阵DY和DT,它间接的将视频分享网络和社交网络上信息的主题分布进行了跨网络关联。0050S4、将所述跨网络的主题关联转换为跨网络的用户行为分布关联。0051在实施例中,利用视频分享网络和社交网络各自学到的用户属性因子向量矩阵对主题分布进行转换。0052得到成对的用户因子向量矩阵DY和DT后,两个方向的跨网络用户。
28、行为分布转换皆可进行1从视频网络空间到社交网络空间,2从社交网络空间到视频网络空间。这里以从视频网络空间到社交网络空间为例说明,给定新用户在视频空间的主题分布UY,我们可以通过稀疏编码的方式挖掘出该用户投影到DY构成的用户属性空间后的潜在属性表示如下00530054由于同一个用户在不同网络共享一致的用户属性表示,即该用户在推特网络也同样具有S的用户属性表示,因此我们可以通过用户因子向量矩阵DT重建该用户的推特兴趣主题分布0055UTDTS0056需知另一个方向的主题兴趣分布转换与上述过程类似,只是先将用户投影到DT构成的用户属性空间得到唯一的用户属性表示,然后再通过DY重建用户的优突博兴趣主题。
29、分布。0057基于上述的跨网络用户行为主题分布转换,我们也可以从两个方向设计跨网络的个性化推荐应用1对一个长期的推特用户,假设他新注册了优突博账号,这时系统只能观测到他丰富的推特行为而不知道他在优突博的视频兴趣,这时候通过上述提出的跨网络行为关联方法,我们可以从用户的推特用户兴趣推测其优突博视频兴趣,进而针对性的给该用户推荐其可能喜欢的优突博视频,2同理,当一个长期的优突博用户新加入推特社交网络,我们也可以通过上述跨网络关联从其优突博视频兴趣推测其推特用户兴趣,进而为其推荐他可能感兴趣的推特用户账号。0058所述视频分享网络是优酷YOUKU、优突博YOUTUBE等视频分享平台,实施例中以优突博YOUTUBE为例进行说明;社交网络是推特TWITTER,脸书FACEBOOK,新浪微博等社交网络平台,实施例中以推特TWITTER为例进行说明。0059以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。说明书CN104090971A1/3页10图1说明书附图CN104090971A102/3页11图2图3说明书附图CN104090971A113/3页12图4说明书附图CN104090971A12。