一种基于情景信息的个性化资源信息的推荐方法.pdf

上传人:Y0****01 文档编号:996715 上传时间:2018-03-24 格式:PDF 页数:15 大小:798.50KB
返回 下载 相关 举报
摘要
申请专利号:

CN200910089587.7

申请日:

2009.07.22

公开号:

CN101751448A

公开日:

2010.06.23

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20090722|||公开

IPC分类号:

G06F17/30; G06Q10/00; H04L29/06

主分类号:

G06F17/30

申请人:

中国科学院自动化研究所

发明人:

郑楠; 李秋丹; 戴汝为

地址:

100080 北京市海淀区中关村东路95号

优先权:

专利代理机构:

中科专利商标代理有限责任公司 11021

代理人:

梁爱荣

PDF下载: PDF下载
内容摘要

本发明公开一种基于情景信息的个性化资源信息的推荐方法,该方法:对协作式标注系统网页进行预处理,根据特定用户抽取其所有的标注行为的信息,包括标注的资源信息、使用的标签信息,以及标注的时间信息,将用户所有的标注行为的信息存储于数据库;根据数据库中用户对资源使用的标签信息以及标注资源的时间信息,生成表达用户喜好的评分数据;基于生成的用户喜好的评分数据计算用户之间的相似度,以确定具有相似兴趣的用户近邻;根据用户近邻的喜好信息向该用户推荐其未标注过的资源,完成协同过滤个性化资源的推荐。实验表明通过集成情景信息可以为用户提供更好的个性化推荐服务。

权利要求书

1.  一种基于情景信息的个性化资源信息的推荐方法,步骤如下:
步骤S1:对协作式标注系统网页进行预处理,根据特定用户抽取其所有的标注行为的信息,包括标注的资源信息、标注资源的标签信息,以及标注资源的时间信息,将用户所有的标注行为的信息存储于数据库;
步骤S2:根据数据库中用户标注资源的标签信息以及标注资源的时间信息,生成表达用户喜好的评分数据;
步骤S3:基于生成的用户喜好的评分数据计算用户之间的相似度,以确定具有相似兴趣的用户近邻;
步骤S4:根据用户近邻的喜好信息对该用户进行资源推荐,完成协同过滤个性化资源的推荐。

2.
  如权利要求1所述个性化资源信息的推荐方法,其特征在于,所述用户喜好的评分数据的生成包括:标签权重和时间权重两个因素,综合用户标注资源的标签信息和标注资源的时间信息这两种情景信息生成最终的用户喜好的评分数据。

3.
  如权利要求2所述个性化资源信息的推荐方法,其特征在于,所述标签权重是针对单个用户,利用其所有标签的使用频率和其用于表达特定资源的标签共同决定,以表达用户对特定资源的喜好情况。

4.
  如权利要求2所述个性化资源信息的推荐方法,其特征在于,所述时间权重是针对单个用户,使用遗忘函数模拟其所有标注行为,以体现用户兴趣的漂移。

5.
  如权利要求2所述个性化资源信息的推荐方法,其特征在于,所述用户喜好的评分数据是通过线性加权的过程权衡标签权重和时间权重对最终用户喜好的评分数据的影响,以适应不同数据集的要求。

6.
  如权利要求2所述个性化资源信息的推荐方法,其特征在于,所述用户喜好的评分数据,其计算步骤包括:
步骤S21:提取数据库中用户标注行为的信息;
步骤S22:针对数据库中每个用户的所有标签信息,根据标签的使用频率为每个用户的每个标签计算标签的得分;
步骤S23:接收步骤S22计算得到的标签的得分,根据用户对其标注资源所使用的实际标签,计算标签权重;
步骤S24:根据用户标注资源的时间信息计算时间权重;
步骤S25:根据标签权重和时间权重,通过线性加权生成最终表达用户喜好的评分数据,其计算如下所示:
Ru,i=λwtag(u,i)+(1-λ)wtime(u,i),
其中:wtag(u,i)表示用户u对每个标注过的资源i的标签权重,用tag(u,i)表示用户u标注资源i所使用的所有标签集合;参数λ取0到1之间的小数,用于调整标签权重和时间权重之间的重要程度,根据不同的数据集,选取适当的λ,wtime(u,i)表示用户u对资源i的时间权重。

7.
  如权利要求6所述个性化资源信息的推荐方法,其特征在于,所述标签的得分的计算表示如下:其中,u是用户、ta是标签、k表示用户u所有使用过的标签的总数、freq(u,ta)为标签的使用频率。

8.
  如权利要求6所述个性化资源信息的推荐方法,其特征在于,所述标签权重wtag(u,i)的计算表示如下:其中,tag(u,i)表示用户u标注资源i所使用的所有标签集合,为标签的得分。

9.
  如权利要求1所述个性化资源信息的推荐方法,其特征在于,所述用户之间的相似度计算,是基于用户喜好的评分数据进行计算,从而将兴趣相近的用户归为近邻。

10.
  如权利要求9所述个性化资源信息的推荐方法,其特征在于,所述用户之间的相似度计算步骤如下:
步骤S31:提取用户喜好的评分数据的结果;
步骤S32:对新生成的用户喜好的评分数据建立用户与资源模型;
步骤S33:选择相似度度量函数;
步骤S34:计算用户之间的相似度;
步骤S35:根据计算出的用户之间的相似度得到与目标用户相似度最大的k个近邻。

11.
  如权利要求1所述个性化资源信息的推荐方法,其特征在于,所述资源推荐,是基于用户喜好的评分数据和相似度最大的k个近邻的结果进行推荐,综合考虑用户的兴趣和用户兴趣的漂移以向用户推荐其可能感兴趣的资源。

说明书

一种基于情景信息的个性化资源信息的推荐方法
技术领域
本发明涉及信息过滤和数据挖掘技术领域,是一种新型的基于情景信息的个性化资源信息的推荐方法。
背景技术
随着Web 2.0的发展,互联网上的信息量成指数级增长。海量的信息使用户快速便捷的发现和获取自己所需的信息变得困难。推荐系统作为信息过滤的重要手段,能自动的发现用户感兴趣的信息,有效的为用户提供个性化服务。目前,推荐系统已融入各大电子商务系统,如Amazon,eBay,Youtube等,并仍以迅猛的势头发展。DVD在线租赁商Netflix于2006年10月2日发起一项竞赛:Netflix Prize,任何组织或个人只要能够提交比它现有电影推荐系统Cinematch效果好10%的新方法,就可以获得一百万美元的奖金。
推荐算法在20世纪90年代被作为一个独立的概念提出来。1997年Resnick和Varian对推荐系统给出了非形式化的定义:“推荐是利用电子商务网站向用户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买的过程”。
推荐系统根据推荐的方法可以分为基于内容的推荐、协同过滤、混合推荐三种方法。基于内容的推荐是指根据用户历史的喜好信息,推荐具有类似属性的资源。该方法的不足在于推荐资源的单一性,以及对多媒体资源的内容特征提取方面的问题,因此该方法多用于网页资源的推荐。协同过滤的方法通过寻找与用户具有相同兴趣爱好的用户组,向用户推荐用户组内其他用户喜好的资源。由于该方法的实时性和有效性,在实时推荐系统中具有广泛的应用,但是也面临了许多问题,如对新用户或新资源推荐时的冷启动问题,评分数据的稀疏性问题,以及算法的可扩展性问题等。混合推荐方法是将以上几种方法组合使用的方法,目的在于弥补各种推荐方法的不足。
协同过滤推荐技术是推荐系统中最为成功的技术之一,它被广泛的应用于电子商务类网站,该技术也成为学术界研究的热点。Palmisano,Tuzhilin和Gorgoglione[Palmisano,C.,Tuzhilin,A.,Gorgoglione,M.:Using Context to Improve Predictive Modeling of Customers inPersonalization Applications.IEEE Transactiohs on Knowledge andData Engineering 20(2008)1535-1549]通过考察情景信息(context)对推荐结果的影响,指出将情景信息加入协同过滤系统中以提高推荐的准确率,将是协同过滤未来发展的方向。这里,情景信息定义为电子商务应用中用户购买或浏览资源的目的。伴随着Web 2.0,delicious、Flickr、CiteULike等协作式标注系统迅速发展壮大,协作式标注系统允许用户根据自己的背景知识给资源标注任意的标签,以达到共享、发现和检索资源的目的。这些协作式标注系统提供了大量有价值的信息,如标签,它体现了用户喜好资源的原因;时间,它体现了用户兴趣的漂移。标签和时间作为协作式标注系统里的情景信息,可以为协同过滤推荐提供服务。
利用协作式标注系统里的标签信息进行推荐是近年推荐系统发展的新方向。Nakamoto[Reyn Nakamoto,S.N.,Jun Miyazaki,ShunsukeUemura:Tag-based contextual collaborative filtering.IAENGInternational Journal of Computer Science 34(2)(2007)214-219]针对用户标签的重叠性,提出了两种tag-based contextual CF模型:第一个模型在计算用户相似度的过程中使用标签信息,该模型过分依赖于通用的标签,当标签数量较少或者彼此疏远时该方法不适用。由于标签存在冗余性和模糊性等问题,如同义词、多义词,该模型没有考虑标签的自然语言理解方面的问题。第二个模型是在计算资源推荐的过程中使用标签信息,该方法的不足在于当用户对标签的重叠使用率很低的时候,系统很难做出推荐。A.-T.Ji等在[A.-T.Ji,C.Y.,H.-N.Kim,and G.-S.Jo.:Collaborative tagging in recommender systems.In Advances in Artificial Intelligence(AI2007),377-386]中使用了三个矩阵user-item,user-tag,tag-item将加入标签的协同过滤推荐分为两个阶段:(i)Candidate tag set(CTS)generation:使用cos度量对user-tag矩阵计算用户相似度,找出用户的k个近邻KNN(u),通过近邻计算得到w个CTS(u);(ii)Probabilistic recommendation:使用Bayes概率模型针对该用户喜好的CTS(u)里的标签进行资源的推荐。Tso-Sutter等在[Tso-Sutter,K.H.L.,Marinho,L.B.,Schmidt-Thieme,L.:Tag-aware recommender systems by fusion ofcollaborative filtering algorithms.Proc.of the 2008ACMsymposium on Applied computing.ACM New York,NY,USA(2008)1995-1999]中应用简单的标签扩展机制把标签加入到协同过滤算法中:通过将用户、资源、标签之间的三维关系转化为三个二维关系(user-item、user-tag、tag-item)应用于合并的协同过滤方法(fusionmethod)向用户推荐资源。结果表明,标签应用于合并方法可以有效的反映出用户、资源、标签三者之间的关系,从而提高推荐的效果。Zhao[Zhao,S.,Du,N.,Nauerz,A.,Zhang,X.,Yuan,Q.,Fu,R.:Improved recommendation based on collaborative tagging behaviors.Proc.of the 2008 ACM conference on Recommender systems(RecSys’08).ACM New York,NY,USA,Lausanne,Switzerland(2008)413-416]使用WordNet计算标签之间的语义相似度,基于标签语义相似度寻找用户近邻,从而将标签融入了协同过滤的推荐系统。实验结果表明,由于提高了近邻寻找的准确率,这种tag-based协同过滤比传统的cosine-based协同过滤提高了推荐的准确率。
协同过滤方法是基于评分数据计算用户近邻以及推荐资源。在具有显示用户评分的系统中,对于用户已评分的资源,评分数据为用户对资源的真实打分;而对于没有显示用户评分机制的在线系统,此时通常使用二值数据描述用户的评分:如果用户购买过或浏览过资源,则对该资源的评分为1,否则为0。该方法默认了用户对其所有购买过或浏览过的资源具有相同的喜好程度,且随着时间的推移,用户的喜好保持静态不变,因而不能准确的描述用户的喜好。
发明内容
本发明的目的是一方面,在协作式标注系统里为用户提供个性化资源推荐服务;另一方面,有效的利用协作式标注系统提供的信息作为推荐的情景信息,从而提高协同过滤推荐系统的准确率,为此,本发明提供一种新型的基于情景信息的个性化资源信息的推荐的方法。
为了实现所述的目的,本发明一种基于情景信息的个性化资源信息的推荐方法的技术方案如下所述:
步骤S1:对协作式标注系统网页进行预处理,根据特定用户抽取其所有的标注行为的信息,包括标注的资源信息、标注资源的标签信息,以及标注资源的时间信息,将用户所有的标注行为的信息存储于数据库;
步骤S2:根据数据库中用户标注资源的标签信息以及标注资源的时间信息,生成表达用户喜好的评分数据;
步骤S3:基于生成的用户喜好的评分数据计算用户之间的相似度,以确定具有相似兴趣的用户近邻;
步骤S4:根据用户近邻的喜好信息对该用户进行资源推荐,完成协同过滤个性化资源的推荐。
根据实施例,所述用户喜好的评分数据的生成包括:标签权重和时间权重两个因素,综合用户标注资源的标签信息和标注资源的时间信息这两种情景信息生成最终的用户喜好的评分数据。
根据实施例,所述标签权重是针对单个用户,利用其所有标签的使用频率和其用于表达特定资源的标签共同决定,以表达用户对特定资源的喜好情况。
根据实施例,所述时间权重是针对单个用户,使用遗忘函数模拟其所有标注行为,以体现用户兴趣的漂移。
根据实施例,所述用户喜好的评分数据是通过线性加权的过程权衡标签权重和时间权重对最终用户喜好的评分数据的影响,以适应不同数据集的要求。
根据实施例,所述用户喜好的评分数据,其计算步骤包括:
步骤S21:提取数据库中用户标注行为的信息;
步骤S22:针对数据库中每个用户的所有标签信息,根据标签的使用频率为每个用户的每个标签计算标签的得分;
步骤S23:接收步骤S22计算得到的标签的得分,根据用户对其标注资源所使用的实际标签,计算标签权重;
步骤S24:根据用户标注资源的时间信息计算时间权重;
步骤S25:根据标签权重和时间权重,通过线性加权生成最终表达用户喜好的评分数据,其计算如下所示:
Ru,i=λwtag(u,i)+(1-λ)wtime(u,i),
其中:wtag(u,i)表示用户u对每个标注过的资源i的标签权重,用tag(u,i)表示用户u标注资源i所使用的所有标签集合;参数λ取0到1之间的小数,用于调整标签权重和时间权重之间的重要程度,根据不同的数据集,选取适当的,wtime(u,i)表示用户u对资源i的时间权重λ。
根据实施例,所述标签的得分的计算表示如下:其中,u是用户、ta是标签、k表示用户u所有使用过的标签的总数、freq(u,ta)为标签的使用频率。
根据实施例,所述标签权重wtag(u,i)的计算表示如下:其中,tag(u,i)表示用户u标注资源i所使用的所有标签集合,为标签的得分。
根据实施例,所述用户之间的相似度计算,是基于用户喜好的评分数据进行计算,从而将兴趣相近的用户归为近邻。
根据实施例,所述用户之间的相似度计算步骤如下:
步骤S31:提取用户喜好的评分数据的结果;
步骤S32:对新生成的用户喜好的评分数据建立用户与资源模型;
步骤S33:选择相似度度量函数;
步骤S34:计算用户之间的相似度;
步骤S35:根据计算出的用户之间的相似度得到与目标用户相似度最大的k个近邻。
根据实施例,所述资源推荐,是基于用户喜好的评分数据和相似度最大的k个近邻的结果进行推荐,综合考虑用户的兴趣和用户兴趣的漂移以向用户推荐其可能感兴趣的资源。
本发明的有益效果:本发明提供了一种有效的信息融合机制,将协作式标注系统中的标签信息和时间信息集成到协同过滤资源推荐过程。本发明的用户评分数据的生成方法利用了协作式标注系统中的用户标注的标签信息和用户标注的时间信息,通过标签信息发现用户的兴趣,通过时间信息描述用户兴趣的漂移。本发明的用户评分数据的生成方法,有效的利用标签和时间情景信息生成用户评分数据,从一定程度上解决了传统二值评分数据的不准确性问题。同时,由于标签信息利用的是用户个人标签空间中的标签,所以有效的避免了标签的冗余性和模糊性等问题。用户相似度计算以及资源的推荐过程是基于生成的评分数据得到的,因而能够更有效的寻找用户近邻和实现资源的推荐,提高个性化资源推荐的准确率。
附图说明
图1是本发明一种新型的基于情景信息的个性化资源信息的推荐方法总体模块框图;
图2是预处理步骤数据流图;
图3是本发明评分数据生成步骤数据流图;
图4是本发明基于新生成评分数据计算用户相似度步骤数据流图。
具体实施方式
下面将结合附图对本发明加以详细说明,应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
为了实现本发明的方法,实施例考虑到算法涉及的用户数量和资源数量,如果在单机实现,最好保证处理器主频不小于2GHz,内存不小于1G,可采用任何常用编程语言编写。
本发明提出的一种新型的基于情景信息的个性化资源信息的推荐方法,总体流程如图1所示,具体各步骤数据流由图2、3、4给出。步骤S1预处理部分为整个协同过滤工作准备数据;步骤S2是评分数据生成过程,即基于协作式标注系统的标签信息和时间信息生成评分数据的过程;步骤S3使用生成的评分数据计算用户之间的相似度;步骤S4为资源推荐的步骤,是基于评分数据和用户之间的相似度为用户推荐资源。
接下来详细叙述各主要步骤。
1、预处理(步骤S1)
图1左侧部分给出了典型协作式标注系统中的主要元素,包括用户、标签和资源。用户可以使用一个标签来描述一个资源,也可以使用多个标签描述一个资源。一条标注行为是一个三元组,包含用户、用户标注的资源,以及用户标注该资源使用的所有标签。其中,资源在不同的协作式标注系统中代表不同的含义,在Del.icio.us中资源表示网页、在CiteULike中资源代表学术论文、在Flickr中资源指的是图片,而在YouTube中资源代表视频。
预处理是整个系统的第一步,其作为准备阶段,完成的工作如图2所示,包括网页爬取(步骤S11)、信息抽取(步骤S13)和步骤S14数据库的形成。网页爬取(步骤S11)主要是根据种子URL爬取网页内容并存储于本地(步骤S12),根据爬取得到的网页中包含的链接信息,逐级爬取网页源代码并进行存储(步骤S12),网页爬取过程参照[《Java网络编程》,Elliotte Rusty Harold著,朱涛江林剑译,中国电力出版社,第十五章URL Connection]。信息抽取(步骤S13),参照[冯伟华,苗长芬:基于Web的网页信息抽取方法的研究.洛阳工业高等专科学校学报15(2005)30-31],根据网页html模板格式和通过定义正则表达式抽取网页中有用的信息。本发明中信息抽取部分所抽取的信息包含用户所有的历史标注行为,因此需要根据用户的链接逐级爬取和抽取其所有标注的信息,抽取的内容包含用户名、标注的资源、使用的标签信息、标注的时间信息这几部分。将抽取的结果进行结构化整理形成数据库(步骤S14),数据存储格式为{用户名,资源名,标签集合,标注时间}。目前,网页爬取和信息抽取已经有成熟的方法,不属于本发明强调的内容。本发明重点放在研究用户评分数据的生成策略。
2、用户喜好的评分数据的生成(步骤S2)
步骤2是利用标注资源的标签信息和标注资源的时间信息生成用户喜好的评分数据,目的是通过标签信息发现用户的兴趣,通过时间信息发现用户兴趣的漂移,这一部分处理的数据来自步骤S1得到的数据库。生成用户喜好的评分数据的过程由两部分组成:基于标签信息生成资源的标签权重和基于时间信息生成资源的时间权重。
如图3中示出的步骤S21、步骤S22、步骤S23组成了标签权重(如图1)的生成过程。用户标注资源的标签信息能够反映出用户的兴趣,[Golder,S.A.,Huberman,B.A.:Usage patterns of collaborativetagging systems.Journal of Information Science 32(2006)198-208]中作者通过大量实验发现,用户通常使用相同的标签描述同一个主题的资源。针对一个用户,标签的使用频率越高表明用户对该主题越感兴趣,这也是许多协作式标注系统使用标签云(tag cloud)视图,通过改变标签字体大小和颜色直观反映用户标签使用频率的原因。
步骤S22针对步骤S21数据库中每个用户的所有标签信息,根据标签的使用频率为每个用户的每个标签计算该标签的得分表示为其中u代表用户,ta代表该用户曾经使用过的某个标签。为了便于描述,用freq(u,ta)表示用户u对标签ta的使用频率,k表示用户u所有使用过的标签的总数,步骤S22标签得分的计算公式如公式(1)所示:
wu,ta=freq(u,ta)Σl=1kfreq(u,tl)---(1)]]>
则针对一个用户,其所有标签的得分满足等式
步骤S23接收步骤S22计算得到的标签得分,根据用户对其标注资源实际所使用的标签,计算用户对每个标注过的资源的标签权重。用wtag(u,i)表示用户u对每个标注过的资源i的标签权重,用tag(u,i)表示用户u标注资源i所使用的所有标签集合,步骤S23标签权重的计算公式如公式(2)所示:
wtag(u,i)=Σta∈tag(u,i)wu,ta---(2)]]>
根据标签得分的定义,标签权重wtag(u,i)取值范围为(0,1],标签权重越高表明用户对该资源越感兴趣。另外,为了避免标签自然语言理解方面的问题,如标签的冗余性、模糊性问题等,该方法采用在单个用户的标签空间内计算标签权重。
图3中步骤S24是时间权重的生成过程,即根据用户标注资源的时间信息计算用户对该资源的时间权重。该过程基于的假设是用户当前的兴趣对其未来的兴趣更有影响。该过程的目的是由于用户的兴趣会随时间漂移,通过时间权重的计算可以得到更准确的用户喜好信息。为了更好的理解用户的兴趣漂移,考虑一个协作式标注系统中的实际例子:一个用户使用大量的标签“育婴”来描述她所标注的资源,说明她对育婴非常关注,而随着时间的推移,用户对标签“教育”的使用频率逐渐升高,对标签“育婴”的使用频率逐渐下降,表明了该用户的兴趣从“育婴”逐渐转变到了“教育”,这可能是随着用户孩子的成长,用户的关注的主题也跟随着发生漂移。因而,用户标注资源的时间信息,可以反映出这种兴趣漂移。
处理兴趣漂移的方法有多种,如时间窗方法、指数时间遗忘函数、对数时间遗忘函数、倒数遗忘函数等等,这些方法都可以应用于时间权重的生成过程。但是,由于时间窗方法通常需要抛弃部分历史数据以选择最具有影响力的数据,而协同过滤推荐系统中希望用户的历史信息尽量完备,为了保证数据的完整性,我们在实验中使用指数时间遗忘函数,不抛弃任何历史数据,公式参照[Cheng,Y.,Qiu,G.,Bu,J.,Liu,K.,Han,Y.,Wang,C.&Chen,C.(2008)Model bloggers’interests basedon forgetting mechanism.In:Proc.of the 17th Intl.Conferenceon World Wide Web(WWW 2008),pp.1129-1130,Beijing,China.],具体计算过程如下所示:
wtime(u,i)=e-ln2×time(u,i)hlu---(3)]]>
其中wtime(u,i)表示用户u对资源i的时间权重,time(u,i)是一个非负整数,对于用户u最后一天的标准行为time(u,i)取值为0,对于用户u倒数第二天的标准行为time(u,i)取值为1,以此类推。hlu表示用户u的半衰期,即用户标注资源的数量为其所有标注资源数量的一半所处的时间。因此,针对每一个用户,如果用户具有长时间的标注行为,即他的半衰期越大,他的兴趣衰减的越慢;反之,如果用户整个标注行为经历的时间越短,他的半衰期越小,兴趣衰减的越快。当time(u,i)恰好等于用户的半衰期时,wtime(u,i)=0.5。时间权重的取值范围是(0,1],针对同一个用户,时间权重越大表明用户标注资源的时间越接近现在,反之,时间权重越小表明用户标注资源的时间越久远。
最后,图3中步骤S25根据步骤S23计算得到的标签权重和步骤S24计算得到的时间权重通过线性加权将二者融合生成最终的标签时间权重,该过程的计算公式如下所示:
Ru,i=λwtag(u,i)+(1-λ)wtime(u,i)       (4)
其中:wtag(u,i)表示用户u对每个标注过的资源i的标签权重,用tag(u,i)表示用户u标注资源i所使用的所有标签集合;参数λ取0到1之间的小数,用于调整标签权重和时间权重之间的重要程度。根据不同的数据集,选取适当的λ。当λ=0时,Ru,i表示只使用时间权重计算用户喜好的评分数据,忽略标签权重;而当λ=1时,Ru,i表示只使用标签权重计算用户喜好的评分数据,忽略时间权重。当λ∈(0,1)时,Ru,i表示综合考虑标签权重和时间权重生成的最终用户喜好的评分数据。与传统的二值评分数据不同,本发明中的用户喜好的评分数据生成方法考虑了情景信息,一方面根据标签信息,有效的描述用户的兴趣,另一方面考虑了标注的时间信息,有效的描述了用户兴趣的漂移,因此能够更准确的描述用户的喜好信息。
3、用户之间的相似度计算(步骤S3)
图4中步骤S31、步骤S32、步骤S33、步骤S34、步骤S35组成了用户之间的相似度计算的过程。其中,步骤S31即通过步骤S2生成的用户喜好的评分数据的结果。通过对新生成的用户喜好的评分数据建立用户与资源模型(步骤S32),选择适当的相似度度量函数(步骤S33),计算用户之间的相似度(步骤S34),根据计算出的用户之间的相似度得到与目标用户相似度最大的k个近邻(步骤S35)。
为了便于用户之间的相似度计算步骤的实施,根据步骤S31用户喜好的评分数据结果,将用户喜好的评分数据描述为用户-资源评分矩阵的形式,每一行表示一个用户对所有资源的标注行为,每一列代表某一资源被所有用户标注的情况。如果资源i被用户u标注了,则该行列交叉的元素评分值为Ru,i,否则为0。从而通过新生成的用户喜好的评分数据(步骤S31)建立起用户-资源模型(步骤S32)。
目前,存在很多度量方法计算用户之间相似度(步骤S33),如Pearson相关系数、Spearman相关系数、cosine相似度量以及Jaccard相似度量等等,这些度量方法均可应用于这里度量用户之间的相似度。我们在实验中选取cosine相似度度量准则计算用户之间的相似度,公式参照[Adomavicius,G.,Tuzhilin,A.:Toward the Next Generation ofRecommender Systems:A Survey of the State-of-the-Art andPossible Extensions.IEEE TRANSACTIONS 0N KNOWLEDGE AND DATAENGINEERING(2005)734-749],具体计算过程如下所示:
sim(u,v)=u→·v→||u→||·||v→||=Σx∈X(u,v)Ru,x×Rv,xΣx∈X(u,v)R2u,x×Σx∈X(u,v)R2v,x---(5)]]>
其中u,v为两个用户,X(u,v)为用户u和v共同标注过的资源的集合。用户相似度度量的方法不属于本发明强调的内容。
步骤S34是通过步骤S33选取的相似度度量函数,计算用户-资源模型(步骤S32)中每个用户与其他用户之间相似度,即计算用户-资源评分矩阵中的一个行向量与其他行向量之间的距离。该距离即表示该用户与其他用户之间的相似度。
针对一个目标用户,将其与其他所有用户之间的相似度按照降序排列,取排序最高的前k个用户,得到与该目标用户相似度最大的k个近邻(步骤S35)。
4、资源推荐(步骤S4)
针对步骤S3给出的用户近邻,结合步骤S2计算出的用户喜好的评分数据,为目标用户推荐相应的资源。这一步骤可以使用常用的资源推荐计算方法,参考[Adomavicius,G.,Tuzhilin,A.:Toward the nextgeneration of recommender systems:A survey of thestate-of-the-art and possible extensions.IEEE transactions onknowledge and data engineering 17(2005)734-749],公式(6)给出了一种常见的资源推荐的计算方式:
score(u,i)=Σv∈Neighbor(u)Rv,i×sim(u,v)Σv∈Neighbor(u)sim(u,v)---(6)]]>
其中,Neighbor(u)表示用户u的近邻,sim(u,v)描述了用户u和用户v之间的相似度(由步骤S34计算得到),score(u,i)表示用户u对未标注过的资源i可能的评分情况。系统根据该评分分值,给用户推荐评分较高的前N个资源作为最终推荐的结果。资源推荐的方法不属于本发明强调的内容。
本发明提出的一种新型的基于情景信息的个性化资源信息的推荐方法,具体实现如下所示:
--------------------------
输入:M:数据库(数据库具体包含的内容:用户、用户标注的资源、用户使用的标签,以及标注资源的时间信息)
n:用户数
k:用户近邻个数
N:推荐资源的个数
输出:推荐资源的结果
-------------
1.u=1
2.while u<=n do
3.for用户u所有标注过的资源i∈Ui
4.根据公式(2)计算wtag(u,i)
5.根据公式(3)计算wtime(u,i)
6.根据公式(4)生成用户喜好的评分数据Ru,i
7.i=i+1
8.end for
9.end while
10.for u=1 to n do
11.for v=1 to n do
12.根据公式(5)计算用户相似度sim(u,v)
13.end for
14.取sim(u,v)最大的前k个v作为用户u的近邻
15.for i∈I-Ui
16.根据公式(6)计算score(u,i)
17.end for
18.取score(u,i)最大的前N个资源推荐给用户u
19.end for
--------------------------
该算法中,1--9是用户喜好的评分数据的生成过程,11--14为用户之间的相似度计算过程,15-18为资源推荐过程。采用本发明可以通过情景信息较准确的表达用户的喜好,有效的提高推荐的准确率,为协作式标注系统中的用户提供更好的个性化资源推荐服务。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

一种基于情景信息的个性化资源信息的推荐方法.pdf_第1页
第1页 / 共15页
一种基于情景信息的个性化资源信息的推荐方法.pdf_第2页
第2页 / 共15页
一种基于情景信息的个性化资源信息的推荐方法.pdf_第3页
第3页 / 共15页
点击查看更多>>
资源描述

《一种基于情景信息的个性化资源信息的推荐方法.pdf》由会员分享,可在线阅读,更多相关《一种基于情景信息的个性化资源信息的推荐方法.pdf(15页珍藏版)》请在专利查询网上搜索。

本发明公开一种基于情景信息的个性化资源信息的推荐方法,该方法:对协作式标注系统网页进行预处理,根据特定用户抽取其所有的标注行为的信息,包括标注的资源信息、使用的标签信息,以及标注的时间信息,将用户所有的标注行为的信息存储于数据库;根据数据库中用户对资源使用的标签信息以及标注资源的时间信息,生成表达用户喜好的评分数据;基于生成的用户喜好的评分数据计算用户之间的相似度,以确定具有相似兴趣的用户近邻;根。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1