一种个性化推荐方法及系统.pdf

上传人:r7 文档编号:1569330 上传时间:2018-06-25 格式:PDF 页数:15 大小:662.45KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110365030.9

申请日:

2011.11.17

公开号:

CN103116588A

公开日:

2013.05.22

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20111117|||专利申请权的转移IPC(主分类):G06F 17/30变更事项:申请人变更前权利人:腾讯科技(深圳)有限公司变更后权利人:深圳市世纪光速信息技术有限公司变更事项:地址变更前权利人:518044 广东省深圳市福田区振兴路赛格科技园2栋东403室变更后权利人:518057 广东省深圳市南山区粤海街道科技中一路腾讯大厦16层登记生效日:20131018|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

腾讯科技(深圳)有限公司

发明人:

刘怀军; 刘玉璇

地址:

518044 广东省深圳市福田区振兴路赛格科技园2栋东403室

优先权:

专利代理机构:

深圳中一专利商标事务所 44237

代理人:

温青玲

PDF下载: PDF下载
内容摘要

本发明适用于互联网技术领域,提供了一种个性化推荐方法及系统,所述方法包括下述步骤:分别提取用户数据和推荐内容的特征词;根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。本发明对领域分类体系的每一级均生成不同的分类模型,来分别对用户数据及推荐内容进行自动分类,从而生成相应的标签树以进行相关性匹配,提高了标签描述的准确性和覆盖率。

权利要求书

权利要求书一种个性化推荐方法,其特征在于,所述方法包括下述步骤:
分别提取用户数据和推荐内容的特征词,所述特征词用于表征其所处数据的领域;
根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;
根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。
如权利要求1所述的方法,其特征在于,在所述分别提取用户数据和推荐内容的特征词的步骤之前,所述方法包括下述步骤:
建立多级的领域分类体系。
如权利要求1所述的方法,其特征在于,所述分别提取用户数据和推荐内容的特征词的步骤包括:
度量用户数据和推荐内容中词汇的特征强度;将特征强度大于第二预设阈值的词汇分别提取为用户数据和推荐内容的特征词。
如权利要求1所述的方法,其特征在于,所述获取用户数据和推荐内容归属于每个类别的分类概率的步骤包括:
在所述领域分类体系的每个级别中,通过每个特征词为每个类别生成一个投票值;
分别针对用户数据和推荐内容,将每个类别的投票值进行累加,生成该类别的累计投票值;
归一化所述累计投票值,分别生成用户数据和推荐内容归属于该类别的分类概率。
如权利要求1所述的方法,其特征在于,所述计算所述用户兴趣标签树和所述推荐内容标签树的相关性的步骤包括:
根据相应的分类概率生成用户兴趣标签树和推荐内容标签树;
将分类概率由标签树的顶部至底部逐层连乘,得到每个标签的权重;
在所述用户兴趣标签树和所述推荐内容标签树具备公共节点的最底层,分别提取相应的标签及权重,生成用户兴趣特征向量和推荐内容特征向量;
计算所述用户兴趣特征向量和所述推荐内容特征向量的相关性。
如权利要求5所述的方法,其特征在于,在所述计算所述用户兴趣特征向量和所述推荐内容特征向量的相关性的步骤中,通过余弦夹角来进行相关性计算。
一种个性化推荐系统,其特征在于,所述系统包括:
特征词提取模块,用于分别提取用户数据和推荐内容的特征词;
分类概率获取模块,用于根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;
推荐模块,用于根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。
如权利要求7所述的系统,其特征在于,所述系统还包括:
分类体系建立模块,用于建立多级的领域分类体系。
如权利要求7所述的系统,其特征在于,所述特征词提取模块包括:
特征强度度量单元,用于度量用户数据和推荐内容中词汇的特征强度;
提取单元,用于将特征强度大于第二预设阈值的词汇分别提取为用户数据和推荐内容的特征词。
如权利要求7所述的系统,其特征在于,所述分类概率获取模块包括:
投票值生成单元,用于在所述领域分类体系的每个级别中,通过每个特征词为每个类别生成一个投票值;
投票值累加单元,用于分别针对用户数据和推荐内容,将每个类别的投票值进行累加,生成该类别的累计投票值;
投票值归一化单元,用于归一化所述累计投票值,分别生成用户数据和推荐内容归属于该类别的分类概率。
如权利要求7所述的系统,其特征在于,所述推荐模块包括:
标签树生成单元,用于根据相应的分类概率生成用户兴趣标签树和推荐内容标签树;
标签权重获取单元,用于将分类概率由标签树的顶部至底部逐层连乘,得到每个标签的权重;
特征向量生成单元,用于在所述用户兴趣标签树和所述推荐内容标签树具备公共节点的最底层,分别提取相应的标签及权重,生成用户兴趣特征向量和推荐内容特征向量;
相关性计算单元,用于计算所述用户兴趣特征向量和所述推荐内容特征向量的相关性;
推荐单元,用于当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。

说明书

说明书一种个性化推荐方法及系统
技术领域
本发明属于互联网技术领域,尤其涉及一种个性化推荐方法及系统。
背景技术
随着互联网搜索引擎技术的迅猛发展以及社会性网络服务(social networking service,SNS)的迅速普及,个性化推荐已成为了人们网络生活中不可或缺的网络服务之一,也成为了互联网产品未来发展的一个重点。
现有的个性化推荐方案如下:1、用户根据自身兴趣自行设定喜好的兴趣标签,系统根据推荐内容与用户兴趣标签的匹配程度为用户进行个性化推荐。例如,在新浪微博中,用户自行设定自己的兴趣标签,系统根据推荐微博与用户兴趣标签的匹配程度,为用户进行微博的个性化推荐;2、用户根据自身兴趣,在已经设定好的分类中选择感兴趣的类别标签,系统根据推荐内容与用户类别标签的匹配程度为用户进行个性化推荐。例如,在百度知道中,用户自行选择自己擅长领域的类别标签,系统根据待解答问题与用户类别标签的匹配程度,为用户进行待解答问题的个性化推荐。
然而,由于用户自行选择标签的时间及精力有限,或者鉴于个人隐私不愿意去配置相应的标签,导致标签描述不准确且覆盖率低,使得现有技术无法将标签与推荐内容进行精确匹配。
发明内容
本发明实施例提供一种个性化推荐方法,旨在解决现有的个性化推荐必须由用户自行设定标签,导致推荐内容与标签匹配的准确度和覆盖率均不高的问题。
本发明实施例是这样实现的,一种个性化推荐方法,所述方法包括下述步骤:
分别提取用户数据和推荐内容的特征词,所述特征词用于表征其所处数据的领域;
根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;
根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。
本发明实施例的另一目的在于提供一种个性化推荐系统,所述系统包括:
特征词提取模块,用于分别提取用户数据和推荐内容的特征词;
分类概率获取模块,用于根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;
推荐模块,用于根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。
在本发明实施例中,基于从用户数据和推荐内容中提取出的特征词,对领域分类体系的每一级均生成不同的分类模型,来分别对用户数据及推荐内容进行自动分类,从而生成相应的标签树,以进一步通过相关性匹配来实现对用户的个性化推荐,提高了标签描述的准确性和覆盖率,也由此提高了用户数据与推荐内容匹配的精确性。
附图说明
图1是本发明第一实施例提供的个性化推荐方法的实现流程图;
图2A是词汇“JUMPSQ”的类间分布和类先验分布的对比情况图;
图2B是词汇“招股”的类间分布和类先验分布的对比情况图;
图2C是词汇“始端”的类间分布和类先验分布的对比情况图;
图3是本发明实施例提供的领域分类体系示例图;
图4是本发明第二实施例提供的个性化推荐方法自动分类的具体实现流程图;
图5是本发明第三实施例提供的个性化推荐方法相关性计算的具体实现流程图;
图6A是本发明实现示例提供的用户兴趣标签树示例图;
图6B是本发明实现示例提供的推荐内容标签树示例图;
图7是本发明第四实施例提供的个性化推荐系统的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,基于从用户数据和推荐内容中提取出的特征词,并根据改进的贝叶斯(Bayes)分类算法来分别对用户数据及推荐内容进行自动分类,从而生成相应的标签树,以进一步通过相关性匹配来实现对用户的个性化推荐,提高了标签描述的准确性和覆盖率,也由此提高了用户数据与推荐内容匹配的精确性。
图1示出了本发明第一实施例提供的个性化推荐方法的实现流程,详述如下:
在步骤S101中,分别提取用户数据和推荐内容的特征词。
在本实施例中,用户数据可以由用户的网络行为中获取,例如通过用户在互联网上的浏览新闻、关键词搜索等网络行为,从上述网络行为中获取到携带有用户兴趣倾向的用户数据。而推荐内容则可以为新闻、博客等能够为用户提供信息的互联网内容。
对用户数据和推荐内容进行自动分类,十分重要的一个环节就是要准确地提取相应数据的特征词,该特征词用于表征其所处数据的领域,因此需要具备鲜明的领域性,以能够准确地对领域进行表征。
传统的词频‑逆向文档频率(term frequency‑inverse document frequency,TF‑IDF)方法对于特征词的提取只考虑了词汇的频次,且认为频次很高及很低的词汇都不能够作为特征词,因此常常会出现诸如“JUMPSQ”为动漫领域的特征词,但在考察数据中的出现频次很低,以及“招股”为股票、财经领域的特征词,但在考察数据中的出现频次很高的情况,若使用传统方法,“JUMPSQ”和“财经”均无法入选特征词。同时,诸如“始端”这样领域性不强的噪音词,却其频次适中而入选了特征词,导致特征词提取不准确。
而在本实施例中,对于特征词的提取不但基于词汇的频次,同时还结合了信息增益(information gain,IG)和χ2统计(CHI),具体地,对于数据中词汇特征强度的度量公式如下:
F(w)=log(DF(w))*(λlog(χ2(w)+(1‑λ)IG(w))),
其中,w为当前进行特征强度度量的词汇,F(w)为w的特征强度,IG(w)、χ2(w)和DF(w)分别为w的信息增益、χ2统计量和文档频率,且χ2(w)和IG(w)均是描述词汇w在分类体系中的类间分布与类先验分布的差异度,而DF(w)则是词汇w的频次。
关于信息增益的度量公式为
<mrow><MI>IG</MI> <MROW><MO>(</MO> <MI>w</MI> <MO>)</MO> </MROW><MO>=</MO> <MO>-</MO> <MUNDER><MI>Σ</MI> <MI>i</MI> </MUNDER><MI>P</MI> <MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>i</MI> </MSUB><MO>)</MO> </MROW><MI>log</MI> <MI>P</MI> <MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>i</MI> </MSUB><MO>)</MO> </MROW><MO>+</MO> <MI>P</MI> <MROW><MO>(</MO> <MI>w</MI> <MO>)</MO> </MROW><MUNDER><MI>Σ</MI> <MI>i</MI> </MUNDER><MI>P</MI> <MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>i</MI> </MSUB><MO>|</MO> <MI>w</MI> <MO>)</MO> </MROW><MI>log</MI> <MFRAC><MROW><MI>P</MI> <MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>i</MI> </MSUB><MO>|</MO> <MI>w</MI> <MO>)</MO> </MROW></MROW><MROW><MI>P</MI> <MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>i</MI> </MSUB><MO>)</MO> </MROW></MROW></MFRAC><MO>+</MO> <MI>P</MI> <MROW><MO>(</MO> <MOVER><MI>w</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>)</MO> </MROW><MUNDER><MI>Σ</MI> <MI>i</MI> </MUNDER><MI>log</MI> <MFRAC><MROW><MI>P</MI> <MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>i</MI> </MSUB><MO>|</MO> <MOVER><MI>w</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>)</MO> </MROW></MROW><MROW><MI>P</MI> <MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>i</MI> </MSUB><MO>)</MO> </MROW></MROW></MFRAC></MROW>]]&gt;</MATH></MATHS> <BR>其中,ci为类别,上式分为三个部分,第一部分是整个类的信息熵的负值,第二部分是包含词汇w的信息熵和词汇w出现概率的乘积,第三部分是不包含词汇w的信息熵和不包含词汇w的概率的乘积。在本实施例中,先采用对数梯度将所有候选词按词频划分,如果词汇Wi的词频为DFi,则词汇Wi映射到区间其中step是梯度,一般取整数。表示对x下取整,即不大于x的最大的整数。这样,每个区间内都是词频在一定范围的词汇,因此词汇的{在类中出现,不在类中出现}这两个属性分布就会比较均衡。然后,用上面公式计算词汇的信息增益。最后将每个区间内词汇的信息增益值都归一到一个统一的区间[low,up]。由此,能够避免传统信息增益算法中对于超高频和超低频词的{在类中出现,不在类中出现}这两种属性分布严重失衡的问题。 <BR>关于χ2统计量的度量公式为 <BR><MATHS num="0002"><MATH><![CDATA[ <mrow><MSUP><MI>χ</MI> <MN>2</MN> </MSUP><MROW><MO>(</MO> <MI>w</MI> <MO>)</MO> </MROW><MO>=</MO> <MFENCED close="" open="{"><MTABLE><MTR><MTD><MI>Σ</MI> <MFRAC><MSUP><MROW><MO>(</MO> <MI>A</MI> <MO>-</MO> <MI>T</MI> <MO>)</MO> </MROW><MN>2</MN> </MSUP><MI>T</MI> </MFRAC><MO>,</MO> <MI>T</MI> <MO>&amp;GreaterEqual;</MO> <MI>θ</MI> </MTD></MTR><MTR><MTD><MI>Σ</MI> <MFRAC><MSUP><MROW><MO>(</MO> <MO>|</MO> <MI>A</MI> <MO>-</MO> <MI>T</MI> <MO>|</MO> <MO>-</MO> <MI>λ</MI> <MO>)</MO> </MROW><MN>2</MN> </MSUP><MI>T</MI> </MFRAC><MO>,</MO> <MN>1</MN> <MO>≤</MO> <MI>T</MI> <MO>&lt;</MO> <MI>θ</MI> <MO>,</MO> <MN>0</MN> <MO>&lt;</MO> <MI>λ</MI> <MO>&lt;</MO> <MN>1</MN> </MTD></MTR></MTABLE></MFENCED></MROW>]]&gt;</MATH></MATHS> <BR>其中,A是实际分布值,T是理论分布值,θ是理论值的阈值,λ是一个校正因子。通过引入校正因子,可以避免出现传统χ2统计量针对高频词的统计量基本偏高,针对低频词的统计量基本偏低且统计量不准确,导致高频词和低频词的χ2统计量可比性不强的问题。 <BR>在本实施例中,在对词汇的特征强度进行度量的过程中,结合考虑了词汇的信息增益、χ2统计量,能够避免传统的TF‑IDF方法所带来的上述问题。图2A至图2C分别示出了“JUMPSQ”、“招股”和“始端”这三个词汇的类间分布和类先验分布的对比情况,可以看出,“JUMPSQ”和“招股”的类间分布与类先验分布的基本吻合点很少,差异化很大,分别在动漫(comic)领域和财经(finance)领域成为领域性强的词,因此其所处数据分别为动漫领域数据和财经领域数据,而“始端”的类间分布与类先验分布吻合度高,相似性强,因此成为噪音词。由此能够看出,本实施例结合了信息增益、χ2统计量和文档频率的方法能够更准确地对数据中的词汇特征强度进行描述,以使提取出的特征词具有很强的领域性。 <BR>在本实施例中,当对数据中词汇的特征强度均进行了度量之后,将特征强度大于第二预设阈值的若干个词汇提取为用户数据和推荐内容的特征词,而第二预设阈值的大小可以根据实际情况而确定,在此不作限定。 <BR>在步骤S102中,根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率。 <BR>在本实施例中,预设的领域分类体系为事先建立的多级领域分类体系,其可以为如图3所示的多级分类体系,该分类体系对用户数据和推荐内容能够涉及到的领域进行了精细的分类,该分类体系的分类级和类别越精细,则所带来的用户数据与最终的推荐内容的匹配度越高。 <BR>在分别提取出了用户数据和推荐内容的特征词后,需要一个快速且精准的分类算法来对上述两种数据在领域分类体系中进行自动分类,同时,还必须使得设定出来的标签满足多级分类和多类兼类的要求,以建立多维度、多级别的用户兴趣标签树以及推荐内容标签树。例如,用户的爱好涉及到“娱乐‑>明星‑>港台明星”以及“科技‑>数码”这样一个多维度、多级别的用户兴趣标签树。 <BR>在本实施例中,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,以达到多级分类的分类效果,且每次分类模型的生成,只在该级别相同的父类范围内进行,以达到多类兼类的分类效果,具体的分类模型生成步骤及相应的分类概率获取步骤将在后续实施例中进行详细说明,在此不赘述。 <BR>在步骤S103中,根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。 <BR>通过步骤S102生成的分类模型,能够为用户数据以及推荐内容在领域分类体系中的每一级每一类中均计算出其相应的分类概率,而通过取分类概率最大的前预设个类别,则能够组成多维多级的分类结果,这些分类结果即组成了携带了概率倾向的用户兴趣标签树和推荐内容标签树,该标签树由多个不同的子树构成,用于实现对用户兴趣或者推荐内容的多维度多级别的倾向性覆盖。 <BR>在本实施例中,对生成的用户兴趣标签树和推荐内容标签树进行相关性计算,当其相关性大于第一预设阈值时,则代表用户兴趣可能与该推荐内容相符,则为用户进行推荐,其具体的实现流程将在后续实施例进行详细说明,在此不赘述。 <BR>在本实施例中,通过上述步骤,即可根据用户行为自动地生成准确度高、覆盖率大的用户兴趣标签树,并将该标签树与推荐内容标签树进行相关性匹配,从而精确地对用户进行个性化推荐。 <BR>图4示出了本发明第二实施例提供的个性化推荐方法自动分类的具体实现流程,详述如下: <BR>在步骤S401中,在领域分类体系的每个级别中,通过每个特征词为每个类别生成一个投票值。 <BR>具体地,通过每一个特征词为每个类别生成投票值的公式如下: <BR>Val(cj/wi)=log(tf(wi))*P(cj/wi), <BR>其中,wi为特征词,cj为类别,tf(wi)为wi的频次, <BR>且P(w/ci)为特征词wi属于类别cj的先验概率。 <BR>在步骤S402中,分别针对用户数据和推荐内容,将每个类别的投票值进行累加,生成该类别的累计投票值。 <BR>具体地,生成累计投票值的公式为: <BR><MATHS num="0003"><MATH><![CDATA[ <mrow><MI>Val</MI> <MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>j</MI> </MSUB><MO>)</MO> </MROW><MO>=</MO> <MUNDER><MI>Σ</MI> <MI>i</MI> </MUNDER><MI>Val</MI> <MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>j</MI> </MSUB><MO>/</MO> <MSUB><MI>w</MI> <MI>i</MI> </MSUB><MO>)</MO> </MROW><MO>.</MO> </MROW>]]&gt;</MATH></MATHS> <BR>在步骤S403中,归一化所述累计投票值,分别生成用户数据和推荐内容归属于该类别的分类概率。 <BR>具体地,生成用户数据和推荐内容归属于领域分类体系中某类别的分类概率的公式为: <BR><MATHS num="0004"><MATH><![CDATA[ <mrow><MI>P</MI> <MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>j</MI> </MSUB><MO>)</MO> </MROW><MO>=</MO> <MFRAC><MROW><MI>Val</MI> <MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>j</MI> </MSUB><MO>)</MO> </MROW></MROW><MROW><MUNDER><MI>Σ</MI> <MI>i</MI> </MUNDER><MI>Val</MI> <MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>i</MI> </MSUB><MO>)</MO> </MROW></MROW></MFRAC><MO>.</MO> </MROW>]]&gt;</MATH></MATHS> <BR>需要说明的是,在对用户数据或者推荐内容进行每一级的自动分类时,对该级的分类只限在相同的父类范围内进行,例如,第一级分在“娱乐”类别,则在对第二级进行自动分类时,只在“娱乐”的子类“明星”、“电影”、“音乐”内进行分类,依次类推,第三级、第四级也按相同的父类范围来进行分类约束,由此,能够形成多类兼类的标签覆盖效果。 <BR>图5示出了本发明第三实施例提供的个性化推荐方法相关性计算的具体实现流程,详述如下: <BR>在步骤S501中,根据相应的分类概率生成用户兴趣标签树和推荐内容标签树。 <BR>作为本实施例的实现示例,图6A和图6B分别示出了通过相应的分类概率生成的具体的用户兴趣标签树和推荐内容标签树,能够看出,如上所述,对一级的分类只限在相同的父类范围内进行,例如,在用户兴趣标签树中,位于相同层级的“明星”、“电影”和“足球”类别,“明星”和“电影”在相同的父类“娱乐”类别下进行分类,其分类概率和为1,而“足球”则在“体育”类别下进行分类。 <BR>在步骤S502中,将分类概率由标签树的顶部至底部逐层连乘,得到每个标签的权重,相应的传递公式为: <BR><MATHS num="0005"><MATH><![CDATA[ <mrow><MSUB><MI>P</MI> <MI>new</MI> </MSUB><MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>j</MI> </MSUB><MO>/</MO> <MSUB><MI>c</MI> <MN>0</MN> </MSUB><MO>-</MO> <MO>&gt;</MO> <MSUB><MI>c</MI> <MN>1</MN> </MSUB><MO>-</MO> <MO>&gt;</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>-</MO> <MO>&gt;</MO> <MSUB><MI>c</MI> <MI>j</MI> </MSUB><MO>)</MO> </MROW><MO>=</MO> <MUNDEROVER><MI>Π</MI> <MROW><MI>i</MI> <MO>=</MO> <MN>0</MN> </MROW><MROW><MI>i</MI> <MO>=</MO> <MI>j</MI> </MROW></MUNDEROVER><MI>P</MI> <MROW><MO>(</MO> <MSUB><MI>c</MI> <MI>i</MI> </MSUB><MO>)</MO> </MROW></MROW>]]&gt;</MATH></MATHS> <BR>其中,c0‑>c1‑>...‑>cj表示从标签树的顶部标签c0到当前标签cj的传递路径,例如传递路径“娱乐‑>明星‑>港台”,通过将分类概率进行逐层连乘,从而使唤标签树中的每个标签都获得到一个相应的权重。 <BR>在步骤S503中,在所述用户兴趣标签树和所述推荐内容标签树具备公共节点的最底层,分别提取相应的标签及权重,生成用户兴趣特征向量和推荐内容特征向量。 <BR>在本实施例中,在提取标签及权重以组成相应的用户兴趣特征向量和推荐内容特征向量的过程中,采用了公共节点终止的方法,即将标签的提取位置置于用户兴趣标签树和推荐内容标签树具备公共节点的层次的最底一层。例如,用户兴趣标签树中“娱乐”的传递路径是“娱乐‑>明星‑>港台”,但推荐内容标签树中“娱乐”的传递路径是“娱乐‑>明星”,则在提取标签时,提取“明星”这一层的标签,以实现更准确、更全面的匹配。 <BR>在对标签及其权重进行提取之后,分别针对用户数据和推荐内容生成一维的用户兴趣特征向量和推荐内容特征向量F={fc1,fc2,...,fcn}。以图6A和图6B所示的标签树为例,则生成的用户兴趣特征向量为Fusr={明星,电影,足球},Fdata={明星,电影,足球,篮球}。 <BR>在步骤S504中,计算用户兴趣特征向量和推荐内容特征向量的相关性。 <BR>具体地,可以通过余弦夹角来计算用户兴趣特征向量和推荐内容特征向量的相关性。 <BR>由此,根据计算出的相关性,通过判断相关性的大小,当相关性大于第一预设阈值时,则代表用户兴趣可能与该推荐内容相符,则为用户进行推荐,以实现对用户的多兴趣及不同兴趣倾向的个性化推荐。 <BR>图7示出了本发明第四实施例提供的个性化推荐系统的结构,为了便于说明,仅示出了与本实施例相关的部分。 <BR>具体地,该个性化推荐系统包括了: <BR>特征词提取模块71,分别提取用户数据和推荐内容的特征词。 <BR>特征强度度量单元711,度量用户数据和推荐内容中词汇的特征强度,所述特征强度的度量公式为:F(w)=log(DF(w))*(λlog(χ2(w)+(1‑λ)IG(w))),其中,w为进行特征强度度量的词汇,F(w)为w的特征强度,IG(w)、χ2(w)和DF(w)分别为w的信息增益、χ2统计量和文档频率。 <BR>提取单元712,将特征强度大于第二预设阈值的词汇分别提取为用户数据和推荐内容的特征词。 <BR>分类概率获取模块72,根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率。 <BR>投票值生成单元721,在所述领域分类体系的每个级别中,通过每个特征词为每个类别生成一个投票值,所述投票值生成公式为:Val(cj/wi)=log(tf(wi))*P(cj/wi),其中,wi为特征词,cj为类别,tf(wi)为wi的频次,且P(w/ci)为wi属于cj的先验概率。 <BR>投票值累加单元722,分别针对用户数据和推荐内容,将每个类别的投票值进行累加,生成该类别的累计投票值。 <BR>投票值归一化单元723,归一化所述累计投票值,分别生成用户数据和推荐内容归属于该类别的分类概率。 <BR>推荐模块73,根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。 <BR>标签树生成单元731,根据相应的分类概率生成用户兴趣标签树和推荐内容标签树。 <BR>标签权重获取单元732,将分类概率由标签树的顶部至底部逐层连乘,得到每个标签的权重。 <BR>特征向量生成单元733,在所述用户兴趣标签树和所述推荐内容标签树具备公共节点的最底层,分别提取相应的标签及权重,生成用户兴趣特征向量和推荐内容特征向量。 <BR>相关性计算单元734,计算所述用户兴趣特征向量和所述推荐内容特征向量的相关性。 <BR>推荐单元735,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。 <BR>分类体系建立模块74,建立多级的领域分类体系。 <BR>本发明第四实施例提供的个性化推荐系统可以使用在前述对应的个性化推荐方法实施例一、二和三中,详情参见上述本发明第一、二、三实施例的相关描述,在此不再赘述。 <BR>在本实施例中,基于从用户数据和推荐内容中提取出的特征词,对领域分类体系的每一级均生成不同的分类模型,来分别对用户数据及推荐内容进行自动分类,从而生成相应的标签树,以进一步通过相关性匹配来实现对用户的个性化推荐,提高了标签描述的准确性和覆盖率,也由此提高了用户数据与推荐内容匹配的精确性。 <BR>以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。</p></div> </div> </div> </div> <div class="tempdiv cssnone" style="line-height:0px;height:0px; overflow:hidden;"> </div> <div id="page"> <div class="page"><img src='https://img.zhuanlichaxun.net/fileroot2/2018-6/16/7b23c80a-0ff1-4f9e-aa28-1917a2469491/7b23c80a-0ff1-4f9e-aa28-1917a24694911.gif' alt="一种个性化推荐方法及系统.pdf_第1页" width='100%'/></div><div class="pageSize">第1页 / 共15页</div> <div class="page"><img src='https://img.zhuanlichaxun.net/fileroot2/2018-6/16/7b23c80a-0ff1-4f9e-aa28-1917a2469491/7b23c80a-0ff1-4f9e-aa28-1917a24694912.gif' alt="一种个性化推荐方法及系统.pdf_第2页" width='100%'/></div><div class="pageSize">第2页 / 共15页</div> <div class="page"><img src='https://img.zhuanlichaxun.net/fileroot2/2018-6/16/7b23c80a-0ff1-4f9e-aa28-1917a2469491/7b23c80a-0ff1-4f9e-aa28-1917a24694913.gif' alt="一种个性化推荐方法及系统.pdf_第3页" width='100%'/></div><div class="pageSize">第3页 / 共15页</div> </div> <div id="pageMore" class="btnmore" onclick="ShowSvg();">点击查看更多>></div> <div style="margin-top:20px; line-height:0px; height:0px; overflow:hidden;"> <div style=" font-size: 16px; background-color:#e5f0f7; font-weight: bold; text-indent:10px; line-height: 40px; height:40px; padding-bottom: 0px; margin-bottom:10px;">资源描述</div> <div class="detail-article prolistshowimg"> <p>《一种个性化推荐方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种个性化推荐方法及系统.pdf(15页珍藏版)》请在专利查询网上搜索。</p> <p >1、(10)申请公布号 CN 103116588 A(43)申请公布日 2013.05.22CN103116588A*CN103116588A*(21)申请号 201110365030.9(22)申请日 2011.11.17G06F 17/30(2006.01)(71)申请人腾讯科技(深圳)有限公司地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室(72)发明人刘怀军 刘玉璇(74)专利代理机构深圳中一专利商标事务所 44237代理人温青玲(54) 发明名称一种个性化推荐方法及系统(57) 摘要本发明适用于互联网技术领域,提供了一种个性化推荐方法及系统,所述方法包括下述步骤:分别。</p> <p >2、提取用户数据和推荐内容的特征词;根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。本发明对领域分类体系的每一级均生成不同的分类模型,来分别对用户数据及推荐内容进行自动分类,从而生成相应的标签树以进行相关性匹配,提高了标签描述的准确性和覆盖率。(51)Int.Cl.权利要求书2页 说明书7页 附图5页(19)中华人民共和国国家知识产权局(12)发明专利申。</p> <p >3、请权利要求书2页 说明书7页 附图5页(10)申请公布号 CN 103116588 ACN 103116588 A1/2页21.一种个性化推荐方法,其特征在于,所述方法包括下述步骤:分别提取用户数据和推荐内容的特征词,所述特征词用于表征其所处数据的领域;根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。2.如权利要求1所述的方法,其特。</p> <p >4、征在于,在所述分别提取用户数据和推荐内容的特征词的步骤之前,所述方法包括下述步骤:建立多级的领域分类体系。3.如权利要求1所述的方法,其特征在于,所述分别提取用户数据和推荐内容的特征词的步骤包括:度量用户数据和推荐内容中词汇的特征强度;将特征强度大于第二预设阈值的词汇分别提取为用户数据和推荐内容的特征词。4.如权利要求1所述的方法,其特征在于,所述获取用户数据和推荐内容归属于每个类别的分类概率的步骤包括:在所述领域分类体系的每个级别中,通过每个特征词为每个类别生成一个投票值;分别针对用户数据和推荐内容,将每个类别的投票值进行累加,生成该类别的累计投票值;归一化所述累计投票值,分别生成用户数据和。</p> <p >5、推荐内容归属于该类别的分类概率。5.如权利要求1所述的方法,其特征在于,所述计算所述用户兴趣标签树和所述推荐内容标签树的相关性的步骤包括:根据相应的分类概率生成用户兴趣标签树和推荐内容标签树;将分类概率由标签树的顶部至底部逐层连乘,得到每个标签的权重;在所述用户兴趣标签树和所述推荐内容标签树具备公共节点的最底层,分别提取相应的标签及权重,生成用户兴趣特征向量和推荐内容特征向量;计算所述用户兴趣特征向量和所述推荐内容特征向量的相关性。6.如权利要求5所述的方法,其特征在于,在所述计算所述用户兴趣特征向量和所述推荐内容特征向量的相关性的步骤中,通过余弦夹角来进行相关性计算。7.一种个性化推荐系统,。</p> <p >6、其特征在于,所述系统包括:特征词提取模块,用于分别提取用户数据和推荐内容的特征词;分类概率获取模块,用于根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;推荐模块,用于根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。8.如权利要求7所述的系统,其特征在于,所述系统还包括:分类体系建立模块,用于建立多级的领域分类体系。权 利 要 求 书CN 103116588 A2/2页39.如权利。</p> <p >7、要求7所述的系统,其特征在于,所述特征词提取模块包括:特征强度度量单元,用于度量用户数据和推荐内容中词汇的特征强度;提取单元,用于将特征强度大于第二预设阈值的词汇分别提取为用户数据和推荐内容的特征词。10.如权利要求7所述的系统,其特征在于,所述分类概率获取模块包括:投票值生成单元,用于在所述领域分类体系的每个级别中,通过每个特征词为每个类别生成一个投票值;投票值累加单元,用于分别针对用户数据和推荐内容,将每个类别的投票值进行累加,生成该类别的累计投票值;投票值归一化单元,用于归一化所述累计投票值,分别生成用户数据和推荐内容归属于该类别的分类概率。11.如权利要求7所述的系统,其特征在于,所述。</p> <p >8、推荐模块包括:标签树生成单元,用于根据相应的分类概率生成用户兴趣标签树和推荐内容标签树;标签权重获取单元,用于将分类概率由标签树的顶部至底部逐层连乘,得到每个标签的权重;特征向量生成单元,用于在所述用户兴趣标签树和所述推荐内容标签树具备公共节点的最底层,分别提取相应的标签及权重,生成用户兴趣特征向量和推荐内容特征向量;相关性计算单元,用于计算所述用户兴趣特征向量和所述推荐内容特征向量的相关性;推荐单元,用于当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。权 利 要 求 书CN 103116588 A1/7页4一种个性化推荐方法及系统技术领域0001 本发明属于互联网技术领域,尤其涉及。</p> <p >9、一种个性化推荐方法及系统。背景技术0002 随着互联网搜索引擎技术的迅猛发展以及社会性网络服务(social networking service,SNS)的迅速普及,个性化推荐已成为了人们网络生活中不可或缺的网络服务之一,也成为了互联网产品未来发展的一个重点。0003 现有的个性化推荐方案如下:1、用户根据自身兴趣自行设定喜好的兴趣标签,系统根据推荐内容与用户兴趣标签的匹配程度为用户进行个性化推荐。例如,在新浪微博中,用户自行设定自己的兴趣标签,系统根据推荐微博与用户兴趣标签的匹配程度,为用户进行微博的个性化推荐;2、用户根据自身兴趣,在已经设定好的分类中选择感兴趣的类别标签,系统根据推荐内。</p> <p >10、容与用户类别标签的匹配程度为用户进行个性化推荐。例如,在百度知道中,用户自行选择自己擅长领域的类别标签,系统根据待解答问题与用户类别标签的匹配程度,为用户进行待解答问题的个性化推荐。0004 然而,由于用户自行选择标签的时间及精力有限,或者鉴于个人隐私不愿意去配置相应的标签,导致标签描述不准确且覆盖率低,使得现有技术无法将标签与推荐内容进行精确匹配。发明内容0005 本发明实施例提供一种个性化推荐方法,旨在解决现有的个性化推荐必须由用户自行设定标签,导致推荐内容与标签匹配的准确度和覆盖率均不高的问题。0006 本发明实施例是这样实现的,一种个性化推荐方法,所述方法包括下述步骤:0007 分别提。</p> <p >11、取用户数据和推荐内容的特征词,所述特征词用于表征其所处数据的领域;0008 根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;0009 根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。0010 本发明实施例的另一目的在于提供一种个性化推荐系统,所述系统包括:0011 特征词提取模块,用于分别提取用户数据和推荐内容的特征词;0012 分类概率获取模块,用于根据提取出的特征词,通过在预。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>12、设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;0013 推荐模块,用于根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计说 明 书CN 103116588 A2/7页5算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。0014 在本发明实施例中,基于从用户数据和推荐内容中提取出的特征词,对领域分类体系的每一级均生成不同的分类模型,来分别对用户数据及推荐内容进行自动分类,从而生成相应的标签树,以进一步通过相关性匹配来实现对用户的个性化推荐,提高了标签描述的准。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>13、确性和覆盖率,也由此提高了用户数据与推荐内容匹配的精确性。附图说明0015 图1是本发明第一实施例提供的个性化推荐方法的实现流程图;0016 图2A是词汇“JUMPSQ”的类间分布和类先验分布的对比情况图;0017 图2B是词汇“招股”的类间分布和类先验分布的对比情况图;0018 图2C是词汇“始端”的类间分布和类先验分布的对比情况图;0019 图3是本发明实施例提供的领域分类体系示例图;0020 图4是本发明第二实施例提供的个性化推荐方法自动分类的具体实现流程图;0021 图5是本发明第三实施例提供的个性化推荐方法相关性计算的具体实现流程图;0022 图6A是本发明实现示例提供的用户兴趣标签。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>14、树示例图;0023 图6B是本发明实现示例提供的推荐内容标签树示例图;0024 图7是本发明第四实施例提供的个性化推荐系统的结构图。具体实施方式0025 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。0026 在本发明实施例中,基于从用户数据和推荐内容中提取出的特征词,并根据改进的贝叶斯(Bayes)分类算法来分别对用户数据及推荐内容进行自动分类,从而生成相应的标签树,以进一步通过相关性匹配来实现对用户的个性化推荐,提高了标签描述的准确性和覆盖率,也由此提高了用户数据与推。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>15、荐内容匹配的精确性。0027 图1示出了本发明第一实施例提供的个性化推荐方法的实现流程,详述如下:0028 在步骤S101中,分别提取用户数据和推荐内容的特征词。0029 在本实施例中,用户数据可以由用户的网络行为中获取,例如通过用户在互联网上的浏览新闻、关键词搜索等网络行为,从上述网络行为中获取到携带有用户兴趣倾向的用户数据。而推荐内容则可以为新闻、博客等能够为用户提供信息的互联网内容。0030 对用户数据和推荐内容进行自动分类,十分重要的一个环节就是要准确地提取相应数据的特征词,该特征词用于表征其所处数据的领域,因此需要具备鲜明的领域性,以能够准确地对领域进行表征。0031 传统的词频-逆。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>16、向文档频率(term frequency-inverse document frequency,TF-IDF)方法对于特征词的提取只考虑了词汇的频次,且认为频次很高及很低的词汇都不能够作为特征词,因此常常会出现诸如“JUMPSQ”为动漫领域的特征词,但在考察数据中的出现频次很低,以及“招股”为股票、财经领域的特征词,但在考察数据中的出现频次很高的说 明 书CN 103116588 A3/7页6情况,若使用传统方法,“JUMPSQ”和“财经”均无法入选特征词。同时,诸如“始端”这样领域性不强的噪音词,却其频次适中而入选了特征词,导致特征词提取不准确。0032 而在本实施例中,对于特征词的提取不但。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>17、基于词汇的频次,同时还结合了信息增益(information gain,IG)和2统计(CHI),具体地,对于数据中词汇特征强度的度量公式如下:0033 F(w)log(DF(w)*(log(2(w)+(1-)IG(w),0034 其中,w为当前进行特征强度度量的词汇,F(w)为w的特征强度,IG(w)、2(w)和DF(w)分别为w的信息增益、2统计量和文档频率,且2(w)和IG(w)均是描述词汇w在分类体系中的类间分布与类先验分布的差异度,而DF(w)则是词汇w的频次。0035 关于信息增益的度量公式为0036 0037 其中,ci为类别,上式分为三个部分,第一部分是整个类的信息熵的负值,第。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>18、二部分是包含词汇w的信息熵和词汇w出现概率的乘积,第三部分是不包含词汇w的信息熵和不包含词汇w的概率的乘积。在本实施例中,先采用对数梯度将所有候选词按词频划分,如果词汇Wi的词频为DFi,则词汇Wi映射到区间其中step是梯度,一般取整数。表示对x下取整,即不大于x的最大的整数。这样,每个区间内都是词频在一定范围的词汇,因此词汇的在类中出现,不在类中出现这两个属性分布就会比较均衡。然后,用上面公式计算词汇的信息增益。最后将每个区间内词汇的信息增益值都归一到一个统一的区间low,up。由此,能够避免传统信息增益算法中对于超高频和超低频词的在类中出现,不在类中出现这两种属性分布严重失衡的问题。00。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>19、38 关于2统计量的度量公式为0039 0040 其中,A是实际分布值,T是理论分布值,是理论值的阈值,是一个校正因子。通过引入校正因子,可以避免出现传统2统计量针对高频词的统计量基本偏高,针对低频词的统计量基本偏低且统计量不准确,导致高频词和低频词的2统计量可比性不强的问题。0041 在本实施例中,在对词汇的特征强度进行度量的过程中,结合考虑了词汇的信息增益、2统计量,能够避免传统的TF-IDF方法所带来的上述问题。图2A至图2C分别示出了“JUMPSQ”、“招股”和“始端”这三个词汇的类间分布和类先验分布的对比情况,可以看出,“JUMPSQ”和“招股”的类间分布与类先验分布的基本吻合点很少。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>20、,差异化很大,分别在动漫(comic)领域和财经(finance)领域成为领域性强的词,因此其所处数据分别为动漫领域数据和财经领域数据,而“始端”的类间分布与类先验分布吻合度高,相似性强,因此成为噪音词。由此能够看出,本实施例结合了信息增益、2统计量和文档频率的方法能够更准说 明 书CN 103116588 A4/7页7确地对数据中的词汇特征强度进行描述,以使提取出的特征词具有很强的领域性。0042 在本实施例中,当对数据中词汇的特征强度均进行了度量之后,将特征强度大于第二预设阈值的若干个词汇提取为用户数据和推荐内容的特征词,而第二预设阈值的大小可以根据实际情况而确定,在此不作限定。0043 。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>21、在步骤S102中,根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率。0044 在本实施例中,预设的领域分类体系为事先建立的多级领域分类体系,其可以为如图3所示的多级分类体系,该分类体系对用户数据和推荐内容能够涉及到的领域进行了精细的分类,该分类体系的分类级和类别越精细,则所带来的用户数据与最终的推荐内容的匹配度越高。0045 在分别提取出了用户数据和推荐内容的特征词后,需要一个快速且精准的分类算法来对上述两种数据在领域分类体系中进行自动分类,同时,还必须使得设定出来的标签满足多级分类和多类兼类的。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>22、要求,以建立多维度、多级别的用户兴趣标签树以及推荐内容标签树。例如,用户的爱好涉及到“娱乐-明星-港台明星”以及“科技-数码”这样一个多维度、多级别的用户兴趣标签树。0046 在本实施例中,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,以达到多级分类的分类效果,且每次分类模型的生成,只在该级别相同的父类范围内进行,以达到多类兼类的分类效果,具体的分类模型生成步骤及相应的分类概率获取步骤将在后续实施例中进行详细说明,在此不赘述。0047 在步骤S103中,根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>23、当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。0048 通过步骤S102生成的分类模型,能够为用户数据以及推荐内容在领域分类体系中的每一级每一类中均计算出其相应的分类概率,而通过取分类概率最大的前预设个类别,则能够组成多维多级的分类结果,这些分类结果即组成了携带了概率倾向的用户兴趣标签树和推荐内容标签树,该标签树由多个不同的子树构成,用于实现对用户兴趣或者推荐内容的多维度多级别的倾向性覆盖。0049 在本实施例中,对生成的用户兴趣标签树和推荐内容标签树进行相关性计算,当其相关性大于第一预设阈值时,则代表用户兴趣可能与该推荐内容相符,则为用户进行推荐,其具体的实现流程将在后续实施例进。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>24、行详细说明,在此不赘述。0050 在本实施例中,通过上述步骤,即可根据用户行为自动地生成准确度高、覆盖率大的用户兴趣标签树,并将该标签树与推荐内容标签树进行相关性匹配,从而精确地对用户进行个性化推荐。0051 图4示出了本发明第二实施例提供的个性化推荐方法自动分类的具体实现流程,详述如下:0052 在步骤S401中,在领域分类体系的每个级别中,通过每个特征词为每个类别生成一个投票值。0053 具体地,通过每一个特征词为每个类别生成投票值的公式如下:说 明 书CN 103116588 A5/7页80054 Val(cj/wi)log(tf(wi)*P(cj/wi),0055 其中,wi为特征词,。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>25、cj为类别,tf(wi)为wi的频次,0056 且P(w/ci)为特征词wi属于类别cj的先验概率。0057 在步骤S402中,分别针对用户数据和推荐内容,将每个类别的投票值进行累加,生成该类别的累计投票值。0058 具体地,生成累计投票值的公式为:0059 0060 在步骤S403中,归一化所述累计投票值,分别生成用户数据和推荐内容归属于该类别的分类概率。0061 具体地,生成用户数据和推荐内容归属于领域分类体系中某类别的分类概率的公式为:0062 0063 需要说明的是,在对用户数据或者推荐内容进行每一级的自动分类时,对该级的分类只限在相同的父类范围内进行,例如,第一级分在“娱乐”类别,则。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>26、在对第二级进行自动分类时,只在“娱乐”的子类“明星”、“电影”、“音乐”内进行分类,依次类推,第三级、第四级也按相同的父类范围来进行分类约束,由此,能够形成多类兼类的标签覆盖效果。0064 图5示出了本发明第三实施例提供的个性化推荐方法相关性计算的具体实现流程,详述如下:0065 在步骤S501中,根据相应的分类概率生成用户兴趣标签树和推荐内容标签树。0066 作为本实施例的实现示例,图6A和图6B分别示出了通过相应的分类概率生成的具体的用户兴趣标签树和推荐内容标签树,能够看出,如上所述,对一级的分类只限在相同的父类范围内进行,例如,在用户兴趣标签树中,位于相同层级的“明星”、“电影”和“足球。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>27、”类别,“明星”和“电影”在相同的父类“娱乐”类别下进行分类,其分类概率和为1,而“足球”则在“体育”类别下进行分类。0067 在步骤S502中,将分类概率由标签树的顶部至底部逐层连乘,得到每个标签的权重,相应的传递公式为:0068 0069 其中,c0-c1-.-cj表示从标签树的顶部标签c0到当前标签cj的传递路径,例如传递路径“娱乐-明星-港台”,通过将分类概率进行逐层连乘,从而使唤标签树中的每个标签都获得到一个相应的权重。0070 在步骤S503中,在所述用户兴趣标签树和所述推荐内容标签树具备公共节点的最底层,分别提取相应的标签及权重,生成用户兴趣特征向量和推荐内容特征向量。0071 。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>28、在本实施例中,在提取标签及权重以组成相应的用户兴趣特征向量和推荐内容特说 明 书CN 103116588 A6/7页9征向量的过程中,采用了公共节点终止的方法,即将标签的提取位置置于用户兴趣标签树和推荐内容标签树具备公共节点的层次的最底一层。例如,用户兴趣标签树中“娱乐”的传递路径是“娱乐-明星-港台”,但推荐内容标签树中“娱乐”的传递路径是“娱乐-明星”,则在提取标签时,提取“明星”这一层的标签,以实现更准确、更全面的匹配。0072 在对标签及其权重进行提取之后,分别针对用户数据和推荐内容生成一维的用户兴趣特征向量和推荐内容特征向量Ffc1,fc2,.,fcn。以图6A和图6B所示的标签树为。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>29、例,则生成的用户兴趣特征向量为Fusr明星,电影,足球,Fdata明星,电影,足球,篮球。0073 在步骤S504中,计算用户兴趣特征向量和推荐内容特征向量的相关性。0074 具体地,可以通过余弦夹角来计算用户兴趣特征向量和推荐内容特征向量的相关性。0075 由此,根据计算出的相关性,通过判断相关性的大小,当相关性大于第一预设阈值时,则代表用户兴趣可能与该推荐内容相符,则为用户进行推荐,以实现对用户的多兴趣及不同兴趣倾向的个性化推荐。0076 图7示出了本发明第四实施例提供的个性化推荐系统的结构,为了便于说明,仅示出了与本实施例相关的部分。0077 具体地,该个性化推荐系统包括了:0078 特。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>30、征词提取模块71,分别提取用户数据和推荐内容的特征词。0079 特征强度度量单元711,度量用户数据和推荐内容中词汇的特征强度,所述特征强度的度量公式为:F(w)log(DF(w)*(log(2(w)+(1-)IG(w),其中,w为进行特征强度度量的词汇,F(w)为w的特征强度,IG(w)、2(w)和DF(w)分别为w的信息增益、2统计量和文档频率。0080 提取单元712,将特征强度大于第二预设阈值的词汇分别提取为用户数据和推荐内容的特征词。0081 分类概率获取模块72,根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>31、内容归属于每个类别的分类概率。0082 投票值生成单元721,在所述领域分类体系的每个级别中,通过每个特征词为每个类别生成一个投票值,所述投票值生成公式为:Val(cj/wi)log(tf(wi)*P(cj/wi),其中,wi为特征词,cj为类别,tf(wi)为wi的频次,且P(w/ci)为wi属于cj的先验概率。0083 投票值累加单元722,分别针对用户数据和推荐内容,将每个类别的投票值进行累加,生成该类别的累计投票值。0084 投票值归一化单元723,归一化所述累计投票值,分别生成用户数据和推荐内容归属于该类别的分类概率。0085 推荐模块73,根据相应的分类概率生成用户兴趣标签树和推荐。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>32、内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值说 明 书CN 103116588 A7/7页10时,为用户推荐相应的推荐内容。0086 标签树生成单元731,根据相应的分类概率生成用户兴趣标签树和推荐内容标签树。0087 标签权重获取单元732,将分类概率由标签树的顶部至底部逐层连乘,得到每个标签的权重。0088 特征向量生成单元733,在所述用户兴趣标签树和所述推荐内容标签树具备公共节点的最底层,分别提取相应的标签及权重,生成用户兴趣特征向量和推荐内容特征向量。0089 相关性计算单元734,计算所述用户兴趣特征向量和所述推荐内容特征向量的相关性。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>33、。0090 推荐单元735,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。0091 分类体系建立模块74,建立多级的领域分类体系。0092 本发明第四实施例提供的个性化推荐系统可以使用在前述对应的个性化推荐方法实施例一、二和三中,详情参见上述本发明第一、二、三实施例的相关描述,在此不再赘述。0093 在本实施例中,基于从用户数据和推荐内容中提取出的特征词,对领域分类体系的每一级均生成不同的分类模型,来分别对用户数据及推荐内容进行自动分类,从而生成相应的标签树,以进一步通过相关性匹配来实现对用户的个性化推荐,提高了标签描述的准确性和覆盖率,也由此提高了用户数据与推荐内容匹配的精确性。0094 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。说 明 书CN 103116588 A10。</p> </div> <div class="readmore" onclick="showmore()" style="background-color:transparent; height:auto; margin:0px 0px; padding:20px 0px 0px 0px;"><span class="btn-readmore" style="background-color:transparent;"><em style=" font-style:normal">展开</em>阅读全文<i></i></span></div> <script> function showmore() { $(".readmore").hide(); $(".detail-article").css({ "height":"auto", "overflow": "hidden" }); } $(document).ready(function() { var dh = $(".detail-article").height(); if(dh >100) { $(".detail-article").css({ "height":"100px", "overflow": "hidden" }); } else { $(".readmore").hide(); } }); </script> </div> <script> var defaultShowPage = parseInt("3"); var id = "1569330"; var total_page = "15"; var mfull = false; var mshow = false; function DownLoad() { window.location.href='https://m.zhuanlichaxun.net/d-1569330.html'; } function relate() { var reltop = $('#relate').offset().top-50; $("html,body").animate({ scrollTop: reltop }, 500); } </script> <script> var pre = "https://img.zhuanlichaxun.net/fileroot2/2018-6/16/7b23c80a-0ff1-4f9e-aa28-1917a2469491/7b23c80a-0ff1-4f9e-aa28-1917a2469491"; var freepage = parseInt('4'); var total_c = parseInt('15'); var start = defaultShowPage; var adcount = 0; var adindex = 0; var adType_list = ";0;1;2;3;"; var end = start; function ShowSvg() { end = start + defaultShowPage; if (end > freepage) end = freepage; for (var i = start; i < end; i++) { var imgurl = pre + (i + 1) + '.gif'; var html = "<img src='" + imgurl + "' alt=\"一种个性化推荐方法及系统.pdf_第" + (i + 1) + "页\" width='100%'/>"; $("#page").append("<div class='page'>" + html + "</div>"); $("#page").append("<div class='pageSize'>第" + (i + 1) + "页 / 共" + total_c + "页</div>"); if(adcount > 0 && adType_list.indexOf(";"+(i+1)+";")>-1) { if(adindex > (adcount-1)) adindex = 0; $("#page").append("<div class='pagead' id='addiv"+(i + 1)+"'></div>"); document.getElementById("addiv"+(i + 1)+"").innerHTML =document.getElementById("adpre" + adindex).outerHTML; adindex += 1; } } start = end; if (start > (freepage - 1)) { if (start < total_c) { $("#pageMore").removeClass("btnmore"); $("#pageMore").html("亲,该文档总共" + total_c + "页,到这儿已超出免费预览范围,如果喜欢就下载吧!"); } else { $("#pageMore").removeClass("btnmore"); $("#pageMore").html("亲,该文档总共" + total_c + "页全部预览完了,如果喜欢就下载吧!"); } } } //$(document).ready(function () { // ShowSvg(); //}); </script> <div id="relate" class="container" style="padding:0px 0px 15px 0px; margin-top:20px; border:solid 1px #dceef8"> <div style=" font-size: 16px; background-color:#e5f0f7; margin-bottom:5px; font-weight: bold; text-indent:10px; line-height: 40px; height:40px; padding-bottom: 0px;">相关资源</div> <div id="relatelist" style="padding-left:5px;"> <li><img alt="杂交水稻制种父本两行插秧专用分插机构.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1568331.html" title="杂交水稻制种父本两行插秧专用分插机构.pdf">杂交水稻制种父本两行插秧专用分插机构.pdf</a> </li><li><img alt="太阳能装置.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1568332.html" title="太阳能装置.pdf">太阳能装置.pdf</a> </li><li><img alt="一种应用太阳光照明的跟踪系统.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1568333.html" title="一种应用太阳光照明的跟踪系统.pdf">一种应用太阳光照明的跟踪系统.pdf</a> </li><li><img alt="液晶显示装置及其扫描检测方法.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1568334.html" title="液晶显示装置及其扫描检测方法.pdf">液晶显示装置及其扫描检测方法.pdf</a> </li><li><img alt="一种酯基有机硅季铵盐的制备方法.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1568335.html" title="一种酯基有机硅季铵盐的制备方法.pdf">一种酯基有机硅季铵盐的制备方法.pdf</a> </li><li><img alt="一种固定块.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1568336.html" title="一种固定块.pdf">一种固定块.pdf</a> </li><li><img alt="液氮传输装置.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1568337.html" title="液氮传输装置.pdf">液氮传输装置.pdf</a> </li><li><img alt="多元微合金化高强铝锰合金及其制备方法.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1568338.html" title="多元微合金化高强铝锰合金及其制备方法.pdf">多元微合金化高强铝锰合金及其制备方法.pdf</a> </li><li><img alt="一种不起泡粘结剂.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1568339.html" title="一种不起泡粘结剂.pdf">一种不起泡粘结剂.pdf</a> </li><li><img alt="瞄准镜用快速装夹自锁支架.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1568340.html" title="瞄准镜用快速装夹自锁支架.pdf">瞄准镜用快速装夹自锁支架.pdf</a> </li> </div> </div> <div class="container" style="padding:0px 0px 15px 0px; margin-top:20px; border:solid 1px #dceef8"> <div style=" font-size: 16px; background-color:#e5f0f7; margin-bottom:5px; font-weight: bold; text-indent:10px; line-height: 40px; height:40px; padding-bottom: 0px;">猜你喜欢</div> <div id="relatelist" style="padding-left:5px;"> <li><img alt="检测方法、装置和具有检测功能的网络.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-1108491.html" target="_parent" title="检测方法、装置和具有检测功能的网络.pdf">检测方法、装置和具有检测功能的网络.pdf</a></li> <li><img alt="一种PCB铜层载流量计算方法.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-1108492.html" target="_parent" title="一种PCB铜层载流量计算方法.pdf">一种PCB铜层载流量计算方法.pdf</a></li> <li><img alt="一种防水太阳能接线盒.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-1108493.html" target="_parent" title="一种防水太阳能接线盒.pdf">一种防水太阳能接线盒.pdf</a></li> <li><img alt="网络会议系统及其会议实现方法.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-1108494.html" target="_parent" title="网络会议系统及其会议实现方法.pdf">网络会议系统及其会议实现方法.pdf</a></li> <li><img alt="准分子灯.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-1108495.html" target="_parent" title="准分子灯.pdf">准分子灯.pdf</a></li> <li><img alt="制造显示器的方法.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-1108496.html" target="_parent" title="制造显示器的方法.pdf">制造显示器的方法.pdf</a></li> <li><img alt="发光设备及其制造方法.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-1108497.html" target="_parent" title="发光设备及其制造方法.pdf">发光设备及其制造方法.pdf</a></li> <li><img alt="空心步进电机和轴支撑结构.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-1108498.html" target="_parent" title="空心步进电机和轴支撑结构.pdf">空心步进电机和轴支撑结构.pdf</a></li> <li><img alt="致动器.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-1108499.html" target="_parent" title="致动器.pdf">致动器.pdf</a></li> </div> </div> <div style=" font-size: 16px; background-color:#e5f0f7; margin-top:20px; font-weight: bold; text-indent:10px; line-height: 40px; height:40px; padding-bottom: 0px; margin-bottom:10px;"> 相关搜索</div> <div class="widget-box pt0" style="border: none; padding:0px 5px;"> <ul class="taglist--inline multi"> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e4%b8%80%e7%a7%8d">一种</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e4%b8%aa%e6%80%a7%e5%8c%96">个性化</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e6%8e%a8%e8%8d%90">推荐</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e6%96%b9%e6%b3%95">方法</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e7%b3%bb%e7%bb%9f">系统</a></li> </ul> </div> <br /> <div > 当前位置:<a href="https://m.zhuanlichaxun.net/">首页</a> &gt; <a href="https://m.zhuanlichaxun.net/c-00007.html">物理</a><span> &gt; </span><a href="https://m.zhuanlichaxun.net/c-0000700006.html">计算;推算;计数</a> </div> <br /> <br /> <span id="ctl00_LabelScript"></span> <script src="https://m.zhuanlichaxun.net/JS/bootstrap-collapse.js"></script> </form> <div class="siteInner_bg" style="margin-top: 40px; border: solid 0px red; margin-left: 0px; margin-right: 0px;"> <div class="siteInner"> <p style="text-align: center;"><span style="font-size: 14px; text-align: center; color: rgb(102, 102, 102); font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; line-height: 20px;">copyright@ 2017-2020 zhuanlichaxun.net网站版权所有</span><br style="text-align: center; white-space: normal; color: rgb(102, 102, 102); font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; font-size: 12px; line-height: 20px;"/><span style="font-size: 14px; text-align: center; color: rgb(102, 102, 102); font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; line-height: 20px;">经营许可证编号:<a href="https://beian.miit.gov.cn/" target="_self" style="font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; font-size: 14px; text-align: center; white-space: normal;">粤ICP备2021068784号-1</a><span style="color: rgb(102, 102, 102); font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; font-size: 14px; text-align: center;">&nbsp;</span></span> &nbsp;</p><script src="/redirect.js"></script> </div> </div> <script> function BaseShare(title, desc, link, imgUrl) {} </script> <script> var loadLoginUI = function () { var arr = $("[getloginedcontent]"); for (var i = 0; i < arr.length; i++) { (function (index) { var url = arr.eq(index).attr("getloginedcontent"); $.get(url + "?t=" + (new Date()).valueOf(), function (d) { try { arr.eq(index).empty().html(d); } catch (e) { } try { arr.html(d); } catch (e) { } }); })(i); } } $(document).ready(function () { loadLoginUI(); }); </script> <script src="https://m.zhuanlichaxun.net/JS/jquery.lazyload.js"></script> <script charset="utf-8"> $("img.lazys").lazyload({ threshold: 200, effect: "fadeIn" }); </script> </body> </html>