一种电视平台上基于语义链接的异构资源推荐方法和装置.pdf

上传人:n****g 文档编号:1634672 上传时间:2018-06-30 格式:PDF 页数:17 大小:1.06MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410687895.0

申请日:

2014.11.25

公开号:

CN104408115A

公开日:

2015.03.11

当前法律状态:

实审

有效性:

审中

法律详情:

授权|||实质审查的生效IPC(主分类):G06F17/30申请日:20141125|||公开

IPC分类号:

G06F17/30; G06F17/27

主分类号:

G06F17/30

申请人:

三星电子(中国)研发中心; 三星电子株式会社

发明人:

郑玄; 陈洁

地址:

210061江苏省南京市高新区高新研发大厦9~12层

优先权:

专利代理机构:

北京德琦知识产权代理有限公司11018

代理人:

谢安昆; 宋志强

PDF下载: PDF下载
内容摘要

本发明公开了一种电视平台上基于语义链接的资源推荐方法和装置,该方法包括:提取后台媒体资源库所有媒体资源的文本信息;根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表。

权利要求书

权利要求书
1.  一种电视平台上基于语义链接的资源推荐方法,其特征在于,该方法包括:
提取后台媒体资源库所有媒体资源的文本信息;
根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;
如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。

2.  根据权利要求1所述的方法,其特征在于,所述根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T,进一步包括:
针对所述后台媒体资源库的每个媒体资源,利用词法分析工具根据词性的不同,将所述每个媒体资源的文本信息切分为分词序列;
将每个媒体资源的分词序列和热词词典进行匹配,将热词词典中包含关系的多个分词按照最长词串进行合并,合并后的分词作为该媒体资源的候选特征词;
计算所述候选特征词的权值,所述权值为所述候选特征词的词频-逆文档频率值,将权值不小于权值阈值的候选特征词通过停用表进行过滤,过滤通过的候选特征词为该媒体资源的特征词;
利用后台媒体资源库所有媒体资源的特征词构建后台媒体资源库的特征词,用向量C=[c1,…,cj,,…,cM]表示,其中,M为后台媒体资源库的特征词数量,后台媒体资源库的特征词包含了后台媒体资源库中每个媒体资源的特征词,且 任意两个后台媒体资源库的特征词不相同;
设定M×N的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源库的特征词cj的数量,列数N表示后台媒体资源库的媒体资源Di的数量,特征词权值矩阵T的元素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资源Di的特征词时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是媒体资源Di的特征词时,tji=0。

3.  根据权利要求2所述的方法,其特征在于,该方法进一步包括:
将特征词权值矩阵T进行奇异值分解,奇异值分解后得到包含语义关系的三个矩阵S、V、UT,且T=SVUT,其中,UT为特征词权值矩阵T经过奇异值分解降维后的特征词权值矩阵。

4.  根据权利要求1所述的方法,其特征在于,如果用户观看的当前媒体资源不是所述后台媒体资源库中的媒体资源,所述采用聚类的方法计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度之前,该方法进一步包括:
获取用户观看的当前媒体资源的文本信息,根据所述当前媒体的文本信息提取所述当前媒体资源的特征词,计算每一特征词的权值,构建当前媒体资源的权值向量Y,Y为M×1矩阵,矩阵元素yj(1≤j≤M)为特征词cj在当前媒体资源中的权值,当特征词cj是当前媒体资源的特征词时,yj为特征词cj在当前媒体资源中的TF-IDF值;当特征词cj不是当前媒体资源的特征词时,yj=0。

5.  根据权利要求3或4所述的方法,其特征在于,该方法进一步包括:
将矩阵Y进行如下变换:Y1=YTSV-1,其中YT为Y的转置矩阵,V-1为V的逆矩阵。

6.  根据权利要求1所述的方法,其特征在于,所述采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,进一步包括:
将当前媒体资源的特征词定义为特定特征词,将后台媒体资源库中在所有 特定特征词上权值均不为0的媒体资源构成后台媒体资源集合
采用K-means算法对后台媒体资源集合进行聚类,其中K-means算法中的K取特定特征词的个数,将后台媒体资源集合划分为K个类
遍历中每个后台媒体资源与当前媒体资源的聚类相似度,中后台媒体资源Dj与当前媒体资源D'之间的聚类相似度通过如下公式进行计算:

其中,后台媒体资源Dj与当前媒体资源D'之间的相似度Sim(Dj,D')用余弦相似度进行计算:
Sim(Dj,D)=Σk=1(ujk×yk)Σk=1ujk2Σk=1yk2;]]>
其中,ujk为Dj在UT中对应的第j行第k列元素,yk为D'在Y1中对应的第k列元素。

7.  根据权利要求1所述的方法,其特征在于,该方法进一步包括:
针对用户点击媒体资源推荐列表中的媒体资源的点击顺序和点击量,对后台媒体资源库的特征词权值矩阵T进行权值调整,具体包括:
根据计算单个用户对媒体资源Rl的评分,其中Rl为媒体资源推荐列表中被用户当前点击观看的媒体资源,rank(Rl)为用户对媒体资源Rl的点击顺序,且1≤rank(Rl)≤L,Score_max为限定单个用户对媒体资源评分的最大值的常数;
根据计算媒体资源Rl当前的总评分,其中P为当前点击媒体资源Rl的用户数量;
如果媒体资源Rl当前的总评分不大于评分阈值根据公式f(tj)=tj×(1+Score(Rl)/(α+1))对媒体资源Rl的每个特征词权值进行调整;
如果媒体资源Rl当前的总评分大于评分阈值将媒体资源Rl的所有特征词加入高频特征词集合中,根据公式f(tj)=tj×(1+Score(Rl)/(β+1))对媒体资源Rl的每个特征词权值进行调整;
其中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒体资源Rl对应的元素,f(tj)为媒体资源Rl的第j个特征词调整后的权值;α为权值调整参数,且中的特征词存在互异性,即不包含重复的特征词;β为权值调整参数,且X为中包含的特征词数量。

8.  一种电视平台上基于语义链接的资源推荐装置,其特征在于,该装置包括:
文本信息提取模块,用于提取后台媒体资源库所有媒体资源的文本信息;
特征词提取模块,根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;
媒体资源推荐列表生成模块,如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。

9.  根据权利要求8所述的装置,其特征在于,所述特征词提取模块进一步包括:
分词序列子模块,用于针对所述后台媒体资源库的每个媒体资源,利用词法分析工具根据词性的不同,将所述每个媒体资源的文本信息切分为分词序列;
候选特征词提取子模块,用于将每个媒体资源的分词序列和热词词典进行匹配,将热词词典中包含关系的多个分词按照最长词串进行合并,合并后的分词作为该媒体资源的候选特征词;
特征词权值矩阵生成子模块,用于计算所述候选特征词的权值,所述权值为所述候选特征词的词频-逆文档频率值,将权值不小于权值阈值的候选特征词通过停用表进行过滤,过滤通过的候选特征词为该媒体资源的特征词;
利用后台媒体资源库所有媒体资源的特征词构建后台媒体资源库的特征词,用向量C=[c1,…,cj,,…,cM]表示,其中,M为后台媒体资源库的特征词数量,后台媒体资源库的特征词包含了后台媒体资源库中每个媒体资源的特征词,且任意两个后台媒体资源库的特征词不相同;
设定M×N的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源库的特征词cj,列数N表示后台媒体资源库的媒体资源Di,特征词权值矩阵T的元素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资源Di的特征词时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是媒体资源Di的特征词时,tji=0。

10.  根据权利要求9所述的装置,其特征在于,所述特征词权值矩阵生成子模块进一步用于:
将特征词权值矩阵T进行奇异值分解,奇异值分解后得到包含语义关系的三个矩阵S、V、UT,且T=SVUT,其中,UT为特征词权值矩阵T经过奇异值分解降维后的特征词权值矩阵。

11.  根据权利要求8所述的装置,其特征在于,如果用户观看的当前媒体资源不是所述后台媒体资源库中的媒体资源,该装置还包括:
当前媒体资源特征词权值计算模块,用于获取用户观看的当前媒体资源的文本信息,根据所述当前媒体的文本信息提取所述当前媒体资源的特征词,计算每一特征词的权值,构建当前媒体资源的权值向量Y,Y为M×1矩阵,矩阵元素yj(1≤j≤M)为特征词cj在当前媒体资源中的权值,当特征词cj是当前媒体 资源的特征词时,yj为特征词cj在当前媒体资源中的TF-IDF值;当特征词cj不是当前媒体资源的特征词时,yj=0。

12.  根据权利要求10或11所述的装置,其特征在于,所述当前媒体资源特征词权值计算模块还用于:
将矩阵Y进行如下变换:Y1=YTSV-1,其中YT为Y的转置矩阵,V-1为V的逆矩阵。

13.  根据权利要求8所述的装置,其特征在于,所述媒体资源推荐列表生成模块进一步包括:
后台媒体资源集合生成子模块,用于将当前媒体资源的特征词定义为特定特征词,将后台媒体资源库中在所有特定特征词上权值均不为0的媒体资源构成后台媒体资源集合
相似度计算子模块,用于采用K-means算法对后台媒体资源集合进行聚类,其中K-means算法中的K取特定特征词的个数,将后台媒体资源集合划分为K个类
遍历中每个后台媒体资源与当前媒体资源的聚类相似度,中后台媒体资源Dj与当前媒体资源D'之间的聚类相似度通过如下公式进行计算:

其中,后台媒体资源Dj与当前媒体资源D'之间的相似度Sim(Dj,D')用余弦相似度进行计算:
Sim(Dj,D)=Σk=1(ujk×yk)Σk=1ujk2Σk=1yk2;]]>
其中,ujk为Dj在UT中对应的第j行第k列元素,yk为D'在Y1中对应的第k列元素。

14.  根据权利要求8所述的装置,其特征在于,该装置进一步包括权值学 习模块,用于针对用户点击媒体资源推荐列表中的媒体资源的点击顺序和点击量,对后台媒体资源库的特征词权值矩阵T进行权值调整,所述权值学习模块还包括:
媒体资源评分计算模块,用于根据计算单个用户对媒体资源Rl的评分,其中Rl为媒体资源推荐列表中被用户当前点击观看的媒体资源,rank(Rl)为用户对媒体资源Rl的点击顺序,且1≤rank(Rl)≤L,Score_max为限定单个用户对媒体资源评分的最大值得常数;
媒体资源总评分计算模块,用于根据计算媒体资源Rl当前的总评分,其中P为当前点击媒体资源Rl的用户数量;
权值调整模块,用于如果媒体资源Rl当前的总评分不大于评分阈值根据公式f(tj)=tj×(1+Score(Rl)/(α+1))对媒体资源Rl的每个特征词权值进行调整;
如果媒体资源Rl当前的总评分大于评分阈值将媒体资源Rl的所有特征词加入高频特征词集合中,根据公式f(tj)=tj×(1+Score(Rl)/(β+1))对媒体资源Rl的每个特征词权值进行调整;
其中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒体资源Rl对应的元素,f(tj)为媒体资源Rl的第j个特征词调整后的权值;α为权值调整参数,且中的特征词存在互异性,即不包含重复的特征词;β为权值调整参数,且X为中包含的特征词数量。

说明书

说明书一种电视平台上基于语义链接的异构资源推荐方法和装置
技术领域
本发明涉及多媒体技术领域,特别是一种电视平台上基于语义链接的异构资源推荐方法和装置。
背景技术
用户在电视平台上观看电视节目的时候,通常会对当前节目的某些信息感兴趣,想要进一步观看跟当前节目相关的其它媒体资源。针对用户的这一心理,目前出现了一些媒体资源间的推荐方法,一般为根据用户观看的当前资源,获取当前资源的关键词来表征用户特征,使用获得的关键词作为表征用户特征的向量,将与当前资源相似度高的资源推荐给用户。
然而目前存在的这些媒体资源间的推荐方法存在很多弊端,例如:多为同类资源间的推荐,异构资源间的推荐应用较少;为数不多的异构资源推荐多为单向推荐,即某种资源到另一种资源,如与电视节目关联的视频源推荐方法、与电视节目关联的产品推荐方法等,多种资源间相互推荐的方法较少;资源推荐方法中起到重要作用的词,部分可识别,部分不能识别需要手工构造,操作起来较为繁琐;局限于词形信息,缺少语义信息;依赖于人工标注,缺少对用户反馈的利用,其推荐结果对用户来说并不十分理想。
发明内容
有鉴于此,本发明提出了一种电视平台上基于语义链接的异构资源推荐方法和装置,能够根据用户当前观看的资源,无需用户额外操作从而自动、智能推荐异构资源。
本发明提出的技术方案是:
一种电视平台上基于语义链接的异构资源推荐方法,包括:
提取后台媒体资源库所有媒体资源的文本信息;
根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;
如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。
一种电视平台上基于语义链接的异构资源推荐装置,包括:
文本信息提取模块,用于提取后台媒体资源库所有媒体资源的文本信息;
特征词提取模块,根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;
媒体资源推荐列表生成模块,如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。
综上,本发明提出的电视平台上基于语义链接的异构资源推荐方法和装置,依托于海量数据资源,将各类异构资源映射到同一语义空间中,自动构建异构资源间语义关系,生成文本到视频、视频到文本等异构资源之间的语义链接关系,从而产生异构资源推荐列表,该方法有效避免了传统推荐中仅仅局限于词形信息的现象,满足用户对相关性和多样性的要求。
附图说明
图1为本发明方法实施例一的流程图;
图2为本发明方法实施例二的流程图;
图3为本发明实施例中的装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点表达的更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。
用户在电视平台上观看当前媒体资源时,本发明提出的电视平台上基于语义链接的异构资源推荐方法,可以根据后台媒体资源库中的各类异构资源与用户观看的当前媒体资源的聚类相似度,为用户提供与当前媒体资源相关度较高的L个后台媒体资源,便于用户观看与当前媒体资源相关的后台媒体资源。
方法实施例一
图1为本发明实施例的流程图,如图1所示,包括以下步骤:
步骤101:提取后台媒体资源库所有媒体资源的文本信息。
本步骤中,首先对后台媒体资源库的所有媒体资源进行文本信息的提取。将后台媒体资源库中每个媒体资源用Di表示,其中i为正整数,且1≤i≤N,N为后台媒体资源库包含的媒体资源的个数。
后台媒体资源库的所有媒体资源可以分为两大类:新闻文本和视频资源。对于新闻文本,直接提取文本信息;对于视频资源,文本信息位于视频标题和字幕内容,视频标题相对容易获取,字幕内容的识别方法有两种:一种是播放流中自带字幕,可以从播放流中提取字幕;另一种是通过对图像进行处理,通过定位字幕在图像中的位置完成字幕提取,并整合成相应的视频描述文本。
经过对后台媒体资源库中所有媒体资源的文本信息提取,将每个媒体资源用文本的形式表示出来。
步骤102:提取后台媒体资源库每个媒体资源的候选特征词。
步骤101中获得了后台媒体资源库中每个媒体资源的文本信息,本步骤对步骤101中获取的文本信息进行进一步处理,得到每个媒体资源的候选特征词,媒体资源的候选特征词从一定程度上能够有代表性的表示该媒体资源的内容。
首先利用词法分析工具根据词性的不同,将每个媒体资源的文本信息切分为若干个分词,得到每个媒体资源的分词序列。由于词法分析工具仅是根据词 性的判断对文本信息进行切分,并没有考虑切分后的分词对表征该媒体资源的重要程度、以及各分词在该媒体资源的文本信息中上下文之间的语义关系,因此这一切分过程可能会得到一些没有实际意义的分词,例如“在”、“把”等,还可能将原本是一个整体的词串切分成两个甚至多个分词,例如将“搜狐视频”切分为“搜”、“狐”、“视频”三个分词,而原本“搜狐视频”应该作为一个整体词串来表征媒体资源的。
针对词法分析工具的这一弊端,不能直接将上述得到的分词作为每个媒体资源的候选特征词,需要将上述得到的分词和热词词典进行匹配,用热词词典对上述得到的分词进行修正,将热词词典中包含关系的多个分词按照最长词串进行合并,合并后的分词作为该媒体资源的候选特征词。例如,某媒体资源的分词序列包括“搜”、“狐”、“视频”三个分词,热词词典中包含“搜”、“狐”、“视频”以及“搜狐视频”四个热词,则将该媒体资源中的“搜”、“狐”、“视频”三个分词按照热词词典中的最长词串“搜狐视频”进行合并,得到该媒体资源的一个候选特征词“搜狐视频”。具体实施时可以采用字典树的方法将每个媒体资源的分词序列与热词词典进行匹配。用热词词典对上述得到的分词进行修正后,能够使修正后的分词更加符合人们的阅读习惯。
这里的热词词典是一个热词的集合,热词词典里的热词能够有代表性的表征后台媒体资源库的语义信息,其构建方法为:
(1)根据后台媒体资源库中所有媒体资源的文本信息的语言类型,选用特定语言类型中的分隔符将后台媒体资源库中所有媒体资源的文本信息拆分成子句,例如中文中的“。”、“!”、“?”等中文标点符号,或者英文中的“,”、“?”、“.”等英文标点符号。
(2)计算后台媒体资源库中各个重复词串的词频,重复词串的词频定义为该重复词串在后台媒体资源库多少个子句中出现,将每个词频大于词频阈值的重复词串作为候选词串,构建候选词串集合。
(3)对候选词串进行过滤,过滤后保留下的候选词串作为热词,构建热词词典。
具体过滤方法可以通过下面三个步骤实现:
a.收集停用词表,并利用停用词表对候选词串进行过滤,即将出现在停用词表中的候选词串从候选词串集合中删除。
b.计算每个候选词串的权值,该权值用词频(TF,Term Frequency)-逆文档频率(IDF,Inverse Document Frequency)表示,将权值低于权值阈值的候选词串从候选词串集合中删除,TF-IDF的计算方法为现有技术,在此不再赘述。
c.根据候选词串中噪声数据的类型制定先验知识,如文本信息中常会出现时间信息、数字与量词等构成的噪声串,将该类噪声串从候选词串集合中删除。
步骤103:进一步提取后台媒体资源库每个媒体资源的特征词。
本步骤通过提取后台媒体资源库每个媒体资源的特征词,将每个媒体资源用至少一个特征词表示。提取媒体资源特征词的方法为:
计算步骤102中得到的后台媒体资源库每个媒体资源的候选特征词的权值,仍以候选特征词的TF-IDF值表示权值,将权值小于权值阈值的候选特征词删除,将权值不小于权值阈值的候选特征词进一步通过停用表进行过滤,最终保留下来的媒体资源的候选特征词作为该媒体资源的特征词。
将后台媒体资源库所有媒体资源的特征词定义为后台媒体资源库的特征词,后台媒体资源库的特征词向量表示为C=[c1,…,cj,,…,cM],其中,cj为后台媒体资源库的第j个特征词,M为后台媒体资源库的特征词数量,后台媒体资源库的特征词包含了每个媒体资源的特征词,且后台媒体资源库的任意两个特征词不相同。
设定M×N的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源库的特征词cj的数量,列数N表示后台媒体资源库的媒体资源Di的数量,特征词权值矩阵T的元素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资源Di的特征词时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是媒体资源Di的特征词时,tji=0。
步骤104:将特征词权值矩阵T进行奇异值分解。
为了挖掘后台媒体资源库各个特征词之间的语义关系,将特征词权值矩阵T进行奇异值分解,奇异值分解后得到包含语义关系的三个矩阵S、V、UT,且T=SVUT。其中,UT为特征词权值矩阵T经过奇异值分解降维后的特征词权值矩阵,奇异值分解能够实现主题抽取,相同主题的词的权重会在一定范围内较一致,由此奇异值分解可以发现特征词权值矩阵T中特征词与特征词之间隐含的语义关系。
步骤105:判断用户观看的当前媒体资源是否为后台媒体资源库的媒体资源,如果不是,执行步骤106,如果是,执行步骤107。
步骤106:计算当前媒体资源的权值向量。
本步骤中,首先获取用户观看的当前媒体资源的文本信息,获取方法与步骤101中获取后台媒体资源库每个媒体资源文本信息的方法相同,在此不再赘述。获取当前媒体资源的文本信息后,提取当前媒体资源的候选特征词(提取方法与步骤102中获取后台媒体资源库的候选特征词的方法相同),之后,将当前媒体资源的候选特征词与特征词向量C进行匹配,如果当前媒体资源的某个候选特征词不是特征词向量C的元素,则将当前媒体资源的该候选特征词删除,保留下来的候选特征词进一步进行权值计算,仍以TF-IDF值表示权值,将权值小于权值阈值的候选特征词删除,将权值不小于权值阈值的候选特征词进一步通过停用表进行过滤,最终保留下来的候选特征词作为当前媒体资源的特征词。
构建当前媒体资源的权值向量Y,Y为M×1矩阵,矩阵元素yj(1≤j≤M)为特征词cj在当前媒体资源中的权值,当特征词cj是当前媒体资源的特征词时,yj为特征词cj在当前媒体资源中的TF-IDF值;当特征词cj不是当前媒体资源的特征词时,yj=0。
将矩阵Y进行如下变换:Y1=YTSV-1,其中YT为Y的转置矩阵,V-1为V的逆矩阵。
步骤107:采用聚类的方法生成媒体资源推荐列表。
为了使得媒体推荐列表更加准确的捕捉用户的兴趣,本发明采用聚类的方法生成媒体资源推荐列表,满足用户对多样性和相关性的要求。
本步骤中,将当前媒体资源的特征词定义为特定特征词,将后台媒体资源库中在所有特定特征词上权值均不为0的媒体资源构成后台媒体资源集合
采用K-means算法对后台媒体资源集合进行聚类,其中K-means算法中的K取特定特征词的个数,将后台媒体资源集合划分为K个类
遍历中每个后台媒体资源与当前媒体资源的聚类相似度,中后台媒体资源Dj与当前媒体资源D'之间的聚类相似度通过如下公式进行计算:

其中,后台媒体资源Dj与当前媒体资源D'之间的相似度Sim(Dj,D')用余弦相似度进行计算:
Sim(Dj,D)=Σk(ujk×yk)Σkujk2Σkyk2]]>
其中,如果当前媒体资源D'不是后台媒体资源库中的资源,则ujk为Dj在UT中对应的第j行第k列元素,yk为D'在Y1中对应的第k列元素;如果当前媒体资源D'是后台媒体资源库中的资源,即D'=Dd,其中d≠j且1≤d≤N,则ujk为Dj在UT中对应的第j行第k列元素,yk为D'在UT中对应的第d行第k列元素。
根据聚类相似度对中各个后台媒体资源进行排序,选取前L个后台媒体资源构成推荐列表返给用户,作为向用户推荐的与当前媒体资源相关性最大的L个后台媒体资源,L为大于0的整数。
步骤108:更新后台媒体资源库。
本步骤中,如果用户观看的当前媒体资源是后台媒体资源库中的媒体资源, 则后台媒体资源库不需更新,后台媒体资源库的特征词权值矩阵T不变;如果用户观看的当前媒体资源不是后台媒体资源库中的媒体资源,则将该当前媒体资源D'作为DN+1加入后台媒体资源库中,更新后的后台媒体资源库包含N+1个媒体资源,且相应更新后台媒体资源库的特征词权值矩阵T,将T更新为M×(N+1)维矩阵,即将原特征词权值矩阵T增加一列,增加的该列元素为步骤105中的Y。后续为该用户再次生成其他当前媒体资源的媒体资源推荐列表时,后台媒体资源库即包含有N+1个媒体资源,不需再次执行步骤101~步骤103,直接执行步骤104。
通过上述方法完成了对用户在电视平台上观看的当前媒体资源进行的异构资源推荐,通过上述方案得到的推荐列表满足了用户对信息多样化的要求。
方法实施例二
更进一步的,为了使向用户推荐的异构资源与当前媒体资源的语义相关性更高,本申请还结合不同用户对媒体资源推荐列表中媒体资源的点击量、点击顺序等隐式用户反馈信息对媒体资源推荐列表中被点击的媒体资源特征词权值进一步调整,进而使得后续再次为用户计算媒体资源推荐列表时,更能接近用户的兴趣。图2为本实施例的流程图,本实施例以调整媒体资源推荐列表中的媒体资源Rl的特征词权值为例进行说明,其中l为正整数,且1≤l≤L,如图2所示,用户每点击一个媒体资源推荐列表中的媒体资源都执行以下步骤:
步骤201:计算单个用户对媒体资源的评分。
用户对给出的媒体资源推荐列表会根据自己的兴趣选择其中的一个或几个进行点击观看,当用户点击某个推荐列表中的媒体资源时,会对该被点击的媒体资源产生一个点击顺序。将用户对媒体资源Rl的点击顺序记为rank(Rl),由于Rl为含有L个媒体资源的推荐列表中的一个媒体资源,因此其点击顺序必然满足1≤rank(Rl)≤L。根据该点击顺序应用公式计算单个用户对Rl评分,其中,Score_max为常数,用于限定单个用户对媒体资源评分的最大值。
步骤202:计算媒体资源当前总评分。
媒体资源Rl当前的总评分定义为当前所有用户对媒体资源Rl的评分之和。假设当前共有P个用户点击媒体资源Rl,每个用户都会对媒体资源Rl产生一个评分,则则为媒体资源Rl当前的总评分。
步骤203:判断媒体资源当前总评分是否大于评分阈值,如果否,执行步骤204,如果是,执行步骤205。
本步骤中,P为当前点击媒体资源的Rl用户数量,如果媒体资源Rl当前的总评分不大于评分阈值则说明点击媒体资源Rl的用户数量较少,和/或用户点击媒体资源Rl的顺序较靠后,反映出的信息即为媒体资源Rl对广泛用户来说吸引力不高,则只对该Rl的特征词权值进行微调;如果媒体资源Rl当前的总评分大于评分阈值则说明点击媒体资源Rl的用户数量较多,和/或用户点击媒体资源Rl的顺序较靠前,反映出的信息即为媒体资源Rl对广泛用户来说吸引力较高,则对该Rl的特征词权值进行较大程度的调整。
步骤204:对媒体资源的每个特征词权值进行微调。
本步骤中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒体资源Rl对应的元素;其中α为权值调整参数,是一个经验常数,且根据该公式计算媒体资源Rl的每个特征词权值后,更新后台媒体资源数据库的特征词权值矩阵T。
步骤205:将媒体资源的所有特征词加入高频特征词集合中,并对媒体资源的每个特征词权值进行调整。
本步骤中,由于媒体资源Rl当前的总评分大于评分阈值说明媒体资源Rl对用户的吸引力普遍较高,则将媒体资源Rl的所有特征词添加到高频特征词集合中,且中的特征词存在互异性,即不包含重复的特 征词。然后根据公式f(tj)=tj×(1+Score(Rl)/(β+1))对媒体资源Rl的每个特征词权值进行调整,其中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒体资源Rl对应的元素,f(tj)为媒体资源Rl的第j个特征词调整后的权值;β为权值调整参数,是一个经验常数,且X为中包含的特征词数量。根据该公式计算媒体资源Rl的每个特征词权值后,更新后台媒体资源数据库的特征词权值矩阵T。
上述为根据用户的点击量和点击顺序针对不同用户对特征词权值矩阵T进行调整的过程,该方法能够根据用户的点击反馈信息对后台媒体资源的特征词权值进行调整,能够为用户提供更合理的热点媒体资源排序,使得推荐性能更优。
本发明还公开一种电视平台上基于语义链接的资源推荐方法的装置,图3为该装置的结构图,如图3所示,该装置包括:
文本信息提取模块310,用于提取后台媒体资源库所有媒体资源的文本信息;
特征词提取模块320,根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;
媒体资源推荐列表生成模块330,如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表。
特征词提取模块320进一步包括:
分词序列子模块321,用于针对所述后台媒体资源库的每个媒体资源,利用词法分析工具根据词性的不同,将所述每个媒体资源的文本信息切分为分词序列;
候选特征词提取子模块322,用于将每个媒体资源的分词序列和热词词典 进行匹配,将热词词典中包含关系的多个分词按照最长词串进行合并,合并后的分词作为该媒体资源的候选特征词;
特征词权值矩阵生成子模块323,用于计算所述候选特征词的权值,所述权值为所述候选特征词的词频-逆文档频率值,将权值不小于权值阈值的候选特征词通过停用表进行过滤,过滤通过的候选特征词为该媒体资源的特征词;
利用后台媒体资源库所有媒体资源的特征词构建后台媒体资源库的特征词,用向量C=[c1,…,cj,,…,cM]表示,其中,M为后台媒体资源库的特征词数量,后台媒体资源库的特征词包含了后台媒体资源库中每个媒体资源的特征词,且任意两个后台媒体资源库的特征词不相同;
设定M×N的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源库的特征词cj,列数N表示后台媒体资源库的媒体资源Di,特征词权值矩阵T的元素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资源Di的特征词时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是媒体资源Di的特征词时,tji=0。
特征词权值矩阵生成子模块323进一步用于:
将特征词权值矩阵T进行奇异值分解,奇异值分解后得到包含语义关系的三个矩阵S、V、UT,且T=SVUT,其中,UT为特征词权值矩阵T经过奇异值分解降维后的特征词权值矩阵。
如果用户观看的当前媒体资源不是所述后台媒体资源库中的媒体资源,该装置还包括当前媒体资源特征词权值计算模块340,用于获取用户观看的当前媒体资源的文本信息,根据所述当前媒体的文本信息提取所述当前媒体资源的特征词,计算每一特征词的权值,构建当前媒体资源的权值向量Y,Y为M×1矩阵,矩阵元素yj(1≤j≤M)为特征词cj在当前媒体资源中的权值,当特征词cj是当前媒体资源的特征词时,yj为特征词cj在当前媒体资源中的TF-IDF值;当特征词cj不是当前媒体资源的特征词时,yj=0。
当前媒体资源特征词权值计算模块340还用于:
将矩阵Y进行如下变换:Y1=YTSV-1,其中YT为Y的转置矩阵,V-1为V的逆矩阵。
媒体资源推荐列表生成模块330进一步包括:
后台媒体资源集合生成子模块331,用于将当前媒体资源的特征词定义为特定特征词,将后台媒体资源库中在所有特定特征词上权值均不为0的媒体资源构成后台媒体资源集合
相似度计算子模块332,用于采用K-means算法对后台媒体资源集合进行聚类,其中K-means算法中的K取特定特征词的个数,将后台媒体资源集合划分为K个类
遍历中每个后台媒体资源与当前媒体资源的聚类相似度,中后台媒体资源Dj与当前媒体资源D'之间的聚类相似度通过如下公式进行计算:

其中,后台媒体资源Dj与当前媒体资源D'之间的相似度Sim(Dj,D')用余弦相似度进行计算:
Sim(Dj,D)=Σk(ujk×yk)Σkujk2Σkyk2;]]>
其中,ujk为Dj在UT中对应的第j行第k列元素,yk为D'在Y1中对应的第k列元素。
该装置进一步包括权值学习模块340,用于针对用户点击媒体资源推荐列表中的媒体资源的点击顺序和点击量,对后台媒体资源库的特征词权值矩阵T进行权值调整,所述权值学习模块340还包括:
媒体资源评分计算模块341,用于根据计算单个用户对媒体资源Rl的评分,其中Rl为媒体资源推荐列表中被用户当前 点击观看的媒体资源,rank(Rl)为用户对媒体资源Rl的点击顺序,且1≤rank(Rl)≤L,Score_max为限定单个用户对媒体资源评分的最大值得常数;
媒体资源总评分计算模块342,用于根据计算媒体资源Rl当前的总评分,其中P为当前点击媒体资源Rl的用户数量;
权值调整模块343,用于如果媒体资源Rl当前的总评分不大于评分阈值根据公式f(tj)=tj×(1+Score(Rl)/(α+1))对媒体资源Rl的每个特征词权值进行调整;
如果媒体资源Rl当前的总评分大于评分阈值将媒体资源Rl的所有特征词加入高频特征词集合中,根据公式f(tj)=tj×(1+Score(Rl)/(β+1))对媒体资源Rl的每个特征词权值进行调整;
其中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒体资源Rl对应的元素,f(tj)为媒体资源Rl的第j个特征词调整后的权值;α为权值调整参数,且中的特征词存在互异性,即不包含重复的特征词;β为权值调整参数,且X为中包含的特征词数量。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

一种电视平台上基于语义链接的异构资源推荐方法和装置.pdf_第1页
第1页 / 共17页
一种电视平台上基于语义链接的异构资源推荐方法和装置.pdf_第2页
第2页 / 共17页
一种电视平台上基于语义链接的异构资源推荐方法和装置.pdf_第3页
第3页 / 共17页
点击查看更多>>
资源描述

《一种电视平台上基于语义链接的异构资源推荐方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种电视平台上基于语义链接的异构资源推荐方法和装置.pdf(17页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410687895.0(22)申请日 2014.11.25G06F 17/30(2006.01)G06F 17/27(2006.01)(71)申请人三星电子(中国)研发中心地址 210061 江苏省南京市高新区高新研发大厦912层申请人三星电子株式会社(72)发明人郑玄 陈洁(74)专利代理机构北京德琦知识产权代理有限公司 11018代理人谢安昆 宋志强(54) 发明名称一种电视平台上基于语义链接的异构资源推荐方法和装置(57) 摘要本发明公开了一种电视平台上基于语义链接的资源推荐方法和装置,该方法包括:提取后台媒体资源库所有媒体资。

2、源的文本信息;根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书5页 说明书9页 附图2页(10)申请公布号 CN 104408115 A(43)申请公布日 2015.03.11。

3、CN 104408115 A1/5页21.一种电视平台上基于语义链接的资源推荐方法,其特征在于,该方法包括:提取后台媒体资源库所有媒体资源的文本信息;根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。2.根据权利要求1所述的方法,其特征在于,所。

4、述根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T,进一步包括:针对所述后台媒体资源库的每个媒体资源,利用词法分析工具根据词性的不同,将所述每个媒体资源的文本信息切分为分词序列;将每个媒体资源的分词序列和热词词典进行匹配,将热词词典中包含关系的多个分词按照最长词串进行合并,合并后的分词作为该媒体资源的候选特征词;计算所述候选特征词的权值,所述权值为所述候选特征词的词频-逆文档频率值,将权值不小于权值阈值的候选特征词通过停用表进行过滤,过滤通过的候选特征词为该媒体资源的特征词;利用后台媒体资源。

5、库所有媒体资源的特征词构建后台媒体资源库的特征词,用向量Cc1,cj,cM表示,其中,M为后台媒体资源库的特征词数量,后台媒体资源库的特征词包含了后台媒体资源库中每个媒体资源的特征词,且任意两个后台媒体资源库的特征词不相同;设定MN的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源库的特征词cj的数量,列数N表示后台媒体资源库的媒体资源Di的数量,特征词权值矩阵T的元素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资源Di的特征词时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是媒体资源Di的特征词时,tji0。3.根据权利要求2所述的方法,其特征在于,该。

6、方法进一步包括:将特征词权值矩阵T进行奇异值分解,奇异值分解后得到包含语义关系的三个矩阵S、V、UT,且TSVUT,其中,UT为特征词权值矩阵T经过奇异值分解降维后的特征词权值矩阵。4.根据权利要求1所述的方法,其特征在于,如果用户观看的当前媒体资源不是所述后台媒体资源库中的媒体资源,所述采用聚类的方法计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度之前,该方法进一步包括:获取用户观看的当前媒体资源的文本信息,根据所述当前媒体的文本信息提取所述当前媒体资源的特征词,计算每一特征词的权值,构建当前媒体资源的权值向量Y,Y为M1矩阵,矩阵元素yj(1jM)为特征词cj在当前媒体资源中。

7、的权值,当特征词cj是当前媒体资源的特征词时,yj为特征词cj在当前媒体资源中的TF-IDF值;当特征词cj不是当前媒体资源的特征词时,yj0。5.根据权利要求3或4所述的方法,其特征在于,该方法进一步包括:权 利 要 求 书CN 104408115 A2/5页3将矩阵Y进行如下变换:Y1YTSV-1,其中YT为Y的转置矩阵,V-1为V的逆矩阵。6.根据权利要求1所述的方法,其特征在于,所述采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,进一步包括:将当前媒体资源的特征词定义为特定特征词,将后台媒体资源库中在所有特定特征词上权值均不为0的媒。

8、体资源构成后台媒体资源集合采用K-means算法对后台媒体资源集合进行聚类,其中K-means算法中的K取特定特征词的个数,将后台媒体资源集合划分为K个类遍历中每个后台媒体资源与当前媒体资源的聚类相似度,中后台媒体资源Dj与当前媒体资源D之间的聚类相似度通过如下公式进行计算:其中,后台媒体资源Dj与当前媒体资源D之间的相似度Sim(Dj,D)用余弦相似度进行计算:其中,ujk为Dj在UT中对应的第j行第k列元素,yk为D在Y1中对应的第k列元素。7.根据权利要求1所述的方法,其特征在于,该方法进一步包括:针对用户点击媒体资源推荐列表中的媒体资源的点击顺序和点击量,对后台媒体资源库的特征词权值矩。

9、阵T进行权值调整,具体包括:根据计算单个用户对媒体资源Rl的评分,其中Rl为媒体资源推荐列表中被用户当前点击观看的媒体资源,rank(Rl)为用户对媒体资源Rl的点击顺序,且1rank(Rl)L,Score_max为限定单个用户对媒体资源评分的最大值的常数;根据计算媒体资源Rl当前的总评分,其中P为当前点击媒体资源Rl的用户数量;如果媒体资源Rl当前的总评分不大于评分阈值根据公式f(tj)tj(1+Score(Rl)/(+1)对媒体资源Rl的每个特征词权值进行调整;如果媒体资源Rl当前的总评分大于评分阈值将媒体资源Rl的所有特征词加入高频特征词集合中,根据公式f(tj)tj(1+Score(R。

10、l)/(+1)对媒体资源Rl的每个特征词权值进行调整;权 利 要 求 书CN 104408115 A3/5页4其中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒体资源Rl对应的元素,f(tj)为媒体资源Rl的第j个特征词调整后的权值;为权值调整参数,且中的特征词存在互异性,即不包含重复的特征词;为权值调整参数,且X为中包含的特征词数量。8.一种电视平台上基于语义链接的资源推荐装置,其特征在于,该装置包括:文本信息提取模块,用于提取后台媒体资源库所有媒体资源的文本信息;特征词提取模块,根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对。

11、所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;媒体资源推荐列表生成模块,如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。9.根据权利要求8所述的装置,其特征在于,所述特征词提取模块进一步包括:分词序列子模块,用于针对所述后台媒体资源库的每个媒体资源,利用词法分析工具根据词性的不同,将所述每个媒体资源的文本信息切分为分词序列;候选特征词提取子模块,用于将每个媒体资源的分词序列和热词。

12、词典进行匹配,将热词词典中包含关系的多个分词按照最长词串进行合并,合并后的分词作为该媒体资源的候选特征词;特征词权值矩阵生成子模块,用于计算所述候选特征词的权值,所述权值为所述候选特征词的词频-逆文档频率值,将权值不小于权值阈值的候选特征词通过停用表进行过滤,过滤通过的候选特征词为该媒体资源的特征词;利用后台媒体资源库所有媒体资源的特征词构建后台媒体资源库的特征词,用向量Cc1,cj,cM表示,其中,M为后台媒体资源库的特征词数量,后台媒体资源库的特征词包含了后台媒体资源库中每个媒体资源的特征词,且任意两个后台媒体资源库的特征词不相同;设定MN的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源。

13、库的特征词cj,列数N表示后台媒体资源库的媒体资源Di,特征词权值矩阵T的元素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资源Di的特征词时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是媒体资源Di的特征词时,tji0。10.根据权利要求9所述的装置,其特征在于,所述特征词权值矩阵生成子模块进一步用于:将特征词权值矩阵T进行奇异值分解,奇异值分解后得到包含语义关系的三个矩阵S、V、UT,且TSVUT,其中,UT为特征词权值矩阵T经过奇异值分解降维后的特征词权值矩阵。11.根据权利要求8所述的装置,其特征在于,如果用户观看的当前媒体资源不是所述后台媒体资。

14、源库中的媒体资源,该装置还包括:当前媒体资源特征词权值计算模块,用于获取用户观看的当前媒体资源的文本信息,权 利 要 求 书CN 104408115 A4/5页5根据所述当前媒体的文本信息提取所述当前媒体资源的特征词,计算每一特征词的权值,构建当前媒体资源的权值向量Y,Y为M1矩阵,矩阵元素yj(1jM)为特征词cj在当前媒体资源中的权值,当特征词cj是当前媒体资源的特征词时,yj为特征词cj在当前媒体资源中的TF-IDF值;当特征词cj不是当前媒体资源的特征词时,yj0。12.根据权利要求10或11所述的装置,其特征在于,所述当前媒体资源特征词权值计算模块还用于:将矩阵Y进行如下变换:Y1Y。

15、TSV-1,其中YT为Y的转置矩阵,V-1为V的逆矩阵。13.根据权利要求8所述的装置,其特征在于,所述媒体资源推荐列表生成模块进一步包括:后台媒体资源集合生成子模块,用于将当前媒体资源的特征词定义为特定特征词,将后台媒体资源库中在所有特定特征词上权值均不为0的媒体资源构成后台媒体资源集合相似度计算子模块,用于采用K-means算法对后台媒体资源集合进行聚类,其中K-means算法中的K取特定特征词的个数,将后台媒体资源集合划分为K个类遍历中每个后台媒体资源与当前媒体资源的聚类相似度,中后台媒体资源Dj与当前媒体资源D之间的聚类相似度通过如下公式进行计算:其中,后台媒体资源Dj与当前媒体资源D。

16、之间的相似度Sim(Dj,D)用余弦相似度进行计算:其中,ujk为Dj在UT中对应的第j行第k列元素,yk为D在Y1中对应的第k列元素。14.根据权利要求8所述的装置,其特征在于,该装置进一步包括权值学习模块,用于针对用户点击媒体资源推荐列表中的媒体资源的点击顺序和点击量,对后台媒体资源库的特征词权值矩阵T进行权值调整,所述权值学习模块还包括:媒体资源评分计算模块,用于根据计算单个用户对媒体资源Rl的评分,其中Rl为媒体资源推荐列表中被用户当前点击观看的媒体资源,rank(Rl)为用户对媒体资源Rl的点击顺序,且1rank(Rl)L,Score_max为限定单个用户对媒体资源评分的最大值得常数。

17、;媒体资源总评分计算模块,用于根据计算媒体资源Rl当前的总评分,其中P为当前点击媒体资源Rl的用户数量;权 利 要 求 书CN 104408115 A5/5页6权值调整模块,用于如果媒体资源Rl当前的总评分不大于评分阈值根据公式f(tj)tj(1+Score(Rl)/(+1)对媒体资源Rl的每个特征词权值进行调整;如果媒体资源Rl当前的总评分大于评分阈值将媒体资源Rl的所有特征词加入高频特征词集合中,根据公式f(tj)tj(1+Score(Rl)/(+1)对媒体资源Rl的每个特征词权值进行调整;其中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒体资源Rl对应的元素,f(tj)。

18、为媒体资源Rl的第j个特征词调整后的权值;为权值调整参数,且中的特征词存在互异性,即不包含重复的特征词;为权值调整参数,且X为中包含的特征词数量。权 利 要 求 书CN 104408115 A1/9页7一种电视平台上基于语义链接的异构资源推荐方法和装置技术领域0001 本发明涉及多媒体技术领域,特别是一种电视平台上基于语义链接的异构资源推荐方法和装置。背景技术0002 用户在电视平台上观看电视节目的时候,通常会对当前节目的某些信息感兴趣,想要进一步观看跟当前节目相关的其它媒体资源。针对用户的这一心理,目前出现了一些媒体资源间的推荐方法,一般为根据用户观看的当前资源,获取当前资源的关键词来表征用。

19、户特征,使用获得的关键词作为表征用户特征的向量,将与当前资源相似度高的资源推荐给用户。0003 然而目前存在的这些媒体资源间的推荐方法存在很多弊端,例如:多为同类资源间的推荐,异构资源间的推荐应用较少;为数不多的异构资源推荐多为单向推荐,即某种资源到另一种资源,如与电视节目关联的视频源推荐方法、与电视节目关联的产品推荐方法等,多种资源间相互推荐的方法较少;资源推荐方法中起到重要作用的词,部分可识别,部分不能识别需要手工构造,操作起来较为繁琐;局限于词形信息,缺少语义信息;依赖于人工标注,缺少对用户反馈的利用,其推荐结果对用户来说并不十分理想。发明内容0004 有鉴于此,本发明提出了一种电视平台。

20、上基于语义链接的异构资源推荐方法和装置,能够根据用户当前观看的资源,无需用户额外操作从而自动、智能推荐异构资源。0005 本发明提出的技术方案是:0006 一种电视平台上基于语义链接的异构资源推荐方法,包括:0007 提取后台媒体资源库所有媒体资源的文本信息;0008 根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;0009 如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚。

21、类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。0010 一种电视平台上基于语义链接的异构资源推荐装置,包括:0011 文本信息提取模块,用于提取后台媒体资源库所有媒体资源的文本信息;0012 特征词提取模块,根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;0013 媒体资源推荐列表生成模块,如果用户观看的当前媒体资源是所述后台媒体资源说 明 书CN 104408115 A2/9页8库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计。

22、算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。0014 综上,本发明提出的电视平台上基于语义链接的异构资源推荐方法和装置,依托于海量数据资源,将各类异构资源映射到同一语义空间中,自动构建异构资源间语义关系,生成文本到视频、视频到文本等异构资源之间的语义链接关系,从而产生异构资源推荐列表,该方法有效避免了传统推荐中仅仅局限于词形信息的现象,满足用户对相关性和多样性的要求。附图说明0015 图1为本发明方法实施例一的流程图;0016 图2为本发明方法实施例二的流程图;0017 图3为本发明实施例中的装置结构。

23、图。具体实施方式0018 为使本发明的目的、技术方案和优点表达的更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。0019 用户在电视平台上观看当前媒体资源时,本发明提出的电视平台上基于语义链接的异构资源推荐方法,可以根据后台媒体资源库中的各类异构资源与用户观看的当前媒体资源的聚类相似度,为用户提供与当前媒体资源相关度较高的L个后台媒体资源,便于用户观看与当前媒体资源相关的后台媒体资源。0020 方法实施例一0021 图1为本发明实施例的流程图,如图1所示,包括以下步骤:0022 步骤101:提取后台媒体资源库所有媒体资源的文本信息。0023 本步骤中,首先对后台媒体资源库的。

24、所有媒体资源进行文本信息的提取。将后台媒体资源库中每个媒体资源用Di表示,其中i为正整数,且1iN,N为后台媒体资源库包含的媒体资源的个数。0024 后台媒体资源库的所有媒体资源可以分为两大类:新闻文本和视频资源。对于新闻文本,直接提取文本信息;对于视频资源,文本信息位于视频标题和字幕内容,视频标题相对容易获取,字幕内容的识别方法有两种:一种是播放流中自带字幕,可以从播放流中提取字幕;另一种是通过对图像进行处理,通过定位字幕在图像中的位置完成字幕提取,并整合成相应的视频描述文本。0025 经过对后台媒体资源库中所有媒体资源的文本信息提取,将每个媒体资源用文本的形式表示出来。0026 步骤102。

25、:提取后台媒体资源库每个媒体资源的候选特征词。0027 步骤101中获得了后台媒体资源库中每个媒体资源的文本信息,本步骤对步骤101中获取的文本信息进行进一步处理,得到每个媒体资源的候选特征词,媒体资源的候选特征词从一定程度上能够有代表性的表示该媒体资源的内容。0028 首先利用词法分析工具根据词性的不同,将每个媒体资源的文本信息切分为若干说 明 书CN 104408115 A3/9页9个分词,得到每个媒体资源的分词序列。由于词法分析工具仅是根据词性的判断对文本信息进行切分,并没有考虑切分后的分词对表征该媒体资源的重要程度、以及各分词在该媒体资源的文本信息中上下文之间的语义关系,因此这一切分过。

26、程可能会得到一些没有实际意义的分词,例如“在”、“把”等,还可能将原本是一个整体的词串切分成两个甚至多个分词,例如将“搜狐视频”切分为“搜”、“狐”、“视频”三个分词,而原本“搜狐视频”应该作为一个整体词串来表征媒体资源的。0029 针对词法分析工具的这一弊端,不能直接将上述得到的分词作为每个媒体资源的候选特征词,需要将上述得到的分词和热词词典进行匹配,用热词词典对上述得到的分词进行修正,将热词词典中包含关系的多个分词按照最长词串进行合并,合并后的分词作为该媒体资源的候选特征词。例如,某媒体资源的分词序列包括“搜”、“狐”、“视频”三个分词,热词词典中包含“搜”、“狐”、“视频”以及“搜狐视频。

27、”四个热词,则将该媒体资源中的“搜”、“狐”、“视频”三个分词按照热词词典中的最长词串“搜狐视频”进行合并,得到该媒体资源的一个候选特征词“搜狐视频”。具体实施时可以采用字典树的方法将每个媒体资源的分词序列与热词词典进行匹配。用热词词典对上述得到的分词进行修正后,能够使修正后的分词更加符合人们的阅读习惯。0030 这里的热词词典是一个热词的集合,热词词典里的热词能够有代表性的表征后台媒体资源库的语义信息,其构建方法为:0031 (1)根据后台媒体资源库中所有媒体资源的文本信息的语言类型,选用特定语言类型中的分隔符将后台媒体资源库中所有媒体资源的文本信息拆分成子句,例如中文中的“。”、“!”、“。

28、?”等中文标点符号,或者英文中的“,”、“?”、“.”等英文标点符号。0032 (2)计算后台媒体资源库中各个重复词串的词频,重复词串的词频定义为该重复词串在后台媒体资源库多少个子句中出现,将每个词频大于词频阈值的重复词串作为候选词串,构建候选词串集合。0033 (3)对候选词串进行过滤,过滤后保留下的候选词串作为热词,构建热词词典。0034 具体过滤方法可以通过下面三个步骤实现:0035 a.收集停用词表,并利用停用词表对候选词串进行过滤,即将出现在停用词表中的候选词串从候选词串集合中删除。0036 b.计算每个候选词串的权值,该权值用词频(TF,Term Frequency)-逆文档频率(。

29、IDF,Inverse Document Frequency)表示,将权值低于权值阈值的候选词串从候选词串集合中删除,TF-IDF的计算方法为现有技术,在此不再赘述。0037 c.根据候选词串中噪声数据的类型制定先验知识,如文本信息中常会出现时间信息、数字与量词等构成的噪声串,将该类噪声串从候选词串集合中删除。0038 步骤103:进一步提取后台媒体资源库每个媒体资源的特征词。0039 本步骤通过提取后台媒体资源库每个媒体资源的特征词,将每个媒体资源用至少一个特征词表示。提取媒体资源特征词的方法为:0040 计算步骤102中得到的后台媒体资源库每个媒体资源的候选特征词的权值,仍以候选特征词的T。

30、F-IDF值表示权值,将权值小于权值阈值的候选特征词删除,将权值不小于权值阈值的候选特征词进一步通过停用表进行过滤,最终保留下来的媒体资源的候选特征词作为该媒体资源的特征词。说 明 书CN 104408115 A4/9页100041 将后台媒体资源库所有媒体资源的特征词定义为后台媒体资源库的特征词,后台媒体资源库的特征词向量表示为Cc1,,cj,cM,其中,cj为后台媒体资源库的第j个特征词,M为后台媒体资源库的特征词数量,后台媒体资源库的特征词包含了每个媒体资源的特征词,且后台媒体资源库的任意两个特征词不相同。0042 设定MN的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源库的特征词cj。

31、的数量,列数N表示后台媒体资源库的媒体资源Di的数量,特征词权值矩阵T的元素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资源Di的特征词时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是媒体资源Di的特征词时,tji0。0043 步骤104:将特征词权值矩阵T进行奇异值分解。0044 为了挖掘后台媒体资源库各个特征词之间的语义关系,将特征词权值矩阵T进行奇异值分解,奇异值分解后得到包含语义关系的三个矩阵S、V、UT,且TSVUT。其中,UT为特征词权值矩阵T经过奇异值分解降维后的特征词权值矩阵,奇异值分解能够实现主题抽取,相同主题的词的权重会在一定范围内。

32、较一致,由此奇异值分解可以发现特征词权值矩阵T中特征词与特征词之间隐含的语义关系。0045 步骤105:判断用户观看的当前媒体资源是否为后台媒体资源库的媒体资源,如果不是,执行步骤106,如果是,执行步骤107。0046 步骤106:计算当前媒体资源的权值向量。0047 本步骤中,首先获取用户观看的当前媒体资源的文本信息,获取方法与步骤101中获取后台媒体资源库每个媒体资源文本信息的方法相同,在此不再赘述。获取当前媒体资源的文本信息后,提取当前媒体资源的候选特征词(提取方法与步骤102中获取后台媒体资源库的候选特征词的方法相同),之后,将当前媒体资源的候选特征词与特征词向量C进行匹配,如果当前。

33、媒体资源的某个候选特征词不是特征词向量C的元素,则将当前媒体资源的该候选特征词删除,保留下来的候选特征词进一步进行权值计算,仍以TF-IDF值表示权值,将权值小于权值阈值的候选特征词删除,将权值不小于权值阈值的候选特征词进一步通过停用表进行过滤,最终保留下来的候选特征词作为当前媒体资源的特征词。0048 构建当前媒体资源的权值向量Y,Y为M1矩阵,矩阵元素yj(1jM)为特征词cj在当前媒体资源中的权值,当特征词cj是当前媒体资源的特征词时,yj为特征词cj在当前媒体资源中的TF-IDF值;当特征词cj不是当前媒体资源的特征词时,yj0。0049 将矩阵Y进行如下变换:Y1YTSV-1,其中Y。

34、T为Y的转置矩阵,V-1为V的逆矩阵。0050 步骤107:采用聚类的方法生成媒体资源推荐列表。0051 为了使得媒体推荐列表更加准确的捕捉用户的兴趣,本发明采用聚类的方法生成媒体资源推荐列表,满足用户对多样性和相关性的要求。0052 本步骤中,将当前媒体资源的特征词定义为特定特征词,将后台媒体资源库中在所有特定特征词上权值均不为0的媒体资源构成后台媒体资源集合0053 采用K-means算法对后台媒体资源集合进行聚类,其中K-means算法中的K取特定特征词的个数,将后台媒体资源集合划分为K个类0054 遍历中每个后台媒体资源与当前媒体资源的聚类相似度,说 明 书CN 104408115 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1