《基于标签推荐文档的方法及文档推荐装置.pdf》由会员分享,可在线阅读,更多相关《基于标签推荐文档的方法及文档推荐装置.pdf(22页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102955849 A(43)申请公布日 2013.03.06CN102955849A*CN102955849A*(21)申请号 201210422437.5(22)申请日 2012.10.29G06F 17/30(2006.01)(71)申请人新浪技术(中国)有限公司地址 100080 北京市海淀区北四环西路理想国际大厦(72)发明人刘晓震(74)专利代理机构北京市京大律师事务所 11321代理人黄启行 方晓明(54) 发明名称基于标签推荐文档的方法及文档推荐装置(57) 摘要本发明公开了一种基于标签推荐文档的方法及文档推荐装置。该方法包括:接收用户选取的文档标签,。
2、查询预先设置的同义词词林,获取与文档标签相对应的同义词组;根据获取的同义词组,从预先存储的文档库中,查询并获取包含所述同义词组的文档列表;计算包含所述同义词组的文档列表中每一文档的特征值,构建基于文档标签的空间权重向量;根据构建的基于文档标签的空间权重向量,计算文档标签对应的文档与文档列表中每一篇文档的相似度,并选取预定数目的相似度最高的文档作为查询结果输出。应用本发明,可以提升文档推荐效率。(51)Int.Cl.权利要求书3页 说明书16页 附图2页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书 3 页 说明书 16 页 附图 2 页1/3页21.一种基于标签推荐文档的方。
3、法,包括:接收用户选取的文档标签,查询预先设置的同义词词林,获取与文档标签相对应的同义词组;根据获取的同义词组,从预先存储的文档库中,查询并获取包含所述同义词组的文档列表;计算包含所述同义词组的文档列表中每一文档的特征值,构建基于文档标签的空间权重向量;根据构建的基于文档标签的空间权重向量,计算文档标签对应的文档与文档列表中每一篇文档的相似度,并选取预定数目的相似度最高的文档作为查询结果输出。2.根据权利要求1所述的方法,其中,所述文档包括文档标识、文档标签、文档更新时间以及文档内容。3.根据权利要求2所述的方法,其中,所述查询预先设置的同义词词林,获取与文档标签相对应的同义词组包括:查询预先。
4、设置的同义词词林,分别获取与文档标签中各标签对应的同义词子组;基于文档标签格式,将各标签对应的同义词子组组合为同义词组。4.根据权利要求3所述的方法,其中,所述从预先存储的文档库中,查询并获取包含所述同义词组的文档列表包括:基于文档标签,对获取的同义词组进行组合,得到组合的同义词组;根据组合的同义词组,查询倒排索引集合,获取所述组合的同义词组对应的正排索引集合标识;根据获取的正排索引集合标识,查询正排索引集合,获取正排索引集合标识映射的文档,形成文档列表。5.根据权利要求4所述的方法,其中,所述计算包含所述同义词组的文档列表中每一文档的特征值包括:查询预先设置的标签计数器,遍历文档列表,获取文。
5、档列表中每一文档基于文档标签的计数值;结合文档库中文档总数以及基于文档标签的计数值,分别得到文档列表中各文档对应的特征值。6.根据权利要求5所述的方法,其中,在所述查询预先存储的标签计数器的步骤之前,所述方法进一步包括:接收发布的携带博文标识的博文,获取该博文中的博文标签;查询文档库中,获取所述博文标识对应的博文标签数组;根据获取的博文标签以及博文标签数组,更新博文标签数组中的计数值。7.根据权利要求6所述的方法,其中,所述根据获取的博文标签以及博文标签数组,更新博文标签数组中的计数值包括:将所述博文标签与所述博文标签数组互为差集,将博文标签差博文标签数组的集合写入输入标签数组,博文标签数组差。
6、博文标签的集合写入输出标签数组;根据输入标签数组中的标签,对标签计数器中相应标签对应的计数值执行加1操作;根据输出标签数组中的标签,对标签计数器中相应标签对应的计数值执行减1操作;权 利 要 求 书CN 102955849 A2/3页3对输入标签数组中的数据,增加索引倒排数据内容,对输出标签数组中的数据,删除对应的索引倒排数据内容。8.根据权利要求1至7任一项所述的方法,其中,计算所述相似度采用夹角余弦定理公式。9.一种基于标签推荐文档的文档推荐装置,其特征在于,该装置包括:同义词组获取模块、文档获取模块、空间权重向量构建模块以及文档推荐模块,其中,同义词组获取模块,用于接收用户选取的文档标签。
7、,查询预先设置的同义词词林,获取与文档标签相对应的同义词组;文档获取模块,用于根据获取的同义词组,从预先存储的文档库中,查询并获取包含所述同义词组的文档列表;空间权重向量构建模块,用于计算包含所述同义词组的文档列表中每一文档的特征值,构建基于文档标签的空间权重向量;文档推荐模块,用于根据构建的基于文档标签的空间权重向量,计算文档标签对应的文档与文档列表中每一篇文档的相似度,并选取预定数目的相似度最高的文档作为查询结果输出。10.根据权利要求9所述的装置,其特征在于,所述同义词组获取模块包括:解析单元、查询单元以及同义词组获取单元,其中,解析单元,用于接收用户选取的文档标签,解析得到文档标签中包。
8、含的各标签,依次输出至查询单元;查询单元,用于根据接收的标签,查询预先设置的同义词词林,获取该标签对应的同义词子组,输出至同义词组获取单元;同义词组获取单元,用于根据文档标签的格式,将接收的同义词子组组合为同义词组。11.根据权利要求9所述的装置,其特征在于,所述文档获取模块包括:组合单元、倒排索引集合单元、正排索引集合单元以及文档获取单元,其中,组合单元,用于基于文档标签,对获取的同义词组进行组合,得到组合的同义词组;倒排索引集合单元,用于根据接收的组合的同义词组进行查询,获取所述组合的同义词组对应的正排索引集合标识;正排索引集合单元,用于根据接收的正排索引集合标识进行查询,获取正排索引集合。
9、标识映射的文档,输出至文档获取单元;文档获取单元,用于存储接收的文档,形成文档列表。12.根据权利要求9至11任一项所述的装置,其特征在于,所述空间权重向量构建模块包括:标签计数器、查询单元、特征值计算单元以及空间权重向量构建单元,其中,标签计数器,用于存储文档标签的计数值;查询单元,用于遍历文档列表,查询标签计数器,获取文档列表中每一文档基于文档标签的计数值;特征值计算单元,用于结合文档库中文档总数以及基于文档标签的计数值,分别得到文档列表中各文档对应的特征值;空间权重向量构建单元,用于根据各文档对应的特征值,分别构建各文档基于文档标签的空间权重向量。权 利 要 求 书CN 10295584。
10、9 A3/3页413.根据权利要求12所述的装置,其特征在于,所述空间权重向量构建模块进一步包括:更新单元,用于接收发布的携带博文标识的博文,获取该博文中的博文标签;查询文档库中的标签计数器,获取所述博文标识对应的博文标签数组;根据获取的所述博文标签以及所述博文标签数组,更新所述博文标签数组中的计数值。14.根据权利要求13所述的装置,其特征在于,所述更新单元包括:接收子单元、查询子单元以及更新子单元,其中,接收子单元,用于接收发布的携带博文标识的博文,获取该博文中的博文标签;查询子单元,用于查询文档库中的标签计数器,获取所述博文标识对应的博文标签数组;更新子单元,用于将所述博文标签与所述博文。
11、标签数组互为差集,将博文标签差博文标签数组的集合写入输入标签数组,博文标签数组差博文标签的集合写入输出标签数组;根据输入标签数组中的标签,对标签计数器中相应标签对应的计数值执行加1操作;根据输出标签数组中的标签,对标签计数器中相应标签对应的计数值执行减1操作;对输入标签数组中的数据,在倒排索引集合单元中增加相应数据内容,对输出标签数组中的数据,在倒排索引集合单元中,删除对应的数据内容。权 利 要 求 书CN 102955849 A1/16页5基于标签推荐文档的方法及文档推荐装置技术领域0001 本发明涉及搜索技术,尤其涉及一种基于标签(tag)推荐文档的方法及文档推荐装置。背景技术0002 随。
12、着互联网技术的迅速发展,网络文档,例如,博文以及微博文的数量迅速膨胀,如何有效管理网络文档的海量数据资源,以及,从海量数据资源的文档中,向用户有效推荐文档,受到越来越多的关注。其中,文档分类技术作为管理海量数据以及推荐文档的关键技术,得到了巨大的发展,质量高的文档分类,可以为管理和推荐文档提供较好的支持。0003 现有技术中,文档分类主要基于特征值权重技术,特征值权重的计算考虑两个权重因子:词频(TF,Term Frequency)以及逆文档词频(IDF,Inverse Document Frequency)。其中,0004 TF表示一个词(标签)在文档中出现的次数的权重,如果一个词在文档中出。
13、现的次数越高,该词就越能表征该文档的主题,同时,考虑文档的长度,因为文档越长,词在文档中出现的频率越高。0005 TF的权重计算公式为:0006 0007 式中,0008 TF为词频权重;0009 Pw为词w出现在文档中的次数;0010 P为文档长度。0011 IDF是表示文档集体范围的一种全局因子,IDF的权重计算公式为:0012 0013 式中,0014 IDF为逆文档词频权重;0015 Dw为样本(文档库)中含有词w的个体(文档)总数;0016 D为样本总数,即总文档数。0017 如果IDF值越小,表示样本中越多的文档包含有该词,该词包含的信息量越少;如果IDF值越大,表示样本中只有越少。
14、的文档包含有该词,该词包含的信息量越大。0018 结合词频及逆文档词频,可以形成词频-逆文档词频(TF-IDF,Term Frequency-Inverse Document Frequency),TF-IDF是一种用于信息搜索、推荐的常用加权技术,常应用于搜寻引擎,作为文档与用户查询之间相关程度的度量或评级,基于统计方法,用以评估词对一个文件集或一个语料库中的其中一份文档的重要程度,并向用户推荐查询结果。其中,词的重要性随着该词在文档中出现的次数成正比增加,同时随着在样本库说 明 书CN 102955849 A2/16页6中出现的频率成反比下降。也就是说,如果词在一篇文档中出现的TF高,且在。
15、其他文档中很少出现,则认为该词具有较好的类别区分能力,适用于分类。0019 TF-IDF权重可以采用TF与IDF进行表示,其计算公式如下:0020 0021 式中,Weightw为词w的TF-IDF权重。0022 如果TF-IDF权重值越大,表示该词的指示性越好。0023 这样,用户在浏览某一文档时,如果需要获取与该文档相关的文档信息以作进一步的了解,由于文档一般包含有标签,可以根据用户选取的当前浏览文档的标签(推荐词或推荐词组),获取文档库中包含有该推荐词或推荐词组的文档,并分别计算各文档包含的用户输入标签在文档库中的TF-IDF权重值,并对获取的TF-IDF权重值进行排序,选取排序前N位的。
16、TF-IDF权重值对应的文档作为推荐文档,向用户展示,从而使用户根据展示的推荐文档进行推荐或作进一步浏览。0024 由上述可见,现有基于推荐词(标签)推荐文档的方法,根据当前浏览文档的标签,获取文档库中包含有该标签的文档,并分别计算各文档在文档库中的TF-IDF权重值,根据TF-IDF权重值进行文档推荐,由于仅仅针对推荐词进行相关文档TF-IDF权重值计算,没有对推荐词进行同义词、同类词的语义分析扩展,使得输出的查询结果信息量(推荐文档)较少,不能满足用户的同义查询需求,查询效率较低。例如,如果用户输入包含三个查询字符串(推荐词组)的标签“恭喜久仰过奖”,通过搜索引擎的搜索查询,进行相关TF-。
17、IDF权重值计算后,只向用户输出包含有三个推荐词的相关文档。这样,可能导致搜索引擎的文档库中没有与推荐词组“恭喜久仰过奖”相匹配的文档,从而使得推荐失败,推荐效率低,而没有考虑对推荐词进行同义扩展,例如,分别将推荐词“恭喜”进行同义扩展,得到同义推荐词组“恭喜 恭贺 贺喜”;将推荐词“久仰”进行同义扩展,得到同义推荐词词组“久仰 久仰大名 久慕盛名”;将推荐词“过奖”进行同义扩展,得到同义推荐词词组“过奖 过誉”,再以扩展的同义词组作为一个空间权重向量的坐标,进行搜索查询,从而获取与通过查询字符串查询得到的文档相关(相近似)的文档作为推荐文档,以扩展查询结果的信息量,满足用户对同义词的查询需求。
18、。发明内容0025 本发明的实施例提供一种基于标签推荐文档的方法,提升文档推荐效率。0026 本发明的实施例还提供一种基于标签推荐文档的文档推荐装置,提升文档推荐效率。0027 为达到上述目的,本发明实施例提供的一种基于标签推荐文档的方法,包括:0028 接收用户选取的文档标签,查询预先设置的同义词词林,获取与文档标签相对应的同义词组;0029 根据获取的同义词组,从预先存储的文档库中,查询并获取包含所述同义词组的文档列表;0030 计算包含所述同义词组的文档列表中每一文档的特征值,构建基于文档标签的空间权重向量;说 明 书CN 102955849 A3/16页70031 根据构建的基于文档标。
19、签的空间权重向量,计算文档标签对应的文档与文档列表中每一篇文档的相似度,并选取预定数目的相似度最高的文档作为查询结果输出。0032 其中,所述文档包括文档标识、文档标签、文档更新时间以及文档内容。0033 其中,所述查询预先设置的同义词词林,获取与文档标签相对应的同义词组包括:0034 查询预先设置的同义词词林,分别获取与文档标签中各标签对应的同义词子组;0035 基于文档标签格式,将各标签对应的同义词子组组合为同义词组。0036 其中,所述从预先存储的文档库中,查询并获取包含所述同义词组的文档列表包括:0037 基于文档标签,对获取的同义词组进行组合,得到组合的同义词组;0038 根据组合的。
20、同义词组,查询倒排索引集合,获取所述组合的同义词组对应的正排索引集合标识;0039 根据获取的正排索引集合标识,查询正排索引集合,获取正排索引集合标识映射的文档,形成文档列表。0040 其中,所述计算包含所述同义词组的文档列表中每一文档的特征值包括:0041 查询预先设置的标签计数器,遍历文档列表,获取文档列表中每一文档基于文档标签的计数值;0042 结合文档库中文档总数以及基于文档标签的计数值,分别得到文档列表中各文档对应的特征值。0043 其中,在所述查询预先存储的标签计数器的步骤之前,所述方法进一步包括:0044 接收发布的携带博文标识的博文,获取该博文中的博文标签;0045 查询文档库。
21、中,获取所述博文标识对应的博文标签数组;0046 根据获取的博文标签以及博文标签数组,更新博文标签数组中的计数值。0047 其中,所述根据获取的博文标签以及博文标签数组,更新博文标签数组中的计数值包括:0048 将所述博文标签与所述博文标签数组互为差集,将博文标签差博文标签数组的集合写入输入标签数组,博文标签数组差博文标签的集合写入输出标签数组;0049 根据输入标签数组中的标签,对标签计数器中相应标签对应的计数值执行加1操作;0050 根据输出标签数组中的标签,对标签计数器中相应标签对应的计数值执行减1操作;0051 对输入标签数组中的数据,增加索引倒排数据内容,对输出标签数组中的数据,删除。
22、对应的索引倒排数据内容。0052 其中,计算所述相似度采用夹角余弦定理公式。0053 一种基于标签推荐文档的文档推荐装置,该装置包括:同义词组获取模块、文档获取模块、空间权重向量构建模块以及文档推荐模块,其中,0054 同义词组获取模块,用于接收用户选取的文档标签,查询预先设置的同义词词林,获取与文档标签相对应的同义词组;0055 文档获取模块,用于根据获取的同义词组,从预先存储的文档库中,查询并获取包说 明 书CN 102955849 A4/16页8含所述同义词组的文档列表;0056 空间权重向量构建模块,用于计算包含所述同义词组的文档列表中每一文档的特征值,构建基于文档标签的空间权重向量;。
23、0057 文档推荐模块,用于根据构建的基于文档标签的空间权重向量,计算文档标签对应的文档与文档列表中每一篇文档的相似度,并选取预定数目的相似度最高的文档作为查询结果输出。0058 较佳地,所述同义词组获取模块包括:解析单元、查询单元以及同义词组获取单元,其中,0059 解析单元,用于接收用户选取的文档标签,解析得到文档标签中包含的各标签,依次输出至查询单元;0060 查询单元,用于根据接收的标签,查询预先设置的同义词词林,获取该标签对应的同义词子组,输出至同义词组获取单元;0061 同义词组获取单元,用于根据文档标签的格式,将接收的同义词子组组合为同义词组。0062 较佳地,所述文档获取模块包。
24、括:组合单元、倒排索引集合单元、正排索引集合单元以及文档获取单元,其中,0063 组合单元,用于基于文档标签,对获取的同义词组进行组合,得到组合的同义词组;0064 倒排索引集合单元,用于根据接收的组合的同义词组进行查询,获取所述组合的同义词组对应的正排索引集合标识;0065 正排索引集合单元,用于根据接收的正排索引集合标识进行查询,获取正排索引集合标识映射的文档,输出至文档获取单元;0066 文档获取单元,用于存储接收的文档,形成文档列表。0067 较佳地,所述空间权重向量构建模块包括:标签计数器、查询单元、特征值计算单元以及空间权重向量构建单元,其中,0068 标签计数器,用于存储文档标签。
25、的计数值;0069 查询单元,用于遍历文档列表,查询标签计数器,获取文档列表中每一文档基于文档标签的计数值;0070 特征值计算单元,用于结合文档库中文档总数以及基于文档标签的计数值,分别得到文档列表中各文档对应的特征值;0071 空间权重向量构建单元,用于根据各文档对应的特征值,分别构建各文档基于文档标签的空间权重向量。0072 较佳地,所述空间权重向量构建模块进一步包括:0073 更新单元,用于接收发布的携带博文标识的博文,获取该博文中的博文标签;查询文档库中的标签计数器,获取所述博文标识对应的博文标签数组;根据获取的所述博文标签以及所述博文标签数组,更新所述博文标签数组中的计数值。007。
26、4 较佳地,所述更新单元包括:接收子单元、查询子单元以及更新子单元,其中,0075 接收子单元,用于接收发布的携带博文标识的博文,获取该博文中的博文标签;0076 查询子单元,用于查询文档库中的标签计数器,获取所述博文标识对应的博文标说 明 书CN 102955849 A5/16页9签数组;0077 更新子单元,用于将所述博文标签与所述博文标签数组互为差集,将博文标签差博文标签数组的集合写入输入标签数组,博文标签数组差博文标签的集合写入输出标签数组;0078 根据输入标签数组中的标签,对标签计数器中相应标签对应的计数值执行加1操作;0079 根据输出标签数组中的标签,对标签计数器中相应标签对应。
27、的计数值执行减1操作;0080 对输入标签数组中的数据,在倒排索引集合单元中增加相应数据内容,对输出标签数组中的数据,在倒排索引集合单元中,删除对应的数据内容。0081 由上述技术方案可见,本发明实施例提供的一种基于标签推荐文档的方法及文档推荐装置,接收用户选取的文档标签,查询预先设置的同义词词林,获取与文档标签相对应的同义词组;根据获取的同义词组,从预先存储的文档库中,查询并获取包含所述同义词组的文档列表;计算包含所述同义词组的文档列表中每一文档的特征值,构建基于文档标签的空间权重向量;根据构建的基于文档标签的空间权重向量,计算文档标签对应的文档与文档列表中每一篇文档的相似度,并选取预定数目。
28、的相似度最高的文档作为查询结果输出。这样,通过将文档标签进行同义扩展,得到同义词组,再以扩展的同义词组查询文档库,形成文档列表,计算文档标签对应的文档与文档列表中各文档的相似度,根据相似度输出推荐结果,从而扩展了查询结果的信息量,提升文档推荐效率,满足了用户对同义词的查询需求。附图说明0082 为了更清楚地说明本发明实施例或现有技术中的技术方案,以下将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,以下描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员而言,还可以根据这些附图所示实施例得到其它的实施例及其附图。0083 图1为本发明实施例基于标签推荐文档的方法流程示。
29、意图。0084 图2为本发明实施例基于标签推荐文档的方法具体流程示意图。0085 图3为本发明实施例文档A生成的空间权重向量示意图。0086 图4为本发明实施例博文列表中各文档基于文档A标签生成的空间权重向量示意图。0087 图5为本发明实施例基于标签推荐文档的文档推荐装置结构示意图。具体实施方式0088 以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。0089 现有基于标签推荐文档的方法,根据标。
30、签的精确匹配计算进行查询,获取相关的说 明 书CN 102955849 A6/16页10文档,计算各文档的TF-IDF权重值,根据TF-IDF权重值进行文档推荐,没有考虑推荐词语义的相近程度,也没有考虑推荐词的同义词所在文档应有的权重,使得查询结果信息量较少,不能满足用户的同义查询需求,文档推荐效率较低。0090 向量空间模型(SVM,Vector Space Model)作为向量的标识符,是一个可以用于表示文档的代数模型,可用于搜索引擎的相似度计算,可以对文档与其它文档的相关性进行排序计算,从而向用户输出推荐词对应的推荐文档查询结果,从数学模型的角度看,向量空间模型简单直观,以下进行简要描述。
31、。0091 由词Wi组成的词组如果词Wi出现在文档中,则该词Wi在该文档的特征值向量中的值就非零,这样,词频-逆文档词频权重通过向量可以表示为:0092 0093 0094 0095 则词组在文档A与B中的特征值向量可以分别表征如下:0096 0097 0098 由于夹角余弦定理公式可以反映两个向量(文档)之间的相关程度,因而,通过将词组在文档A与B中的特征值,生成空间权重向量,代入夹角余弦定理公式,可以得到文档A与B的相关程度,夹角余弦定理公式如下:0099 0100 该式中,如果两文档对应的空间权重向量(Ai、Bi)的余弦值为零,则表示该两文档的空间权重向量是正交的,彼此互不相关,即两文档。
32、相关程度为零,词组对应的文档A与B不具有相关性。0101 本发明实施例中,考虑基于同义词词林扩展,对用户选取的标签进行词义扩展,基于词义扩展的标签,从文档库中获取包含词义扩展的标签的文档,结合向量空间模型,构建扩展的标签在各文档中对应的空间权重向量,并基于各文档对应的空间权重向量,通过夹角余弦定理公式计算各文档之间的相关程度,依据相关程度进行文档推荐,从而提出全新的基于语义的相关性算法的推荐方法。0102 具体来说,基于同义词词林扩展,对用户输入的标签进行语义分析,即抽取用户用以推荐文档输入的字符串,生成文档标签,根据预先设置的同义词词林,获取文档标签对应的同义词组,基于同义词组,查询文档库,获取包含同义词组的文档,并计算各文档中同义词组的特征值,生成基于文档标签的空间权重向量,与文档标签的特征值形成的空间权重向量进行夹角余弦计算,得到空间权重向量夹角余弦值,从而获取两文档之间的相似度,根据相似度输出推荐结果,使推荐结果更加符合用户的推荐需求,提升文档的推荐效率。说 明 书CN 102955849 A10。