《文件映射方法及装置和文件推荐方法及装置.pdf》由会员分享,可在线阅读,更多相关《文件映射方法及装置和文件推荐方法及装置.pdf(10页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104102748A43申请公布日20141015CN104102748A21申请号201410390122622申请日20140808G06F17/3020060171申请人中国联合网络通信集团有限公司地址100033北京市西城区金融大街21号72发明人王淑玲张云勇房秉毅74专利代理机构北京安信方达知识产权代理有限公司11262代理人李丹栗若木54发明名称文件映射方法及装置和文件推荐方法及装置57摘要本发明公开了一种文件映射方法及装置和文件推荐方法及装置,包括利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识;将文件标识的海明码距离满足预设条件的文件,利用纠。
2、错码存储到物理上相同或临近的节点,其中预设条件为海明码距离的大小与文件是否相似之间的对应关系。本发明通过在文件标识中融入文件内容信息以及利用纠错码,实现了将相似的文件存储到了物理上相同或临近的节点。这样,在本发明文件推荐方法中,由于相似的文件存储到了物理上相同或临近的节点,因此仅仅需要判断与用户兴趣相似的文件及临近的其他文件是否为用户感兴趣的文件即可,而不需要对整个系统中的所有文件进行逐一判断,从而提高了文件推荐的效率。51INTCL权利要求书2页说明书6页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书6页附图1页10申请公布号CN104102748ACN1041。
3、02748A1/2页21一种文件映射方法,其特征在于,包括利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识;将文件标识间海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中所述预设条件为海明码距离的大小与文件是否相似之间的对应关系。2根据权利要求1所述的文件映射方法,其特征在于,所述文件的关键字包括S个,S为大于1的自然数;所述生成文件标识包括计算所述S个关键字的一致性哈希在布鲁姆过滤器中的S次插入操作。3根据权利要求1或2所述的文件映射方法,其特征在于,所述将文件标识间海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点包括利用纠错码建。
4、立所述节点的节点标识至纠错节点标识的一一映射关系;在所有的纠错节点标识中,选择一个与所述文件标识海明码距离最小的、并且值最小的纠错节点标识,将所述文件标识存储在与该纠错节点标识对应的节点标识表示的物理节点上。4一种文件映射装置,其特征在于,至少包括第一生成模块和映射模块,其中,第一生成模块,用于对文件的关键字进行哈希运算,利用布鲁姆过滤器对经过哈希运算的关键字进行处理后生成文件标识;映射模块,用于获取文件标识间的海明码距离,并将获得的海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中所述预设条件为海明码距离的大小与文件是否相似之间的对应关系。5一种文件推荐方法,其特征在。
5、于,包括对与用户兴趣相关的关键字进行哈希运算并生成用户的兴趣向量;利用纠错码确定生成的用户的兴趣向量表征的文件的存储位置;根据生成的用户的兴趣向量和存储位置上的文件标识的相似度,确定用户感兴趣的文件,其中,文件标识为利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识。6根据权利要求5所述的文件推荐方法,其特征在于,所述生成用户的兴趣向量包括所述与用户兴趣相关的各关键字分别经过哈希运算后的结果组成的、长度为所述与用户兴趣相关的关键字个数的兴趣向量U。7根据权利要求5所述的文件推荐方法,其特征在于,所述确定生成的用户的兴趣向量表征的文件的存储位置包括利用布鲁姆过滤器对经过哈希运算的。
6、用户兴趣相关的关键字进行处理后生成表征用户兴趣的文件的文件标识;利用纠错码建立所述节点的节点标识至纠错节点标识的一一映射关系;在所有的纠错节点标识中,选择一个与所述表征用户兴趣的文件的文件标识的海明码距离最小的、并且值最小的纠错节点标识,将所述表征用户兴趣的文件的文件标识存储在与该纠错节点标识对应的节点标识表示的物理节点上。8根据权利要求57任一项所述的文件推荐方法,其特征在于,所述确定用户感兴趣的文件包括计算所述用户的兴趣向量U和所述确定出的存储位置上的文件的文件标识的海明码权利要求书CN104102748A2/2页3距离,当海明码距离小于或等于预先设置的距离阈值时,确定二者相似度高,且该文。
7、件标识对应的文件为用户感兴趣的文件。9一种文件推荐装置,其特征在于,至少包括第二生成模块、处理模块和确定模块,其中,第二生成模块,用于对与用户兴趣相关的关键字进行哈希运算并生成用户的兴趣向量;处理模块,用于利用纠错码概念确定生成的用户的兴趣向量表征的文件的存储位置;确定模块,用于根据生成的用户的兴趣向量和存储位置上的文件标识的相似度,确定用户感兴趣的文件,其中,文件标识为利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识。权利要求书CN104102748A1/6页4文件映射方法及装置和文件推荐方法及装置技术领域0001本发明涉及文件共享技术,尤指一种文件映射方法及装置和文件推荐。
8、方法及装置。背景技术0002通过网盘等用于文件共享的应用系统,用户在贡献自身文件资源的同时,也能获取别人贡献的资源。在目前的文件共享应用系统中,用户登陆后,系统会根据用户贡献的文件、文件下载历史等信息,为用户推荐其可能感兴趣的文件列表。0003在现有文件共享应用系统中,文件由文件标识ID和用于表达文件主题内容的元数据来表示。其中,文件标识ID一般随机生成;元数据包括一系列的、表征文件内容的关键字。0004为了能给用户推荐其感兴趣的文件,文件共享应用系统需要维护用户的搜索和共享历史,记录用户搜索和分享过的文件的关键字,举例来看,假设为某用户维护的关键字为网络,计算机,系统结构。那么,当系统在判断。
9、是否要为该用户推荐文件A表述为IDA,KK1,K2,时,首先需要计算为该用户维护的关键字网络,计算机,系统结构和文件A的关键字集合K的相似度;如果某个KI与该用户的关键字匹配,则判断出文件A为该用户感兴趣的文件。0005现有的文件标识ID中不包含文件的内容信息。文件标识ID采用随机生成的方式产生,也就是说,文件标识ID是一串没有具体含义的记号,无法表征文件的特征。在现有给用户推荐其感兴趣的文件的方法中,当需要判断文件是否为用户感兴趣的文件时,需要通过文件标识ID这个记号获取文件的元数据信息,再从元数据中提取出文件的关键字信息,然后再按照上述方法判断是否适合推荐。0006而在文件共享系统中,文件。
10、不呈现聚集性的特征,文件的存储位置由文件标识ID的散列函数来决定。由于文件标识ID不具备任何含义,因此,相似文件的实际映射位置可能会大相径庭,基于这种文件映射方式,当为用户推荐其感兴趣的文件时,需要对共享文件系统中所有的文件进行扫描,并比对文件的关键字集合与用户的关键字集合,从而判断出某一文件是否是用户感兴趣的。这显然给文件推荐的实现带来了一定的困难,而且大大降低了文件推荐的效率。发明内容0007为了解决上述技术问题,本发明提供了一种文件映射方法及装置和文件推荐方法及装置,能够使得文件的存储呈现聚集性的特征,提高文件推荐效率。0008为了达到本发明目的,本发明提供了一种文件映射方法,包括利用布。
11、鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识;0009将文件标识间海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中所述预设条件为海明码距离的大小与文件是否相似之间的对应关系。说明书CN104102748A2/6页50010所述文件的关键字包括S个,S为大于1的自然数;所述生成文件标识包括0011计算所述S个关键字的一致性哈希在布鲁姆过滤器中的S次插入操作。0012所述将文件标识间海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点包括0013利用纠错码建立所述节点的节点标识至纠错节点标识的一一映射关系;0014在所有的纠错节点标识中,选。
12、择一个与所述文件标识海明码距离最小的、并且值最小的纠错节点标识,将所述文件标识存储在与该纠错节点标识对应的节点标识表示的物理节点上。0015本发明还提供了一种文件映射装置,至少包括第一生成模块和映射模块,其中,0016第一生成模块,用于对文件的关键字进行哈希运算,利用布鲁姆过滤器对经过哈希运算的关键字进行处理后生成文件标识。0017映射模块,用于获取文件标识间的海明码距离,并将获得的海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中所述预设条件为海明码距离的大小与文件是否相似之间的对应关系。0018本发明又提供了一种文件推荐方法,包括0019对与用户兴趣相关的关键字进行。
13、哈希运算并生成用户的兴趣向量;0020利用纠错码确定生成的用户的兴趣向量表征的文件的存储位置;0021根据生成的用户的兴趣向量和存储位置上的文件标识的相似度,确定用户感兴趣的文件,其中,文件标识为利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识。0022所述生成用户的兴趣向量包括所述与用户兴趣相关的各关键字分别经过哈希运算后的结果组成的、长度为所述与用户兴趣相关的关键字个数的兴趣向量U。0023所述确定生成的用户的兴趣向量表征的文件的存储位置包括0024利用布鲁姆过滤器对经过哈希运算的用户兴趣相关的关键字进行处理后生成表征用户兴趣的文件的文件标识;0025利用纠错码建立所述节。
14、点的节点标识至纠错节点标识的一一映射关系;0026在所有的纠错节点标识中,选择一个与所述表征用户兴趣的文件的文件标识的海明码距离最小的、并且值最小的纠错节点标识,将所述表征用户兴趣的文件的文件标识存储在与该纠错节点标识对应的节点标识表示的物理节点上。0027所述确定用户感兴趣的文件包括0028计算所述用户的兴趣向量U和所述确定出的存储位置上的文件的文件标识的海明码距离,当海明码距离小于或等于预先设置的距离阈值时,确定二者相似度高,且该文件标识对应的文件为用户感兴趣的文件。0029本发明再提供了一种文件推荐装置,至少包括第二生成模块、处理模块和确定模块,其中,0030第二生成模块,用于对与用户兴。
15、趣相关的关键字进行哈希运算并生成用户的兴趣向量;0031处理模块,用于利用纠错码概念确定生成的用户的兴趣向量表征的文件的存储位置;说明书CN104102748A3/6页60032确定模块,用于根据生成的用户的兴趣向量和存储位置上的文件标识的相似度,确定用户感兴趣的文件,其中,文件标识为利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识。0033与现有技术相比,本发明包括利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识;将文件标识的海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中所述预设条件为海明码距离的大小与文件是否相似之间的对应关系。
16、。本发明通过在文件标识中融入文件内容信息以及利用纠错码,实现了将相似的文件存储到了物理上相同或临近的节点。这样,在本发明文件推荐方法中,由于相似的文件存储到了物理上相同或临近的节点,因此仅仅需要判断与用户兴趣相似的文件及临近的其他文件是否为用户感兴趣的文件即可,而不需要对整个系统中的所有文件进行逐一判断,这样显然提高了文件推荐的效率。0034本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明0035附图用来提供对本发明技术方案的进一步理解,并。
17、且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。0036图1为本发明文件映射方法的流程图;0037图2为本发明文件映射装置的组成结构示意图;0038图3为本发明文件推荐方法的流程图;0039图4为本发明文件推荐装置的组成结构示意图。具体实施方式0040为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。0041在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是。
18、在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。0042图1为本发明文件映射方法的流程图,如图1所示,包括0043步骤100利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识。0044文件内容通常由一系列的关键字来表征。因此,具有多个相同关键字的两个文件可定义为相似文件。对于由关键字集合KK1,K2,KI,KS表示的文件,按照本步骤的方法,文件标识的生成就是计算S个关键字的一致性哈希在布鲁姆过滤器中的S次插入操作,S为大于1的自然数,可通过公式1表示为0045ID0HK1HK2HKS10046在公式1中,0表示布鲁姆过滤器的初始状态,是长度为N的0向量。HKS为说明。
19、书CN104102748A4/6页7关键字KS经过哈希运算后的结果,其值为长度为N的向量US。表示布鲁姆过滤器中定义的插入操作。公式2表示了对某关键字KS的插入操作,即是对运算的定义,公式2中的运算符“|”表示或运算,UT表示另一个参与插入操作的向量0047UTUS20048可见,通过本发明公式1生成的文件标识ID表征了文件内容。也就是说,任何两个共享了较多关键字的文件,其文件标识ID较为相似。而且,本领域技术人员容易知道,文件标识ID较为相似的文件间,其文件标识ID的海明码距离较小。其中,海明码距离的大小与文件是否相似之间的关系是根据实际情况预先设置的预设条件,这里并不做限定,只要文件标识I。
20、D之间的海明码距离满足预设条件的文件就认为是相似的文件,其海明码距离也是较小的。海明码距离的计算属于本领域技术人员的公知技术,具体实现并不用于限定本发明的保护范围,这里不再赘述。0049在本发明的文件标识生成中,通过引入布鲁姆过滤器,将表征文件内容的关键字信息融入到了文件标识中。0050步骤101将文件标识间海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中,预设条件为海明码距离的大小与文件是否相似之间的对应关系。0051在文件共享系统中,已有结论表明用户的兴趣较为稳定,即用户共享的资源和希望获取的资源具有相似性。如果能够将相似文件存储在物理上相同或相邻的节点上,那么当。
21、用户贡献了某个文件资源时,依据兴趣稳定论,用户感兴趣的文件资源与该文件实际存储位置相同或临近。0052在现有类似于DYNAMO的系统中,文件被映射到比文件标识ID大的第一个节点上节点ID随机生成,可表示为IDSUCCESSORID。文件标识ID的相似性是由海明码距离表示的,但是,海明码距离小的两个文件,并不意味着文件标识ID的值的大小接近。比如文件标识ID分别为1011111和0011111的两个文件,它们之间的海明码距离为2,但是文件标识ID的值却相差64。也就是说,按照现有通常的文件映射方式,具备相似文件标识ID的文件也是不能被映射至物理上相同或相邻的节点上的。0053现代通信理论提出的纠。
22、错码ERRORCODE概念,即在一串长为K的码字后增加长为NK的纠错码,当长为K的码字发生传输错误时,可以根据NK位的纠错码将其纠正。针对纠错码,目前已有结论证明,对于长度为K的码字空间,总是能找到一个矩阵GKN,使得这一码字空间能扩展为长度为N的码字空间。也即以下公式3表示的条件成立。0054GKNI|A,使得VV|VUG,U,UI0OR130055且在公式3中,任意的V1、V2V,V1V2V,即V为一个大小为2K的空间。公式3的具体实现内容可以参见彭代渊编著的信息论与编码理论的第八章中的内容,是本领域技术人员容易理解的,这里不再赘述。0056通过公式3,利用纠错码建立K维空间的节点标识NO。
23、DE_ID至N维空间的纠错节点标识NODE_ERR_ID的一一映射关系,也就是说,本步骤利用纠错码,为每个物理节点定义了N维的纠错节点标识NODE_ERR_ID,并且纠错节点标识NODE_ERR_ID与节点标识NODE_ID是一一对应的关系。0057在文件存储系统中,将文件存储到物理节点的过程,其实就是文件标识ID与节点说明书CN104102748A5/6页8标识NODE_ID之间的映射过程,本步骤具体包括0058利用纠错码建立节点的节点标识NODE_ID至纠错节点标识NODE_ERR_ID的一一映射关系;在所有的纠错节点标识NODE_ERR_ID中,选择一个与文件标识ID海明码距离最小的、并。
24、且值最小的纠错节点标识NODE_ERR_ID,将所述文件标识ID存储在与该纠错节点标识NODE_ERR_ID对应的节点标识NODE_ID表示的物理节点上。0059这样实现了尽量地将相似文件映射至同一个纠错节点标识NODE_ERR_ID上,并且,文件标识ID唯一地映射到了纠错节点标识NODE_ERR_ID上。而且,由于纠错节点标识NODE_ERR_ID和节点标识NODE_ID之间是一个一一映射的过程,由公式3可见,纠错节点标识NODE_ERR_ID有唯一的节点标识NODE_ID与其对应,这样,实现了文件标识ID存储在节点标识NODE_ID表示的物理节点上。0060通过本发明图1所示的方法,通过在。
25、文件标识ID中融入文件内容信息以及利用纠错码概念,实现了将相似的文件存储到了物理上相同或临近的节点。0061图2为本发明文件映射装置的组成结构示意图,如图2所示,至少包括第一生成模块和映射模块,其中,0062第一生成模块,用于对文件的关键字进行哈希运算,利用布鲁姆过滤器对经过哈希运算的关键字进行处理后生成文件标识。0063映射模块,用于获取文件标识间的海明码距离,并将获得的海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中预设条件为海明码距离的大小与文件是否相似之间的对应关系。0064图3为本发明文件推荐方法的流程图,如图3所示,包括0065步骤300对与用户兴趣相关的。
26、关键字进行哈希运算并生成用户的兴趣向量。0066为了能给用户推荐其感兴趣的文件,文件共享应用系统会维护用户的搜索和共享历史,记录用户搜索和分享过的文件的关键字,比如某用户维护的关键字为网络,计算机,系统结构等。0067本步骤中的获得用户的兴趣向量U包括与用户兴趣相关的关键字个数的各关键字分别经过哈希运算后的结果组成的、长度为与用户兴趣相关的关键字个数的的兴趣向量U,具体实现属于本领域技术人员按照本发明的记载容易实现的,这里不再赘述。0068步骤301利用纠错码确定生成的用户的兴趣向量表征的文件的存储位置。本步骤的具体实现就是按照图1所示的步骤101的方法进行实现即可,包括利用布鲁姆过滤器对经过。
27、哈希运算的用户兴趣相关的关键字进行处理后生成表征用户兴趣的文件的文件标识;0069利用纠错码建立节点的节点标识NODE_ID至纠错节点标识NODE_ERR_ID的一一映射关系;0070在所有的纠错节点标识NODE_ERR_ID中,选择一个与所述表征用户兴趣的文件的文件标识的海明码距离最小的、并且值最小的纠错节点标识NODE_ERR_ID,将所述表征用户兴趣的文件的文件标识存储在与该纠错节点标识NODE_ERR_ID对应的节点标识NODE_ID表示的物理节点上。0071步骤302根据生成的用户的兴趣向量和存储位置上的文件标识的相似度,确定用户感兴趣的文件,其中,文件标识为利用布鲁姆过滤器对经过哈。
28、希运算的文件的关键字说明书CN104102748A6/6页9进行处理后生成文件标识。0072本步骤中,计算用户的兴趣向量U和由步骤301所确定的存储位置上的文件的文件标识ID的海明码距离,当海明码距离小于或等于预先设置的距离阈值时,确定二者相似度高,且该文件标识对应的文件为用户感兴趣的文件。其中,距离阈值是根据实际应用环境确定的,属于本领域技术人员知道的,这里不再赘述。0073由于本发明中,通过在文件标识中融入文件内容信息以及利用纠错码概念,实现了将相似的文件存储到了物理上相同或临近的节点。因此,在本发明图3所示的文件推荐方法中,仅仅需要判断与用户兴趣相似的文件及临近的其他文件是否为用户感兴趣。
29、的文件即可,而不需要对整个系统中的所有文件进行逐一判断,这样显然提高了文件推荐的效率。0074图4为本发明文件推荐装置的组成结构示意图,如图4所示,至少包括第二生成模块、处理模块和确定模块,其中,0075第二生成模块,用于对与用户兴趣相关的关键字进行哈希运算并生成用户的兴趣向量;0076处理模块,用于利用纠错码概念确定生成的用户的兴趣向量表征的文件的存储位置。0077确定模块,用于根据生成的用户的兴趣向量和存储位置上的文件标识的相似度,确定用户感兴趣的文件,其中,文件标识为利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识。0078虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。说明书CN104102748A1/1页10图1图2图3图4说明书附图CN104102748A10。