一种实现增量传输的网页模板的生成方法和装置.pdf

上传人:Y948****062 文档编号:6163251 上传时间:2019-05-13 格式:PDF 页数:19 大小:1,016.13KB
返回 下载 相关 举报
摘要
申请专利号:

CN201310612919.1

申请日:

2013.11.26

公开号:

CN103593467A

公开日:

2014.02.19

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20131126|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

优视科技有限公司

发明人:

周向根; 郑海洪; 翟光亚

地址:

100080 北京市海淀区苏州街29号维亚大厦16层10-20室

优先权:

专利代理机构:

北京博浩百睿知识产权代理有限责任公司 11134

代理人:

宋子良;张奇巧

PDF下载: PDF下载
内容摘要

本发明公开了一种实现增量传输的网页模板的生成方法和装置。该生成方法包括:获取网页的网页数据;对网页数据生成哈希值标签;查找与哈希值标签对应的网页模板;计算查找到的网页模板与网页之间的增量编码数据;根据计算得到的增量编码数据确定是否生成新的网页模板。通过本发明,解决了有技术中在实现增量传输生成网页模板时系统开销比较大的问题,达到了节约系统开销的效果。

权利要求书

权利要求书
1.  一种实现增量传输的网页模板生成方法,其特征在于,包括:
获取网页的网页数据;
对所述网页数据生成哈希值标签;
查找与所述哈希值标签对应的网页模板;
计算查找到的网页模板与所述网页之间的增量编码数据;以及
根据计算得到的增量编码数据确定是否生成新的网页模板。

2.  根据权利要求1所述的实现增量传输的网页模板生成方法,其特征在于,
对所述网页数据生成哈希值标签包括:根据所述网页数据生成哈希值,按照预设规则对所述哈希值进行排列,根据域名和对排列后的哈希值取前缀得到多个哈希值标签;
查找与所述哈希值标签对应的网页模板包括:根据所述哈希值标签查找模板表,得到与所述多个哈希值标签对应的网页模板。

3.  根据权利要求1所述的实现增量传输的网页模板生成方法,其特征在于,根据计算得到的增量编码数据确定是否生成新的网页模板包括:
比较查找到的网页模板数据和所述网页数据,得到网页增量编码数据;
判断所述网页增量编码数据是否大于设定阈值;
如果所述网页增量编码数据小于等于设定阈值,则基于所述增量编码数据对应的网页模板传输增量编码数据;
如果所述网页增量编码数据大于设定阈值,则生成新的网页模板。

4.  根据权利要求1所述的实现增量传输的网页模板生成方法,其特征在于,根据计算得到的增量编码数据确定是否生成新的网页模板包括:
比较查找到的网页模板数据和所述网页数据,得到网页增量编码数据;
计算所述网页增量编码数据与所述网页数据的比值;
判断所述网页的增量编码数据与所述网页数据的比值是否小于设定比值阈值;
如果所述网页增量编码数据与所述网页数据的比值小于设定比值阈值,将所述网页加入到所述增量编码数据对应的网页模板覆盖的网页集中;
如果所述网页增量编码数据与所述网页数据的比值大于等于设定比值阈值,生成新的网页模板。

5.  根据权利要求1所述的实现增量传输的网页模板生成方法,其特征在于,在查找与所述哈希值标签对应的网页模板之后,所述方法还包括:
判断是否存在两个所述哈希值标签对应相同的网页模板;
如果两个所述哈希值标签对应相同的网页模板,则获取两个所述哈希值标签对应的网页,并且将两个所述哈希值标签对应的网页加入到所述相同的网页模板覆盖的网页集中。

6.  一种实现增量传输的网页模板生成装置,其特征在于,包括:
获取单元,用于获取网页的网页数据;
标签单元,用于对所述网页数据生成哈希值标签;
查找单元,用于查找与所述哈希值标签对应的网页模板;
计算单元,用于计算查找到的网页模板与所述网页之间的增量编码数据;以及
生成单元,用于根据计算得到的增量编码数据确定是否生成新的网页模板。

7.  根据权利要求6所述的实现增量传输的网页模板生成装置,其特征在于,所述标签单元包括:
第一生成模块,用于根据所述网页数据生成哈希值;
排列模块,用于按照预设规则对所述哈希值进行排列;
标签模块,用于根据域名和对排列后的哈希值取前缀得到多个哈希值标签,
其中,所述查找单元用于根据所述哈希值标签查找模板表,得到所述多个哈希值标签对应的网页模板。

8.  根据权利要求6所述的实现增量传输的网页模板生成装置,其特征在于,所述生成单元包括:
比较模块,用于比较查找到的网页模板数据和所述网页数据,得到网页增量编码数据;
第一判断模块,用于判断所述网页增量编码数据是否大于设定阈值;
第一传输模块,用于在所述网页增量编码数据小于等于设定阈值时,基于所述增量编码数据对应的网页模板传输增量编码数据;
第二生成模块,用于在所述网页增量编码数据大于设定阈值时,生成新的网页模板。

9.  根据权利要求6所述的实现增量传输的网页模板生成装置,其特征在于,所述生成单元包括:
比较模块,用于比较查找到的网页模板数据和所述网页数据,得到网页增量编码数据;
计算模块,用于计算所述网页增量编码数据与所述网页数据的比值;
第二判断模块,用于判断所述网页的增量编码数据与网页编码数据的比值是否小于设定比值阈值;
第二传输模块,用于在所述网页增量编码数据与所述网页数据的比值小于设定比值阈值时,将所述网页加入到所述增量编码数据对应的网页模板覆盖的网页集中;
第三生成模块,用于在所述多个增量编码数据与网页数据的比值大于等于设定比值阈值时,生成新的网页模板。

10.  根据权利要求6所述的实现增量传输的网页模板生成装置,其特征在于,所述装置还包括:
判断单元,用于判断是否存在两个所述哈希值标签对应相同的网页模板;
合并单元,用于在两个所述哈希值标签对应相同的网页模板时,获取两个所述哈希值标签对应的网页,并且将两个所述哈希值标签对应的网页加入到所述相同的网页模板覆盖的网页集中。

说明书

说明书一种实现增量传输的网页模板的生成方法和装置
技术领域
本发明涉及浏览器领域,具体而言,涉及一种实现增量传输的网页模板的生成方法和装置。
背景技术
对于C/S架构的手机浏览器,当用户使用浏览器浏览网页时,浏览器通过在本地缓存网页模板,服务端只需要传输网页的增量编码数据,从而达到节约网络数据传输提高浏览速度的效果。
在实际应用中,并不是所有的网页都利用缓存的网页模板,对于是否利用缓存的网页模板,往往决定于模板与网页之间的增量编码数据的大小,如果模板与网页之间的增量编码数据小,则利用缓存的网页模板,如果模板与网页之间的增量编码数据不够小,则不利用缓存的网页模板,创建新的网页模板。在现有技术中,在确定是否需要生成新的网页模板时,如果按照增量编码数据的大小进行判断,则需要计算每个网页模板对于网页的增量编码数据,如果缓存有大量网页模板,会导致系统开销比较大。
针对现有技术中在实现增量传输生成网页模板时系统开销比较大的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种实现增量传输的网页模板的生成方法和装置,以解决现有技术中在实现增量传输生成网页模板时系统开销比较大的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种用于实现增量传输的网页模板的生成方法。该生成方法包括:获取网页的网页数据;对网页数据生成哈希值标签;查找与哈希值标签对应的网页模板;计算查找到的网页模板与网页之间的增量编码数据;根据计算得到的增量编码数据确定是否生成新的网页模板。
进一步地,对网页数据生成哈希值标签包括:根据网页数据生成哈希值,按照预设规则对哈希值进行排列,根据域名和对排列后的哈希值取前缀得到多个哈希值标签;查找与哈希值标签对应的网页模板包括:根据哈希值标签查找模板表,得到与多 个哈希值标签对应的网页模板。
进一步地,根据计算得到的增量编码数据确定是否生成新的网页模板包括:比较查找到的网页模板数据和网页数据,得到网页增量编码数据;判断网页增量编码数据是否大于设定阈值;如果网页增量编码数据小于等于设定阈值,则基于增量编码数据对应的网页模板传输增量编码数据;如果网页增量编码数据大于设定阈值,则生成新的网页模板。
进一步地,根据计算得到的增量编码数据确定是否生成新的网页模板包括:比较查找到的网页模板数据和网页数据,得到网页增量编码数据;计算网页增量编码数据与网页数据的比值;判断网页的增量编码数据与网页数据的比值是否小于设定比值阈值;如果网页增量编码数据与网页数据的比值小于设定比值阈值,将网页加入到增量编码数据对应的网页模板覆盖的网页集中;如果网页增量编码数据与网页数据的比值大于等于设定比值阈值,生成新的网页模板。
进一步地,在查找与哈希值标签对应的网页模板之后,该方法还包括:判断是否存在两个哈希值标签对应相同的网页模板;如果两个哈希值标签对应相同的网页模板,则获取两个哈希值标签对应的网页,并且将两个哈希值标签对应的网页加入到相同的网页模板覆盖的网页集中。
为了实现上述目的,根据本发明的另一方面,提供了一种用于实现增量传输的网页模板的生成装置。该生成装置包括:获取单元,用于获取网页的网页数据;标签单元,用于对网页数据生成哈希值标签;查找单元,用于查找与哈希值标签对应的网页模板;计算单元,用于计算查找到的网页模板与网页之间的增量编码数据;生成单元,用于根据计算得到的增量编码数据确定是否生成新的网页模板。
进一步地,标签单元包括:第一生成模块,用于根据网页数据生成哈希值;排列模块,用于按照预设规则对哈希值进行排列;标签模块,用于根据域名和对排列后的哈希值取前缀得到多个哈希值标签,其中,查找单元用于根据哈希值标签查找模板表,得到多个哈希值标签对应的网页模板。
进一步地,生成单元包括:比较模块,用于比较查找到的网页模板数据和网页数据,得到网页增量编码数据;第一判断模块,用于判断网页增量编码数据是否大于设定阈值;第一传输模块,用于在网页增量编码数据小于等于设定阈值时,基于增量编码数据对应的网页模板传输增量编码数据;第二生成模块,用于在网页增量编码数据大于设定阈值时,生成新的网页模板。
进一步地,生成单元包括:比较模块,用于比较查找到的网页模板数据和网页数据,得到网页增量编码数据;计算模块,用于计算网页增量编码数据与网页数据的比值;第二判断模块,用于判断网页的增量编码数据与网页编码数据的比值是否小于设定比值阈值;第二传输模块,用于在网页增量编码数据与网页数据的比值小于设定比 值阈值时,将网页加入到增量编码数据对应的网页模板覆盖的网页集中;第三生成模块,用于在多个增量编码数据与网页数据的比值大于等于设定比值阈值时,生成新的网页模板。
进一步地,该装置还包括:判断单元,用于判断是否存在两个哈希值标签对应相同的网页模板;合并单元,用于在两个哈希值标签对应相同的网页模板时,获取两个哈希值标签对应的网页,并且将两个哈希值标签对应的网页加入到相同的网页模板覆盖的网页集中。
通过本发明,采用网页数据的哈希值生成固定个数的哈希值标签,根据生成的哈希值标签查找网页模板,仅需要对查找到的网页模板进行增量编码数据大小的判断,无需对所有网页模板均进行计算,解决了有技术中在实现增量传输生成网页模板时系统开销比较大的问题,进而达到了节约系统开销的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明第一实施例的用于实现增量传输的网页模板生成装置的示意图;
图2是根据本发明第二实施例的用于实现增量传输的网页模板生成装置的示意图;
图3是根据本发明第三实施例的用于实现增量传输的网页模板生成装置的示意图;
图4是根据本发明第四实施例的用于实现增量传输的网页模板生成装置的示意图;
图5是根据本发明第五实施例的用于实现增量传输的网页模板生成装置的示意图;
图6是根据本发明实施例的用于实现增量传输的网页模板生成方法的流程图;
图7是根据本发明实施例的用于实现增量传输的网页模板生成方法中生成哈希值标签的流程图;
图8是根据本发明实施例的用于实现增量传输的网页模板生成方法中确定是否生成网页模板方法的流程图;
图9是根据本发明实施例的用于实现增量传输的网页模板生成方法中确定是否生成网页模板的优选方法流程图;以及
图10是根据本发明第二实施例的用于实现增量传输的网页模板生成方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种用于实现增量传输的网页模板生成装置。该网页模板生成装置用于生成网页模板以实现对网页内容的增量进行传输。
图1是根据本发明第一实施例的用于实现增量传输的网页模板生成装置的示意图。如图所示,该实现增量传输的网页模板生成装置包括获取单元10、标签单元20、查找单元30、计算单元40和生成单元50。
获取单元10用于获取网页的网页数据。获取单元10可以获取任意一个网页的网页数据,获取的网页数据可以包括获取网页内所有内容的数据,例如网页内新闻数据、网页内的广告数据、网页内的链接数据等。
获取网页数据可以首先获取网页地址,然后再根据获取到的网页地址从网页数据表中获取相应的网页数据。网页数据表中可以存储网页数据的字段部分和描述部分。例如,存储的字段是“网址”,对应的描述是“网页地址去除协议部分,去除锚部分,按域翻转域名部分”。例如:http://www.sina.com.cn/a/b.php?ac=b#ab,对应的描述部分应该是:cn.com.sina.www/a/b.php?ac=b。
标签单元20用于对网页数据生成哈希值标签。一个网页数据可以生成一个哈希 值,生成的哈希值可以是64位的哈希值,也可以是128位的哈希值,可以根据系统需要确定生成合适位数的哈希值。例如,在64位哈希值就能满足要求的系统中,生成128位的哈希值反而会增加系统的负担,因此在哈希值的生成位数要合适。
标签单元20能够通过网页数据生成的哈希值生成多个哈希值标签,每个哈希值标签对应一个网页模板,该网页模板覆盖一个或多个网页。
查找单元30用于查找与哈希值标签对应的网页模板。网页模板可以是一个网页,一个网页可以作为另外一个网页的模板,一个网页模板对应多个哈希值标签,可以通过其中任何一个哈希值标签进行查找。网页模板可以是保存在缓存中的网页模板,查找单元30从缓存中查找与哈希值标签对应的网页模板。
计算单元40用于计算查找到的网页模板与网页之间的增量编码数据。网页模板与网页之间的增量编码数据可以是网页数据与网页模板数据之间不同的数据部分。如果查找的网页模板有多个,计算多个网页模板与网页之间的增量编码数据。
生成单元50用于根据计算得到的增量编码数据确定是否生成新的网页模板。如果计算得到的增量编码数据大于设定的阈值,则生成新的网页模板;如果计算得到的增量编码数据小于等于设定的阈值,则直接调用缓存的网页模板。
由上述描述可以知道,能够通过哈希值标签查找对应的网页模板,并计算查找得到网页模板与网页之间的增量编码数据,确定直接调用缓存中的网页模板或者生成新的网页模板,从而减少了网页模板与网页进行比较的次数,节约了系统开销。
图2是根据本发明第二实施例的用于实现增量传输的网页模板生成装置的示意图。图2所示实施例的实现增量传输的网页模板生成装置可以作为图1所示实施例的实现增量传输的网页模板生成装置的优选实施方式。该优选实施方式的用于实现增量传输的网页模板生成装置包括获取单元10、标签单元20、查找单元30、计算单元40和生成单元50,其中,标签单元20包括第一生成模块201、排列模块202和标签模块203。
图2所示实施例中的获取单元10、查找单元30、计算单元40和生成单元50与图1所示实施例中的获取单元10、查找单元30、计算单元40和生成单元50的功能相同,在此不做赘述。
第一生成模块201用于根据网页数据生成哈希值。根据网页数据计算哈希值可以是simhash值,其中,simhash是局部敏感哈希算法中的一种。下面以生成一个64位的simhash值为例对生成哈希值的方法进行详细说明。
首先,将一个64维的整数向量V[i]初始化为0。初始化为0可以是将64维的整数向量V[i]的模设置为0。
其次,从网页的每个字节位置处切取长度为n个字节的子串,作为网页的特征 集。网页的特征集中的特征的个数可以是整个网页的字节的个数。特征集中的每个特征是一个n个字节的字串。n可以取64,也可以是32,也可以是其他数值比如20。
再次,对特征集中的每个特征,使用一个字符串哈希函数产生一个64位的二进制整数,对该64位的二进制整数的每个位置i:如果值为1,则使V[i]加1,否则使V[i]减1。
最后,创建一个新的64位的整数,新创建的64位的整数是将64位整数的每个位与上一步得到的向量一一对应,也就是对这个新创建的整数的每个位置i,上步骤中的向量的V[i]不小于0时置为1,否则置为0,由此得到64位的二进制数表示的整数,这个整数作为simhash值。
排列模块202用于按照预设规则对哈希值进行按位随机排列。例如,可以对64位哈希值进行32次随机排列。
需要说明的是,排列的次数可以根据实际系统需要而进行确定,并不限于本发明实施例提供的次数。本发明实施例提供的排列次数仅仅是为了详细阐述本发明的实施方案,不做穷举和限定。
标签模块203用于根据域名和排列后的哈希值得到多个哈希值标签。对哈希值进行排列之后,得到排列后的哈希值,取排列后的哈希值前固定长度个位与域名一起作为哈希值标签。例如,对64位的哈希值按位做32次的随机排列之后,得到32个排列后的哈希值。可以取排列后的哈希值的前16位和网页的域名作为哈希值标签,其形式可以为“域名/排列后哈希值的前16位”。那么,对64位的哈希值按位做32次的随机排列之后,得到32个哈希值标签。
需要指出的是,这里的取排列后的哈希值的前16位也可以是取32或者8位,这里只是为了更清楚的阐述本发明的方案,并不对本发明方案做不当的限定。
查找单元40用于根据哈希值标签查找模板表,得到与多个哈希值标签对应的网页模板。与多个哈希值标签对应的网页模板可以是一个,也可以是多个。查找单元可以进行N次的查找,查找次数不超过排列的次数。例如,对哈希值进行了32次的随机排列之后,最多进行32次的查找。
通过网页模板生成哈希值,并根据哈希值得到哈希值标签,利用哈希值标签查找网页模板可以大大减少查询网页模板的次数,增加了系统处理数据的速度,并且提高了查找网页模板的准确性。
图3是根据本发明第三实施例的用于实现增量传输的网页模板生成装置的示意图。图3所示实施例的实现增量传输的网页模板生成装置可以作为图1所示实施例的实现增量传输的网页模板生成装置的优选实施方式。该优选实施方式的用于实现增量传输的网页模板生成装置包括获取单元10、标签单元20、查找单元30、计算单元40 和生成单元50,其中,生成单元50包括:比较模块501、第一判断模块503、第一传输模块505和第二生成模块507。
图3所示实施例的获取单元10、标签单元20、查找单元30和计算单元40与图1所示实施例的获取单元10、标签单元20、查找单元30和计算单元40功能相同,在此不做赘述。
比较模块501用于比较查找到的网页模板数据和所述网页数据,得到网页增量编码数据。查找到的网页模板可以是一个网页模板,也可以是多个网页模板,在查找到的网页模板为多个模板时,可以比较多个模板中的每个模板与网页数据之间的增量编码数据。可以通过逐个比较的方式得到网页增量编码数据,也可以同时分别比较多个模板中的每个模板与网页数据之间的增量编码数据。
第一判断模块503用于判断网页增量编码数据是否大于设定阈值。如果增量编码数据较大,也就是网页与网页模板的相似度越低,在增量编码数据大于阈值的时候,查找到的网页模板就不能满足网页的要求,不能作为网页的模板,因此需要对增量编码数据与阈值进行比较。
第一传输模块505用于在网页增量编码数据小于等于设定阈值时,基于增量编码数据对应的网页模板传输增量编码数据。
如果增量编码数据小于等于设定阈值,那么网页与查找到的网页模板的相似度较高,查找到的网页模板能够满足网页的要求,则可以将查找到的网页模板存储在该网页模板覆盖的网页集中,也可以基于查找到的网页模板传输增量编码数据。
第二生成模块507用于在网页增量编码数据大于设定阈值时,生成新的网页模板。如果增量编码数据大于设定阈值,那么网页与查找到的网页模板的相似度无法达到网页的要求,那么生成新的网页模板。生成新的网页模板可以是将获取到的网页作为新的网页模板。
通过直接比较增量编码数据与设定阈值的大小,确定直接调用缓存的网页模板或者生成新的网页模板,能够更加方便和准确的判断调用或生成网页模板。
图4是根据本发明第四实施例的用于实现增量传输的网页模板生成装置的示意图。图4所示实施例的实现增量传输的网页模板生成装置可以作为图1所示实施例的实现增量传输的网页模板生成装置的优选实施方式。该优选实施方式的用于实现增量传输的网页模板生成装置包括获取单元10、标签单元20、查找单元30、计算单元40和生成单元50,其中,生成单元50包括:比较模块501、计算模块502、第二判断模块504、第二传输模块506和第三生成模块508。
图4所示实施例的获取单元10、标签单元20、查找单元30和计算单元40与图1所示实施例的获取单元10、标签单元20、查找单元30和计算单元40功能相同,在此 不做赘述。
比较模块501比较查找到的网页模板数据和所述网页数据,得到网页增量编码数据。查找到的网页模板可以是一个网页模板,也可以是多个网页模板,在查找到的网页模板为多个模板时,可以比较多个模板中的每个模板与网页数据之间的增量编码数据。可以通过逐个比较的方式得到网页增量编码数据,也可以同时分别比较多个模板中的每个模板与网页数据之间的增量编码数据。
计算模块502用于计算网页增量编码数据与网页数据的比值。可以用增量编码数据比上网页数据,那么增量编码数据与网页数据的比值越小,则网页模板与网页的相似度越高,增量编码数据与网页数据的比值越大,则网页模板与网页的相似度越低。
第二判断模块504用于判断网页的增量编码数据与网页数据的比值是否小于设定比值阈值。可以通过判断网页增量编码数据与网页数据的比值是否小于设定比值阈值,确定网页与网页模板的相似度是否满足网页的需要。
第二传输模块506用于在网页增量编码数据与网页数据的比值小于设定比值阈值时,将网页加入到增量编码数据对应的网页模板覆盖的网页集中。如果增量编码数据与网页数据的比值小于设定比值阈值,那么网页与网页模板的相似度能够满足网页的要求,可以将该网页加入到增量编码数据对应的网页模板覆盖的网页集中,再次使用该网页模板时可以直接调用该网页模板,并且基于调用的网页模板对增量编码数据进行传输,无需再次生成。
第三生成模块508用于在多个增量编码数据与网页数据的比值大于设定比值阈值时,生成新的网页模板。如果增量编码数据与网页数据的比值大于等于设定比值阈值,那么网页与网页模板的相似度无法满足网页的要求,可以生成新的网页模板,也可以用网页直接作为新的网页模板。
通过增量编码数据与网页数据的比值与设定比值阈值相比较能够更加准确的判断网页与网页模板的相似度,该设定比值阈值可以适用于包含有不同数据量的网页,而不必根据不同网页的数据量设置不同的增量编码数据的阈值,提高了基于网页模板传输网页增量文件方法的适用性,并且更加方便。
图5是根据本发明第五实施例的用于实现增量传输的网页模板生成装置的示意图。图5所示实施例的实现增量传输的网页模板生成装置可以作为图1所示实施例的实现增量传输的网页模板生成装置的优选实施方式。该优选实施方式的用于实现增量传输的网页模板生成装置包括获取单元10、标签单元20、查找单元30、计算单元40、生成单元50、判断单元60和合并单元70。
图5所示实施例的获取单元10、标签单元20、查找单元30、计算单元40和生成单元50与图1所示实施例的获取单元10、标签单元20、查找单元30、计算单元40和生成单元50功能相同,在此不做赘述。
判断单元60用于判断是否存在两个哈希值标签对应相同的网页模板。一个哈希值标签可以对应一个或多个网页,如果两个哈希值标签对应的网页模板相同,则两个哈希值标签对应的网页也对应一个相同的网页模板。
合并单元70用于在两个哈希值标签对应相同的网页模板时,获取两个哈希值标签对应的网页,并且将两个哈希值标签对应的网页加入到相同的网页模板覆盖的网页集中。一个哈希值标签可以对应多个网页,多个网页可以对应多个网页模板,在网页模板表中多个网页可能存在于不同的网页模板之下。如果两个哈希值标签对应的网页模板相同,则在网页模板表中将两个哈希值标签对应的网页加入到相同的网页模板所覆盖的网页集中。
通过网页的合并以及网页模板表的更新,能够将可以利用相同网页模板的网页归属在同一网页模板所覆盖的网页集中,再次查询网页模板表的时候能够更方便的查询到需要的网页模板,并且直接调用该网页模板,避免再次生成而带来的系统开销。
本发明实施例还提供了一种用于实现增量传输的网页模板生成方法。本发明实施例的用于实现增量传输的网页模板生成方法可以通过本发明实施例所提供的实现增量传输的网页模板生成装置来执行,本发明实施例的实现增量传输的网页模板生成装置也可以用于执行本发明实施例所提供的实现增量传输的网页模板生成方法。
以下根据附图对用于实现增量传输的网页模板生成方法进行详细阐述。需要说明的是,下述步骤以及在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图6是根据本发明实施例的用于实现增量传输的网页模板生成方法的流程图。以下结合该流程图对本实施例的实现增量传输的网页模板生成方法进行说明。如图所示,该方法包括如下步骤:
步骤S101,获取网页的网页数据。获取网页的网页数据可以获取任意一个网页的网页数据,获取的网页数据可以包括获取网页内所有内容的数据,例如网页内新闻数据、网页内的广告数据、网页内的链接数据等。
获取网页数据可以首先获取网页地址,然后再根据获取到的网页地址从网页数据表中获取相应的网页数据。网页数据表中可以存储网页数据的字段部分和描述部分。例如,存储的字段是“网址”,对应的描述是“网页地址去除协议部分,去除锚部分,按域翻转域名部分”。例如:http://www.sina.com.cn/a/b.php?ac=b#ab,对应的描述部分可以是:cn.com.sina.www/a/b.php?ac=b。
步骤S102,对网页数据生成哈希值标签。一个网页数据可以生成一个哈希值,生成的哈希值可以是64位的哈希值,也可以是128位的哈希值,可以根据系统需要确定生成合适位数的哈希值。例如,在64位哈希值就能满足要求的系统中,生成128 位的哈希值反而会增加系统的负担,因此这里生成是根据系统情况生成合适位数的哈希值。
通过网页数据生成的哈希值生成哈希值标签,每个哈希值标签可以对应一个网页,也可以对应多个网页。
步骤S103,查找与哈希值标签对应的网页模板。网页模板可以是一个网页,一个网页可以作为另外一个网页的模板,一个哈希值标签对应一个网页模板。网页模板可以是保存在缓存中的网页模板,查找单元30从缓存中查找与哈希值标签对应的网页模板。
步骤S104,计算查找到的网页模板与网页之间的增量编码数据。网页模板与网页之间的增量编码数据可以是网页数据与网页模板数据之间不同的数据部分。如果查找的网页模板有多个,计算多个网页模板与网页之间的增量编码数据。
步骤S105,根据计算得到的增量编码数据确定是否生成新的网页模板。如果计算得到的增量编码数据大于设定的阈值,则生成新的网页模板;如果计算得到的增量编码数据小于等于设定的阈值,则直接调用缓存的网页模板。
由上述描述可以知道,能够通过哈希值标签查找对应的网页模板,并计算查找得到网页模板与网页之间的增量编码数据,确定直接调用缓存中的网页模板或者生成新的网页模板,从而减少了网页模板与网页进行比较的次数,节约了系统开销。
图7是根据本发明实施例的用于实现增量传输的网页模板生成方法中生成哈希值标签的流程图。该方法包括如下步骤:
步骤S201,根据网页数据生成哈希值。根据网页数据计算哈希值可以是simhash值。下面以生成一个64为的simhash值为例对生成哈希值的方法进行详细说明。
首先,将一个64维的整数向量V[i]初始化为0。初始化为0可以是将64维的整数向量V[i]的模设置为0。
其次,从网页的每个字节位置处切取长度为n个字节的子串,作为网页的特征集。网页的特征集中的特征的个数可以是整个网页的字节的个数。特征集中的每个特征是一个n个字节的字串。n可以取64,也可以是32,也可以是其他数值比如20。
再次,对特征集中的每个特征,使用一个字符串哈希函数产生一个64位的二进制整数,对该64位的二进制整数的每个位置i:如果值为1,则使V[i]加1,否则使V[i]减1。
最后,创建一个新的64位的整数,新创建的64位的整数是将64位整数的每个位与上一步得到的向量一一对应,也就是对这个新创建的整数的每个位置i,上步骤中的 向量V[i]不小于0时置为1,否则置为0,由此得到64位的二进制数表示的整数,这个整数作为simhash值。
步骤S202,按照预设规则对哈希值进行按位随机排列。例如,可以对64位哈希值进行32次随机排列。
需要说明的是,这里的排列次数可以根据实际系统需要而进行确定,并不限于本发明实施例提供的次数。本发明实施例提供的排列次数仅仅是为了详细阐述本发明的实施方案,不做穷举和限定。
步骤S203,根据域名和排列后的哈希值得到多个哈希值标签。对哈希值进行排列之后,得到排列后的哈希值,取排列后的哈希值前固定长度个位与域名一起作为哈希值标签。例如,对64位的哈希值按位做32次的随机排列之后,得到32个排列后的哈希值。可以取排列后的哈希值的前16位和网页的域名作为哈希值标签,其形式可以为“域名/排列后哈希值的前16位”。那么,对64位的哈希值按位做32次的随机排列之后,得到32个哈希值标签。
需要指出的是,这里的取排列后的哈希值的前16位也可以是取32或者8位,这里只是为了更清楚的阐述本发明的方案,并不对本发明方案做不当的限定。
步骤S204,根据哈希值标签查找模板表,得到与多个哈希值标签对应的网页模板。与多个哈希值标签对应的网页模板可以是一个,也可以是多个。查找单元可以进行N次的查找,查找次数不超过排列的次数。例如,对哈希值进行了32次的随机排列之后,最多进行32次的查找。
通过网页模板生成哈希值,并根据哈希值得到哈希值标签,利用哈希值标签查找网页模板可以大大减少查询网页模板的次数,增加了系统处理数据的速度,并且提高了查找网页模板的准确性。
图8是根据本发明实施例的用于实现增量传输的网页模板生成方法中确定是否生成网页模板方法的流程图。该方法包括如下步骤:
步骤S301,比较查找到的网页模板数据和网页数据,得到网页增量编码数据。查找到的网页模板可以是一个网页模板,也可以是多个网页模板,在查找到的网页模板为多个网页模板时,要比较多个模板中的每个模板与网页的增量编码数据。
步骤S302,判断网页增量编码文件是否大于设定阈值。如果增量编码数据较大,也就是网页与网页模板的相似度越低,在增量编码数据大于阈值的时候,查找到的网页模板就不能满足网页的要求,不能作为网页的模板,因此需要对增量编码数据与阈值进行比较。
步骤S303,如果多网页增量编码数据小于等于设定阈值,则基于增量编码数据对应的网页模板传输增量编码数据。如果增量编码数据小于等于设定阈值,那么网页 与查找到的网页模板的相似度较高,查找到的网页模板能够满足网页的要求,则可以基于查找到的网页模板传输增量编码数据。
步骤S304,如果网页增量编码数据大于设定阈值,则生成新的网页模板。如果增量编码数据大于设定阈值,那么网页与查找到的网页模板的相似度无法达到网页的要求,那么生成新的网页模板。生成新的网页模板可以是将获取到的网页作为新的网页模板。
通过直接比较增量编码数据与设定阈值的大小,确定直接调用缓存的网页模板或者生成新的网页模板,能够更加方便和准确的判断调用或生成网页模板。
图9是根据本发明实施例的用于实现增量传输的网页模板生成方法中确定是否生成网页模板的优选方法流程图。该方法包括如下步骤:
步骤S401,比较查找到的网页模板数据和网页数据,得到网页增量编码数据。查找到的网页模板可以是一个网页模板,也可以是多个网页模板,在查找到的网页模板为多个网页模板时,要比较多个模板中的每个模板与网页的增量编码数据。
步骤S402,计算网页增量编码数据与网页数据的比值。可以用增量编码数据比上网页数据,那么增量编码数据与网页数据的比值越小,则网页模板与网页的相似度越高,增量编码数据与网页数据的比值越大,则网页模板与网页的相似度越低。
步骤S403,判断网页的增量编码数据与网页数据的比值是否小于设定比值阈值。可以通过判断网页增量编码数据与网页数据的比值是否小于设定比值阈值,确定网页与网页模板的相似度是否满足网页的需要。
步骤S404,如果网页增量编码数据与网页数据的比值小于设定比值阈值,则将网页加入到增量编码数据对应的网页模板覆盖的网页集中。如果增量编码数据与网页数据的比值小于设定比值阈值,那么网页与网页模板的相似度能够满足网页的要求,可以将网页加入到增量编码数据对应的网页模板覆盖的网页集中,再次需要该网页模板时可以直接调用该网页模板,并且基于该网页模板对增量编码数据进行传输。
步骤S405,如果网页增量编码数据与网页数据的比值大于等于设定比值阈值,则生成新的网页模板。如果增量编码数据与网页数据的比值大于等于设定比值阈值,那么网页与网页模板的相似度无法满足网页的要求,可以生成新的网页模板,也可以用网页直接作为新的网页模板。
通过增量编码数据与网页数据的比值与设定比值阈值相比较能够更加准确的判断网页与网页模板的相似度,该设定比值阈值可以适用于包含有不同数据量的网页,而不必根据不同网页的数据量设置不同的增量编码数据的阈值,提高了基于网页模板传输网页增量文件方法的适用性,并且更加方便。
图10是根据本发明第二实施例的用于实现增量传输的网页模板生成方法的流程 图。该方法包括如下步骤:
步骤S501,获取网页的网页数据。获取网页的网页数据可以获取任意一个网页的网页数据,获取的网页数据可以包括获取网页内所有内容的数据。
步骤S502,对网页数据生成哈希值标签。一个网页数据可以生成一个哈希值,生成的哈希值可以是64位的哈希值,也可以是128位的哈希值,可以根据系统需要确定生成合适位数的哈希值。
步骤S503,查找与哈希值标签对应的网页模板。网页模板可以是一个网页,一个网页可以作为另外一个网页的模板,与哈希值标签对应的网页模板可以是一个网页模板,也可以是多个网页模板。网页模板可以是保存在缓存中的网页模板,在需要网页模板时可以从缓存中查找与哈希值标签对应的网页模板。
步骤S504,判断是否存在两个哈希值标签对应相同的网页模板。一个哈希值标签可以对应多个网页,如果两个哈希值标签对应的网页模板相同,则两个哈希值标签对应的多个网页也对应一个相同的网页模板。
步骤S505,如果两个哈希值标签对应相同的网页模板,则获取两个哈希值标签对应的多个网页,并且将两个哈希值标签对应的多个网页加入到相同的网页模板覆盖的网页集中。一个哈希值标签对应多个网页,多个网页可能对应多个网页模板,在网页模板表中归属于不同的网页模板之下。如果两个哈希值标签对应的网页模板相同,则在网页模板表中将两个哈希值标签对应的多个网页归属于相同的网页模板下。
通过将对应相同网页模板的网页加入到该网页模板覆盖的网页集中以及网页模板表的更新,能够将可以对应相同网页模板的网页归属在同一网页模板所覆盖的网页集中,再次查询网页模板表的时候能够更方便快速的查询到需要的网页模板,并且直接调用该模板。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

一种实现增量传输的网页模板的生成方法和装置.pdf_第1页
第1页 / 共19页
一种实现增量传输的网页模板的生成方法和装置.pdf_第2页
第2页 / 共19页
一种实现增量传输的网页模板的生成方法和装置.pdf_第3页
第3页 / 共19页
点击查看更多>>
资源描述

《一种实现增量传输的网页模板的生成方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种实现增量传输的网页模板的生成方法和装置.pdf(19页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103593467 A (43)申请公布日 2014.02.19 CN 103593467 A (21)申请号 201310612919.1 (22)申请日 2013.11.26 G06F 17/30(2006.01) (71)申请人 优视科技有限公司 地址 100080 北京市海淀区苏州街 29 号维 亚大厦 16 层 10-20 室 (72)发明人 周向根 郑海洪 翟光亚 (74)专利代理机构 北京博浩百睿知识产权代理 有限责任公司 11134 代理人 宋子良 张奇巧 (54) 发明名称 一种实现增量传输的网页模板的生成方法和 装置 (57) 摘要 本发明公开了一。

2、种实现增量传输的网页模板 的生成方法和装置。该生成方法包括 : 获取网页 的网页数据 ; 对网页数据生成哈希值标签 ; 查找 与哈希值标签对应的网页模板 ; 计算查找到的网 页模板与网页之间的增量编码数据 ; 根据计算得 到的增量编码数据确定是否生成新的网页模板。 通过本发明, 解决了有技术中在实现增量传输生 成网页模板时系统开销比较大的问题, 达到了节 约系统开销的效果。 (51)Int.Cl. 权利要求书 2 页 说明书 11 页 附图 5 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书11页 附图5页 (10)申请公布号 CN 103593467 。

3、A CN 103593467 A 1/2 页 2 1. 一种实现增量传输的网页模板生成方法, 其特征在于, 包括 : 获取网页的网页数据 ; 对所述网页数据生成哈希值标签 ; 查找与所述哈希值标签对应的网页模板 ; 计算查找到的网页模板与所述网页之间的增量编码数据 ; 以及 根据计算得到的增量编码数据确定是否生成新的网页模板。 2. 根据权利要求 1 所述的实现增量传输的网页模板生成方法, 其特征在于, 对所述网页数据生成哈希值标签包括 : 根据所述网页数据生成哈希值, 按照预设规则 对所述哈希值进行排列, 根据域名和对排列后的哈希值取前缀得到多个哈希值标签 ; 查找与所述哈希值标签对应的网页。

4、模板包括 : 根据所述哈希值标签查找模板表, 得到 与所述多个哈希值标签对应的网页模板。 3. 根据权利要求 1 所述的实现增量传输的网页模板生成方法, 其特征在于, 根据计算 得到的增量编码数据确定是否生成新的网页模板包括 : 比较查找到的网页模板数据和所述网页数据, 得到网页增量编码数据 ; 判断所述网页增量编码数据是否大于设定阈值 ; 如果所述网页增量编码数据小于等于设定阈值, 则基于所述增量编码数据对应的网页 模板传输增量编码数据 ; 如果所述网页增量编码数据大于设定阈值, 则生成新的网页模板。 4. 根据权利要求 1 所述的实现增量传输的网页模板生成方法, 其特征在于, 根据计算 得。

5、到的增量编码数据确定是否生成新的网页模板包括 : 比较查找到的网页模板数据和所述网页数据, 得到网页增量编码数据 ; 计算所述网页增量编码数据与所述网页数据的比值 ; 判断所述网页的增量编码数据与所述网页数据的比值是否小于设定比值阈值 ; 如果所述网页增量编码数据与所述网页数据的比值小于设定比值阈值, 将所述网页加 入到所述增量编码数据对应的网页模板覆盖的网页集中 ; 如果所述网页增量编码数据与所述网页数据的比值大于等于设定比值阈值, 生成新的 网页模板。 5. 根据权利要求 1 所述的实现增量传输的网页模板生成方法, 其特征在于, 在查找与 所述哈希值标签对应的网页模板之后, 所述方法还包括。

6、 : 判断是否存在两个所述哈希值标签对应相同的网页模板 ; 如果两个所述哈希值标签对应相同的网页模板, 则获取两个所述哈希值标签对应的网 页, 并且将两个所述哈希值标签对应的网页加入到所述相同的网页模板覆盖的网页集中。 6. 一种实现增量传输的网页模板生成装置, 其特征在于, 包括 : 获取单元, 用于获取网页的网页数据 ; 标签单元, 用于对所述网页数据生成哈希值标签 ; 查找单元, 用于查找与所述哈希值标签对应的网页模板 ; 计算单元, 用于计算查找到的网页模板与所述网页之间的增量编码数据 ; 以及 生成单元, 用于根据计算得到的增量编码数据确定是否生成新的网页模板。 7. 根据权利要求 。

7、6 所述的实现增量传输的网页模板生成装置, 其特征在于, 所述标签 权 利 要 求 书 CN 103593467 A 2 2/2 页 3 单元包括 : 第一生成模块, 用于根据所述网页数据生成哈希值 ; 排列模块, 用于按照预设规则对所述哈希值进行排列 ; 标签模块, 用于根据域名和对排列后的哈希值取前缀得到多个哈希值标签, 其中, 所述查找单元用于根据所述哈希值标签查找模板表, 得到所述多个哈希值标签 对应的网页模板。 8. 根据权利要求 6 所述的实现增量传输的网页模板生成装置, 其特征在于, 所述生成 单元包括 : 比较模块, 用于比较查找到的网页模板数据和所述网页数据, 得到网页增量编。

8、码数 据 ; 第一判断模块, 用于判断所述网页增量编码数据是否大于设定阈值 ; 第一传输模块, 用于在所述网页增量编码数据小于等于设定阈值时, 基于所述增量编 码数据对应的网页模板传输增量编码数据 ; 第二生成模块, 用于在所述网页增量编码数据大于设定阈值时, 生成新的网页模板。 9. 根据权利要求 6 所述的实现增量传输的网页模板生成装置, 其特征在于, 所述生成 单元包括 : 比较模块, 用于比较查找到的网页模板数据和所述网页数据, 得到网页增量编码数 据 ; 计算模块, 用于计算所述网页增量编码数据与所述网页数据的比值 ; 第二判断模块, 用于判断所述网页的增量编码数据与网页编码数据的比。

9、值是否小于设 定比值阈值 ; 第二传输模块, 用于在所述网页增量编码数据与所述网页数据的比值小于设定比值阈 值时, 将所述网页加入到所述增量编码数据对应的网页模板覆盖的网页集中 ; 第三生成模块, 用于在所述多个增量编码数据与网页数据的比值大于等于设定比值阈 值时, 生成新的网页模板。 10. 根据权利要求 6 所述的实现增量传输的网页模板生成装置, 其特征在于, 所述装置 还包括 : 判断单元, 用于判断是否存在两个所述哈希值标签对应相同的网页模板 ; 合并单元, 用于在两个所述哈希值标签对应相同的网页模板时, 获取两个所述哈希值 标签对应的网页, 并且将两个所述哈希值标签对应的网页加入到所。

10、述相同的网页模板覆盖 的网页集中。 权 利 要 求 书 CN 103593467 A 3 1/11 页 4 一种实现增量传输的网页模板的生成方法和装置 技术领域 0001 本发明涉及浏览器领域, 具体而言, 涉及一种实现增量传输的网页模板的生成方 法和装置。 背景技术 0002 对于 C/S 架构的手机浏览器, 当用户使用浏览器浏览网页时, 浏览器通过在本地 缓存网页模板, 服务端只需要传输网页的增量编码数据, 从而达到节约网络数据传输提高 浏览速度的效果。 0003 在实际应用中, 并不是所有的网页都利用缓存的网页模板, 对于是否利用缓存的 网页模板, 往往决定于模板与网页之间的增量编码数据。

11、的大小, 如果模板与网页之间的增 量编码数据小, 则利用缓存的网页模板, 如果模板与网页之间的增量编码数据不够小, 则不 利用缓存的网页模板, 创建新的网页模板。 在现有技术中, 在确定是否需要生成新的网页模 板时, 如果按照增量编码数据的大小进行判断, 则需要计算每个网页模板对于网页的增量 编码数据, 如果缓存有大量网页模板, 会导致系统开销比较大。 0004 针对现有技术中在实现增量传输生成网页模板时系统开销比较大的问题, 目前尚 未提出有效的解决方案。 发明内容 0005 本发明的主要目的在于提供一种实现增量传输的网页模板的生成方法和装置, 以 解决现有技术中在实现增量传输生成网页模板时。

12、系统开销比较大的问题。 0006 为了实现上述目的, 根据本发明的一个方面, 提供了一种用于实现增量传输的网 页模板的生成方法。该生成方法包括 : 获取网页的网页数据 ; 对网页数据生成哈希值标签 ; 查找与哈希值标签对应的网页模板 ; 计算查找到的网页模板与网页之间的增量编码数据 ; 根据计算得到的增量编码数据确定是否生成新的网页模板。 0007 进一步地, 对网页数据生成哈希值标签包括 : 根据网页数据生成哈希值, 按照预设 规则对哈希值进行排列, 根据域名和对排列后的哈希值取前缀得到多个哈希值标签 ; 查找 与哈希值标签对应的网页模板包括 : 根据哈希值标签查找模板表, 得到与多个哈希值。

13、标签 对应的网页模板。 0008 进一步地, 根据计算得到的增量编码数据确定是否生成新的网页模板包括 : 比较 查找到的网页模板数据和网页数据, 得到网页增量编码数据 ; 判断网页增量编码数据是否 大于设定阈值 ; 如果网页增量编码数据小于等于设定阈值, 则基于增量编码数据对应的网 页模板传输增量编码数据 ; 如果网页增量编码数据大于设定阈值, 则生成新的网页模板。 0009 进一步地, 根据计算得到的增量编码数据确定是否生成新的网页模板包括 : 比较 查找到的网页模板数据和网页数据, 得到网页增量编码数据 ; 计算网页增量编码数据与网 页数据的比值 ; 判断网页的增量编码数据与网页数据的比值。

14、是否小于设定比值阈值 ; 如果 网页增量编码数据与网页数据的比值小于设定比值阈值, 将网页加入到增量编码数据对应 说 明 书 CN 103593467 A 4 2/11 页 5 的网页模板覆盖的网页集中 ; 如果网页增量编码数据与网页数据的比值大于等于设定比值 阈值, 生成新的网页模板。 0010 进一步地, 在查找与哈希值标签对应的网页模板之后, 该方法还包括 : 判断是否存 在两个哈希值标签对应相同的网页模板 ; 如果两个哈希值标签对应相同的网页模板, 则获 取两个哈希值标签对应的网页, 并且将两个哈希值标签对应的网页加入到相同的网页模板 覆盖的网页集中。 0011 为了实现上述目的, 根。

15、据本发明的另一方面, 提供了一种用于实现增量传输的网 页模板的生成装置。该生成装置包括 : 获取单元, 用于获取网页的网页数据 ; 标签单元, 用 于对网页数据生成哈希值标签 ; 查找单元, 用于查找与哈希值标签对应的网页模板 ; 计算 单元, 用于计算查找到的网页模板与网页之间的增量编码数据 ; 生成单元, 用于根据计算得 到的增量编码数据确定是否生成新的网页模板。 0012 进一步地, 标签单元包括 : 第一生成模块, 用于根据网页数据生成哈希值 ; 排列模 块, 用于按照预设规则对哈希值进行排列 ; 标签模块, 用于根据域名和对排列后的哈希值取 前缀得到多个哈希值标签, 其中, 查找单元。

16、用于根据哈希值标签查找模板表, 得到多个哈希 值标签对应的网页模板。 0013 进一步地, 生成单元包括 : 比较模块, 用于比较查找到的网页模板数据和网页数 据, 得到网页增量编码数据 ; 第一判断模块, 用于判断网页增量编码数据是否大于设定阈 值 ; 第一传输模块, 用于在网页增量编码数据小于等于设定阈值时, 基于增量编码数据对应 的网页模板传输增量编码数据 ; 第二生成模块, 用于在网页增量编码数据大于设定阈值时, 生成新的网页模板。 0014 进一步地, 生成单元包括 : 比较模块, 用于比较查找到的网页模板数据和网页数 据, 得到网页增量编码数据 ; 计算模块, 用于计算网页增量编码。

17、数据与网页数据的比值 ; 第 二判断模块, 用于判断网页的增量编码数据与网页编码数据的比值是否小于设定比值阈 值 ; 第二传输模块, 用于在网页增量编码数据与网页数据的比值小于设定比值阈值时, 将网 页加入到增量编码数据对应的网页模板覆盖的网页集中 ; 第三生成模块, 用于在多个增量 编码数据与网页数据的比值大于等于设定比值阈值时, 生成新的网页模板。 0015 进一步地, 该装置还包括 : 判断单元, 用于判断是否存在两个哈希值标签对应相同 的网页模板 ; 合并单元, 用于在两个哈希值标签对应相同的网页模板时, 获取两个哈希值 标签对应的网页, 并且将两个哈希值标签对应的网页加入到相同的网页。

18、模板覆盖的网页集 中。 0016 通过本发明, 采用网页数据的哈希值生成固定个数的哈希值标签, 根据生成的哈 希值标签查找网页模板, 仅需要对查找到的网页模板进行增量编码数据大小的判断, 无需 对所有网页模板均进行计算, 解决了有技术中在实现增量传输生成网页模板时系统开销比 较大的问题, 进而达到了节约系统开销的效果。 附图说明 0017 构成本申请的一部分的附图用来提供对本发明的进一步理解, 本发明的示意性实 施例及其说明用于解释本发明, 并不构成对本发明的不当限定。在附图中 : 0018 图 1 是根据本发明第一实施例的用于实现增量传输的网页模板生成装置的示意 说 明 书 CN 10359。

19、3467 A 5 3/11 页 6 图 ; 0019 图 2 是根据本发明第二实施例的用于实现增量传输的网页模板生成装置的示意 图 ; 0020 图 3 是根据本发明第三实施例的用于实现增量传输的网页模板生成装置的示意 图 ; 0021 图 4 是根据本发明第四实施例的用于实现增量传输的网页模板生成装置的示意 图 ; 0022 图 5 是根据本发明第五实施例的用于实现增量传输的网页模板生成装置的示意 图 ; 0023 图 6 是根据本发明实施例的用于实现增量传输的网页模板生成方法的流程图 ; 0024 图 7 是根据本发明实施例的用于实现增量传输的网页模板生成方法中生成哈希 值标签的流程图 ;。

20、 0025 图 8 是根据本发明实施例的用于实现增量传输的网页模板生成方法中确定是否 生成网页模板方法的流程图 ; 0026 图 9 是根据本发明实施例的用于实现增量传输的网页模板生成方法中确定是否 生成网页模板的优选方法流程图 ; 以及 0027 图 10 是根据本发明第二实施例的用于实现增量传输的网页模板生成方法的流程 图。 具体实施方式 0028 需要说明的是, 在不冲突的情况下, 本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本发明。 0029 为了使本技术领域的人员更好地理解本发明方案, 下面将结合本发明实施例中的 附图, 对本发明实施例中的技术。

21、方案进行清楚、 完整地描述, 显然, 所描述的实施例仅仅是 本发明一部分的实施例, 而不是全部的实施例。基于本发明中的实施例, 本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都应当属于本发明保护的范 围。 0030 需要说明的是, 本发明的说明书和权利要求书及上述附图中的术语 “第一” 、“第 二” 等是用于区别类似的对象, 而不必用于描述特定的顺序或先后次序。 应该理解这样使用 的数据在适当情况下可以互换, 以便这里描述的本发明的实施例例如能够以除了在这里图 示或描述的那些以外的顺序实施。此外, 术语 “包括” 和 “具有” 以及他们的任何变形, 意图 在于覆盖不排。

22、他的包含, 例如, 包含了一系列步骤或单元的过程、 方法、 系统、 产品或设备不 必限于清楚地列出的那些步骤或单元, 而是可包括没有清楚地列出的或对于这些过程、 方 法、 产品或设备固有的其它步骤或单元。 0031 本发明实施例提供了一种用于实现增量传输的网页模板生成装置。 该网页模板生 成装置用于生成网页模板以实现对网页内容的增量进行传输。 0032 图 1 是根据本发明第一实施例的用于实现增量传输的网页模板生成装置的示意 图。如图所示, 该实现增量传输的网页模板生成装置包括获取单元 10、 标签单元 20、 查找单 元 30、 计算单元 40 和生成单元 50。 说 明 书 CN 1035。

23、93467 A 6 4/11 页 7 0033 获取单元 10 用于获取网页的网页数据。获取单元 10 可以获取任意一个网页的网 页数据, 获取的网页数据可以包括获取网页内所有内容的数据, 例如网页内新闻数据、 网页 内的广告数据、 网页内的链接数据等。 0034 获取网页数据可以首先获取网页地址, 然后再根据获取到的网页地址从网页数据 表中获取相应的网页数据。网页数据表中可以存储网页数据的字段部分和描述部分。例 如, 存储的字段是 “网址” , 对应的描述是 “网页地址去除协议部分, 去除锚部分, 按域翻转 域名部分” 。例如 : http:/ 对应的描述部分应该是 : .sina.www/。

24、a/b.php?ac=b。 0035 标签单元 20 用于对网页数据生成哈希值标签。一个网页数据可以生成一个哈希 值, 生成的哈希值可以是64位的哈希值, 也可以是128位的哈希值, 可以根据系统需要确定 生成合适位数的哈希值。例如, 在 64 位哈希值就能满足要求的系统中, 生成 128 位的哈希 值反而会增加系统的负担, 因此在哈希值的生成位数要合适。 0036 标签单元 20 能够通过网页数据生成的哈希值生成多个哈希值标签, 每个哈希值 标签对应一个网页模板, 该网页模板覆盖一个或多个网页。 0037 查找单元 30 用于查找与哈希值标签对应的网页模板。网页模板可以是一个网页, 一个网页。

25、可以作为另外一个网页的模板, 一个网页模板对应多个哈希值标签, 可以通过其 中任何一个哈希值标签进行查找。网页模板可以是保存在缓存中的网页模板, 查找单元 30 从缓存中查找与哈希值标签对应的网页模板。 0038 计算单元 40 用于计算查找到的网页模板与网页之间的增量编码数据。网页模板 与网页之间的增量编码数据可以是网页数据与网页模板数据之间不同的数据部分。 如果查 找的网页模板有多个, 计算多个网页模板与网页之间的增量编码数据。 0039 生成单元 50 用于根据计算得到的增量编码数据确定是否生成新的网页模板。如 果计算得到的增量编码数据大于设定的阈值, 则生成新的网页模板 ; 如果计算得。

26、到的增量 编码数据小于等于设定的阈值, 则直接调用缓存的网页模板。 0040 由上述描述可以知道, 能够通过哈希值标签查找对应的网页模板, 并计算查找得 到网页模板与网页之间的增量编码数据, 确定直接调用缓存中的网页模板或者生成新的网 页模板, 从而减少了网页模板与网页进行比较的次数, 节约了系统开销。 0041 图 2 是根据本发明第二实施例的用于实现增量传输的网页模板生成装置的示意 图。图 2 所示实施例的实现增量传输的网页模板生成装置可以作为图 1 所示实施例的实现 增量传输的网页模板生成装置的优选实施方式。 该优选实施方式的用于实现增量传输的网 页模板生成装置包括获取单元 10、 标签。

27、单元 20、 查找单元 30、 计算单元 40 和生成单元 50, 其中, 标签单元 20 包括第一生成模块 201、 排列模块 202 和标签模块 203。 0042 图 2 所示实施例中的获取单元 10、 查找单元 30、 计算单元 40 和生成单元 50 与图 1 所示实施例中的获取单元 10、 查找单元 30、 计算单元 40 和生成单元 50 的功能相同, 在此 不做赘述。 0043 第一生成模块 201 用于根据网页数据生成哈希值。根据网页数据计算哈希值可 以是 simhash 值, 其中, simhash 是局部敏感哈希算法中的一种。下面以生成一个 64 位的 simhash 值。

28、为例对生成哈希值的方法进行详细说明。 0044 首先, 将一个 64 维的整数向量 Vi 初始化为 0。初始化为 0 可以是将 64 维的整 说 明 书 CN 103593467 A 7 5/11 页 8 数向量 Vi 的模设置为 0。 0045 其次, 从网页的每个字节位置处切取长度为 n 个字节的子串, 作为网页的特征集。 网页的特征集中的特征的个数可以是整个网页的字节的个数。 特征集中的每个特征是一个 n 个字节的字串。n 可以取 64, 也可以是 32, 也可以是其他数值比如 20。 0046 再次, 对特征集中的每个特征, 使用一个字符串哈希函数产生一个 64 位的二进制 整数, 对。

29、该 64 位的二进制整数的每个位置 i : 如果值为 1, 则使 Vi 加 1, 否则使 Vi 减 1。 0047 最后, 创建一个新的 64 位的整数, 新创建的 64 位的整数是将 64 位整数的每个位 与上一步得到的向量一一对应, 也就是对这个新创建的整数的每个位置 i, 上步骤中的向量 的 Vi 不小于 0 时置为 1, 否则置为 0, 由此得到 64 位的二进制数表示的整数, 这个整数作 为 simhash 值。 0048 排列模块 202 用于按照预设规则对哈希值进行按位随机排列。例如, 可以对 64 位 哈希值进行 32 次随机排列。 0049 需要说明的是, 排列的次数可以根据。

30、实际系统需要而进行确定, 并不限于本发明 实施例提供的次数。本发明实施例提供的排列次数仅仅是为了详细阐述本发明的实施方 案, 不做穷举和限定。 0050 标签模块 203 用于根据域名和排列后的哈希值得到多个哈希值标签。对哈希值进 行排列之后, 得到排列后的哈希值, 取排列后的哈希值前固定长度个位与域名一起作为哈 希值标签。例如, 对 64 位的哈希值按位做 32 次的随机排列之后, 得到 32 个排列后的哈希 值。可以取排列后的哈希值的前 16 位和网页的域名作为哈希值标签, 其形式可以为 “域名 / 排列后哈希值的前 16 位” 。那么, 对 64 位的哈希值按位做 32 次的随机排列之后。

31、, 得到 32 个哈希值标签。 0051 需要指出的是, 这里的取排列后的哈希值的前 16 位也可以是取 32 或者 8 位, 这里 只是为了更清楚的阐述本发明的方案, 并不对本发明方案做不当的限定。 0052 查找单元 40 用于根据哈希值标签查找模板表, 得到与多个哈希值标签对应的网 页模板。与多个哈希值标签对应的网页模板可以是一个, 也可以是多个。查找单元可以进 行 N 次的查找, 查找次数不超过排列的次数。例如, 对哈希值进行了 32 次的随机排列之后, 最多进行 32 次的查找。 0053 通过网页模板生成哈希值, 并根据哈希值得到哈希值标签, 利用哈希值标签查找 网页模板可以大大减。

32、少查询网页模板的次数, 增加了系统处理数据的速度, 并且提高了查 找网页模板的准确性。 0054 图 3 是根据本发明第三实施例的用于实现增量传输的网页模板生成装置的示意 图。图 3 所示实施例的实现增量传输的网页模板生成装置可以作为图 1 所示实施例的实现 增量传输的网页模板生成装置的优选实施方式。 该优选实施方式的用于实现增量传输的网 页模板生成装置包括获取单元 10、 标签单元 20、 查找单元 30、 计算单元 40 和生成单元 50, 其中, 生成单元50包括 : 比较模块501、 第一判断模块503、 第一传输模块505和第二生成模 块 507。 0055 图 3 所示实施例的获取。

33、单元 10、 标签单元 20、 查找单元 30 和计算单元 40 与图 1 所示实施例的获取单元 10、 标签单元 20、 查找单元 30 和计算单元 40 功能相同, 在此不做赘 述。 说 明 书 CN 103593467 A 8 6/11 页 9 0056 比较模块 501 用于比较查找到的网页模板数据和所述网页数据, 得到网页增量编 码数据。 查找到的网页模板可以是一个网页模板, 也可以是多个网页模板, 在查找到的网页 模板为多个模板时, 可以比较多个模板中的每个模板与网页数据之间的增量编码数据。可 以通过逐个比较的方式得到网页增量编码数据, 也可以同时分别比较多个模板中的每个模 板与网。

34、页数据之间的增量编码数据。 0057 第一判断模块 503 用于判断网页增量编码数据是否大于设定阈值。如果增量编码 数据较大, 也就是网页与网页模板的相似度越低, 在增量编码数据大于阈值的时候, 查找到 的网页模板就不能满足网页的要求, 不能作为网页的模板, 因此需要对增量编码数据与阈 值进行比较。 0058 第一传输模块 505 用于在网页增量编码数据小于等于设定阈值时, 基于增量编码 数据对应的网页模板传输增量编码数据。 0059 如果增量编码数据小于等于设定阈值, 那么网页与查找到的网页模板的相似度较 高, 查找到的网页模板能够满足网页的要求, 则可以将查找到的网页模板存储在该网页模 板。

35、覆盖的网页集中, 也可以基于查找到的网页模板传输增量编码数据。 0060 第二生成模块 507 用于在网页增量编码数据大于设定阈值时, 生成新的网页模 板。如果增量编码数据大于设定阈值, 那么网页与查找到的网页模板的相似度无法达到网 页的要求, 那么生成新的网页模板。生成新的网页模板可以是将获取到的网页作为新的网 页模板。 0061 通过直接比较增量编码数据与设定阈值的大小, 确定直接调用缓存的网页模板或 者生成新的网页模板, 能够更加方便和准确的判断调用或生成网页模板。 0062 图 4 是根据本发明第四实施例的用于实现增量传输的网页模板生成装置的示意 图。图 4 所示实施例的实现增量传输的。

36、网页模板生成装置可以作为图 1 所示实施例的实现 增量传输的网页模板生成装置的优选实施方式。 该优选实施方式的用于实现增量传输的网 页模板生成装置包括获取单元 10、 标签单元 20、 查找单元 30、 计算单元 40 和生成单元 50, 其中, 生成单元50包括 : 比较模块501、 计算模块502、 第二判断模块504、 第二传输模块506 和第三生成模块 508。 0063 图 4 所示实施例的获取单元 10、 标签单元 20、 查找单元 30 和计算单元 40 与图 1 所示实施例的获取单元 10、 标签单元 20、 查找单元 30 和计算单元 40 功能相同, 在此不做赘 述。 00。

37、64 比较模块 501 比较查找到的网页模板数据和所述网页数据, 得到网页增量编码数 据。 查找到的网页模板可以是一个网页模板, 也可以是多个网页模板, 在查找到的网页模板 为多个模板时, 可以比较多个模板中的每个模板与网页数据之间的增量编码数据。可以通 过逐个比较的方式得到网页增量编码数据, 也可以同时分别比较多个模板中的每个模板与 网页数据之间的增量编码数据。 0065 计算模块 502 用于计算网页增量编码数据与网页数据的比值。可以用增量编码数 据比上网页数据, 那么增量编码数据与网页数据的比值越小, 则网页模板与网页的相似度 越高, 增量编码数据与网页数据的比值越大, 则网页模板与网页。

38、的相似度越低。 0066 第二判断模块 504 用于判断网页的增量编码数据与网页数据的比值是否小于设 定比值阈值。可以通过判断网页增量编码数据与网页数据的比值是否小于设定比值阈值, 说 明 书 CN 103593467 A 9 7/11 页 10 确定网页与网页模板的相似度是否满足网页的需要。 0067 第二传输模块 506 用于在网页增量编码数据与网页数据的比值小于设定比值阈 值时, 将网页加入到增量编码数据对应的网页模板覆盖的网页集中。如果增量编码数据与 网页数据的比值小于设定比值阈值, 那么网页与网页模板的相似度能够满足网页的要求, 可以将该网页加入到增量编码数据对应的网页模板覆盖的网页。

39、集中, 再次使用该网页模板 时可以直接调用该网页模板, 并且基于调用的网页模板对增量编码数据进行传输, 无需再 次生成。 0068 第三生成模块 508 用于在多个增量编码数据与网页数据的比值大于设定比值阈 值时, 生成新的网页模板。 如果增量编码数据与网页数据的比值大于等于设定比值阈值, 那 么网页与网页模板的相似度无法满足网页的要求, 可以生成新的网页模板, 也可以用网页 直接作为新的网页模板。 0069 通过增量编码数据与网页数据的比值与设定比值阈值相比较能够更加准确的判 断网页与网页模板的相似度, 该设定比值阈值可以适用于包含有不同数据量的网页, 而不 必根据不同网页的数据量设置不同的。

40、增量编码数据的阈值, 提高了基于网页模板传输网页 增量文件方法的适用性, 并且更加方便。 0070 图 5 是根据本发明第五实施例的用于实现增量传输的网页模板生成装置的示意 图。图 5 所示实施例的实现增量传输的网页模板生成装置可以作为图 1 所示实施例的实现 增量传输的网页模板生成装置的优选实施方式。 该优选实施方式的用于实现增量传输的网 页模板生成装置包括获取单元 10、 标签单元 20、 查找单元 30、 计算单元 40、 生成单元 50、 判 断单元 60 和合并单元 70。 0071 图 5 所示实施例的获取单元 10、 标签单元 20、 查找单元 30、 计算单元 40 和生成单 。

41、元50与图1所示实施例的获取单元10、 标签单元20、 查找单元30、 计算单元40和生成单元 50 功能相同, 在此不做赘述。 0072 判断单元 60 用于判断是否存在两个哈希值标签对应相同的网页模板。一个哈希 值标签可以对应一个或多个网页, 如果两个哈希值标签对应的网页模板相同, 则两个哈希 值标签对应的网页也对应一个相同的网页模板。 0073 合并单元 70 用于在两个哈希值标签对应相同的网页模板时, 获取两个哈希值标 签对应的网页, 并且将两个哈希值标签对应的网页加入到相同的网页模板覆盖的网页集 中。 一个哈希值标签可以对应多个网页, 多个网页可以对应多个网页模板, 在网页模板表中 。

42、多个网页可能存在于不同的网页模板之下。如果两个哈希值标签对应的网页模板相同, 则 在网页模板表中将两个哈希值标签对应的网页加入到相同的网页模板所覆盖的网页集中。 0074 通过网页的合并以及网页模板表的更新, 能够将可以利用相同网页模板的网页归 属在同一网页模板所覆盖的网页集中, 再次查询网页模板表的时候能够更方便的查询到需 要的网页模板, 并且直接调用该网页模板, 避免再次生成而带来的系统开销。 0075 本发明实施例还提供了一种用于实现增量传输的网页模板生成方法。 本发明实施 例的用于实现增量传输的网页模板生成方法可以通过本发明实施例所提供的实现增量传 输的网页模板生成装置来执行, 本发明。

43、实施例的实现增量传输的网页模板生成装置也可以 用于执行本发明实施例所提供的实现增量传输的网页模板生成方法。 0076 以下根据附图对用于实现增量传输的网页模板生成方法进行详细阐述。 需要说明 说 明 书 CN 103593467 A 10 8/11 页 11 的是, 下述步骤以及在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算 机系统中执行, 并且, 虽然在流程图中示出了逻辑顺序, 但是在某些情况下, 可以以不同于 此处的顺序执行所示出或描述的步骤。 0077 图 6 是根据本发明实施例的用于实现增量传输的网页模板生成方法的流程图。以 下结合该流程图对本实施例的实现增量传输的网页模。

44、板生成方法进行说明。如图所示, 该 方法包括如下步骤 : 0078 步骤 S101, 获取网页的网页数据。获取网页的网页数据可以获取任意一个网页的 网页数据, 获取的网页数据可以包括获取网页内所有内容的数据, 例如网页内新闻数据、 网 页内的广告数据、 网页内的链接数据等。 0079 获取网页数据可以首先获取网页地址, 然后再根据获取到的网页地址从网页数据 表中获取相应的网页数据。网页数据表中可以存储网页数据的字段部分和描述部分。例 如, 存储的字段是 “网址” , 对应的描述是 “网页地址去除协议部分, 去除锚部分, 按域翻转 域名部分” 。例如 : http:/ 对应的描述部分可以是 : 。

45、.sina.www/a/b.php?ac=b。 0080 步骤S102, 对网页数据生成哈希值标签。 一个网页数据可以生成一个哈希值, 生成 的哈希值可以是 64 位的哈希值, 也可以是 128 位的哈希值, 可以根据系统需要确定生成合 适位数的哈希值。例如, 在 64 位哈希值就能满足要求的系统中, 生成 128 位的哈希值反而 会增加系统的负担, 因此这里生成是根据系统情况生成合适位数的哈希值。 0081 通过网页数据生成的哈希值生成哈希值标签, 每个哈希值标签可以对应一个网 页, 也可以对应多个网页。 0082 步骤S103, 查找与哈希值标签对应的网页模板。 网页模板可以是一个网页, 。

46、一个网 页可以作为另外一个网页的模板, 一个哈希值标签对应一个网页模板。网页模板可以是保 存在缓存中的网页模板, 查找单元 30 从缓存中查找与哈希值标签对应的网页模板。 0083 步骤 S104, 计算查找到的网页模板与网页之间的增量编码数据。网页模板与网页 之间的增量编码数据可以是网页数据与网页模板数据之间不同的数据部分。 如果查找的网 页模板有多个, 计算多个网页模板与网页之间的增量编码数据。 0084 步骤 S105, 根据计算得到的增量编码数据确定是否生成新的网页模板。如果计算 得到的增量编码数据大于设定的阈值, 则生成新的网页模板 ; 如果计算得到的增量编码数 据小于等于设定的阈值。

47、, 则直接调用缓存的网页模板。 0085 由上述描述可以知道, 能够通过哈希值标签查找对应的网页模板, 并计算查找得 到网页模板与网页之间的增量编码数据, 确定直接调用缓存中的网页模板或者生成新的网 页模板, 从而减少了网页模板与网页进行比较的次数, 节约了系统开销。 0086 图 7 是根据本发明实施例的用于实现增量传输的网页模板生成方法中生成哈希 值标签的流程图。该方法包括如下步骤 : 0087 步骤 S201, 根据网页数据生成哈希值。根据网页数据计算哈希值可以是 simhash 值。下面以生成一个 64 为的 simhash 值为例对生成哈希值的方法进行详细说明。 0088 首先, 将。

48、一个 64 维的整数向量 Vi 初始化为 0。初始化为 0 可以是将 64 维的整 数向量 Vi 的模设置为 0。 0089 其次, 从网页的每个字节位置处切取长度为 n 个字节的子串, 作为网页的特征集。 说 明 书 CN 103593467 A 11 9/11 页 12 网页的特征集中的特征的个数可以是整个网页的字节的个数。 特征集中的每个特征是一个 n 个字节的字串。n 可以取 64, 也可以是 32, 也可以是其他数值比如 20。 0090 再次, 对特征集中的每个特征, 使用一个字符串哈希函数产生一个 64 位的二进制 整数, 对该 64 位的二进制整数的每个位置 i : 如果值为 。

49、1, 则使 Vi 加 1, 否则使 Vi 减 1。 0091 最后, 创建一个新的 64 位的整数, 新创建的 64 位的整数是将 64 位整数的每个位 与上一步得到的向量一一对应, 也就是对这个新创建的整数的每个位置 i, 上步骤中的向量 Vi 不小于 0 时置为 1, 否则置为 0, 由此得到 64 位的二进制数表示的整数, 这个整数作为 simhash 值。 0092 步骤 S202, 按照预设规则对哈希值进行按位随机排列。例如, 可以对 64 位哈希值 进行 32 次随机排列。 0093 需要说明的是, 这里的排列次数可以根据实际系统需要而进行确定, 并不限于本 发明实施例提供的次数。 本发明实施例提供的排列次数仅仅。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1