URL检索方法及服务器.pdf

上传人:Y94****206 文档编号:6206368 上传时间:2019-05-21 格式:PDF 页数:11 大小:639.37KB
返回 下载 相关 举报
摘要
申请专利号:

CN201410245759.6

申请日:

2014.06.04

公开号:

CN105426364A

公开日:

2016.03.23

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20140604|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北大方正集团有限公司; 北京北大方正电子有限公司

发明人:

周宇

地址:

100871北京市海淀区成府路298号中关村方正大厦9层

优先权:

专利代理机构:

北京同立钧成知识产权代理有限公司11205

代理人:

刘芳

PDF下载: PDF下载
内容摘要

本发明提供一种URL检索方法及服务器,根据待检索URL的原始字符串,获取所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串;根据所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串,查询对应的索引表,获取到所述MD5值或者与所述特征字符串对应的目标URL;根据所述目标URL在数据库中的存储位置获取所述目标URL存储信息。由于对待检索URL预处理,得到相应的特征字符串或MD5值,因此,只需基于特征字符串进行检索,就能得到对应的目标URL,不再对待检索URL进行全文检索,减少了对待检索URL的检索次数,提高了检索效率。

权利要求书

1.一种统一资源定位符URL检索方法,其特征在于,包括:
根据待检索URL的原始字符串,获取所述待检索URL的消息摘要算法
MD5值或者所述待检索URL的特征字符串;
根据所述待检索URL的MD5值或者所述待检索URL的特征字符串,查
询对应的索引表,获取到所述MD5值或者与所述特征字符串对应的目标
URL;
根据所述目标URL在数据库中的存储位置获取所述目标URL存储信息。
2.根据权利要求1所述的URL检索方法,其特征在于,所述根据待检
索URL的原始字符串,获取所述待检索URL的特征字符串,具体包括:
截取所述待检索URL的原始字符串中的头字符串,获取所述待检索URL
的剩余字符串;
根据所述剩余字符串中的分隔符,获取所述剩余字符串中的所有字符组,
并从第1组字符组开始,依次选取N个字符组中的第一个字符和最后一个字
符,顺序组成所述待检索URL的特征字符串。
3.根据权利要求2所述的URL检索方法,其特征在于,所述N的取值
为8-12。
4.根据权利要求2或3所述的URL检索方法,其特征在于,所述根据
所述目标URL在数据库中的存储位置获取所述目标URL存储信息,包括:
将所述目标URL原始字符串与所述待检索URL原始字符串进行逐字符
比较;
如果所述目标URL与所述待检索URL中每个字符在对应位置上均一致,
获取所述目标URL在所述数据库中的所述存储位置;
根据所述存储位置获取所述目标URL存储信息。
5.根据权利要求1所述的URL检索方法,其特征在于,所述根据待检
索URL的原始字符串,获取所述待检索URL的消息摘要算法MD5值,具体
包括:
对所述待检索URL原始字符串进行消息摘要算法计算,获取对应的所述
MD5值。
6.一种服务器,其特征在于,包括:
第一获取模块,用于根据待检索URL的原始字符串,获取所述待检索
URL的消息摘要算法MD5值或者所述待检索URL的特征字符串;
查询模块,用于根据所述待检索URL的消息摘要算法MD5值或者所述
待检索URL的特征字符串,查询对应的索引表,获取到所述MD5值或者与
所述特征字符串对应的目标URL;
第二获取模块,用于根据所述目标URL在数据库中的存储位置获取所述
目标URL存储信息。
7.根据权利要求6所述的服务器,其特征在于,所述第一获取模块,具
体用于截取所述待检索URL的原始字符串中的头字符串,获取到所述待检索
URL的剩余字符串,根据所述剩余字符串中的分隔符,获取所述剩余字符串
的所有字符组,并从第1组字符组开始,依次选取N个字符组中的第一个字
符和最后一个字符,顺序组成所述待检索URL的特征字符串。
8.根据权利要求7所述的服务器,其特征在于,所述N的取值为8~12。
9.根据权利要求7或8所述的服务器,其特征在于,所述第二获取模块
具体用于将所述目标URL原始字符串与所述待检索URL原始字符串进行逐
字符比较,如果所述目标URL与所述待检索URL中每个字符在对应位置上
均一致,获取所述目标URL在所述数据库中的所述存储位置,根据所述存储
位置获取所述目标URL存储信息。
10.根据权利要求6所述的服务器,其特征在于,所述第一获取模块,
具体用于对所述待检索URL原始字符串进行消息摘要算法计算,获取对应的
所述MD5值。

说明书

URL检索方法及服务器

技术领域

本发明涉及通信领域,尤其涉及一种URL检索方法及服务器。

背景技术

随着互联网的普及,互联网网站个数和互联网的使用用户越来越多,用
于访问互联网的统一资源定位符(UniformResourceLocator,简称URL)也
越来越多。该URL还可以称为网页地址,通过该网页地址,能够对互联网上
的资源进行访问和获取。

另外,对于互联网信息搜索应用领域,需要记录下每个URL的相关信息,
如页面信息、访问信息和内容摘要信息等。在试图获取某一URL的相关信息
时,目前多用全文检索对待检索URL进行检索,首先将待检索URL进行拆
分,得到待检索URL包括的所有关键字,再基于关键字预先建立的索引关系,
对待检索URL进行检索。

但是,上述全文检索方式由于需要基于所有的关键字进行检索,因此,
造成了检索过程较为复杂,检索效率较低的问题。

发明内容

本发明提供一种URL检索方法及服务器,用于解决现有对待检索URL
采用全文检索时检索过程复杂使得检索效率较低的问题。

为了实现上述目的,本发明提供的一种URL检索方法,包括:

根据待检索URL的原始字符串,获取所述待检索URL的消息摘要算法
MD5值或者所述待检索URL的特征字符串;

根据所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特
征字符串,查询对应的索引表,获取到所述MD5值或者与所述特征字符串对
应的目标URL;

根据所述目标URL在数据库中的存储位置获取所述目标URL存储信息。

为了实现上述目的,本发明提供的一种服务器,包括:

第一获取模块,用于根据待检索URL的原始字符串,获取所述待检索
URL的消息摘要算法MD5值或者所述待检索URL的特征字符串;

查询模块,用于根据所述待检索URL的消息摘要算法MD5值或者所述
待检索URL的特征字符串,查询对应的索引表,获取到所述MD5值或者与
所述特征字符串对应的目标URL;

第二获取模块,用于根据所述目标URL在数据库中的存储位置获取所述
目标URL存储信息。

本发明提供的URL检索方法及服务器,根据待检索URL的原始字符串,
获取所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字
符串;根据所述待检索URL的消息摘要算法MD5值或者所述待检索URL的
特征字符串,查询对应的索引表,获取到所述MD5值或者与所述特征字符串
对应的目标URL;根据所述目标URL在数据库中的存储位置获取所述目标
URL存储信息。由于对待检索URL预处理,得到相应的特征字符串或MD5
值,因此,只需基于特征字符串进行检索,就能得到对应的目标URL,不再
对待检索URL进行全文检索,减少了对待检索URL的检索次数,提高了检
索效率。

附图说明

图1为本发明实施例一提供的一种URL检索方法的流程示意图;

图2为本发明实施例二提供的另一种URL检索方法的流程示意图;

图3为本发明实施例三提供的另一种URL检索方法的流程示意图;

图4为本发明实施例四提供的一种服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发
明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。

实施例一

图1本发明实施例一提供的一种URL检索方法的流程示意图。本实施例
提供的URL检索方法的执行主体为服务器。如图1所示,该URL检索方法
包括以下步骤:

101、根据待检索URL的原始字符串,获取待检索URL的消息摘要算法
MD5值或者待检索URL的特征字符串。

在获取到待检索URL后,根据待检索URL的原始字符串,获取到该待
检索URL的消息摘要算法(Message-DigestAlgorithm5,简称MD5)值或者
该待检索URL的特征字符串。

102、根据待检索URL的MD5值或者待检索URL的特征字符串,查询
对应的索引表,获取到所述MD5值或者与所述特征字符串对应的目标URL。

具体地,在服务器中分别存储有预先建立的URL原始字符串与MD5值
之间的索引表和URL原始字符串与特征字符串的索引表。在获取到待检索
URL的MD5值后,查询对应的URL原始字符串与MD5值之间的索引表,
获取到与该MD5值

其中,本实施例中,可以预先建立包括URL原始字符串、特征字符串以
及MD5值的索引表并存储在服务器中,这样就可以节省服务器的存储空间。
进一步地,在获取到特征字符串或者MD5值后,直接查询上述包括URL原
始字符串、特征字符串和MD5值的索引表,就能够获取到目标URL。

103、根据目标URL在数据库中的存储位置获取目标URL存储信息。

在索引表中查询到目标URL后,服务器根据该目标URL在数据库中的
存储位置,在相应的存储单元中获取到该目标URL的存储信息。其中,存储
信息包括:页面信息、访问信息、更新时间、内容摘要以及URL所归属的服
务提供方等。

本实施例提供的URL检索方法,根据待检索URL的原始字符串,获取
所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符
串,根据所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特
征字符串,查询对应的索引表,获取到所述MD5值或者与所述特征字符串对
应的目标URL,根据所述目标URL在数据库中的存储位置获取所述目标URL
存储信息。由于对待检索URL预处理,得到相应的特征字符串或MD5值,
因此,只需基于特征字符串进行检索,就能得到对应的目标URL,不再对待
检索URL进行全文检索,减少了对待检索URL的检索次数,提高了检索效
率。

实施例二

图2为本发明实施例二提供的另一种URL检索方法的流程示意图。本实
施例提供的URL检索方法的执行主体为服务器。如图2所示,该URL检索
方法包括以下步骤:

201、截取待检索URL的原始字符串中的头字符串,获取待检索URL的
剩余字符串。

其中,所述头字符串用于指示出所述待检索URL要访问的资源类型。

一般URL的格式为<资源类型>://<主机>:<端口>/<路径>,其中,资源类
型指出万维网(WorldWideWeb,简称WWW)客户程序用来操作的工具。
如“Http://”表示WWW服务器,“Ftp://”表示文本传输协议(FileTransfer
Protocol,简称FTP)服务器等。

具体地,服务器获取到待检索URL后,将待检索URL的原始字符串进
行截取,从该原始字符串中的头字符串截取掉,得到该待检索URL的剩余字
符串。实际应用中,每个URL原始字符串中的头字符串均用于指示出要访问
的资源类型,而且头字符串包括的字符基本一致,因此本实施例中服务器可
以将该头字符串从原始字符串中截取掉。其中头字符串包括从该原始字符串
的头字符至预设字符串之间的字符,一般预设的字符串为“//”或者“//www.”。
例如,待检索URL为:http://www.hostname.com/house/beijing/dongcheng.html,
其中该待检索URL的头字符串为“http://www.”,预设的字符串为“//www.”。

202、根据剩余字符串中的分隔符,获取剩余字符串中的所有字符组,并
从第1组字符组开始,依次选取N个字符组中的第一个字符和最后一个字符,
顺序组成待检索URL的特征字符串。

在对待检索URL的头字符串进行截取后,服务器从剩余字符串包括的分
隔符之间,获取到该剩余字符串的所有字符组。举例说明,待检索URL为:
http://www.kris3106.com/class1/group2/string3/index11015,其中剩余字符串为
“kris3106.com/class1/group2/string3/index11015”,分隔符为符号“/”,服务器
根据分隔符从剩余字符串中获取到的字符组包括:“kris3106.com”、“class1”、
“group2”、“string3”、“index11015.html”。

进一步地,服务器从第1组字符组开始,依次获取N个字符组中的第一
个字符和最后一个字符,顺序拼接在一起组成该待检索URL的特征字符串。
例如,取“kris3106.com”、“class1”、“group2”、“string3”和“index11015.html
每个字符组的第一个字符和最后一个字符,即每个字符组中下划线的字符,
顺序拼接在一起组成特征字符串“kmclg2s3il”。本实施例中,预设N的个数
为8-12。优选地,预设个数为10。

203、根据特征字符串查询对应的索引表,获取到与特征字符串对应的目
标URL。

本实施例中,预先建立URL原始字符串与特征字符串之间索引关系,并
生成索引表存储在服务器中。在获取到待检索URL的特征字符串后,服务器
查询预先建立的索引表,获取到与该特征字符串对应的目标URL。

204、根据目标URL在数据库中的存储位置获取目标URL存储信息。

进一步地,在索引表中查询到目标URL后,服务器根据该目标URL在
数据库中的存储位置,在相应的存储单元中获取到该目标URL的存储信息。
其中,存储信息包括:页面信息、访问信息、更新时间、内容摘要以及URL
所归属的服务提供方等。

进一步地,为了保证根据特征字符串获取到目标URL与待检索URL一
致,服务器在获取到该目标URL后,将目标URL的原始字符串与待检索URL
的原始字符串逐字符进行比较,如果目标URL与待检索URL中每个字符在
对应位置上均一致,说明该目标URL与该待检索URL匹配一致,获取该目
标URL在数据库中的存储位置,根据该存储位置获取目标URL存储信息。

进一步地,在特征字符串对应多个目标URL时,服务器还可以通过将所
有目标URL与待检索URL进行逐字符比较的方式,确定出与待检索URL一
致的目标URL。

本实施例提供的URL检索方法,通过将待检索URL的原始字符串中的
头字符串截取掉得到该待检索URL的剩余字符串,其中头字符串用于指示出
待检索URL要访问的资源类型,从剩余字符串包括的分隔符之间获取剩余字
符串的所有字符组,依次选取每个字符组的第一个字符和最后一个字符,顺
序组成待检索URL的特征字符串,根据特征字符串查询预先建立的索引表,
获取与该特征字符串对应的目标URL,根据该目标URL在数据库中的存储
位置获取该目标URL存储信息。本实施例提供的URL检索方法是一种模糊
匹配检索方法,通过对待检索URL预处理,得到相应的特征字符串,只需基
于特征字符串进行检索,就能得到对应的目标URL,不再对待检索URL进
行全文检索,减少了对待检索URL的检索次数,从而提高了检索效率。

实施例三

图3为本发明实施例三提供的另一种URL检索方法的流程示意图。本实
施例提供的URL检索方法的执行主体为服务器。如图3所示,该URL检索
方法包括以下步骤:

301、对待检索URL原始字符串进行消息摘要算法计算,获取待检索URL
的MD5值。

在试图对待检索URL进行检索时,服务器对待检索URL的原始字符串
进行消息摘要算法计算,得到该待检索URL原始字符串的MD5值。

302、根据所述MD5值查询对应索引表,获取与所述MD5值对应的目
标URL。

本实施例中,预先建立URL原始字符串与MD5值之间索引关系,并生
成索引表存储在服务器中。在获取到待检索URL的MD5值后,服务器根据
该MD5值,查询上述索引表,得到与该MD5值对应的目标URL。

由于每个URL对应一个唯一的MD5值,本实施例中服务器根据待检索
URL的MD5值检索到的目标URL,将与待检索URL完全一致,实现了对待
检索URL的精确检索。

303、根据目标URL在数据库中的存储位置获取目标URL存储信息。

本实施例提供的URL检索方法,通过获取待检索URL的MD5值,获取
到与该MD5值对应的目标URL,由于每个URL对应唯一的MD5值,本实
施例中服务器能够根据该MD5值,检索到与该待检索URL一致的目标URL,
实现了精确检索的目的。

实施例四

图4为本发明实施例三提供的一种服务器的结构示意图,如图4所示,
该服务器包括:第一获取模块41、查询模块42和第二获取模块43。

其中,第一获取模块41用于根据待检索URL的原始字符串,获取所述
待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串。

在获取到待检索URL后,第一获取模块41根据待检索URL的原始字符
串,获取到该待检索URL的MD5值或者该待检索URL的特征字符串。

其中,第一获取模块41具体用于截取所述待检索URL的原始字符串中
的头字符串,获取到所述待检索URL的剩余字符串,根据所述剩余字符串中
的分隔符,获取所述剩余字符串的所有字符组,并从第1组字符组开始,依
次选取N个字符组中的第一个字符和最后一个字符,顺序组成所述待检索
URL的特征字符串。

其中,所述头字符串用于指示出所述待检索URL要访问的资源类型。

实际应用中,每个URL原始字符串中的头字符串均用于指示出要访问的
资源类型,而且头字符串包括的字符基本一致,第一获取模块41可以将该头
字符串从原始字符串中截取掉。其中头字符串包括从该原始字符串的头字符
至预设字符串之间的字符,一般预设的字符串为“//”或者“//www.”。例如,
待检索URL为:http://www.hostname.com/house/beijing/dongcheng.html,其
中该待检索URL的头字符串为“http://www.”,预设的字符串为“//www.”。

在对待检索URL的头字符串进行截取后,第一获取模块41从剩余字符
串包括的分隔符之间,获取到该剩余字符串的所有字符组。举例说明,待检
索URL为:http://www.kris3106.com/class1/group2/string3/index11015,其中剩
余字符串为“kris3106.com/class1/group2/string3/index11015”,分隔符为符号
“/”,服务器根据分隔符从剩余字符串中获取到的字符组包括:
“kris3106.com”、“class1”、“group2”、“string3”、“index11015.html”。

进一步地,第一获取模块41从第1组字符组开始,依次获取N个字符
组中的第一个字符和最后一个字符,顺序拼接在一起组成该待检索URL的特
征字符串。例如,取“kris3106.com”、“class1”、“group2”、“string3”和
index11015.html”每个字符组的第一个字符和最后一个字符,即每个字符
组中下划线的字符,顺序拼接在一起组成特征字符串“kmclg2s3il”。本实施
例中,预设N的取值为8-12。优选地,预设个数为10。

本实施例中第一获取模块41除了能够获取到待检索URL的特征字符串
之外,还能够对所述待检索URL原始字符串进行消息摘要算法计算,获取对
应的所述MD5值。

进一步地,与第一获取模块41连接的查询模块42用于根据所述待检索
URL的消息摘要算法MD5值或者所述待检索URL的特征字符串,查询对应
的索引表,获取到所述MD5值或者与所述特征字符串对应的目标URL。

具体地,在第一获取模块41获取到待检索URL的特征字符串之后,查
询模块42查询预先建立的与特征字符串对应的索引表,获取到与该特征字符
串对应的目标URL。其中,该与特征字符串对应的索引表中存储有URL原
始字符串与特征字符串之间索引关系。

本实施例通过待检索URL的特征字符串进行URL检索是一种模糊匹配
检索方法,通过对待检索URL预处理,得到相应的特征字符串,只需基于特
征字符串进行检索,就能得到对应的目标URL,不再对待检索URL进行全
文检索,减少了对待检索URL的检索次数,从而提高了检索效率。

进一步地,在第一获取模块41获取到待检索URL的MD5值之后,查询
模块42查询预先建立的与MD5值对应的索引表,得到与该MD5值对应的
目标URL。该与MD5值对应的索引表中存储有URL原始字符串与MD5值
之间索引关系。

由于每个URL对应一个唯一的MD5值,本实施例中服务器根据待检索
URL的MD5值检索到的目标URL,将与待检索URL完全一致,实现了对待
检索URL的精确检索。

本实施例中通过待检索URL的MD5值,获取与该MD5值对应的目标
URL,由于每个URL对应唯一的MD5值,本实施例中服务器能够根据该
MD5值,检索到与该待检索URL一致的目标URL,实现了精确检索的目的。

其中,本实施例中,可以预先建立包括URL原始字符串、特征字符串以
及MD5值的索引表并存储在服务器中,这样就可以节省服务器的存储空间。
进一步地,在获取到特征字符串或者MD5值后,查询模块42直接查询上述
包括URL原始字符串、特征字符串和MD5值的索引表,就能够获取到目标
URL。

与查询模块42连接的第二获取模块43用于根据所述目标URL在数据库
中的存储位置获取所述目标URL存储信息。

在索引表中查询到目标URL后,第二获取模块43根据该目标URL在数
据库中的存储位置,在相应的存储单元中获取到该目标URL的存储信息。其
中,存储信息包括:页面信息、访问信息、更新时间、内容摘要以及URL所
归属的服务提供方等。

本实施例中,服务器根据待检索URL的原始字符串,获取所述待检索
URL的消息摘要算法MD5值或者所述待检索URL的特征字符串;根据所述
待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串,查
询对应的索引表,获取到所述MD5值或者与所述特征字符串对应的目标
URL;根据所述目标URL在数据库中的存储位置获取所述目标URL存储信
息。由于对待检索URL预处理,得到相应的特征字符串或MD5值,因此,
只需基于特征字符串进行检索,就能得到对应的目标URL,不再对待检索
URL进行全文检索,减少了对待检索URL的检索次数,提高了检索效率。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对
其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通
技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,
或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并
不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

URL检索方法及服务器.pdf_第1页
第1页 / 共11页
URL检索方法及服务器.pdf_第2页
第2页 / 共11页
URL检索方法及服务器.pdf_第3页
第3页 / 共11页
点击查看更多>>
资源描述

《URL检索方法及服务器.pdf》由会员分享,可在线阅读,更多相关《URL检索方法及服务器.pdf(11页珍藏版)》请在专利查询网上搜索。

本发明提供一种URL检索方法及服务器,根据待检索URL的原始字符串,获取所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串;根据所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串,查询对应的索引表,获取到所述MD5值或者与所述特征字符串对应的目标URL;根据所述目标URL在数据库中的存储位置获取所述目标URL存储信息。由于对待检索URL预处理,得到相应的特征。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1