URL检索方法及服务器技术领域
本发明涉及通信领域,尤其涉及一种URL检索方法及服务器。
背景技术
随着互联网的普及,互联网网站个数和互联网的使用用户越来越多,用
于访问互联网的统一资源定位符(UniformResourceLocator,简称URL)也
越来越多。该URL还可以称为网页地址,通过该网页地址,能够对互联网上
的资源进行访问和获取。
另外,对于互联网信息搜索应用领域,需要记录下每个URL的相关信息,
如页面信息、访问信息和内容摘要信息等。在试图获取某一URL的相关信息
时,目前多用全文检索对待检索URL进行检索,首先将待检索URL进行拆
分,得到待检索URL包括的所有关键字,再基于关键字预先建立的索引关系,
对待检索URL进行检索。
但是,上述全文检索方式由于需要基于所有的关键字进行检索,因此,
造成了检索过程较为复杂,检索效率较低的问题。
发明内容
本发明提供一种URL检索方法及服务器,用于解决现有对待检索URL
采用全文检索时检索过程复杂使得检索效率较低的问题。
为了实现上述目的,本发明提供的一种URL检索方法,包括:
根据待检索URL的原始字符串,获取所述待检索URL的消息摘要算法
MD5值或者所述待检索URL的特征字符串;
根据所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特
征字符串,查询对应的索引表,获取到所述MD5值或者与所述特征字符串对
应的目标URL;
根据所述目标URL在数据库中的存储位置获取所述目标URL存储信息。
为了实现上述目的,本发明提供的一种服务器,包括:
第一获取模块,用于根据待检索URL的原始字符串,获取所述待检索
URL的消息摘要算法MD5值或者所述待检索URL的特征字符串;
查询模块,用于根据所述待检索URL的消息摘要算法MD5值或者所述
待检索URL的特征字符串,查询对应的索引表,获取到所述MD5值或者与
所述特征字符串对应的目标URL;
第二获取模块,用于根据所述目标URL在数据库中的存储位置获取所述
目标URL存储信息。
本发明提供的URL检索方法及服务器,根据待检索URL的原始字符串,
获取所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字
符串;根据所述待检索URL的消息摘要算法MD5值或者所述待检索URL的
特征字符串,查询对应的索引表,获取到所述MD5值或者与所述特征字符串
对应的目标URL;根据所述目标URL在数据库中的存储位置获取所述目标
URL存储信息。由于对待检索URL预处理,得到相应的特征字符串或MD5
值,因此,只需基于特征字符串进行检索,就能得到对应的目标URL,不再
对待检索URL进行全文检索,减少了对待检索URL的检索次数,提高了检
索效率。
附图说明
图1为本发明实施例一提供的一种URL检索方法的流程示意图;
图2为本发明实施例二提供的另一种URL检索方法的流程示意图;
图3为本发明实施例三提供的另一种URL检索方法的流程示意图;
图4为本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发
明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
实施例一
图1本发明实施例一提供的一种URL检索方法的流程示意图。本实施例
提供的URL检索方法的执行主体为服务器。如图1所示,该URL检索方法
包括以下步骤:
101、根据待检索URL的原始字符串,获取待检索URL的消息摘要算法
MD5值或者待检索URL的特征字符串。
在获取到待检索URL后,根据待检索URL的原始字符串,获取到该待
检索URL的消息摘要算法(Message-DigestAlgorithm5,简称MD5)值或者
该待检索URL的特征字符串。
102、根据待检索URL的MD5值或者待检索URL的特征字符串,查询
对应的索引表,获取到所述MD5值或者与所述特征字符串对应的目标URL。
具体地,在服务器中分别存储有预先建立的URL原始字符串与MD5值
之间的索引表和URL原始字符串与特征字符串的索引表。在获取到待检索
URL的MD5值后,查询对应的URL原始字符串与MD5值之间的索引表,
获取到与该MD5值
其中,本实施例中,可以预先建立包括URL原始字符串、特征字符串以
及MD5值的索引表并存储在服务器中,这样就可以节省服务器的存储空间。
进一步地,在获取到特征字符串或者MD5值后,直接查询上述包括URL原
始字符串、特征字符串和MD5值的索引表,就能够获取到目标URL。
103、根据目标URL在数据库中的存储位置获取目标URL存储信息。
在索引表中查询到目标URL后,服务器根据该目标URL在数据库中的
存储位置,在相应的存储单元中获取到该目标URL的存储信息。其中,存储
信息包括:页面信息、访问信息、更新时间、内容摘要以及URL所归属的服
务提供方等。
本实施例提供的URL检索方法,根据待检索URL的原始字符串,获取
所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符
串,根据所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特
征字符串,查询对应的索引表,获取到所述MD5值或者与所述特征字符串对
应的目标URL,根据所述目标URL在数据库中的存储位置获取所述目标URL
存储信息。由于对待检索URL预处理,得到相应的特征字符串或MD5值,
因此,只需基于特征字符串进行检索,就能得到对应的目标URL,不再对待
检索URL进行全文检索,减少了对待检索URL的检索次数,提高了检索效
率。
实施例二
图2为本发明实施例二提供的另一种URL检索方法的流程示意图。本实
施例提供的URL检索方法的执行主体为服务器。如图2所示,该URL检索
方法包括以下步骤:
201、截取待检索URL的原始字符串中的头字符串,获取待检索URL的
剩余字符串。
其中,所述头字符串用于指示出所述待检索URL要访问的资源类型。
一般URL的格式为<资源类型>://<主机>:<端口>/<路径>,其中,资源类
型指出万维网(WorldWideWeb,简称WWW)客户程序用来操作的工具。
如“Http://”表示WWW服务器,“Ftp://”表示文本传输协议(FileTransfer
Protocol,简称FTP)服务器等。
具体地,服务器获取到待检索URL后,将待检索URL的原始字符串进
行截取,从该原始字符串中的头字符串截取掉,得到该待检索URL的剩余字
符串。实际应用中,每个URL原始字符串中的头字符串均用于指示出要访问
的资源类型,而且头字符串包括的字符基本一致,因此本实施例中服务器可
以将该头字符串从原始字符串中截取掉。其中头字符串包括从该原始字符串
的头字符至预设字符串之间的字符,一般预设的字符串为“//”或者“//www.”。
例如,待检索URL为:http://www.hostname.com/house/beijing/dongcheng.html,
其中该待检索URL的头字符串为“http://www.”,预设的字符串为“//www.”。
202、根据剩余字符串中的分隔符,获取剩余字符串中的所有字符组,并
从第1组字符组开始,依次选取N个字符组中的第一个字符和最后一个字符,
顺序组成待检索URL的特征字符串。
在对待检索URL的头字符串进行截取后,服务器从剩余字符串包括的分
隔符之间,获取到该剩余字符串的所有字符组。举例说明,待检索URL为:
http://www.kris3106.com/class1/group2/string3/index11015,其中剩余字符串为
“kris3106.com/class1/group2/string3/index11015”,分隔符为符号“/”,服务器
根据分隔符从剩余字符串中获取到的字符组包括:“kris3106.com”、“class1”、
“group2”、“string3”、“index11015.html”。
进一步地,服务器从第1组字符组开始,依次获取N个字符组中的第一
个字符和最后一个字符,顺序拼接在一起组成该待检索URL的特征字符串。
例如,取“kris3106.com”、“class1”、“group2”、“string3”和“index11015.html”
每个字符组的第一个字符和最后一个字符,即每个字符组中下划线的字符,
顺序拼接在一起组成特征字符串“kmclg2s3il”。本实施例中,预设N的个数
为8-12。优选地,预设个数为10。
203、根据特征字符串查询对应的索引表,获取到与特征字符串对应的目
标URL。
本实施例中,预先建立URL原始字符串与特征字符串之间索引关系,并
生成索引表存储在服务器中。在获取到待检索URL的特征字符串后,服务器
查询预先建立的索引表,获取到与该特征字符串对应的目标URL。
204、根据目标URL在数据库中的存储位置获取目标URL存储信息。
进一步地,在索引表中查询到目标URL后,服务器根据该目标URL在
数据库中的存储位置,在相应的存储单元中获取到该目标URL的存储信息。
其中,存储信息包括:页面信息、访问信息、更新时间、内容摘要以及URL
所归属的服务提供方等。
进一步地,为了保证根据特征字符串获取到目标URL与待检索URL一
致,服务器在获取到该目标URL后,将目标URL的原始字符串与待检索URL
的原始字符串逐字符进行比较,如果目标URL与待检索URL中每个字符在
对应位置上均一致,说明该目标URL与该待检索URL匹配一致,获取该目
标URL在数据库中的存储位置,根据该存储位置获取目标URL存储信息。
进一步地,在特征字符串对应多个目标URL时,服务器还可以通过将所
有目标URL与待检索URL进行逐字符比较的方式,确定出与待检索URL一
致的目标URL。
本实施例提供的URL检索方法,通过将待检索URL的原始字符串中的
头字符串截取掉得到该待检索URL的剩余字符串,其中头字符串用于指示出
待检索URL要访问的资源类型,从剩余字符串包括的分隔符之间获取剩余字
符串的所有字符组,依次选取每个字符组的第一个字符和最后一个字符,顺
序组成待检索URL的特征字符串,根据特征字符串查询预先建立的索引表,
获取与该特征字符串对应的目标URL,根据该目标URL在数据库中的存储
位置获取该目标URL存储信息。本实施例提供的URL检索方法是一种模糊
匹配检索方法,通过对待检索URL预处理,得到相应的特征字符串,只需基
于特征字符串进行检索,就能得到对应的目标URL,不再对待检索URL进
行全文检索,减少了对待检索URL的检索次数,从而提高了检索效率。
实施例三
图3为本发明实施例三提供的另一种URL检索方法的流程示意图。本实
施例提供的URL检索方法的执行主体为服务器。如图3所示,该URL检索
方法包括以下步骤:
301、对待检索URL原始字符串进行消息摘要算法计算,获取待检索URL
的MD5值。
在试图对待检索URL进行检索时,服务器对待检索URL的原始字符串
进行消息摘要算法计算,得到该待检索URL原始字符串的MD5值。
302、根据所述MD5值查询对应索引表,获取与所述MD5值对应的目
标URL。
本实施例中,预先建立URL原始字符串与MD5值之间索引关系,并生
成索引表存储在服务器中。在获取到待检索URL的MD5值后,服务器根据
该MD5值,查询上述索引表,得到与该MD5值对应的目标URL。
由于每个URL对应一个唯一的MD5值,本实施例中服务器根据待检索
URL的MD5值检索到的目标URL,将与待检索URL完全一致,实现了对待
检索URL的精确检索。
303、根据目标URL在数据库中的存储位置获取目标URL存储信息。
本实施例提供的URL检索方法,通过获取待检索URL的MD5值,获取
到与该MD5值对应的目标URL,由于每个URL对应唯一的MD5值,本实
施例中服务器能够根据该MD5值,检索到与该待检索URL一致的目标URL,
实现了精确检索的目的。
实施例四
图4为本发明实施例三提供的一种服务器的结构示意图,如图4所示,
该服务器包括:第一获取模块41、查询模块42和第二获取模块43。
其中,第一获取模块41用于根据待检索URL的原始字符串,获取所述
待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串。
在获取到待检索URL后,第一获取模块41根据待检索URL的原始字符
串,获取到该待检索URL的MD5值或者该待检索URL的特征字符串。
其中,第一获取模块41具体用于截取所述待检索URL的原始字符串中
的头字符串,获取到所述待检索URL的剩余字符串,根据所述剩余字符串中
的分隔符,获取所述剩余字符串的所有字符组,并从第1组字符组开始,依
次选取N个字符组中的第一个字符和最后一个字符,顺序组成所述待检索
URL的特征字符串。
其中,所述头字符串用于指示出所述待检索URL要访问的资源类型。
实际应用中,每个URL原始字符串中的头字符串均用于指示出要访问的
资源类型,而且头字符串包括的字符基本一致,第一获取模块41可以将该头
字符串从原始字符串中截取掉。其中头字符串包括从该原始字符串的头字符
至预设字符串之间的字符,一般预设的字符串为“//”或者“//www.”。例如,
待检索URL为:http://www.hostname.com/house/beijing/dongcheng.html,其
中该待检索URL的头字符串为“http://www.”,预设的字符串为“//www.”。
在对待检索URL的头字符串进行截取后,第一获取模块41从剩余字符
串包括的分隔符之间,获取到该剩余字符串的所有字符组。举例说明,待检
索URL为:http://www.kris3106.com/class1/group2/string3/index11015,其中剩
余字符串为“kris3106.com/class1/group2/string3/index11015”,分隔符为符号
“/”,服务器根据分隔符从剩余字符串中获取到的字符组包括:
“kris3106.com”、“class1”、“group2”、“string3”、“index11015.html”。
进一步地,第一获取模块41从第1组字符组开始,依次获取N个字符
组中的第一个字符和最后一个字符,顺序拼接在一起组成该待检索URL的特
征字符串。例如,取“kris3106.com”、“class1”、“group2”、“string3”和
“index11015.html”每个字符组的第一个字符和最后一个字符,即每个字符
组中下划线的字符,顺序拼接在一起组成特征字符串“kmclg2s3il”。本实施
例中,预设N的取值为8-12。优选地,预设个数为10。
本实施例中第一获取模块41除了能够获取到待检索URL的特征字符串
之外,还能够对所述待检索URL原始字符串进行消息摘要算法计算,获取对
应的所述MD5值。
进一步地,与第一获取模块41连接的查询模块42用于根据所述待检索
URL的消息摘要算法MD5值或者所述待检索URL的特征字符串,查询对应
的索引表,获取到所述MD5值或者与所述特征字符串对应的目标URL。
具体地,在第一获取模块41获取到待检索URL的特征字符串之后,查
询模块42查询预先建立的与特征字符串对应的索引表,获取到与该特征字符
串对应的目标URL。其中,该与特征字符串对应的索引表中存储有URL原
始字符串与特征字符串之间索引关系。
本实施例通过待检索URL的特征字符串进行URL检索是一种模糊匹配
检索方法,通过对待检索URL预处理,得到相应的特征字符串,只需基于特
征字符串进行检索,就能得到对应的目标URL,不再对待检索URL进行全
文检索,减少了对待检索URL的检索次数,从而提高了检索效率。
进一步地,在第一获取模块41获取到待检索URL的MD5值之后,查询
模块42查询预先建立的与MD5值对应的索引表,得到与该MD5值对应的
目标URL。该与MD5值对应的索引表中存储有URL原始字符串与MD5值
之间索引关系。
由于每个URL对应一个唯一的MD5值,本实施例中服务器根据待检索
URL的MD5值检索到的目标URL,将与待检索URL完全一致,实现了对待
检索URL的精确检索。
本实施例中通过待检索URL的MD5值,获取与该MD5值对应的目标
URL,由于每个URL对应唯一的MD5值,本实施例中服务器能够根据该
MD5值,检索到与该待检索URL一致的目标URL,实现了精确检索的目的。
其中,本实施例中,可以预先建立包括URL原始字符串、特征字符串以
及MD5值的索引表并存储在服务器中,这样就可以节省服务器的存储空间。
进一步地,在获取到特征字符串或者MD5值后,查询模块42直接查询上述
包括URL原始字符串、特征字符串和MD5值的索引表,就能够获取到目标
URL。
与查询模块42连接的第二获取模块43用于根据所述目标URL在数据库
中的存储位置获取所述目标URL存储信息。
在索引表中查询到目标URL后,第二获取模块43根据该目标URL在数
据库中的存储位置,在相应的存储单元中获取到该目标URL的存储信息。其
中,存储信息包括:页面信息、访问信息、更新时间、内容摘要以及URL所
归属的服务提供方等。
本实施例中,服务器根据待检索URL的原始字符串,获取所述待检索
URL的消息摘要算法MD5值或者所述待检索URL的特征字符串;根据所述
待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串,查
询对应的索引表,获取到所述MD5值或者与所述特征字符串对应的目标
URL;根据所述目标URL在数据库中的存储位置获取所述目标URL存储信
息。由于对待检索URL预处理,得到相应的特征字符串或MD5值,因此,
只需基于特征字符串进行检索,就能得到对应的目标URL,不再对待检索
URL进行全文检索,减少了对待检索URL的检索次数,提高了检索效率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对
其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通
技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,
或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并
不使相应技术方案的本质脱离本发明各实施例技术方案的范围。