一种统一资源定位符相似度的处理方法技术领域
本发明属于软件技术开发领域,尤其涉及一种统一资源定位符相似度的处理方
法。
背景技术
在很多基于互联网信息的计算服务中,经常需要对数据的有效性进行识别,通过
各种手段,过滤掉其中的数据“杂质”或者“无效”、“失效”的数据内容。部分来源于互联网的
信息,在很多时候,我们主动访问的统一资源定位符地址(起始统一资源定位符)和最终提
供数据的统一资源定位符地址(终止统一资源定位符)是有区别的,例如:对方站点路径重
新规划、过期的统一资源定位符或涉嫌违规的文章,站点服务异常等等。
鉴于上述情况的存在,在互联网信息的分析过程中,对比数据来源的统一资源定
位符(URL)对于数据有效性分析具有重要的参考价值。由于统一资源定位符的简单、明确等
特性,如果在对“正文”内容进行分析之前通过统一资源定位符进行初步筛选,会极大的减
少后续数据分析过程中的软、硬件成本。
发明内容
该算法的设计目的是:通过解析统一资源定位符(URL),将其拆分为若干个数据模
型进行并对最初访问的统一资源定位符和最终提供数据的统一资源定位符进行对比计算
以获取统一资源定位符的相似度,进而在不分析实际内容数据的基础上评估数据是否“有
效”。该算法有效性会针对多个方面的对比给出的“评分”来综合计算最终的“相似度”结果。
本发明所解决的技术问题采用以下技术方案来实现:本发明提供一种统一资源定
位符相似度的处理方法,包括如下内容:
A、无效参数过滤:用于在进行统一资源定位符相似度计算之前有限的减少统一资
源定位符复杂对,过滤掉其中对于统一资源定位符对比计算无意义的字符;
B、特征字检测:根据已知的数据,检测提供数据的统一资源定位符中是否存在明
显的异常特征字,并根据出现的位置及次数情况计算相似度评分参数;
C、统一资源定位符自动结构化:根据统一资源定位符的特性将其拆分为3个部分,
包括:域名,路径,参数;之后会检查其中是否存在连字符,并对其进行进一步的分组拆分;
后续的相似度计算会分别针对每个部分以及某几个部分进行综合性对比,并给出每个阶段
的相似度结果;
D、统一资源定位符相似度计算:将结构化的后的起始统一资源定位符和终止统一
资源定位符进行对比,比较其中的每个部分出现的位置及次数,并给出相似度结果。
E、相似度结果说明:该算法最终会得到一个0-9的相似度的评分,相似度越高则评
分越高,一般情况下:7-9为“高度相似”;3-6为“无法确认”;“0-2”为“差异过大”。
本发明的有益效果为:将一个完整的统一资源定位符进行有限程度的简化并根据
其特点拆分为若干个用于进行对比计算的子元素。该步骤是后续相似度计算的基础,只有
将一个统一资源定位符进行合理、有效的拆分才能获得更精确的计算结果,最大化的降低
算法逻辑复杂度。通过反复、大量的分析统一资源定位符样本,并针对实际产生的内容进行
分析,从而确认整体算法的各个步骤,以尽可能简单,精准的获取到期待的结果。
在完成了算法的基本结构设计后,对于不同的对比计算,分别设计了对应的权重
来对计算结果进行修正。权重的确认需要通过大量的样本计算来摸索每个步骤的差异权
重。
附图说明
图1是本发明流程示意图。
具体实施方式
以下结合附图对本发明做进一步描述:一种统一资源定位符相似度的处理方法,
包括如下内容:
A、无效参数过滤:用于在进行统一资源定位符相似度计算之前有限的减少统一资
源定位符复杂对,过滤掉其中对于统一资源定位符对比计算无意义的字符;
B、特征字检测:根据已知的数据,检测提供数据的统一资源定位符中是否存在明
显的异常特征字,并根据出现的位置及次数情况计算相似度评分参数;
C、统一资源定位符自动结构化:根据统一资源定位符的特性将其拆分为3个部分,
包括:域名,路径,参数;之后会检查其中是否存在连字符,并对其进行进一步的分组拆分;
后续的相似度计算会分别针对每个部分以及某几个部分进行综合性对比,并给出每个阶段
的相似度结果;
D、统一资源定位符相似度计算:将结构化的后的起始统一资源定位符和终止统一
资源定位符进行对比,比较其中的每个部分出现的位置及次数,并给出相似度结果。相似度
算法说明:
1.在终止URL中检测起始URL中分组后的内容,如果出现同样的关键字会根据其出
现的位置给出一个“正面”的评分,否则给出一个“负面”的评分。
2.在起始URL中检测终止URL的分组后的内容,如果出现同样的关键字会根据其出
现的位置给出一个“正面”的评分,否则给出一个“负面”的评分。
3.检测起始URL和终止URL分组后的内容中,是否出现了一般在URL中用于标识内
容索引的“纯数字”信息,如果出现会根据其相似度给出给出一个“正面”的评分,否则给出
一个“负面”的评分。
4.对比URL路径部分的层级,如果层级差异小于预期的数量则根据差异情况给出
一个“正面”的评分,否则给出一个“负面”的评分。
5.进一步精简路径,过滤其中的特殊符号,数值等内容,通过最终获得的“文字”描
述结果重复上述对比。
6.根据上述各个环节给出的评分参考URL自身复杂度计算起始URL和终止URL的相
似度结果。
E、相似度结果说明:该算法最终会得到一个0-9的相似度的评分,相似度越高则评
分越高,一般情况下:7-9为“高度相似”;3-6为“无法确认”;“0-2”为“差异过大”。
本发明将一个完整的统一资源定位符进行有限程度的简化并根据其特点拆分为
若干个用于进行对比计算的子元素。该步骤是后续相似度计算的基础,只有将一个统一资
源定位符进行合理、有效的拆分才能获得更精确的计算结果,最大化的降低算法逻辑复杂
度。通过反复、大量的分析统一资源定位符样本,并针对实际产生的内容进行分析,从而确
认整体算法的各个步骤,以尽可能简单,精准的获取到期待的结果。
在完成了算法的基本结构设计后,对于不同的对比计算,分别设计了对应的权重
来对计算结果进行修正。权重的确认需要通过大量的样本计算来摸索每个步骤的差异权
重。
利用本发明所述的技术方案,或本领域的技术人员在本发明技术方案的启发下,
设计出类似的技术方案,而达到上述技术效果的,均是落入本发明的保护范围。