《收集文件的方法和系统.pdf》由会员分享,可在线阅读,更多相关《收集文件的方法和系统.pdf(26页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103020513 A(43)申请公布日 2013.04.03CN103020513A*CN103020513A*(21)申请号 201210466257.7(22)申请日 2012.11.16G06F 21/51(2013.01)(71)申请人北京奇虎科技有限公司地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)申请人奇智软件(北京)有限公司(72)发明人于春功 张超旭(74)专利代理机构北京润泽恒知识产权代理有限公司 11319代理人苏培华(54) 发明名称收集文件的方法和系统(57) 摘要本发明实施例公开了一种收集文件的方法和系统,以解决。
2、由于人工识别或者通过搜索引擎识别而导致的识别准确率和效率低的问题。其中,收集文件的系统包括日志获取模块,适于获取软件的下载日志;网站提取模块,适于对所述下载日志进行分析,从所述下载日志中提取候选网站;网站过滤模块,适于将所述候选网站中符合预设条件的网站进行过滤;网站确认模块,适于从过滤之后的候选网站中确认出软件的官方网站;收集模块,适于对所述官方网站进行监控,收集所述官方网站中的文件。本发明实施例提高了监控的召回率和收集文件的效率。(51)Int.Cl.权利要求书3页 说明书16页 附图6页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书 3 页 说明书 16 页 附图 6 。
3、页1/3页21.一种收集文件的方法,包括:获取软件的下载日志;对所述下载日志进行分析,从所述下载日志中提取候选网站;将所述候选网站中符合预设条件的网站进行过滤;从过滤之后的候选网站中确认出软件的官方网站;对所述官方网站进行监控,收集所述官方网站中的文件。2.根据权利要求1所述的方法,所述下载日志包括软件下载的网站信息,所述对所述下载日志进行分析,从所述下载日志中提取候选网站,包括:从所述下载日志中解析出所述软件下载的网站信息;从所述软件下载的网站信息中提取候选网站标识信息。3.根据权利要求1所述的方法,所述符合预设条件的网站包括下载网站,所述将所述候选网站中符合预设条件的网站进行过滤,包括:统。
4、计每个候选网站下下载的软件的个数FCOUNT和软件下载的总次数DCOUNT;将所述候选网站下软件下载的总次数DCOUNT与下载的软件的个数FCOUNT的比值DCOUNT/FCOUNT与预设的第一阈值进行比较;当所述比值DCOUNT/FCOUNT大于所述第一阈值时,确定所述候选网站为下载网站;将所述下载网站过滤。4.根据权利要求3所述的方法,当所述比值DCOUNT/FCOUNT小于或等于所述第一阈值时,还包括:将所述候选网站下下载的软件的个数FCOUNT与预设的第二阈值进行比较;当下载的软件的个数FCOUNT大于或等于所述第二阈值时,确定所述网站为下载网站;将所述下载网站过滤。5.根据权利要求1。
5、所述的方法,所述符合预设条件的网站包括非可执行文件的下载网站,所述软件的下载日志包括下载的软件文件名,所述将所述候选网站中的符合预设条件的网站进行过滤,包括:从所述软件的下载日志中解析出所述候选网站下下载的软件文件名;判断所述软件文件名中是否存在非可执行文件的名称;若存在,则确定所述候选网站为非可执行文件的下载网站;将所述非可执行文件的下载网站过滤。6.根据权利要求3所述的方法,所述符合预设条件的网站还包括游戏网站,所述将所述候选网站中的符合预设条件的网站进行过滤,还包括:抓取所述候选网站的页面内容;将所述页面内容输入到预先设置的网站分类器中,通过所述网站分类器过滤所述候选网站中的游戏网站。7。
6、.根据权利要求6所述的方法,所述网站分类器通过以下步骤获得:分别获取多个官方网站样本和游戏网站样本;提取所述官方网站样本的页面内容,以及所述游戏网站样本的页面内容,并对所述页面内容进行分词处理;统计分词之后的官方网站样本的页面内容对应的词频,生成向量V-SOFT,统计分词之权 利 要 求 书CN 103020513 A2/3页3后的游戏网站样本的页面内容对应的词频,生成向量V-GAME;根据所述向量V-SOFT和向量V-GAME生成网站分类器。8.根据权利要求7所述的方法,所述通过所述网站分类器过滤所述候选网站中的游戏网站,包括:提取所述候选网站的页面内容,对所述候选网站的页面内容进行分词处理。
7、;统计分词之后的候选网站的页面内容对应的词频,生成向量V-UNKNOWN;分别计算向量V-UNKNOWN和向量V-SOFT的距离,以及向量V-UNKNOWN和向量V-GAME的距离;当向量V-UNKNOWN和向量V-GAME的距离在预设范围内时,确定所述候选网站为官方游戏网站或私服网站;将所述官方游戏网站或私服网站过滤。9.根据权利要求6所述的方法,在抓取所述候选网站的页面内容之前,还包括:对所述候选网站按照软件下载的总次数DCOUNT从大到小进行排序;获取处理网站的个数K,从排序后的候选网站中抽取前K个候选网站;所述抓取所述候选网站的页面内容,包括:抓取所述前K个候选网站的页面内容。10.一。
8、种收集文件的系统,包括:日志获取模块,适于获取软件的下载日志;网站提取模块,适于对所述下载日志进行分析,从所述下载日志中提取候选网站;网站过滤模块,适于将所述候选网站中符合预设条件的网站进行过滤;网站确认模块,适于从过滤之后的候选网站中确认出软件的官方网站;收集模块,适于对所述官方网站进行监控,收集所述官方网站中的文件。11.根据权利要求10所述的系统,所述下载日志包括软件下载的网站信息,所述网站提取模块包括:网站信息解析子模块,适于从所述下载日志中解析出所述软件下载的网站信息;标识提取子模块,适于从所述软件下载的网站信息中提取候选网站标识信息。12.根据权利要求10所述的系统,所述符合预设条。
9、件的网站包括下载网站,所述网站过滤模块包括:统计子模块,适于统计每个候选网站下下载的软件的个数FCOUNT和软件下载的总次数DCOUNT;第一比较子模块,适于将所述候选网站下软件下载的总次数DCOUNT与下载的软件的个数FCOUNT的比值DCOUNT/FCOUNT与预设的第一阈值进行比较;第一下载网站确定子模块,适于当所述比值DCOUNT/FCOUNT大于所述第一阈值时,确定所述候选网站为下载网站;下载网站过滤子模块,适于将所述下载网站过滤。13.根据权利要求12所述的系统,所述网站过滤模块还包括:第二比较子模块,适于当所述第一比较子模块的比较结果为所述比值DCOUNT/FCOUNT小于或等于。
10、所述第一阈值时,将所述候选网站下下载的软件的个数FCOUNT与预设的第二阈值进行比较;权 利 要 求 书CN 103020513 A3/3页4第二下载网站确定子模块,适于当下载的软件的个数FCOUNT大于或等于所述第二阈值时,确定所述网站为下载网站。14.根据权利要求10所述的系统,所述符合预设条件的网站包括非可执行文件的下载网站,所述软件的下载日志包括下载的软件文件名,所述网站过滤模块包括:文件名解析子模块,适于从所述软件的下载日志中解析出在所述候选网站下下载的软件文件名;判断子模块,适于判断所述软件文件名中是否存在非可执行文件的名称;文件下载网站确定子模块,适于当判断子模块的判断结果为存在。
11、时,确定所述候选网站为非可执行文件的下载网站;文件下载网站过滤子模块,适于将所述非可执行文件的下载网站过滤。15.根据权利要求12所述的系统,所述符合预设条件的网站还包括游戏网站,所述网站过滤模块还包括:抓取子模块,适于抓取所述候选网站的页面内容;游戏网站过滤子模块,适于将所述页面内容输入到预先设置的网站分类器中,通过所述网站分类器过滤所述候选网站中的游戏网站。16.根据权利要求15所述的系统,还包括:样本获取模块,适于分别获取多个官方网站样本和游戏网站样本;分词模块,适于提取所述官方网站样本的页面内容,以及所述游戏网站样本的页面内容,并对所述页面内容进行分词处理;向量生成模块,适于统计分词之。
12、后的官方网站样本的页面内容对应的词频,生成向量V-SOFT,统计分词之后的游戏网站样本的页面内容对应的词频,生成向量V-GAME;分类器生成模块,适于根据所述向量V-SOFT和向量V-GAME生成网站分类器。17.根据权利要求16所述的系统,所述游戏网站过滤子模块包括:分词子单元,适于提取所述候选网站的页面内容,对所述候选网站的页面内容进行分词处理;向量生成子单元,适于统计分词之后的候选网站的页面内容对应的词频,生成向量V-UNKNOWN;计算子单元,适于分别计算向量V-UNKNOWN和向量V-SOFT的距离,以及向量V-UNKNOWN和向量V-GAME的距离;游戏网站确定子单元,适于当向量V。
13、-UNKNOWN和向量V-GAME的距离在预设范围内时,确定所述候选网站为官方游戏网站或私服网站;游戏网站过滤子单元,适于将所述官方游戏网站或私服网站过滤。18.根据权利要求15所述的系统,所述网站过滤模块还包括:排序子模块,适于在抓取子模块抓取所述候选网站的页面内容之前,对所述候选网站按照软件下载的总次数DCOUNT从大到小进行排序;抽取子模块,适于获取处理网站的个数K,从排序后的候选网站中抽取前K个候选网站。权 利 要 求 书CN 103020513 A1/16页5收集文件的方法和系统技术领域0001 本发明实施例涉及互联网技术领域,具体涉及收集文件的方法和系统。背景技术0002 互联网,。
14、即广域网、局域网及单机按照一定的通讯协议组成的国际计算机网络。互联网是指将两台计算机或者是两台以上的计算机终端、客户端、服务端通过计算机信息技术的手段互相联系起来的结果,人们可以与远在千里之外的朋友相互发送邮件、共同完成一项工作、共同娱乐。0003 互联网上每天会产生大量的新的文件,其中大部分是新的软件和升级补丁包,这些新的软件和升级补丁包可以作为白名单数据库中的文件。为了及时将这些新的软件和升级补丁包收录进入白名单数据库中,首先要查看这些软件的发布渠道,通常可以通过查看这些软件的官方网站来确定发布渠道,然后对这些官方网站进行监控。0004 传统的识别软件官方网站的方法包括以下两种:0005 。
15、(1)通过人工识别软件的官方网站。0006 (2)通过搜索引擎对一些已知软件名称的软件进行半自动抓取,并分析软件的页面样式,来识别软件的官方网站。0007 上述第一种方法的识别准确率较高,但是召回率较低,并且,通过人工识别每天处理的软件数量很有限,识别效率低、成本高,该方法对于解决少量的重要软件比较适用,但是对整个互联网的所有软件来说,这个方法是不可行的。0008 上述第二种方法只能针对软件名称已知的一些软件进行识别,并且识别过程依赖于搜索引擎质量的好坏,识别的准确率和监控的召回率很难保证。发明内容0009 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的收集文件。
16、的方法和系统。0010 根据本发明的一个方面,提供了一种识别官方网站的方法,包括:0011 获取软件的下载日志;0012 对所述下载日志进行分析,从所述下载日志中提取候选网站;0013 将所述候选网站中符合预设条件的网站进行过滤;0014 从过滤之后的候选网站中确认出软件的官方网站。0015 本发明实施例中,下载日志包括软件下载的网站信息,0016 所述对所述下载日志进行分析,从所述下载日志中提取候选网站,包括:0017 从所述下载日志中解析出所述软件下载的网站信息;0018 从所述软件下载的网站信息中提取候选网站标识信息。0019 本发明实施例中,符合预设条件的网站包括下载网站,0020 将。
17、所述候选网站中符合预设条件的网站进行过滤,包括:说 明 书CN 103020513 A2/16页60021 统计每个候选网站下下载的软件的个数FCOUNT和软件下载的总次数DCOUNT;0022 将所述候选网站下软件下载的总次数DCOUNT与下载的软件的个数FCOUNT的比值DCOUNT/FCOUNT与预设的第一阈值进行比较;0023 当所述比值DCOUNT/FCOUNT大于所述第一阈值时,确定所述候选网站为下载网站;0024 将所述下载网站过滤。0025 本发明实施例中,当所述比值DCOUNT/FCOUNT小于或等于所述第一阈值时,还包括:0026 将所述候选网站下下载的软件的个数FCOUN。
18、T与预设的第二阈值进行比较;0027 当下载的软件的个数FCOUNT大于或等于所述第二阈值时,确定所述网站为下载网站;0028 将所述下载网站过滤。0029 本发明实施例中,符合预设条件的网站包括非可执行文件的下载网站,所述软件的下载日志包括下载的软件文件名,0030 将所述候选网站中的符合预设条件的网站进行过滤,包括:0031 从所述软件的下载日志中解析出所述候选网站下下载的软件文件名;0032 判断所述软件文件名中是否存在非可执行文件的名称;0033 若存在,则确定所述候选网站为非可执行文件的下载网站;0034 将所述非可执行文件的下载网站过滤。0035 本发明实施例中,符合预设条件的网站。
19、还包括游戏网站,0036 将所述候选网站中的符合预设条件的网站进行过滤,还包括:0037 抓取所述候选网站的页面内容;0038 将所述页面内容输入到预先设置的网站分类器中,通过所述网站分类器过滤所述候选网站中的游戏网站。0039 本发明实施例中,网站分类器通过以下步骤获得:0040 分别获取多个官方网站样本和游戏网站样本;0041 提取所述官方网站样本的页面内容,以及所述游戏网站样本的页面内容,并对所述页面内容进行分词处理;0042 统计分词之后的官方网站样本的页面内容对应的词频,生成向量V-SOFT,统计分词之后的游戏网站样本的页面内容对应的词频,生成向量V-GAME;0043 根据所述向量。
20、V-SOFT和向量V-GAME生成网站分类器。0044 本发明实施例中,通过所述网站分类器过滤所述候选网站中的游戏网站,包括:0045 提取所述候选网站的页面内容,对所述候选网站的页面内容进行分词处理;0046 统计分词之后的候选网站的页面内容对应的词频,生成向量V-UNKNOWN;0047 分别计算向量V-UNKNOWN和向量V-SOFT的距离,以及向量V-UNKNOWN和向量V-GAME的距离;0048 当向量V-UNKNOWN和向量V-GAME的距离在预设范围内时,确定所述候选网站为官方游戏网站或私服网站;0049 将所述官方游戏网站或私服网站过滤。说 明 书CN 103020513 A。
21、3/16页70050 本发明实施例中,在抓取所述候选网站的页面内容之前,还包括:0051 对所述候选网站按照软件下载的总次数DCOUNT从大到小进行排序;0052 获取处理网站的个数K,从排序后的候选网站中抽取前K个候选网站;0053 所述抓取所述候选网站的页面内容,包括:0054 抓取所述前K个候选网站的页面内容。0055 根据本发明的另一方面、提供了一种收集文件的方法,包括:0056 获取软件的下载日志;0057 对所述下载日志进行分析,从所述下载日志中提取候选网站;0058 将所述候选网站中符合预设条件的网站进行过滤;0059 从过滤之后的候选网站中确认出软件的官方网站;0060 对所述。
22、官方网站进行监控,收集所述官方网站中的文件。0061 根据本发明的另一方面、提供了一种识别官方网站的系统,包括:0062 日志获取模块,适于获取软件的下载日志;0063 网站提取模块,适于对所述下载日志进行分析,从所述下载日志中提取候选网站;0064 网站过滤模块,适于将所述候选网站中符合预设条件的网站进行过滤;0065 网站确认模块,适于从过滤之后的候选网站中确认出软件的官方网站。0066 本发明实施例中,下载日志包括软件下载的网站信息,0067 所述网站提取模块包括:0068 网站信息解析子模块,适于从所述下载日志中解析出所述软件下载的网站信息;0069 标识提取子模块,适于从所述软件下载。
23、的网站信息中提取候选网站标识信息。0070 本发明实施例中,符合预设条件的网站包括下载网站,0071 网站过滤模块包括:0072 统计子模块,适于统计每个候选网站下下载的软件的个数FCOUNT和软件下载的总次数DCOUNT;0073 第一比较子模块,适于将所述候选网站下软件下载的总次数DCOUNT与下载的软件的个数FCOUNT的比值DCOUNT/FCOUNT与预设的第一阈值进行比较;0074 第一下载网站确定子模块,适于当所述比值DCOUNT/FCOUNT大于所述第一阈值时,确定所述候选网站为下载网站;0075 下载网站过滤子模块,适于将所述下载网站过滤。0076 本发明实施例中,网站过滤模块。
24、还包括:0077 第二比较子模块,适于当所述第一比较子模块的比较结果为所述比值DCOUNT/FCOUNT小于或等于所述第一阈值时,将所述候选网站下下载的软件的个数FCOUNT与预设的第二阈值进行比较;0078 第二下载网站确定子模块,适于当下载的软件的个数FCOUNT大于或等于所述第二阈值时,确定所述网站为下载网站。0079 本发明实施例中,符合预设条件的网站包括非可执行文件的下载网站,所述软件的下载日志包括下载的软件文件名,0080 网站过滤模块包括:说 明 书CN 103020513 A4/16页80081 文件名解析子模块,适于从所述软件的下载日志中解析出在所述候选网站下下载的软件文件名。
25、;0082 判断子模块,适于判断所述软件文件名中是否存在非可执行文件的名称;0083 文件下载网站确定子模块,适于当判断子模块的判断结果为存在时,确定所述候选网站为非可执行文件的下载网站;0084 文件下载网站过滤子模块,适于将所述非可执行文件的下载网站过滤。0085 本发明实施例中,符合预设条件的网站还包括游戏网站,0086 网站过滤模块还包括:0087 抓取子模块,适于抓取所述候选网站的页面内容;0088 游戏网站过滤子模块,适于将所述页面内容输入到预先设置的网站分类器中,通过所述网站分类器过滤所述候选网站中的游戏网站。0089 本发明实施例中,识别官方网站的系统还包括:0090 样本获取。
26、模块,适于分别获取多个官方网站样本和游戏网站样本;0091 分词模块,适于提取所述官方网站样本的页面内容,以及所述游戏网站样本的页面内容,并对所述页面内容进行分词处理;0092 向量生成模块,适于统计分词之后的官方网站样本的页面内容对应的词频,生成向量V-SOFT,统计分词之后的游戏网站样本的页面内容对应的词频,生成向量V-GAME;0093 分类器生成模块,适于根据所述向量V-SOFT和向量V-GAME生成网站分类器。0094 本发明实施例中,游戏网站过滤子模块包括:0095 分词子单元,适于提取所述候选网站的页面内容,对所述候选网站的页面内容进行分词处理;0096 向量生成子单元,适于统计。
27、分词之后的候选网站的页面内容对应的词频,生成向量V-UNKNOWN;0097 计算子单元,适于分别计算向量V-UNKNOWN和向量V-SOFT的距离,以及向量V-UNKNOWN和向量V-GAME的距离;0098 游戏网站确定子单元,适于当向量V-UNKNOWN和向量V-GAME的距离在预设范围内时,确定所述候选网站为官方游戏网站或私服网站;0099 游戏网站过滤子单元,适于将所述官方游戏网站或私服网站过滤。0100 本发明实施例中,网站过滤模块还包括:0101 排序子模块,适于在抓取子模块抓取所述候选网站的页面内容之前,对所述候选网站按照软件下载的总次数DCOUNT从大到小进行排序;0102 。
28、抽取子模块,适于获取处理网站的个数K,从排序后的候选网站中抽取前K个候选网站。0103 根据本发明的另一方面,提供了一种收集文件的系统,包括:0104 日志获取模块,适于获取软件的下载日志;0105 网站提取模块,适于对所述下载日志进行分析,从所述下载日志中提取候选网站;0106 网站过滤模块,适于将所述候选网站中符合预设条件的网站进行过滤;0107 网站确认模块,适于从过滤之后的候选网站中确认出软件的官方网站;说 明 书CN 103020513 A5/16页90108 收集模块,适于对所述官方网站进行监控,收集所述官方网站中的文件。0109 根据本发明实施例的识别软件官方网站的方法和系统可以。
29、通过获取软件的下载日志,并对所述下载日志进行分析,从所述下载日志中提取候选网站,然后将所述候选网站中符合预设条件的网站过滤掉,最后从过滤掉所述符合预设条件的网站之后的候选网站中确认软件的官方网站。通过对软件的下载日志进行分析,可以获取到更加准确的下载信息,由此解决了由于人工识别或者通过搜索引擎识别而导致的识别准确率和效率低的问题,取得了提高识别软件官方网站的准确率和效率的有益效果。0110 其次,本发明实施例还提出了一种收集文件的方法和系统,在识别出软件的官方网站之后,可以将这些官方网站加入到后续的监控流程,当该网站下有新的软件或升级补丁包的时候,及时将这些新的软件或升级补丁包加入到白名单数据。
30、库中,从而也可以收录一些关注度不是很高的软件,提高了监控的召回率。0111 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。附图说明0112 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:0113 图1示出了根据本发明一个实施例的一种识别官方网站的方法的流程图;0114 图2A示出了根据。
31、本发明一个具体实施例的一种识别官方网站的方法的流程图;0115 图2B示出了根据本发明另一个具体实施例的一种识别官方网站的方法的流程图;0116 图2C示出了根据本发明另一个具体实施例的一种识别官方网站的方法的流程图;0117 图3示出了根据本发明一个实施例的一种识别官方网站的系统的结构框图;0118 图4示出了根据本发明一个实施例的一种收集文件的方法的流程图;以及0119 图5示出了根据本发明一个实施例的一种收集文件的系统的结构框图。具体实施方式0120 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐。
32、述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。0121 本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等说 明 书CN 103020513 A6/16页10等。0122 计算机系统/服务。
33、器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。0123 参考图1,示出了本发明实施例中一种识别官方网站的方法的流程图。0124 互联网上每天都会产生大量的新的文件,其中大部分是新的软件和升级补丁包,这些新的软件和升级补丁包可以收集为白名单数据库中的文件。。
34、为了及时将这些新的软件和升级补丁包收录进入白名单数据库中,首先要查看这些软件的发布渠道,通常可以通过查看这些软件的官方网站来确定发布渠道,然后对这些官方网站进行监控。0125 但是,目前一般是通过人工识别或者通过搜索引擎进行识别,而这两种识别方法的识别准确率和效率都较低。0126 针对上述问题,本发明实施例提出了一种识别软件官方网站的方法,该方法可以通过分析软件的下载日志,从中提取候选网站,再对这些候选网站进行处理,进而识别出软件的官方网站。0127 具体的,该方法可以包括:0128 步骤100,获取软件的下载日志。0129 当互联网中某个客户端设备在某个下载网站上下载某些软件的时候,可以采集。
35、客户端设备的下载行为,并将客户端设备的下载行为记载为软件的下载日志。该下载日志中会记录一些软件的下载信息,例如软件的下载路径、软件下载的网站信息等,通过这些下载信息,可以获取到软件下载的具体情况。0130 步骤102,对所述下载日志进行分析,从所述下载日志中提取候选网站。0131 由于软件的下载日志中记录了软件的下载信息,通过对这些下载信息进行分析,可以获取到软件下载的具体情况,具体的,可以从软件下载的网站信息中提取出软件下载的网站标识信息。0132 例如,下载日志中软件下载的网站信息为http:/ 步骤104,将所述候选网站中符合预设条件的网站进行过滤。0134 在该步骤104中,主要是对候选网站中一些具有明显特征的网站进行过滤,这些网站可能不会被作为软件的官方网站进行监控。0135 例如对于一些下载网站、游戏网站等,对于这些网站进行监控可能没有意义,因此,本发明实施例中可以将候选网站中的这些网站进行过滤。0136 对于具体的过滤过程,将在下面的实施例中详细介绍。0137 步骤106,从过滤之后的候选网站中确认出软件的官方网站。0138 在对候选网站进行过滤之后,即可初步确定出一些可能是软件的官方网站的候选说 明 书CN 103020513 A10。