《实现跨平台购物的实现方法及装置.pdf》由会员分享,可在线阅读,更多相关《实现跨平台购物的实现方法及装置.pdf(13页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103854220 A (43)申请公布日 2014.06.11 CN 103854220 A (21)申请号 201410121337.8 (22)申请日 2014.03.28 G06Q 30/06(2012.01) (71)申请人 深圳市淘海科技有限公司 地址 518000 广东省深圳市南山区桃园路田 厦国际大厦 A 座 1809 室 (72)发明人 陈俊贵 刘凤贵 王璐 (74)专利代理机构 深圳市启明专利代理事务所 ( 普通合伙 ) 44270 代理人 陈三九 (54) 发明名称 实现跨平台购物的实现方法及装置 (57) 摘要 本发明适用于电子商务领域, 提供。
2、一种跨平 台购物的方法, 该方法包括 : 获取不同电商平台 中商品的 URL, 获取所述 URL 对应的页面内容 ; 采 用采集框架提取该页面内容中该商品对应的属性 信息, 并将该属性信息传输到数据库内 ; 将商品 对应的属性信息按正则规则转换成结构化数据格 式 ; 将结构化数据格式封装对象, 将该对象按展 现规则的算法显示商品页面展现给用户 ; 接收用 户根据商品页面发送的下单信息 ; 根据所述 URL 信息获取该商品对应的电子商务平台 ; 调用该电 子商务平台对应的账号信息, 与该电子商务平台 进行接口对接, 将该下单信息转换成该电子商务 平台兼容的格式后, 在该电子商务平台提交订单。 本。
3、发明提供的技术方案具有跨平台购物的优点。 (51)Int.Cl. 权利要求书 2 页 说明书 8 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书8页 附图2页 (10)申请公布号 CN 103854220 A CN 103854220 A 1/2 页 2 1. 一种实现跨平台购物的实现方法, 其特征在于, 所述方法包括 : 获取不同电商平台中商品的 URL, 获取所述 URL 对应的页面内容 ; 采用采集框架提取该页面内容中该商品对应的属性信息, 并将该属性信息传输到数据 库内 ; 将商品对应的属性信息按正则规则转换成结构化数据格式 ; 将。
4、结构化数据格式封装对象, 将该对象按展现规则的算法显示商品页面展现给用户 ; 接收用户根据商品页面发送的下单信息 ; 根据所述 URL 信息获取该商品对应的电子商务平台 ; 调用该电子商务平台对应的账号信息, 与该电子商务平台进行接口对接, 对接成功后, 将该下单信息转换成该电子商务平台兼容的格式后, 在该电子商务平台提交订单。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述采用采集框架提取该页面内容中该 商品对应的属性信息的实现方法具体为 : 对于页面内容中的静态信息, 直接采用采集框架提取该页面的静态信息, 对于页面内 容中的动态信息, 通过模拟触发方式穷举该动态信息的所有形式的。
5、动态数据, 每产生一个 动态数据, 采用采集框架抓取一次, 直至所有形式的动态数据全部抓取完毕。 3. 根据权利要求 1 所述的方法, 其特征在于, 所述采用采集框架提取该页面内容中该 商品对应的属性信息的实现方法具体为 : 在页面内容出现更新时, 仅对该页面内容中产生更新的内容采用采集框架提取, 该页 面内容从未更新的内容不变。采用上述更新的方法可以提高页面内容抓取的相应速度。 4. 根据权利要求 1 所述的方法, 其特征在于, 所述方法在并将该属性信息传输到数据 库内之后, 将商品对应的属性信息按正则规则转换成结构化数据格式之后, 还包括 : 对所述 对应的属性信息进行过滤, 所述过滤算法。
6、具体为 : 过滤算法的 f 满足下列公式 : 在给定 m 和 n 时, 能够使 f 最小化的 k 值为 : 此时给出的 f 为 : 根据以上公式 (1) 、(2) 和 (3) , 对于任意给定的 f, 我们有 : n=m*ln(0.6185)/ln(f) ; 同时, k=-ln(f)/ln(2) ; 过滤算法中实际的 f : f=(1-e-kn/m)k ; 其中, m 为 bit 数组的宽度 (bit 数) ; n 为加入其中的 key 的数量 ; k 为使用的 hash 函 数的个数 ; f 为过滤算法中 False Positive(中文 : 错误率) 的比率。 5. 一种实现跨平台购物的。
7、实现装置, 其特征在于, 所述装置包括 : 权 利 要 求 书 CN 103854220 A 2 2/2 页 3 输入模块, 用于获取不同电商平台中商品的 URL ; 信息收集模块, 用于获取所述 URL 对应的页面内容 ; 信息提取分析模块, 用于采用采集框架提取该页面内容中该商品对应的属性信息, 并 将该属性信息传输到数据库内, 将商品对应的属性信息按正则规则转换成结构化数据格 式 ; 展现模块, 用于将结构化数据格式封装对象, 将该对象按展现规则的算法显示商品页 面展现给用户 ; 交易模块, 用于接收用户根据商品页面发送的下单信息 ; 根据所述 URL 信息获取该商 品对应的电子商务平台。
8、 ; 下单模块, 用于调用该电子商务平台对应的账号信息, 与该电子商务平台进行接口对 接, 对接成功后, 将该下单信息转换成该电子商务平台兼容的格式后, 在该电子商务平台提 交订单。 6. 根据权利要求 5 所述的装置, 其特征在于, 所述信息提取分析模块具体用于, 对于页面内容中的静态信息, 直接采用采集框架提取该页面的静态信息, 对于页面内 容中的动态信息, 通过模拟触发方式穷举该动态信息的所有形式的动态数据, 每产生一个 动态数据, 采用采集框架抓取一次, 直至所有形式的动态数据全部抓取完毕。 7. 根据权利要求 5 所述的装置, 其特征在于, 所述信息提取分析模块具体用于, 在页面内容。
9、出现更新时, 仅对该页面内容中产生更新的内容采用采集框架提取, 该页 面内容从未更新的内容不变。采用上述更新的方法可以提高页面内容抓取的相应速度。 8. 根据权利要求 5 所述的装置, 其特征在于, 所述装置还包括 : 过滤模块, 用于对所述 对应的属性信息进行过滤, 所述过滤算法具体为 : 过滤算法的 f 满足下列公式 : 在给定 m 和 n 时, 能够使 f 最小化的 k 值为 : 此时给出的 f 为 : 根据以上公式 (1) 、(2) 和 (3) , 对于任意给定的 f, 我们有 : n=m*ln(0.6185)/ln(f) ; 同时, k=-ln(f)/ln(2) ; 过滤算法中实际的。
10、 f : f=(1-e-kn/m)k ; 其中, m 为 bit 数组的宽度 (bit 数) ; n 为加入其中的 key 的数量 ; k 为使用的 hash 函 数的个数 ; f 为过滤算法中 False Positive(中文 : 错误率) 的比率。 权 利 要 求 书 CN 103854220 A 3 1/8 页 4 实现跨平台购物的实现方法及装置 技术领域 0001 本发明属于电子商务领域, 尤其涉及一种实现跨平台购物的实现方法及装置。 背景技术 0002 电子商务是指在互联网 (Internet) 、 企业内部网 (Intranet)和增值网 (VAN, Value Added Ne。
11、twork) 上以电子交易方式进行交易活动和相关服务活动, 是传统商业活动 各环节的电子化、 网络化。 电子商务是利用微电脑技术和网络通讯技术进行的商务活动。 各 国政府、 学者、 企业界人士根据自己所处的地位和对电子商务参与的角度和程度的不同, 给 出了许多不同的定义。但是, 电子商务不等同于商务电子化。 0003 电子商务包括电子货币交换、 供应链管理、 电子交易市场、 网络营销、 在线事务处 理、 电子数据交换 (EDI) 、 存货管理和自动数据收集系统。 在此过程中, 利用到的信息技术包 括 : 互联网、 外联网、 电子邮件、 数据库、 电子目录和移动电话。电子商务即使在各国或不同 的。
12、领域有不同的定义, 但其关键依然是依靠着电子设备和网络技术进行的商业模式, 随着 电子商务的高速发展, 它已不仅仅包括其购物的主要内涵, 还应包括了物流配送等附带服 务。 0004 首先将电子商务划分为广义和狭义的电子商务。广义的电子商务定义为, 使用各 种电子工具从事商务活动 ; 狭义电子商务定义为, 主要利用 Internet 从事商务或活动。无 论是广义的还是狭义的电子商务的概念, 电子商务都涵盖了两个方面 : 一是离不开互联网 这个平台, 没有了网络, 就称不上为电子商务 ; 二是通过互联网完成的是一种商务活动。 0005 狭义上讲, 电子商务 (Electronic Commerce。
13、, 简称 EC) 是指 : 通过使用互联网等电 子工具 (这些工具包括电报、 电话、 广播、 电视、 传真、 计算机、 计算机网络、 移动通信等) 在全 球范围内进行的商务贸易活动。是以计算机网络为基础所进行的各种商务活动, 包括商品 和服务的提供者、 广告商、 消费者、 中介商等有关各方行为的总和。人们一般理解的电子商 务是指狭义上的电子商务。 0006 广义上讲, 电子商务一词源自于 Electronic Business, 就是通过电子手段进行的 商业事务活动。 通过使用互联网等电子工具, 使公司内部、 供应商、 客户和合作伙伴之间, 利 用电子业务共享信息, 实现企业间业务流程的电子化。
14、, 配合企业内部的电子化生产管理系 统, 提高企业的生产、 库存、 流通和资金等各个环节的效率。 0007 联合国国际贸易程序简化工作组对电子商务的定义是 : 采用电子形式开展商务活 动, 它包括在供应商、 客户、 政府及其他参与方之间通过任何电子工具。如 EDI、 Web 技术、 电 子邮件等共享非结构化商务信息, 并管理和完成在商务活动、 管理活动和消费活动中的各 种交易。电子商务是利用计算机技术、 网络技术和远程通信技术, 实现电子化、 数字化和网 络化, 商务化的整个商务过程。电子商务是以商务活动为主体, 以计算机网络为基础, 以电 子化方式为手段, 在法律许可范围内所进行的商务活动交。
15、易过程。电子商务是运用数字信 息技术, 对企业的各项活动进行持续优化的过程。 0008 用户要购买某一电商平台上的商品, 需要在该电商网站上进行注册、 登录及购买。 说 明 书 CN 103854220 A 4 2/8 页 5 如果要购买不同电商平台的商品, 用户需要到不同的网站上进行注册登录, 用户因此需要 维护记录不同电商平台的注册登录信息、 并在之间进行切换操作。用户遇到非自己母语的 电商平台时, 购买过程中会遇到语言障碍, 增加购买成本。 由于购买过程中存在的多种外部 因素具有不确定性 (如距离远近会导致物流费用差异, 汇率变化等) , 因此可能导致商品展 现的价格与最终需要支付的价格。
16、存在较大差距。 0009 现有的电子商务平台有多种, 例如, 淘宝、 天猫, 京东、 亚马孙、 facebook 等, 但是现 有的电子商务平台很多, 其界面和购物的方式也多种多样, 无法通过一个平台来实现所有 电子商务平台的购物, 所以现在需要一种能够跨多种平台实现电子购物的新型电子商务平 台。 发明内容 0010 本发明实施例的目的在于提供一种实现跨平台购物的实现方法, 旨在解决现有的 技术方案无法实现跨多个平台购物的问题。 0011 第一方面, 提供一种跨平台购物的方法, 所述方法包括 : 0012 获取不同电商平台中商品的 URL, 获取所述 URL 对应的页面内容 ; 0013 采用。
17、采集框架提取该页面内容中该商品对应的属性信息, 并将该属性信息传输到 数据库内 ; 0014 将商品对应的属性信息按正则规则转换成结构化数据格式 ; 0015 将结构化数据格式封装对象, 将该对象按展现规则的算法显示商品页面展现给用 户 ; 0016 接收用户根据商品页面发送的下单信息 ; 0017 根据所述 URL 信息获取该商品对应的电子商务平台 ; 0018 调用该电子商务平台对应的账号信息, 与该电子商务平台进行接口对接, 对接成 功后, 将该下单信息转换成该电子商务平台兼容的格式后, 在该电子商务平台提交订单。 0019 可选的, 所述采用采集框架提取该页面内容中该商品对应的属性信息。
18、的实现方法 具体为 : 0020 对于页面内容中的静态信息, 直接采用采集框架提取该页面的静态信息, 对于页 面内容中的动态信息, 通过模拟触发方式穷举该动态信息的所有形式的动态数据, 每产生 一个动态数据, 采用采集框架抓取一次, 直至所有形式的动态数据全部抓取完毕。 0021 可选的, 所述采用采集框架提取该页面内容中该商品对应的属性信息的实现方法 具体为 : 0022 在页面内容出现更新时, 仅对该页面内容中产生更新的内容采用采集框架提取, 该页面内容从未更新的内容不变。采用上述更新的方法可以提高页面内容抓取的相应速 度。 0023 可选的, 所述方法在并将该属性信息传输到数据库内之后,。
19、 将商品对应的属性信 息按正则规则转换成结构化数据格式之后, 还包括 : 对所述对应的属性信息进行过滤, 所述 过滤算法具体为 : 说 明 书 CN 103854220 A 5 3/8 页 6 0024 过滤算法的 f 满足下列公式 : 0025 在给定 m 和 n 时, 能够使 f 最小化的 k 值为 : 0026 此时给出的 f 为 : 0027 根据以上公式 (1) 、(2)和 (3) , 对于任意给定的 f, 我们有 : n=m*ln(0.6185)/ ln(f) ; 0028 同时, k=-ln(f)/ln(2) ; 0029 过滤算法中实际的 f : f=(1-e-kn/m)k ;。
20、 0030 其中, m 为 bit 数组的宽度 (bit 数) ; n 为加入其中的 key 的数量 ; k 为使用的 hash 函数的个数 ; f 为过滤算法中 False Positive(中文 : 错误率) 的比率。 0031 本发明具体实施方式还提供一种跨平台购物的装置, 所述装置包括 : 0032 输入模块, 用于获取不同电商平台中商品的 URL ; 0033 信息收集模块, 用于获取所述 URL 对应的页面内容 ; 0034 信息提取分析模块, 用于采用采集框架提取该页面内容中该商品对应的属性信 息, 并将该属性信息传输到数据库内, 将商品对应的属性信息按正则规则转换成结构化数 据。
21、格式 ; 0035 展现模块, 用于将结构化数据格式封装对象, 将该对象按展现规则的算法显示商 品页面展现给用户 ; 0036 交易模块, 用于接收用户根据商品页面发送的下单信息 ; 根据所述 URL 信息获取 该商品对应的电子商务平台 ; 0037 下单模块, 用于调用该电子商务平台对应的账号信息, 与该电子商务平台进行接 口对接, 对接成功后, 将该下单信息转换成该电子商务平台兼容的格式后, 在该电子商务平 台提交订单。 0038 可选的, 所述信息提取分析模块具体用于, 0039 对于页面内容中的静态信息, 直接采用采集框架提取该页面的静态信息, 对于页 面内容中的动态信息, 通过模拟触。
22、发方式穷举该动态信息的所有形式的动态数据, 每产生 一个动态数据, 采用采集框架抓取一次, 直至所有形式的动态数据全部抓取完毕。 0040 可选的, 所述信息提取分析模块具体用于, 0041 在页面内容出现更新时, 仅对该页面内容中产生更新的内容采用采集框架提取, 该页面内容从未更新的内容不变。采用上述更新的方法可以提高页面内容抓取的相应速 度。 0042 可选的, 所述装置还包括 : 过滤模块, 用于对所述对应的属性信息进行过滤, 所述 说 明 书 CN 103854220 A 6 4/8 页 7 过滤算法具体为 : 0043 过滤算法的 f 满足下列公式 : 0044 在给定 m 和 n 。
23、时, 能够使 f 最小化的 k 值为 : 0045 此时给出的 f 为 : 0046 根据以上公式 (1) 、(2)和 (3) , 对于任意给定的 f, 我们有 : n=m*ln(0.6185)/ ln(f) ; 0047 同时, k=-ln(f)/ln(2) ; 0048 过滤算法中实际的 f : f=(1-e-kn/m)k ; 0049 其中, m 为 bit 数组的宽度 (bit 数) ; n 为加入其中的 key 的数量 ; k 为使用的 hash 函数的个数 ; f 为过滤算法中 False Positive(中文 : 错误率) 的比率。 0050 在本发明实施例中, 本发明提供的技。
24、术方案提供一种跨平台购物的方法, 其能够 在跨多个平台实现购物, 所以其具有跨平台服务的优点。 附图说明 0051 图 1 为本发明提供的一种跨平台购物的方法的流程图 ; 0052 图 2 是本发明提供的一种跨平台购物的装置的结构图。 具体实施方式 0053 为了使本发明的目的、 技术方案及优点更加清楚明白, 以下结合附图及实施例, 对 本发明进行进一步详细说明。 应当理解, 此处所描述的具体实施例仅仅用以解释本发明, 并 不用于限定本发明。 0054 电商平台通常称为电商网站, 其是由电子商务公司为用户提供的以网页方式显示 的界面, 用户可以通过该网页实现购物。 0055 采集框架, 一种快。
25、速 , 高层次的屏幕抓取和 web 抓取框架, 用于抓取 web 站点并从 页面中提取结构化的数据。采集框架用途广泛, 可以用于数据挖掘、 监测和自动化测试。 0056 本发明具体实施方式提供一种跨平台购物的方法, 该方法由计算机来实现, 如图 1 所示, 包括如下步骤 : 0057 101、 获取不同电商平台中商品的 URL(Uniform Resoure Locator, 统一资源定位 符 ), 获取该 URL 对应的页面内容 ; 0058 上述获取 URL 的方式可以是计算机自动抓取, 也可以为用户手动输入的方式, 本 发明具体实施方式并不局限上述获取 URL 的具体形式或手段。 005。
26、9 102、 采用采集框架提取该页面内容中该商品对应的属性信息, 并将该属性信息传 说 明 书 CN 103854220 A 7 5/8 页 8 输到数据库内 ; 0060 上述属性信息包括但不限于 : 产品型号、 产品颜色、 产品尺寸、 产品照片、 产品名 称、 产品产地或产品库存等一系列与产品相关的属性信息。 0061 103、将 商 品 对 应 的 属 性 信 息 按 正 则 规 则 转 换 成 JOSN(JavaScript ObjectNotation) 格式 ; 0062 上述正则规则可以采用现有技术的正则规则, 也可以采用自定义的正则规则, 例 如 : 0063 0064 104。
27、、 将结构化数据格式封装对象, 将该对象按展现规则的算法显示商品页面展现 给用户 ; 0065 可选的, 上述展现规则的算法具体可以为 : 0066 用到的排序算法描述如下 : 时间复杂度 : O(n*lgn) , 最坏 : O(n2) , 空间复杂度 : O (n*lgn) , 代码示例如下 : 0067 0068 0069 105、 接收用户根据商品页面发送的下单信息 ; 0070 106、 根据该 URL 信息获取该商品对应的电子商务平台 ; 0071 107、 调用该电子商务平台对应的账号信息, 与该电子商务平台进行接口对接, 对 接成功后, 将该下单信息转换成该电子商务平台兼容的格式。
28、后, 在该电子商务平台提交订 说 明 书 CN 103854220 A 8 6/8 页 9 单。 0072 本发明提供的方法简化了用户的商品购买流程, 输入其他电商平台的商品 URL 就 可以在支持该技术的网站上直接购买 (如 : 可以输入京东商城的商品详情 URL, 直接在支持 该技术的网站上购买, 而无非在京东商城上进行下单购买 ; 也可以输入美国亚马逊的商品 详情 URL, 在支持该技术的网站上直接购买, 而无非在美国亚马逊上进行下单) ; 用户不用去 阅读非母语的电商网站, 可以直接在母语环境中直接购买非母语环境的电商平台的商品。 减少了人工对接不同电商平台进行下单的成本。只要购买支付。
29、成功后, 就直接在家等商品 送货上门, 同时可以实时的跟踪商品的物流信息。 0073 用户在系统的录入框中输入特定商品的 URL 地址, 然后点击购买, 系统将根据 URL 信息去获取其商品的详细信息, 对其中的商品规格种类及库存数据进行分析, 同时将该商 品所对应的全部单品 (不同属性) 信息进行归纳整理, 返回给系统存入数据库, 同时展现商 品的信息给用户, 再根据其他外部不确定因素 (如运费、 汇率等) 计算各种费用, 从而计算出 最终的价格, 使用户能直观的看到商品的最终到手价格及预期的时间。在用户选择具体的 SKU(一种库存量单位) 并提交订单时, 系统将记录用户购买的具体商品。在用。
30、户支付完订 单后, 使用该技术的平台将自动和相应的原始电商网站进行对接、 实现系统下单。 经过这一 系列的处理之后, 特定 URL 商品的购买就已经成功。 0074 可选的, 上述 102 的实现方法具体可以为 : 0075 对于页面内容中的静态信息, 直接采用采集框架提取该页面的静态信息, 对于页 面内容中的动态信息, 通过模拟触发方式穷举该动态信息的所有形式的动态数据, 每产生 一个动态数据, 采用采集框架一次, 直至所有形式的动态数据全部抓取完毕。 0076 可选的, 上述 102 的实现方法具体可以为 : 0077 在页面内容出现更新时, 仅对该页面内容中产生更新的内容采用采集框架提取。
31、, 该页面内容从未更新的内容不变。采用上述更新的方法可以提高页面内容抓取的相应速 度。 0078 可选的, 上述方法在102之后, 还可以包括 : 对102中的对应的属性信息进行过滤, 该过滤算法具体可以为 : 0079 过滤算法的 f 满足下列公式 : 0080 在给定 m 和 n 时, 能够使 f 最小化的 k 值为 : 0081 此时给出的 f 为 : 0082 根据以上公式 (1) 、(2)和 (3) , 对于任意给定的 f, 我们有 : n=m*ln(0.6185)/ ln(f) ; 说 明 书 CN 103854220 A 9 7/8 页 10 0083 同时, 我们需要 k 个 。
32、hash 来达成这个目标 : k=-ln(f)/ln(2) ; 0084 由于 k 必须取整数, 还应该使用上面的公式 (1) 、(2)和 (3)来求得实际的 f : f=(1-e-kn/m)k ; 0085 其中, m 为 bit 数组的宽度 (bit 数) ; n 为加入其中的 key 的数量 ; k 为使用的 hash 函数的个数 ; f 为过滤算法中 False Positive(中文 : 错误率) 的比率。 0086 实施例 : 用户在美国亚马逊的网站上 (英文界面) 挑选好一个商品, 将该商品的URL 粘贴到使用该技术的网站 A 的输入框内, 点击确定, 该技术将抓取分析亚马逊上商。
33、品的所 属类目、 商品信息 (包括商品价格、 是否自营商品、 运费多少、 有多少个 SKU- 颜色、 尺码等属 性的组合、 库存、 运输重量) , 计算包括运费税费的最终到手价, 经过语言翻译后、 将这些商 品信息填入到网站A的中文商品详情页模板中, 用户看到的即为网站A的中文购买界面。 通 过该中文购买界面, 用户可以直接下单。用户在网站 A 下单后, 网站 A 的后台系统将和美国 亚马逊对接实现自动下单。 0087 本发明具体实施方式还提供一种跨平台购物的装置, 该装置如图 2 所示, 包括 : 0088 输入模块 201, 用于获取不同电商平台中商品的 URL ; 0089 信息收集模块。
34、 202, 用于获取所述 URL 对应的页面内容 ; 0090 信息提取分析模块 203, 用于采用采集框架提取该页面内容中该商品对应的属性 信息, 并将该属性信息传输到数据库内, 将商品对应的属性信息按正则规则转换成结构化 数据格式 ; 0091 展现模块 204, 用于将结构化数据格式封装对象, 将该对象按展现规则的算法显示 商品页面展现给用户 ; 0092 交易模块 205, 用于接收用户根据商品页面发送的下单信息 ; 根据所述 URL 信息获 取该商品对应的电子商务平台 ; 0093 下单模块 206, 用于调用该电子商务平台对应的账号信息, 与该电子商务平台进行 接口对接, 对接成功。
35、后, 将该下单信息转换成该电子商务平台兼容的格式后, 在该电子商务 平台提交订单。 0094 可选的, 信息提取分析模块 203 具体用于, 0095 对于页面内容中的静态信息, 直接采用采集框架提取该页面的静态信息, 对于页 面内容中的动态信息, 通过模拟触发方式穷举该动态信息的所有形式的动态数据, 每产生 一个动态数据, 采用采集框架抓取一次, 直至所有形式的动态数据全部抓取完毕。 0096 可选的, 信息提取分析模块 203 具体用于, 0097 在页面内容出现更新时, 仅对该页面内容中产生更新的内容采用采集框架提取, 该页面内容从未更新的内容不变。采用上述更新的方法可以提高页面内容抓取。
36、的相应速 度。 0098 可选的, 所述装置还包括 : 过滤模块 209, 用于对所述对应的属性信息进行过滤, 所述过滤算法具体为 : 0099 过滤算法的 f 满足下列公式 : 说 明 书 CN 103854220 A 10 8/8 页 11 0100 在给定 m 和 n 时, 能够使 f 最小化的 k 值为 : 0101 此时给出的 f 为 : 0102 根据以上公式 (1) 、(2)和 (3) , 对于任意给定的 f, 我们有 : n=m*ln(0.6185)/ ln(f) ; 0103 同时, k=-ln(f)/ln(2) ; 0104 过滤算法中实际的 f : f=(1-e-kn/m。
37、)k ; 0105 其中, m 为 bit 数组的宽度 (bit 数) ; n 为加入其中的 key 的数量 ; k 为使用的 hash 函数的个数 ; f 为过滤算法中 False Positive(中文 : 错误率) 的比率。 0106 以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明, 凡在本发明的精 神和原则之内所作的任何修改、 等同替换和改进等, 均应包含在本发明的保护范围之内。 说 明 书 CN 103854220 A 11 1/2 页 12 图 1 说 明 书 附 图 CN 103854220 A 12 2/2 页 13 图 2 说 明 书 附 图 CN 103854220 A 13 。