基于WEB的自动化商业调研方法.pdf

上传人:1****2 文档编号:971513 上传时间:2018-03-22 格式:PDF 页数:4 大小:291.68KB
返回 下载 相关 举报
摘要
申请专利号:

CN201010263876.7

申请日:

2010.08.27

公开号:

CN102376058A

公开日:

2012.03.14

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06Q 30/02申请公布日:20120314|||文件的公告送达IPC(主分类):G06Q 30/02收件人:赵颖泽文件名称:实审请求期限届满前通知书|||公开

IPC分类号:

G06Q30/02(2012.01)I; G06F17/30

主分类号:

G06Q30/02

申请人:

赵颖泽

发明人:

赵颖泽

地址:

100083 北京市海淀区成府路20号院13号323

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

基于Web的自动化商业调研方法可以通过采集来自互联网上的公开数据,利用程序的自动挖掘处理功能生成供网络商家、小企业进行决策的商业报告。该方法可以有效克服传统调研方法人力成本高,速度慢的缺点。利用程序自动抓取与分析的能力,可以自动获取得到大量公开的调研数据,为网络商家、小企业提供低成本、及时而又准确的商业调研报告,帮助进行合理的商业决策。

权利要求书

1: 基于 Web 的自动化商业调研方法, 其特征是 : 利用程序自动抓取 Web 的公开数据方 法, 生成低成本、 及时、 准确的商业调研报告。
2: 根据权利要求 1 所述的基于 Web 的自动化商业调研方法, 其特征是 : 调研原始数据 来自 taobao 公开的页面数据, 不需要人工参与, 程序能够自动抓取页面并解析其中的结构 化数据, 进而生成商业调研报告。

说明书


基于 Web 的自动化商业调研方法

    技术领域 本发明通过自动挖掘 Web 上公开的数据信息, 可以自动整理、 分析出商业词汇的 商业价值与产业趋势, 可以为网络商家、 企业提供及时、 准确的商业调研报告, 帮助网络商 家、 企业及时作出合理的商业决策。
     背景技术 商业调研是企业、 商家作出商业决策的重要依据。 传统的商业调研方法, 依靠人工 发放问卷、 访谈的方法获取所需的商业数据, 例如用户满意度、 消费金额等。 然后, 再通过统 计分析方法, 对数据进行过滤、 筛选, 留存优质数据, 进行统计分析, 作出调研报告。
     目前有大量的公司基于传统的商业调研方法, 为企业提供商业调研报告, 例如知 名的艾瑞 (iResearch) 公司。但基于传统的商业调研方法存在诸多下述弊端 :
     (1) 人工获取数据的成本高, 数据规模小。无论是问卷发放还是电话访谈, 都要 消耗大量的人力成本, 由于成本限制, 调研采样数据往往规模较小, 统计分析不够准确的问 题。如果扩大数据规模, 必然导致调研报告成本急剧上升, 使得小企业难以负担。
     (2) 数据处理周期长, 时效性差, 难以用来做及时的商业决策。传统的商业调研方 法, 在人工搜集数据之后, 还需要对数据的准确性、 可靠性做人工的判断与处理, 滤除掉不 合理的采样数据, 才能使得统计结论准确可靠。 但各种严谨的人工过滤处理, 会耗费大量的 时间, 待报告得出结论的时候, 往往可能已经错失了最好的商机。
     目前也有一些公司, 具备自动化的商业调研能力, 这类公司往往是握有大量用户 信息的互联网公司, 例如百度、 谷歌这样的公司, 他们可以利用用户访问网站产生的大量请 求数据, 自动计算出用户关注的热点查询关键词, 发布趋势报告。 由于涉及到用户隐私或核 心商业机密, 这类公司是不愿意公开内部数据供大众分析的, 因而对于特定需求的商家来 说, 也无法获取或比较难获取到可订制的商业调研报告。
     本发明中所采用的自动化调研分析方法, 采用来自 web 的公开数据, 不存在任何 法律与道德风险, 同时成本很低, 可以为众多的小商家、 小企业提供轻量级的商业调研报 告。同时, 该方法也避免了人工调研方法成本高, 速度慢的劣势, 通过发挥程序自动处理大 规模数据的优势, 可以获得更为准确、 及时的商业调研报告。
     发明内容 本发明所提出的自动化商业调研方法, 由下述三大处理流程组成 (1)web 公开数 据源的选取与抓取 (2)web 页面的分析与结构化数据抽取 (3) 结构化数据的挖掘与分析。 涉 及到的技术包括 : Web 页面的自动抓取, html 页面的解析与标签定位, 轻量级的数据存储服 务, 自动化的数据挖掘与分析。
     三大处理流程详述如下 :
     一、 Web 公开数据源的选取与抓取
     (1)taobao.com 是国内最大的 C2C 交易网站, 年交易额超过 2000 亿, taobao 上的
     商品数据丰富, 每个商品页面上都包含有公开的交易数据信息, 是进行商业调研的良好数 据源。因此, 本方法选择 taobao 公开交易数据作为商业调研的数据来源。
     (2)taobao 的搜索功能是重要的用户入口, 可以利用该入口, 以关键词搜索的方 式, 获取商品相关信息。 设待调研的关键词为 Kw, 使用 sqlite 创建 Kw 数据库保存抓取到的 数据结果, 程序模拟用户在淘宝搜索框中输入 Kw, 模拟点击搜索按钮, 则可以得到第一页搜 索结果。
     (3) 每页搜索结果由若干商品页的简要描述及链接构成, 程序模拟用户点击每条 链接访问商品页面, 逐条抓取得到商品的详细信息页。每个搜索结果页上都有 “下一页” 链 接, 程序通过模拟点击该链接, 获取下一页搜索结果, 逐条遍历所有的商品页信息。每条商 品页面的链接被保存到 search 数据表中, 留待下一步处理。
     二、 商品信息页的分析与结构化数据抽取
     (1) 使用 BeautifulSoup 开源 python 模块将抓取得到的商品信息页解析为 dom 树 结构, 使用 XPath 确定页面中包含有交易信息的标签块。
     (2)taobao 商品页面上的交易信息采用异步 ajax 读取, 所以程序需要模拟页面 Js 行为发送读取交易信息的请求, 并解析返回的 Json 格式结果, 将结果表示为结构化数据, 包括交易 ID, 单价, 数量, 交易时间等。抽取得到的每条交易数据, 保存至 trade 数据表中。 三、 数据的自动化挖掘与分析
     (1) 经过上述处理步骤后, 我们得到了与关键词 Kw 相关的所有交易记录。可以得 到最多最近 3 个月的交易数据。遍历 trade 数据库, 累加每条交易记录的单价字段, 统计得 到最近 3 月的交易量数据。
     (2) 累加 trade 数据表中每条记录的价格 * 数量 ( 交易额 ), 即可获得 Kw 的交易 总额。进而可以得到 Kw 的成交均价等信息, 生成商业调研报告。
     上述处理流程所花费的时间, 与 Kw 的结果数量多少有关, 一个完整的抓取、 处理 流程约花费几小时的时间。 用户还可根据不同的需求, 改进数据挖掘与分析流程, 生成满足 自己要求的商业调研报告。
     具体实施方式
     自动调研程序以 Web 服务的形式提供, 用户在网页上提交需要调研的关键词, 被 系统接收后, 自动在后台执行抓取与分析流程, 最后输出自动生成的调研报告, 供用户下 载。4

基于WEB的自动化商业调研方法.pdf_第1页
第1页 / 共4页
基于WEB的自动化商业调研方法.pdf_第2页
第2页 / 共4页
基于WEB的自动化商业调研方法.pdf_第3页
第3页 / 共4页
点击查看更多>>
资源描述

《基于WEB的自动化商业调研方法.pdf》由会员分享,可在线阅读,更多相关《基于WEB的自动化商业调研方法.pdf(4页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN102376058A43申请公布日20120314CN102376058ACN102376058A21申请号201010263876722申请日20100827G06Q30/02201201G06F17/3020060171申请人赵颖泽地址100083北京市海淀区成府路20号院13号32372发明人赵颖泽54发明名称基于WEB的自动化商业调研方法57摘要基于WEB的自动化商业调研方法可以通过采集来自互联网上的公开数据,利用程序的自动挖掘处理功能生成供网络商家、小企业进行决策的商业报告。该方法可以有效克服传统调研方法人力成本高,速度慢的缺点。利用程序自动抓取与分析的能力,可以自。

2、动获取得到大量公开的调研数据,为网络商家、小企业提供低成本、及时而又准确的商业调研报告,帮助进行合理的商业决策。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书2页CN102376065A1/1页21基于WEB的自动化商业调研方法,其特征是利用程序自动抓取WEB的公开数据方法,生成低成本、及时、准确的商业调研报告。2根据权利要求1所述的基于WEB的自动化商业调研方法,其特征是调研原始数据来自TAOBAO公开的页面数据,不需要人工参与,程序能够自动抓取页面并解析其中的结构化数据,进而生成商业调研报告。权利要求书CN102376058ACN102376065A1/。

3、2页3基于WEB的自动化商业调研方法技术领域0001本发明通过自动挖掘WEB上公开的数据信息,可以自动整理、分析出商业词汇的商业价值与产业趋势,可以为网络商家、企业提供及时、准确的商业调研报告,帮助网络商家、企业及时作出合理的商业决策。背景技术0002商业调研是企业、商家作出商业决策的重要依据。传统的商业调研方法,依靠人工发放问卷、访谈的方法获取所需的商业数据,例如用户满意度、消费金额等。然后,再通过统计分析方法,对数据进行过滤、筛选,留存优质数据,进行统计分析,作出调研报告。0003目前有大量的公司基于传统的商业调研方法,为企业提供商业调研报告,例如知名的艾瑞IRESEARCH公司。但基于传。

4、统的商业调研方法存在诸多下述弊端00041人工获取数据的成本高,数据规模小。无论是问卷发放还是电话访谈,都要消耗大量的人力成本,由于成本限制,调研采样数据往往规模较小,统计分析不够准确的问题。如果扩大数据规模,必然导致调研报告成本急剧上升,使得小企业难以负担。00052数据处理周期长,时效性差,难以用来做及时的商业决策。传统的商业调研方法,在人工搜集数据之后,还需要对数据的准确性、可靠性做人工的判断与处理,滤除掉不合理的采样数据,才能使得统计结论准确可靠。但各种严谨的人工过滤处理,会耗费大量的时间,待报告得出结论的时候,往往可能已经错失了最好的商机。0006目前也有一些公司,具备自动化的商业调。

5、研能力,这类公司往往是握有大量用户信息的互联网公司,例如百度、谷歌这样的公司,他们可以利用用户访问网站产生的大量请求数据,自动计算出用户关注的热点查询关键词,发布趋势报告。由于涉及到用户隐私或核心商业机密,这类公司是不愿意公开内部数据供大众分析的,因而对于特定需求的商家来说,也无法获取或比较难获取到可订制的商业调研报告。0007本发明中所采用的自动化调研分析方法,采用来自WEB的公开数据,不存在任何法律与道德风险,同时成本很低,可以为众多的小商家、小企业提供轻量级的商业调研报告。同时,该方法也避免了人工调研方法成本高,速度慢的劣势,通过发挥程序自动处理大规模数据的优势,可以获得更为准确、及时的。

6、商业调研报告。发明内容0008本发明所提出的自动化商业调研方法,由下述三大处理流程组成1WEB公开数据源的选取与抓取2WEB页面的分析与结构化数据抽取3结构化数据的挖掘与分析。涉及到的技术包括WEB页面的自动抓取,HTML页面的解析与标签定位,轻量级的数据存储服务,自动化的数据挖掘与分析。0009三大处理流程详述如下0010一、WEB公开数据源的选取与抓取00111TAOBAOCOM是国内最大的C2C交易网站,年交易额超过2000亿,TAOBAO上的说明书CN102376058ACN102376065A2/2页4商品数据丰富,每个商品页面上都包含有公开的交易数据信息,是进行商业调研的良好数据源。

7、。因此,本方法选择TAOBAO公开交易数据作为商业调研的数据来源。00122TAOBAO的搜索功能是重要的用户入口,可以利用该入口,以关键词搜索的方式,获取商品相关信息。设待调研的关键词为KW,使用SQLITE创建KW数据库保存抓取到的数据结果,程序模拟用户在淘宝搜索框中输入KW,模拟点击搜索按钮,则可以得到第一页搜索结果。00133每页搜索结果由若干商品页的简要描述及链接构成,程序模拟用户点击每条链接访问商品页面,逐条抓取得到商品的详细信息页。每个搜索结果页上都有“下一页”链接,程序通过模拟点击该链接,获取下一页搜索结果,逐条遍历所有的商品页信息。每条商品页面的链接被保存到SEARCH数据表。

8、中,留待下一步处理。0014二、商品信息页的分析与结构化数据抽取00151使用BEAUTIFULSOUP开源PYTHON模块将抓取得到的商品信息页解析为DOM树结构,使用XPATH确定页面中包含有交易信息的标签块。00162TAOBAO商品页面上的交易信息采用异步AJAX读取,所以程序需要模拟页面JS行为发送读取交易信息的请求,并解析返回的JSON格式结果,将结果表示为结构化数据,包括交易ID,单价,数量,交易时间等。抽取得到的每条交易数据,保存至TRADE数据表中。0017三、数据的自动化挖掘与分析00181经过上述处理步骤后,我们得到了与关键词KW相关的所有交易记录。可以得到最多最近3个月。

9、的交易数据。遍历TRADE数据库,累加每条交易记录的单价字段,统计得到最近3月的交易量数据。00192累加TRADE数据表中每条记录的价格数量交易额,即可获得KW的交易总额。进而可以得到KW的成交均价等信息,生成商业调研报告。0020上述处理流程所花费的时间,与KW的结果数量多少有关,一个完整的抓取、处理流程约花费几小时的时间。用户还可根据不同的需求,改进数据挖掘与分析流程,生成满足自己要求的商业调研报告。具体实施方式0021自动调研程序以WEB服务的形式提供,用户在网页上提交需要调研的关键词,被系统接收后,自动在后台执行抓取与分析流程,最后输出自动生成的调研报告,供用户下载。说明书CN102376058A。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1