《基于WEB的自动化商业调研方法.pdf》由会员分享,可在线阅读,更多相关《基于WEB的自动化商业调研方法.pdf(4页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN102376058A43申请公布日20120314CN102376058ACN102376058A21申请号201010263876722申请日20100827G06Q30/02201201G06F17/3020060171申请人赵颖泽地址100083北京市海淀区成府路20号院13号32372发明人赵颖泽54发明名称基于WEB的自动化商业调研方法57摘要基于WEB的自动化商业调研方法可以通过采集来自互联网上的公开数据,利用程序的自动挖掘处理功能生成供网络商家、小企业进行决策的商业报告。该方法可以有效克服传统调研方法人力成本高,速度慢的缺点。利用程序自动抓取与分析的能力,可以自。
2、动获取得到大量公开的调研数据,为网络商家、小企业提供低成本、及时而又准确的商业调研报告,帮助进行合理的商业决策。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书2页CN102376065A1/1页21基于WEB的自动化商业调研方法,其特征是利用程序自动抓取WEB的公开数据方法,生成低成本、及时、准确的商业调研报告。2根据权利要求1所述的基于WEB的自动化商业调研方法,其特征是调研原始数据来自TAOBAO公开的页面数据,不需要人工参与,程序能够自动抓取页面并解析其中的结构化数据,进而生成商业调研报告。权利要求书CN102376058ACN102376065A1/。
3、2页3基于WEB的自动化商业调研方法技术领域0001本发明通过自动挖掘WEB上公开的数据信息,可以自动整理、分析出商业词汇的商业价值与产业趋势,可以为网络商家、企业提供及时、准确的商业调研报告,帮助网络商家、企业及时作出合理的商业决策。背景技术0002商业调研是企业、商家作出商业决策的重要依据。传统的商业调研方法,依靠人工发放问卷、访谈的方法获取所需的商业数据,例如用户满意度、消费金额等。然后,再通过统计分析方法,对数据进行过滤、筛选,留存优质数据,进行统计分析,作出调研报告。0003目前有大量的公司基于传统的商业调研方法,为企业提供商业调研报告,例如知名的艾瑞IRESEARCH公司。但基于传。
4、统的商业调研方法存在诸多下述弊端00041人工获取数据的成本高,数据规模小。无论是问卷发放还是电话访谈,都要消耗大量的人力成本,由于成本限制,调研采样数据往往规模较小,统计分析不够准确的问题。如果扩大数据规模,必然导致调研报告成本急剧上升,使得小企业难以负担。00052数据处理周期长,时效性差,难以用来做及时的商业决策。传统的商业调研方法,在人工搜集数据之后,还需要对数据的准确性、可靠性做人工的判断与处理,滤除掉不合理的采样数据,才能使得统计结论准确可靠。但各种严谨的人工过滤处理,会耗费大量的时间,待报告得出结论的时候,往往可能已经错失了最好的商机。0006目前也有一些公司,具备自动化的商业调。
5、研能力,这类公司往往是握有大量用户信息的互联网公司,例如百度、谷歌这样的公司,他们可以利用用户访问网站产生的大量请求数据,自动计算出用户关注的热点查询关键词,发布趋势报告。由于涉及到用户隐私或核心商业机密,这类公司是不愿意公开内部数据供大众分析的,因而对于特定需求的商家来说,也无法获取或比较难获取到可订制的商业调研报告。0007本发明中所采用的自动化调研分析方法,采用来自WEB的公开数据,不存在任何法律与道德风险,同时成本很低,可以为众多的小商家、小企业提供轻量级的商业调研报告。同时,该方法也避免了人工调研方法成本高,速度慢的劣势,通过发挥程序自动处理大规模数据的优势,可以获得更为准确、及时的。
6、商业调研报告。发明内容0008本发明所提出的自动化商业调研方法,由下述三大处理流程组成1WEB公开数据源的选取与抓取2WEB页面的分析与结构化数据抽取3结构化数据的挖掘与分析。涉及到的技术包括WEB页面的自动抓取,HTML页面的解析与标签定位,轻量级的数据存储服务,自动化的数据挖掘与分析。0009三大处理流程详述如下0010一、WEB公开数据源的选取与抓取00111TAOBAOCOM是国内最大的C2C交易网站,年交易额超过2000亿,TAOBAO上的说明书CN102376058ACN102376065A2/2页4商品数据丰富,每个商品页面上都包含有公开的交易数据信息,是进行商业调研的良好数据源。
7、。因此,本方法选择TAOBAO公开交易数据作为商业调研的数据来源。00122TAOBAO的搜索功能是重要的用户入口,可以利用该入口,以关键词搜索的方式,获取商品相关信息。设待调研的关键词为KW,使用SQLITE创建KW数据库保存抓取到的数据结果,程序模拟用户在淘宝搜索框中输入KW,模拟点击搜索按钮,则可以得到第一页搜索结果。00133每页搜索结果由若干商品页的简要描述及链接构成,程序模拟用户点击每条链接访问商品页面,逐条抓取得到商品的详细信息页。每个搜索结果页上都有“下一页”链接,程序通过模拟点击该链接,获取下一页搜索结果,逐条遍历所有的商品页信息。每条商品页面的链接被保存到SEARCH数据表。
8、中,留待下一步处理。0014二、商品信息页的分析与结构化数据抽取00151使用BEAUTIFULSOUP开源PYTHON模块将抓取得到的商品信息页解析为DOM树结构,使用XPATH确定页面中包含有交易信息的标签块。00162TAOBAO商品页面上的交易信息采用异步AJAX读取,所以程序需要模拟页面JS行为发送读取交易信息的请求,并解析返回的JSON格式结果,将结果表示为结构化数据,包括交易ID,单价,数量,交易时间等。抽取得到的每条交易数据,保存至TRADE数据表中。0017三、数据的自动化挖掘与分析00181经过上述处理步骤后,我们得到了与关键词KW相关的所有交易记录。可以得到最多最近3个月。
9、的交易数据。遍历TRADE数据库,累加每条交易记录的单价字段,统计得到最近3月的交易量数据。00192累加TRADE数据表中每条记录的价格数量交易额,即可获得KW的交易总额。进而可以得到KW的成交均价等信息,生成商业调研报告。0020上述处理流程所花费的时间,与KW的结果数量多少有关,一个完整的抓取、处理流程约花费几小时的时间。用户还可根据不同的需求,改进数据挖掘与分析流程,生成满足自己要求的商业调研报告。具体实施方式0021自动调研程序以WEB服务的形式提供,用户在网页上提交需要调研的关键词,被系统接收后,自动在后台执行抓取与分析流程,最后输出自动生成的调研报告,供用户下载。说明书CN102376058A。