家用电器数据的收集系统及收集方法技术领域
本发明涉及家用电器领域,更具体而言,涉及一种家用电器数据的收集系统及一种家
用电器数据的收集方法。
背景技术
常规家用电器设备尤其是小家电设备,销售反馈信息,只能通过各个经销商,反馈
获得。对于产品的质量反馈以及评价情况,也只能通过客服,以及维修人员,反馈的信
息才能够了解产品存在的问题。这种反馈,所需要的周期长,对于家电企业,完善产品,
打造精品工程,造成障碍。
随着互联网的快速发展及普及,越来越多的家电经销商采用互联网销售的方式进行
家电销售。而且,已买的购买者还可以在家电的销售网页上发表对商品的评论,以供潜
在的购买者参考。因此,对于家电企业,如何利用互联网收集家用电器数据成为亟待解
决的问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明需要提供一种
家用电器数据的收集系统及一种家用电器数据的收集方法。
一种家用电器数据的收集系统,包括获取模块、解析模块、数据库及控制模块。该
获取模块用于获取设定域名的家用电器网页数据。该解析模块用于根据该家用电器网页
数据,解析得到家用电器的产品信息及评论信息。该数据库用于存储该产品信息及该评
论信息。该控制模块连接该获取模块、该解析模块及该数据库,该控制模块用于控制该
获取模块获取该家用电器网页数据、及控制该解析模块解析得到该产品信息及评论信息
及将该产品信息及该评论信息存储在该数据库。
上述家用电器数据的收集系统,可通过访问各个网络经销商的网址,获取各大电商
的家用电器的产品信息及评论信息并进行存储。产品信息及评论信息对于家电企业提高
产品品质至关重要,有利于家电企业提升产品品质。
在一个实施方式中,该解析模块用于根据该家用电器网页数据,解析得到家用电器
相关的品类页,并根据该品类页,解析得到该产品信息。
在一个实施方式中,该解析模块用于根据该家用电器网页数据,解析得到家用电器
相关的评论页,并根据该评论页,解析得到该评论信息。
在一个实施方式中,该控制模块用于控制该解析模块,根据该家用电器网页数据,
解析得到家用电器行业信息,及将该家用电器行业信息存储在该数据库。
在一个实施方式中,该控制模块存储有产品信息表及评论信息表,该解析模块用于
根据该产品信息表及该评论信息表从该家用电器网页数据解析得到该产品信息及该评
论信息,该控制模块用于将该产品信息写入该产品信息表,及将该评论信息写入该评论
信息表。
一种家用电器数据的收集方法,包括以下步骤:
S11:获取模块获取设定域名的家用电器网页数据;
S12:解析模块根据该家用电器网页数据,解析得到家用电器的产品信息;
S13:控制模块将该产品信息存储在数据库;
S14:该解析模块根据该家用电器网页数据,解析得到家用电器的评论信息;及
S15:该控制模块将该评论信息存储在该数据库。
在一个实施方式中,步骤S12包括:该解析模块根据该家用电器网页数据,解析得
到家用电器相关的品类页,并根据该品类页,解析得到该产品信息。
在一个实施方式中,步骤S14包括:该解析模块根据该家用电器网页数据,解析得
到家用电器相关的评论页,并根据该评论页,解析得到该评论信息。
在一个实施方式中,该收集方法包括步骤:
S16:该解析模块,根据该家用电器网页数据,解析得到家用电器行业信息,控制
模块将该家用电器行业信息存储在该数据库。
在一个实施方式中,该控制模块存储有产品信息表及评论信息表,步骤S12包括:
该解析模块根据该产品信息表从该家用电器网页数据解析得到该产品信息,
步骤S13包括:该控制模块将该产品信息写入该产品信息表,
步骤S14包括:该解析模块根据该评论信息表从该家用电器网页数据解析得到该评
论信息,
步骤S15包括:该控制模块将该评论信息写入该评论信息表。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得
明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得
明显和容易理解,其中:
图1是本发明较佳实施方式的家用电器数据的收集系统的模块示意图;及
图2是本发明较佳实施方式的家用电器数据的收集方法的流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至
终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参
考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语″第一″、″第二″仅用于描述目的,而
不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定
有″第一″、″第二″的特征可以明示或者隐含地包括一个或者更多个所述特征。在本
发明的描述中,″多个″的含义是两个或两个以上,除非另有明确具体的限定。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语″安装″、
″相连″、″连接″应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或
一体地连接;可以是机械连接,也可以是电连接或可以相互通信;可以是直接相连,也
可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。
对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含
义。
下文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简
化本发明的公开,下文中对特定例子的部件和设定进行描述。当然,它们仅仅为示例,
并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或参考
字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设
定之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通
技术人员可以意识到其他工艺的应用和/或其他材料的使用。
请参阅图1,本发明较佳实施方式的家用电器数据的收集系统100包括获取模块
102、解析模块104、数据库106及控制模块108。
该获取模块102用于获取设定域名的家用电器网页数据。例如,设定域名可为各个
电商的域名。获取模块102可以获取一个域名或一组域名的家用电器网页数据,并将网
页数据返回给控制模块108。例如,请参图1,获取模块102可分别获取第一域名组
200、第二域名组202及第三域名204的家用电器网页数据。
家用电器网页数据包含家用电器的品类、品类对应的产品及产品对应的评论。在产
品的页面,会记载产品的标价、卖家id、品类、参数、地址、品牌、卖家类型、月销售
数目等产品信息,因此,本实施方式的产品信息也包含销售信息。在产品评论的页面,
会记载评论时间、评论内容、评论者地址、评论者评论数、购买日期、评论者昵称及产
品型号等评论信息。
解析模块104用于根据该家用电器网页数据,解析得到家用电器的产品信息及评论
信息。解析模块104的解析规则可由用户自定义,对应于不同的域名或域名组,解析模
块104的解析规则也可不同。
具体地,该解析模块104用于根据该家用电器网页数据,解析得到家用电器相关的
品类页,并根据该品类页,解析得到该产品信息。该解析模块104用于根据该家用电器
网页数据,解析得到家用电器相关的评论页,并根据该评论页,解析得到该评论信息。
数据库106用于存储该产品信息及该评论信息。较佳地,数据库106包括域名数
据库存及信息数据库。域名数据库可用于存储从不同域名(或域名组)获取的产品信息、
评论信息及行业信息。不同域名(或域名组)对应于不同的电商(或电商组)。
例如,本实施方式中,域名数据库的数量为四个,为第一域名组数据库110、第二
域名组数据库112、第三域名数据库113及第四域名数据库114,分别对应存储四个不
同域名或域名组的家用电器网页数据。域名组所包含的域名及个数可由用户自定义。例
如,第一域名组数据库110、第二域名组数据库112及第三域名数据库113可分别对
应存储第一域名组200、第二域名组202及第三域名204的产品信息及评论信息,第
四域名数据库114可对应存储第四域名206的行业信息。
信息数据库为产品信息数据库116及评论信息数据库118。二个信息数据库有利于
数据的快速存取。数据库106可设置在存储装置内。以上数据库106的构架有利于后
续控制模块108对数据的存储。
例如,请参表1,在一个示例中,数据库106的设计如下。
表1
该控制模块108连接该获取模块102、该解析模块104及该数据库106。该控制
模块108用于控制该获取模块102获取该家用电器网页数据、及控制该解析模块104
解析得到该产品信息及评论信息及将该产品信息及该评论信息存储在该数据库106。
具体地,控制模块108可根据用户输入的电商域名,打开该电商网站,并交由解析
模块104处理这个域名,并让解析模块104获取第一个爬取的URL(Uniform Resource
Locator)。控制模块108从解析模块104获取第一个需要爬取的URL,然后作为请求在
调度中进行调度。控制模块108将第一个需要爬取的URL发送到获取模块102。获取模块
102将该URL对应的家用电器网页数据下载回来,并将下载回来的家用电器网页数据发送
到控制模块108。
控制模块108将该家用电器网页数据发送到解析模块104进行处理。解析模块104处
理响应并返回解析得到的产品信息及评论信息并向控制模块108发送第二个爬取的URL。
控制模块108将解析得到的产品信息及评论信息存储分别存储在产品信息数据库116及评
论信息数据库118。如此重复,直至处理完成所有URL。
进一步地,该控制模块108用于控制该解析模块104,根据该家用电器网页数据,
解析得到家用电器行业信息,及将该家用电器行业信息存储在该数据库106。该家用电
器行业信息可提供至家电企业,为进一步提高产品品质及迎合消费者需求提供了参考。
例如,控制模块108可控制获取模块102获取第四域名206的家用电器网页数据,解
析模块104从该家用电器网页数据解析得到行业信息页,并根据该行业信息页,解析得
到家用电器行业信息。该信息数据库还包括行业信息数据库120,控制模块108将该行
业信息存储在行业信息数据库120。
在本实施方式中,该控制模块108存储有产品信息表及评论信息表。该解析模块
104用于根据该产品信息表及该评论信息表从该家用电器网页数据解析得到该产品信
息及评论信息,该控制模块108用于将该产品信息写入该产品信息表,及将该评论信息
写入该评论信息表。
例如,请参下表2及表3,在一个示例中,产品信息表及评论信息表设计如下。
当解析模块104解析家用电器网页数据后得到的产品信息及评论信息不包含上述表格
中的一项或多项项目时,控制模块108可将对应的值留空或填上NULL之类的值。
工作时,解析模块104可利用第一解析规则对第一域名组200的家用电器网页数
据进行解析,得到第一域名组200所对应的产品信息及评论信息,控制模块108将第
一域名组200所对应的产品信息及评论信息暂存在第一域名组数据库110。
解析模块104可利用第二解析规则对第二域名组202的家用电器网页数据进行解
析,得到第二域名组202所对应的产品信息及评论信息,控制模块108将第二域名组
202所对应的产品信息及评论信息暂存在第二域名组数据库112。
解析模块104可利用第三解析规则对第三域名204的家用电器网页数据进行解析,
得到第三域名204所对应的产品信息及评论信息,控制模块108将第三域名204所对
应的产品信息及评论信息暂存在第三域名数据库113。
解析模块104可利用第四解析规则对第四域名206的家用电器网页数据进行解析,
得到第四域名206所对应的行业信息,控制模块108将第四域名206所对应的行业信
息暂存在第四域名数据库。
控制模块108从第一域名组数据库110读取第一域名组200所对应的产品信息及
评论信息,从第二域名组数据库112读取第二域名组202所对应的产品信息及评论信
息,从第三域名数据库113读取第三域名204所对应的产品信息及评论信息,从第四
域名数据库114读取第四域名206所对应的行业信息,对这些信息进行分类整理,最
终得到产品信息、评论信息及行业信息,将产品信息存储在产品信息数据库116,及将
评论信息存储在评论信息数据库118,及将行业信息存储在行业信息数据库120。
综上所述,上述家用电器数据的收集系统100,可通过访问各个网络经销商的网址,
获取各大电商的家用电器的产品信息及评论信息并进行存储。产品信息及评论信息对于家电
企业提高产品品质至关重要,有利于家电企业提升产品品质。进一步地,上述收集系统100
可以解决传统家电行业中销售信息、用户体验信息反馈周期长的问题,能够实时了解产品存
在的问题,了解用户的需求,完善产品,打造精品,提高产品的质量。上述收集系统100
可采用Scrapy架构以执行爬虫任务以获取以上信息,并可利用Python语言对可编程硬件
进行编程以实现相应功能。
请参图2,本发明较佳实施方式提供一种家用电器数据的收集方法,该收集方法可
由以上实施方式的收集系统100实现。该收集方法包括以下步骤:
S11:获取模块102获取设定域名的家用电器网页数据;
S12:解析模块104根据该家用电器网页数据,解析得到家用电器的产品信息;
S13:控制模块108将该产品信息存储在数据库106;
S14:该解析模块104根据该家用电器网页数据,解析得到家用电器的评论信息;
及
S15:该控制模块108将该评论信息存储在该数据库106。
具体地,步骤S12包括:该解析模块104根据该家用电器网页数据,解析得到家
用电器相关的品类页,并根据该品类页,解析得到该产品信息。
步骤S14包括:该解析模块104根据该家用电器网页数据,解析得到家用电器相
关的评论页,并根据该评论页,解析得到该评论信息。
在一个实施方式中,该收集方法包括步骤:
S16:该解析模块104,根据该家用电器网页数据,解析得到家用电器行业信息,
控制模块108将该家用电器行业信息存储在该数据库106。
该控制模块108存储有产品信息表及评论信息表。步骤S12包括:该解析模块104
根据该产品信息表从该家用电器网页数据解析得到该产品信息。步骤S13包括:该控制
模块108将该产品信息写入该产品信息表。步骤S14包括:该解析模块104根据该评
论信息表从该家用电器网页数据解析得到该评论信息。步骤S15包括:该控制模块108
将该评论信息写入该评论信息表。
以上步骤的具体实施过程,可参以上实施方式所揭示的收集系统100,在此不再详
细展开。
需要指出的是,以上步骤的编号仅作为区分步骤之间的编号,并不是对步骤或流程执行
在前或后的限制,本领域技术人员可知道,在步骤之间不矛盾的情况下,可以根据实际情况
调整步骤之间的顺序。
综上所述,上述家用电器数据的收集方法,可通过访问各个网络经销商的网址,获取
各大电商的家用电器的产品信息及评论信息并进行存储。产品信息及评论信息对于家电企业
提高产品品质至关重要,有利于家电企业提升产品品质。
在本说明书的描述中,参考术语″一个实施方式″、″一些实施方式″、″示意性
实施方式″、″示例″、″具体示例″、或″一些示例″等的描述意指结合所述实施方
式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示
例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。
而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例
中以合适的方式结合。
此外,术语″第一″、″第二″仅用于描述目的,而不能理解为指示或暗示相对重
要性或者隐含指明所指示的技术特征的数量。由此,限定有″第一″、″第二″的特征
可以明示或者隐含地包括至少一个该特征。在本发明的描述中,″多个″的含义是至少
两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一
个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部
分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的
顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被
本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用
于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以
供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从
指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、
装置或设备而使用。就本说明书而言,″计算机可读介质″可以是任何可以包含、存储、
通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置
或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具
有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取
存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速
存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介
质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或
其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电
子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述
实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软
件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公
知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻
辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列
(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤
是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介
质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是
各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模
块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块
如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计
算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述
了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限
制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换
和变型。