一种消费者购买酒的价位预测方法及系统技术领域
本发明实施例涉及数据挖掘技术领域,尤其涉及一种消费者购买酒的价位预测方
法及系统。
背景技术
随着人们生活水平的提高,市场上销售的酒的种类及价格趋于多样化,研究消费
者的消费行为对生产企业制定营销策略,增加经营收入等方面具有重要的现实意义。
以葡萄酒为例,葡萄酒作为一种健康又时尚的饮品,越来越受到人们的重视,其消
费也越来越普及。消费者的消费偏好和消费行为趋势会很大程度上影响葡萄酒市场的走
向,进而影响我国葡萄酒产业未来发展的方向。深入了解葡萄酒消费者进行研究,既可以进
一步完善与扩充消费者行为研究理论,更可以使葡萄酒企业的营销活动更具针对性。现有
技术中使用二分类v双支持向量机训练模型来对消费者的行为进行预测,但是该方法预测
的精确度不高。因此,如何提高对消费者购买价位预测的精确度是现如今亟待解决的课题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种消费者购买酒的价位预测方法
及系统。
一方面,本发明实施例提供一种消费者购买酒的价位预测方法,包括:
对获取到的消费者样本集对应的影响因素进行提取,所述影响因素包括:质量因
素、企业营销因素、购买动机因素和个人特征因素,每一所述影响因素至少包括一个影响因
子;
计算各所述影响因子对应的权重,并根据所述权重获取目标影响因子;
根据所述目标影响因子和酒的价位建立二分类v双支持向量机模型,根据所述二
分类v双支持向量机模型建立多分类模型,并利用所述消费者样本集对所述多分类模型进
行训练;
利用所述多分类模型对待预测样本进行预测。
另一方面,本发明实施例提供一种消费者购买酒的价位预测系统,包括:
提取模块,用于对获取到的消费者样本集对应的影响因素进行提取,所述影响因
素包括:质量因素、企业营销因素、购买动机因素和个人特征因素,每一所述影响因素至少
包括一个影响因子;
计算模块,用于计算各所述影响因子对应的权重,并根据所述权重获取目标影响
因子;
模型建立模块,用于根据所述目标影响因子和酒的价位建立二分类v双支持向量
机模型,根据所述二分类v双支持向量机模型建立多分类模型,并利用所述消费者样本集对
所述多分类模型进行训练;
模型预测模块,用于利用所述多分类模型对待预测样本进行预测。
本发明实施例提供的一种消费者购买酒的价位预测方法及系统,通过根据目标影
响因子和酒的价位建立二分类v双支持向量机模型,根据二分类v双支持向量机模型建立多
分类模型,提高了对消费者购买酒的价位预测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发
明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根
据这些附图获得其他的附图。
图1为本发明实施例提供的一种消费者购买酒的价位预测方法流程示意图;
图2为本发明实施例提供的二分类v双支持向量机模型分类示意图;
图3为本发明实施例提供的多分类模型训练示意图;
图4为本发明实施例提供的Lasso算法计算原理图;
图5为本发明另一实施例提供的一种消费者购买酒的价位预测方法流程示意图;
图6为本发明实施例提供的多分类模型预测流程示意图;
图7为本发明实施例提供的一种消费者购买酒的价位预测系统结构示意图;
图8为本发明另一实施例提供的一种消费者购买酒的价位预测系统结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例
中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员
在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种消费者购买酒的价位预测方法流程示意图,如图1
所示,所述方法,包括:
步骤101:对获取到的消费者样本集对应的影响因素进行提取,所述影响因素包
括:质量因素、企业营销因素、购买动机因素和个人特征因素,每一所述影响因素至少包括
一个影响因子;
具体地,获取消费者样本集,其获取方式可以是通过调查问卷的方式,但不局限于
上述方式,对获取到的消费者样本集对应的影响因素进行提取,影响因素包括质量因素、企
业营销因素、购买动机因素和个人特征因素等。其中影响酒的质量因素有颜色、香气、口感、
获奖与否、产地、年份以及包装等影响因子;企业营销因素包括:广告投入、促销活动、卖场
地理位置、以及售货员的服务技巧等影响因子;购买动机因素包括:送礼、宴请、聚会以及自
饮等影响因子;个人特征因素包括:消费者的收入、学历、职业、年龄、性别以及婚姻情况等
影响因子。
步骤102:计算各所述影响因子对应的权重,并根据所述权重获取目标影响因子;
具体地,计算上述各个影响因子对应的权重,可以理解的是,权重越大的影响因子
其对预测结果的影响程度越大,该影响因子越重要,根据权重获取目标影响因子。
步骤103:根据所述目标影响因子和酒的价位建立二分类v双支持向量机模型(v-
TSVM),根据所述二分类v双支持向量机模型建立多分类模型,并利用所述消费者样本集对
所述多分类模型(v-TDAGSVM)进行训练;
具体地,图2为本发明实施例提供的二分类v双支持向量机模型分类示意图,如图2
所示,根据目标影响因子和酒的价位,两两建立二分类v双支持向量机模型,其中酒的价位
分为0-100元、101-200元、201-300元以及300元以上,可以理解的是,酒的价位可以根据实
际情况进行划分,此处不作具体限制。若酒的价位有K类,则可以建立K(K-1)/2个二分类v双
支持向量机模型;其中线性模型如公式(1)和公式(2)所示:
其中,Xi和Xj分别为购买第i种和第j种酒的价位的消费者组成的消费者样本集;
和为全1列向量;νi∈(0,1)和νj∈(0,1)是事先给定的参数,用来控制二分类
v双支持向量机模型中的支持向量的个数和错分率的分数;ξij和ξji是松弛变量组成的向
量;li,lj为消费第i种和第j种酒的消费者个数。
公式(1)中,目标函数第一项表示的要求最小化第i类各样本点到其对应的超平面
的距离的平方和,其意义是,要求相同类型的样本点,这里是指第i类样本点尽可能的靠在
一起;第二项表示要最大化ρi的值;第三项表示要最小化第j类点到第i类超平面的错分率。
约束条件使得第j类的点尽可能的ρi的距离以远离该i类超平面。类似的,公式(2)也具有上
述理论意义,此处不再赘述。
通过上述模型用来寻求下述两个不平行的超平面:
fij=(wij·x)+bij=0和fji=(wji·x)+bji=0 (3)
其中,wij,wji∈Rn是n维欧式空间中超平面的法向量;bij,bji∈R是偏置。
当需要测试一个新的样本点(消费者)x时,需计算它距离这两个超平面的距离大
小:
和
如果dij<dji,也就是说该测试样本点到第i类超平面的距离小于它到第j类超平
面的距离,则判别这个新的样本点属于第i类,也就是判定该消费者会消费第i类价位的酒;
反之亦然。
根据上述建立的K(K-1)/2个二分类v双支持向量机模型,通过有向无环图选择和
重建多分类模型,并利用获取到的消费者样本集对多分类模型进行训练。
图3为本发明实施例提供的多分类模型训练示意图,如图3所示,假设有类别1、类
别2和类别3这三种价位的葡萄酒。首先,用属于类别1和类别2的已知样本建立二分类v双支
持向量机模型,得到公式(3)所构建的超平面12和超平面21,利用公式(4)判断测试样本属
于类别1还是类别2;同样的过程,分别用属于类别2和类别3的已知样本构建二分类v双支持
向量机模型,得到公式(3)所建立的超平面23和超平面32,利用公式(4)判断测试样本属于
类别2还是3;对类别3和类别1同理。这样一共会构建3个二分类v双支持向量机模型。
步骤104:利用所述多分类模型对待预测样本进行预测。
具体地,利用训练好多分类模型可以对待预测样本进行预测。
本发明实施例通过根据目标影响因子和酒的价位建立二分类v双支持向量机模
型,根据二分类v双支持向量机模型建立多分类模型,提高了对消费者购买酒的价位预测的
准确性。
在上述实施例的基础上,所述根据所述二分类v双支持向量机模型建立多分类模
型并对所述多分类模型,并利用所述消费者样本集对所述多分类模型进行训练,还包括:
通过交叉验证法获得模型参数最优的所述多分类模型。
具体地,因为构建的多分类模型依赖于预先给定的参数v,特别的,对于非线性情
形,还依赖于核参数r。在该过程采用交叉验证方法来选取最优参数,以保证模型的分类准
确性。该过程方法如下:将所有的消费者样本集中每一类样本都平均分成5部分,每一类中
抽取其中的4份作为训练,剩下的用来测试。将此过程重复5次,在5次中选取的模型参数至
少有2个是不同的,选择准确率最高的对应的模型参数,从而使多分类模型最优。
本发明实施例通过交叉验证法对模型进行训练从而得到最优的多分类模型,提高
了预测的准确度。
在上述实施例的基础上,所述计算各所述影响因子对应的权重,包括:
根据Lasso算法计算各所述影响因子对应的权重。
具体地,图4为本发明实施例提供的Lasso算法计算原理图,如图4所示,X1…Xk1为
产品质量因素对应的影响因子,Xk1+1…Xk2为企业营销因素对应的影响因子,Xk2+1…Xk3为购
买动机因素对应的影响因子,Xkk+1…XN为个人特征因素对应的影响因子。Lasso算法是一种
压缩估计。它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设
定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。
Lasso的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和
最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型。因此可以通过
Lasso算法计算各所述影响因子对应的权重。为Lasso算法对应的公式,如公式(5)所示:
其中,Xj为影响消费者消费的影响因子;
为消费者购买酒的价位组成的向量,yi为一个消费者购买的酒的价位;βj为需要求
得的权重因子。
通过该模型进行优化求解,即可求得βj,即影响消费因子的权重。
本发明实施例通过Lasso算法计算各个影响因子对应的权重,使得各个影响因子
的特征更具直观性和可解释性。
在上述实施例的基础上,在所述根据所述影响因子和酒的价位建立二分类v双支
持向量机模型之前,还包括:
获取所述权重大于预设阈值的所述目标影响因子,其中所述预设阈值大于0。
具体地,在根据所述影响因子和酒的价位建立二分类v双支持向量机模型之前,从
获取到的目标影响因子中获取权重大于预设阈值的目标影响因子,其中预设阈值大于0,且
可以根据实际情况进行调整。
本发明实施例通过获取权重大于预设阈值的目标影响因子,将权重较小的影响因
子去掉,只剩下权重较大的影响因子,简化了建立的二分类v双支持向量机模型。
在上述各实施例的基础上,所述二分类v双支持向量机模型至少为三个。
具体地,由于需要根据建立的二分类v双支持向量机模型建立多分类模型,所以二
分类v双支持向量机模型至少为三个。
本发明实施例通过根据目标影响因子和酒的价位建立二分类v双支持向量机模
型,根据二分类v双支持向量机模型建立多分类模型,提高了对消费者购买酒的价位预测的
准确性。
图5为本发明另一实施例提供的一种消费者购买酒的价位预测方法流程示意图,
如图5所示,所述方法整体流程如下:
以消费者购买葡萄酒价位预测为例:
步骤501:数据预处理过程;通过调查问卷确定影响消费者购买葡萄酒的各影响因
素,包括:葡萄酒的质量因素、企业营销因素、购买动机因素以及个人特征因素等。其中影响
葡萄酒的质量因素包括葡萄酒的颜色、香气、口感、获奖与否、产地、年份以及包装等;企业
营销因素包括广告投入、促销活动、卖场地理位置以及售货员的服务技巧等;购买动机因素
包括送礼、宴请、聚会以及自饮等;个人特征因素包括消费者的收入、学历、职业、年龄、性别
以及婚姻情况等;通过Lasso算法计算影响葡萄酒消费行为的各个影响因子的权重,并根据
权重获取对应的目标影响因子。
步骤502:准备过程;从获取到的目标影响因子中获取权重大于预设阈值的目标影
响因子,其中预设阈值大于0,且可以根据实际情况进行调整;将获取的消费者样本集分为
训练数据样本和测试数据样本。
步骤503:训练过程;根据目标影响因子和葡萄酒的价位建立二分类v双支持向量
机模型,并根据二分类v双支持向量机模型通过有向无环图(DAGSVM算法)建立多分类模型,
通过训练数据样本和测试数据样本利用交叉验证法得到多分类模型的模型参数对应的最
优参数,并对多模型参数进行训练。
步骤504:预测过程;通过训练好的多分类模型对未知消费者的数据进行预测。图6
为本发明实施例提供的多分类模型预测流程示意图,如图6所示:假设葡萄酒的价位分为4
类,0-100元为1类;101-200元为2类;201-300元为3类;300元以上为4类;因此可以建立6个
二分类v双支持向量机模型(v-TSVM),分别为1 vs 2 v-TSVM;1 vs 3 v-TSVM;1 vs 4 v-
TSVM;2 vs 3 v-TSVM;2 vs 4 v-TSVM;3 vs 4 v-TSVM;利用以上6个v-TSVM建立多分类模
型,其中,图4中的每个v-TSVM的位置可以互换。当有一个待预测样本输入多分类模型后,首
先进入1 vs 4 v-TSVM;若1 vs 4 v-TSVM判断该待预测样本的类别不属于1类则流向2 vs
4 v-TSVM,若2 vs 4 v-TSVM判断该待预测样本不属于2类,则流向3 vs 4 v-TSVM,3 vs 4
v-TSVM可以输出该待预测样本的类别是属于3类还是属于4类,以上预测过程只是一个举
例,其具体流向需要根据实际情况而定,本发明实施例对此不作具体限定。
本发明实施例通过根据目标影响因子和酒的价位建立二分类v双支持向量机模
型,根据二分类v双支持向量机模型建立多分类模型,提高了对消费者购买酒的价位预测的
准确性。
图7为本发明实施例提供的一种消费者购买酒的价位预测系统结构示意图,如图7
所述,所述系统,包括提取模块701计算模块702、模型建立模块703和模型预测模块704,其
中:
提取模块701用于对获取到的消费者样本集对应的影响因素进行提取,所述影响
因素包括:质量因素、企业营销因素、购买动机因素和个人特征因素,每一所述影响因素至
少包括一个影响因子;计算模块702用于计算各所述影响因子对应的权重,并根据所述权重
获取目标影响因子;模型建立模块703用于根据所述目标影响因子和酒的价位建立二分类v
双支持向量机模型,根据所述二分类v双支持向量机模型建立多分类模型,并利用所述消费
者样本集对所述多分类模型进行训练;模型预测模块704用于利用所述多分类模型对待预
测样本进行预测。
具体地,提取模块701获取消费者样本集,其获取方式可以是通过调查问卷的方
式,但不局限于上述方式,对获取到的消费者样本集对应的影响因素进行提取,影响因素包
括质量因素、企业营销因素、购买动机因素和个人特征因素等。其中影响酒的质量因素有颜
色、香气、口感、获奖与否、产地、年份以及包装等影响因子;企业营销因素包括:广告投入、
促销活动、卖场地理位置、以及售货员的服务技巧等;购买动机因素包括:送礼、宴请、聚会
以及自饮等;个人特征因素包括:消费者的收入、学历、职业、年龄、性别以及婚姻情况等。计
算模块702计算上述各个影响因子对应的权重,可以理解的是,权重越大的影响因子其对预
测结果的影响程度越大,该影响因子越重要,根据权重获取目标影响因子。模型建立模块
703根据所述目标影响因子和酒的价位建立二分类v双支持向量机模型,根据二分类v双支
持向量机模型建立多分类模型,并利用所述消费者样本集对所述多分类模型进行训练;模
型预测模块704利用所述多分类模型对待预测样本进行预测。
本发明提供的一种消费者购买酒的价位预测系统用于执行上述方法,其具体的实
施方式与方法的实施方式一致,此处不再赘述。
本发明实施例通过根据目标影响因子和酒的价位建立二分类v双支持向量机模
型,根据二分类v双支持向量机模型建立多分类模型,提高了对消费者购买酒的价位预测的
准确性。
在上述实施例的基础上,所述模型建立模块,还用于:
通过交叉验证法获得模型参数最优的所述多分类模型。
具体地,因为构建的多分类模型依赖于预先给定的参数v。在该过程采用交叉验证
方法来选取最优参数,以保证模型的分类准确性。该过程方法如下:将所有的消费者样本集
中每一类样本都平均分成5部分,每一类中抽取其中的4份作为训练,剩下的用来测试。将此
过程重复5次,在5次中选取的模型参数至少有2个是不同的,选择准确率最高的对应的模型
参数,从而使多分类模型最优。
本发明实施例通过交叉验证法对模型进行训练从而得到最优的多分类模型,提高
了预测的准确度。
在上述实施例的基础上,所述计算模块,具体用于:
根据Lasso算法计算各所述影响因子对应的权重。
具体地,Lasso算法是一种压缩估计。它通过构造一个罚函数得到一个较为精炼的
模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种
处理具有复共线性数据的有偏估计。Lasso的基本思想是在回归系数的绝对值之和小于一
个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得
到可以解释的模型。因此计算模块702可以通过Lasso算法计算各所述影响因子对应的权重
本发明实施例通过Lasso算法计算各个影响因子对应的权重,使得各个影响因子
的特征更具直观性和可解释性。
在上述实施例的基础上,图8为本发明另一实施例提供的一种消费者购买酒的价
位预测系统结构示意图,如图8所示,所述系统包括:提取模块701计算模块702、模型建立模
块703、模型预测模块704和筛选模块705,其中:
筛选模块705用于获取所述权重大于预设阈值的所述目标影响因子,其中所述预
设阈值大于0。
具体地,提取模块701计算模块702、模型建立模块703、模型预测模块704与上述实
施例一致,此处不再赘述。在根据所述影响因子和酒的价位建立二分类v双支持向量机模型
之前,筛选模块705从获取到的目标影响因子中获取权重大于预设阈值的目标影响因子,其
中预设阈值大于0,且可以根据实际情况进行调整。
本发明实施例通过获取权重大于预设阈值的目标影响因子,将权重较小的影响因
子去掉,只剩下权重较大的影响因子,简化了建立的二分类v双支持向量机模型。
在上述各实施例的基础上,所述二分类v双支持向量机模型至少为三个。
由于需要根据建立的二分类v双支持向量机模型建立多分类模型,所以二分类v双
支持向量机模型至少为三个。
本发明提供的一种消费者购买酒的价位预测系统用于执行上述方法,其具体的实
施方式与方法的实施方式一致,此处不再赘述。
本发明实施例通过根据目标影响因子和酒的价位建立二分类v双支持向量机模
型,根据二分类v双支持向量机模型建立多分类模型,提高了对消费者购买酒的价位预测的
准确性。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可
以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单
元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可
借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管
参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。