说明书一种面向医疗器械B2B网站用户的智能评价方法和系统
技术领域
本发明属于信息技术领域,具体涉及网站用户评价技术,特别地涉及一种面向医疗器械B2B网站用户的智能评价方法和系统。
背景技术
近年来,随着通信技术的发展以及互联网用户数的显著增长,基于互联网的各种应用应运而生,给人们的日常生活带来了极大的便利。网上购物因其所具备的跨地域性、可交互性和全天候性等优点受到越来越多消费者的青睐。由于在互联网上销售商品相比实体店的销售模式具有一些特色和优势,因而引发不少商品供应商纷纷触网,医疗器械供应商也不例外。在我国,医疗器械作为较特殊的商品,其在网上销售往往通过具备“互联网药品交易服务资格证书”的医疗器械B2B网站进行,医疗器械买卖双方通过这种渠道进行医疗器械的网上交易,能大大减少流通环节,节约成本和降低采购难度。然而,随着医疗器械B2B网站注册用户数的增长,以及网上交易次数的增多,用户诚信与交易风险问题凸显。为了更好地评估网上交易的成交可能性和尽可能地预防交易风险,对网站注册用户进行科学、客观的评价是一件非常重要和有意义的工作。
目前,对医疗器械B2B网站用户的评价大多以用户注册时填写的基本信息为主,或者照搬一些网上卖家考核指标里的信用评价,该评价往往由每笔交易的另一方填报,通过这种评价方式所给的结果,在一定程度上对交易的风险预估具有意义,然而,上述评价方法也存在一定局限性,由于仅仅只考虑到用户注册信息或者卖家信用,因此,普遍存在如下问题:
(1)评价指标较为单一,无法全面、客观反应用户真实状况,对网站用户的评价采用程度形容词为主,等级间界限模糊,不便直观解读;
(2)所用评价规则库缺乏反馈与自动更新机制,易出现评价滞后现象,导致所获评价与用户实情差距大,准确性不高。
发明内容
本发明的目的是针对现有医疗器械B2B网站用户评价的不足,综合利用数据挖掘、多元回归建模和自然语言处理技术对网站用户的基本信息、历史交易信息、网上评论进行计算与建模,给网站的每个用户一个量化的评价值,以达到客观、全面和直观评价用户,为预防网上交易风险作参考的目的。
为达到上述目的,本发明采用如下技术方案,包含如下内容:
1、一种面向医疗器械B2B网站用户的智能评价方法和系统,其特征在于,评价方法包括4个步骤,具体为:
步骤1:建立用户评价指标库;
依次包括:B2B网站用户数据挖掘、用户评价指标选取和用户指标库形成共3个过程, 其中:
B2B网站用户数据挖掘:通过对医疗器械B2B网站用户的基本信息、历史交易信息、网上评论信息进行数据预处理、自然语言处理、分类的操作,对历史交易信息采用改进的K均值聚类算法进行聚类的流程如下:
流程1:数据预处理;将网站的历史交易信息里每笔交易(Ti)中的产品总数量(Q)、交易总金额(M)、完成交付的天数(D)、交易完成后对方的评分(S),进行统计并导出到Excel里;
流程2:初始化聚类中心;设定要划分的聚类簇数为k个,以及这k个聚类的簇中心Cj(Q,M,D,S),j=1,2,…,k;
流程3:开始循环,计算欧式距离并分类;进入循环,计算每笔交易(Ti)中的产品总数量(Q)、交易总金额(M)、完成交付的天数(D)、交易完成后对方的评分(S)到k个聚类簇中心的欧式距离D(Ti,Cj),i=1,2,…,n,j=1,2,…,k;如果满足D(Ti,Ck)=min{D(Ti,Cj),j=1,2,…,n},则将其划分到最相近的类簇;
流程4:重新计算每类的均值用以确定新的聚类中心;新的聚类中心的计算公式如下:
C j k + 1 ( Q , M , D , S ) = 1 n j Σ i = 1 n j T i ( j ) ]]>
式中,是聚类中心,nj是第j个聚类域n中所包含的样本个数,Ti(j)是第j个聚类簇里的每笔交易;
流程5:计算每类的误差平方和并判断;误差平方和的计算公式如下:
J = Σ j = 1 k Σ k = 1 n j | | T k j - C j k ( Q , M , D , S ) | | 2 ]]>
式中,J是误差平方和准则函数,nj是第j个聚类域n中所包含的样本个数,Ti(j)是第j个聚类簇里的k笔交易,是第j个聚类簇的聚类中心;
判断J是否收敛,如果收敛,则结束并跳出循环;否则循环加1,返回流程3,继续计算k个新的聚类中心;
流程6:输出历史交易信息的k个聚类集合;
用户评价指标选取:采取Delphi专家意见法,根据专家反馈的意见确定用于用户评价的指标由注册资金、注册时长、交易次数、交易金额、交易评分、服务评分、诚信评分、留言评分、受罚次数共9项指标构成;
用户评价指标库形成:对所选的9项用户评价指标,采用AHP层次分析法确定指标权重,形成医疗器械B2B网站用户指标库;
步骤2:评价规则库建模;
依次包括:多元回归建模、人工智能建模和智能评价规则库形成共三个过程,其中:
多元回归建模:通过多元回归模型来量化医疗器械B2B网站用户综合评价分,其多元回归模型形式如下:
Y=α+βi*Xi
式中,Y指综合评价分,α是截距项,i取1到9,即9项指标;β指回归系数,由最小二乘法估算得出;Xi指回归变量,即:经过数据预处理后可供回归计算用的9项指标数值;
人工智能建模:使用BP神经网络对网站用户指标库中的指标值进行样本训练与建模,包括:设计网络层数、设计神经节点数、设计传递函数和学习函数共3个流程,具体如下:
流程1:设计网络层数;考虑到3层BP神经网络能以任意精度逼近任意映射关系,因此,BP神经网络的层数选定为3层,即:输入层、隐含层和输出层;
流程2:设计神经节点数;输入层节点数目设置为9,即:9项指标;输出层节点数设置为1,即:输出多元回归建模得到的综合评价分;隐含层节点数由经验公式以及反复训练给出,式中,I是输入层节点数,O是输出层节点数,n由1到10的整数构成;
神经网络的均方误差计算公式如下:
MSE = 1 ns Σ s = 1 s Σ j = 1 n ( y sj ^ - y sj ) 2 ]]>
式中,MSE是整个BP神经网络的均方误差,n是输出节点总数,s是训练样本的总数,是BP神经网络的期望输出值,ysj是BP神经网络的实际输出值;
流程3:设计传递函数和学习函数;选用tansig作为隐含层神经元传递函数;选用purelin作为输出层神经元传递函数;选用traingdx作为训练函数;采用0.1作为学习速率初始值;采用0.9作为动量因子的初始值;
智能评价规则库形成:在多元回归建模和人工智能建模的基础上,提取规则在数据库“Database_B2B_MIA”中建立智能评价规则库表“tb_AssessRule”用于智能评价,“tb_AssessRule”的表结构包含规则序号、内容、规则类型、可信度共四个字段,其中:
规则序号:数据库设计成自动增1的方式,初始值是1;
内容:用varchar(200)类型表示,将之前建模所得的规律转化成规则形式保存到数据库;
规则类型:用varchar(4)类型表示,并以0表示负向相关,1表示正向相关;
可信度:采用numeric(8,4)类型表示,记录每条规则的可信程度百分比;
步骤3:执行评价;
依次包括:选取用户和进行评价共两个过程,其中:
选取用户:从医疗器械B2B网站选取待评价的对象,即已经完成网站注册的用户;
进行评价:调用智能评价规则库里的规则,进行相似性的自动评价匹配;
步骤4:输出并反馈;
依次包括:输出结果和更新智能评价规则库共两个过程,其中:
输出结果:输出所选用户经过智能评价后给出的分值,分值范围是0到100;
更新智能评价规则库:将本次评价规则结果反馈至智能评价规则库,并使用触发器自动更新对应的规则。
2、基于权利要求1所述的面向医疗器械B2B网站用户的智能评价系统,其特征在于包括四个模块:建立用户评价指标库模块,评价规则库建模模块,执行评价模块,输出并反馈模块,这四个模块分别执行对应于面向医疗器械B2B网站用户的智能评价方法中的4个步骤, 其中:
所述建立用户评价指标库模块,包括B2B网站用户数据挖掘、用户评价指标选取和用户指标库形成共3个子模块,这3个子模块分别执行权利要求1步骤1中3个过程的功能;
所述评价规则库建模模块,包括多元回归建模、人工智能建模和智能评价规则库形成共3个子模块,这3个子模块分别执行权利要求1步骤2中3过程的功能;
所述执行评价模块,包括选取用户和进行评价共2个子模块,这2个子模块分别执行权利要求1步骤3中2个过程的功能;
所述输出并反馈模块,包括输出结果和更新智能评价规则库共2个子模块,这2个子模块分别执行权利要求1步骤4中2个过程的功能。
附图说明
图1是本发明整体架构图。
图2是本发明R可视化编辑工具RStuio下分词界面图。
图3是本发明智能评价规则库形成示意图。
图4是本发明实施聚类数据挖掘方法的流程图。
具体实施方式
下面参照附图,对本发明的各种实施作进一步的详细描述。
图1示出了本发明整体架构图。本发明由四个步骤构成,即建立用户评价指标库(1)、评价规则库建模(2)、执行评价(3)和输出并反馈(4)。其中,建立用户评价指标库(1)步骤里的用户评价指标库形成(5)是采用Delphi专家调研法,选出注册资金、注册时长、交易次数、交易金额、交易评分、服务评分、诚信评分、留言评分、受罚次数共9项指标来评价医疗器械B2B网站用户,并采用AHP层次分析法,确定指标权重,包括如下5个过程:
过程1:建立评价层次结构模型;其中第一层分为注册信息、交易信息、服务信息、奖惩信息四类;第二层为9项指标,具体如表1所示。
表1
过程2:构建判断矩阵;
采用一致矩阵法,将指标进行相互间的两两比较,构建出判断矩阵M如下:
M = 1 1 / 2 · · · 1 / 4 1 / 4 1 · · · 1 / 6 · · · · · · · · · · · · 3 1 · · · 2 ]]>
过程3:计算判断矩阵各元素权重;
将判断矩阵M每一行进行归一化计算,其中,Mi是该行元素的几何平均值,由公式计算得出,所得列向量A=(A1,A2,...,An)T作为判断矩阵的权重向量,即各评判指标A11、A12、B11、….、D11的权重。
过程4:对判断矩阵的一致性检验;
所得到的判断矩阵用一致性指标CI来检验,其计算公式为:式中,λmax是判断矩阵的最大特征值,接着,查表来得到相应的随机一致性指标RI,再通过公式计算一致性比例(CR);如果CR<0.1,判断矩阵的一致性是可以接受的,反之,判断矩阵不符合一致性要求,需重新修正。本次计算CR=0.00068,满足CR<0.1,判断矩阵M的一致性是可以接受的。
过程5:给出权重列表;
最终,经过上述计算后,各个指标的权重分配如表2所示。
指标 A11 A12 B11 B12 B13 C11 C12 C13 D11
权重 0.095 0.173 0.091 0.088 0.123 0.074 0.071 0.132 0.153
B2B网站用户数据挖掘(6)是指运用数据挖掘工具对用户基本信息、历史交易信息和网上评论信息进行挖掘,以网上评论信息“发货迅速、产品是正品”进行挖掘为例,首先,通过自然语言处理工具R语言进行的,在R语言可视化处理工具RStudio里通过代码“library(Rwordseg)”调用分词包,并用代码“segmentCN(‘发货迅速、产品是正品’)”执行分词,这样该网上评论就被自动分成5部分,即:“发货迅速产品是正品”;接着将已经完成的各个分词,分别与“正负极性词汇库”做极性匹配计算,并统计正负极性频率,当正面极性统计值大于负面极性统计值时,在数据库中对该评论赋值为1;否则,当正面极性统计值小于负面极性统计值时,在数据库中对该评论赋值为0;本例中正面极性统计值大于负面极性统计值,因此网上评论信息“发货迅速、产品是正品”赋值为1。
智能评价规则库形成(8)是在多元回归建模(9)和人工智能建模(10)的基础上完成,通过在“Database_B2B_MIA”数据库中建立智能评价规则库表“tb_AssessRule”用于智能评价, “tb_AssessRule”的表结构包含规则序号、内容、规则类型、可信度共四个字段,例如:典型的规则:{“注册时间<1年”且“交易评分是5分”且“售后服务评分是5分”}->{交易存在风险的可信度为76%}。
图2示出了本发明R可视化编辑工具RStudio下分词界面图。在RStudio环境下,通过菜单File->Open File,导入处理网上评论文本的代码文件“mytest.R”,该代码文件可对“47.txt”文本里的520条网上评论进行分词、极性判断处理。“mytest.R”打开后显示在RStudio环境界面的左上部分的工作区中,该界面右上部分显示历史输出,左下部分是工作台输出,右下部分显示已经安装的包,在该界面执行“mytest.R”代码文件,520条网上评论将通过函数RWordseg()被执行分词,直到函数TotalPolar()统计正负极性词频后,输出0或1的结果。
图3示出了本发明智能评价规则库形成示意图。通过调用函数ExtractInformatin()从“Database_B2B_MIA”数据库中的用户基本信息、历史交易信息和网上评论信息里抽取出用户ID、注册资金、注册时长、交易次数、交易金额、交易评分、服务评分、诚信评分、留言评分、受罚次数的信息构成表“tb_AssessRule_Processing”,表中“可信度”是通过专家调查法给出初始值,函数ExtractInformatin()的逻辑代码实现见附录1。接着运用数据挖掘技术对“tb_AssessRule_Processing”进行规则挖掘,一旦寻找到规则就将其保存到“智能评价规则库”里。例如采用数据挖掘中的支持向量机方法对表“tb_AssessRule_Processing”进行分类,matlab中采用数据挖掘里支持向量机方法实现预测的示例代码见附录2,该例中支持向量机选用的参数为C=1000,ε=0.01,σ=1,其核函数K(xi,x)采用高斯径向基核函数,计算公式如下:
K ( x i , x ) = exp ( - | | x i - x | | 2 σ 2 ]]>
图4示出了本发明实施聚类数据挖掘方法的流程图。其中:
如流程15所示,初始化聚类个数k和迭代次数n,例如:聚10类,迭代次数为500;
如流程16所示,对待聚类对象(用户评价信息数据对象)进行k个聚类,并计算k个聚类中心,例如:每一用户评价信息数据对象包括注册资金、注册时长、交易次数、交易金额、交易评分、服务评分、诚信评分、留言评分、受罚次数共9属性,聚成10类的中心为{C1i,C2i,C3i,C4i,C5i,C6i,C7i,C8i,C9i},i=1,2,…,10;
如流程17所示,对所有对象进行归类,按照就近原则,例如:将290个用户归类到10类里;
如流程18所示,重新计算新的归类里的聚类中心,即290个用户归类到10类后,对新归的10类每类进行均值计算,得到新的10个聚类中心1;
如流程19所示,判断对象是否收敛,即判断ε是否小于设定的阈值,如果小于即代表收敛,进入流程20;否则返回流程17,重新对所有对象进行归类;
如流程20所示,输出本次聚类的结果;
如流程21所示,判断是否达到最大迭代次数,如果已经达到最大迭代次数则进入流程22,否则返回流程17,重新对所有对象进行归类,例如:是否达到所设定的500次迭代,如果未达到500次,则将迭代次数累加1,返回到流程17;
如流程22所示,运算结束返回聚类结果。
附录
附录1
抽取评价指标信息的ExtractInformatin()函数逻辑代码如下:
附录2
matlab中采用数据挖掘里支持向量机方法实现预测的示例代码如下:
。