一种基于长短期记忆(LSTM)模型的多标签行业分类方法及装置技术领域
本发明涉及一种数据处理方法,更具体的,涉及一种基于LSTM的多标签行业分类
方法及装置。
背景技术
现有的行业分类主要采用包括人工方法标注公司行业类别,制定行业分类规则以
判断公司行业或传统分类方法(如支持向量机/决策树等方法)来实现,存在以下问题:
(1)人工方法:行业知识存在知识壁垒,需要大量行业专家参与才能有效完成标注,耗
费大量人力/物力;
(2)规则方法:公司数量庞大,很难兼顾所有公司特征制定行业分类规则;新公司层出
不穷,难以及时更新;制定规则需要大量人员参与,实现难度高;
(3)传统分类方法:需要进行特征提取处理,处理后文档损失信息,容易导致分类精度
降低。
人工方法和规则方法均需要大量人员参与才得以实现,不仅无法应对庞大的公司
数量,也难以适应时代的发展;而对于传统分类方法而言,其不考虑原始文本中各个词汇的
上下文顺序,直接通过将文档中的词映射为向量来计算是否归属于某一个行业,但在进行
文档向量表示前,需要进行特征提取的预处理工作。以采用卡方检验特征选择方法为例,其
通过计算各个词基于各个行业类别的卡方值,以确定是否保留某个词作为行业特征词,一
旦特征词选择过少,各个行业类别的特征数量随之变少,所训练的行业分类器无法有效应
对更多不同词汇表达的公司描述/公司经营范围,因而无法准确判断新公司行业类别;一旦
特征词选择过多,文档向量维数过大且稀疏,需要耗费较多的存储空间和计算资源,分类效
率低下,而且更容易出现过拟合,分类精度降低。
同时,当前的行业分类主要集中于单标签行业分类,即一个公司仅标注一个行业。
然而,随着公司的不断发展,许多公司朝向多元化业务发展,涉及多个行业,单标签行业分
类很难描述公司真实的行业分布。
发明内容
本发明旨在解决现有技术中存在的技术问题,基于长短时记忆Long Short Term
(简称LSTM)的多标签行业分类模型,仅需输入公司名、公司描述、公司经营范围,即可得到
该公司的多个行业标签,大大降低人工标注成本,提高分类精度,且符合大多数公司非单一
行业,而具有多个行业属性的情况。
为实现上述目的,本发明提供了一种基于长短期记忆(LSTM)模型的多标签行业分
类方法,该方法包括如下步骤:
步骤1,采集公司名、公司描述、公司经营范围数据;
步骤2,按类划分测试集,以及对所述采集的数据进行切分词等预处理操作;
步骤3,采用LSTM模型构建多个二分类器对所述预处理后的数据进行分类训练,以训练
数据真实标签作为寻优方向,训练出多标签行业分类模型;
步骤4,以精度、召回率和F1值作为评估指标,实现对测试集数据的自动评估,并采集小
部分新公司数据抽样进行人工评估,最终训练出精度更高的多标签行业分类模型;
步骤5,利用基于LSTM模型的多标签行业分类模型自动实现对待分类公司的多个行业
标签预测。
更具体的,所述步骤2具体包括:
根据预先分类训练得到测试集;
对所述采集的公司名称、公司描述、公司经营范围数据采用自然语言处理方法进行分
词处理。
更具体的,所述步骤3具体包括:利用分词后的词汇从前往后的语义信息以及词序
信息,理解不同语境下各个词汇的真实含义,采用LSTM模型构建多个二分类器,并且以每个
公司的多个行业标签作为多个二分类寻优方向,通过不断循环学习网络中的信息,对每一
个公司在每一个行业上均预测是否能被划分为该行业,从而实现有效分类。
更具体的,所述步骤4还包括:设置F1值,如果测试集的值大于等于所述F1值,则进
行步骤5;如果测试集的值小于所述F1值,则回到步骤3,如此往复循环。
更具体的,所述步骤5中的待分类公司通过用户输入公司名、公司描述、公司经营
范围实现。
根据本发明的另一方面,还提供了一种基于LSTM模型的多标签行业分类装置,该
装置包括:
采集模块,采集公司名、公司描述、公司经营范围数据;
预处理模块,按类划分测试集,以及对所述采集的数据进行切分词等预处理操作;
分类训练模块,采用LSTM模型构建多个二分类器对所述预处理后的数据进行分类训
练,以训练数据真实标签作为寻优方向,训练出多标签行业分类模型;
分类测试评估模块,以精度、召回率和F1值作为评估指标,实现对测试集数据的自动评
估,并采集小部分新公司数据抽样进行人工评估,最终训练出精度更高的多标签行业分类
模型;
输入模块,用于用户输入待分类公司的公司名、公司描述、公司经营范围数据;
分类预测模块,利用基于LSTM模型的多标签行业分类模型自动实现对于待分类公司的
多个行业标签预测。
更具体的,所述预处理模块具体用于:
根据预先分类规则训练得到测试集;
对所述公司名称、公司描述、公司经营范围数据采用自然语言处理方法进行分词处理。
更具体的,所述分类训练模块具体用于:
利用分词后的词汇从前往后的语义信息以及词序信息,理解不同语境下各个词汇的真
实含义,采用LSTM模型构建多个二分类器,并且以每个公司的多个行业标签作为多个二分
类寻优方向,通过不断循环学习网络中的信息,对每一个公司在每一个行业上均预测是否
能被划分为该行业,从而实现有效分类。
更具体的,所述分类预测模块中的所述待分类公司通过用户输入待分类公司的公
司名、公司描述、公司经营范围实现。
本发明基于神经网络模型LSTM,并将其转化为多标签分类问题,来实现对于公司
名、公司描述、经营范围的多标签分类,提高了过去行业分类采用传统分类方法所带来的效
率低下,精度不足的问题,同时能够实现全自动多标签分类,无需耗费人力,且无需提前明
确各个公司所标注行业标签个数,更好地满足行业分类应用需要。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变
得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得
明显和容易理解,其中:
图1示出了根据本发明一种基于LSTM的多标签行业分类方法的流程图;
图2示出了本发明一实施例的基于LSTM的多标签行业分类方法的流程图。
图3示出了根据本发明一种基于LSTM的多标签行业分类装置的系统框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实
施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施
例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可
以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具
体实施例的限制。
为了更好的说明本发明的方案,下面将结合说明书附图进行说明。
图1示出了根据本发明一种基于LSTM的多标签行业分类方法的流程图。
如图1所示,根据本发明的一种基于长短期记忆(LSTM)模型的多标签行业分类方
法,该方法包括如下步骤:
步骤1,采集公司名、公司描述、公司经营范围数据;
步骤2,按类划分测试集,以及对所述采集的数据进行切分词等预处理操作。
具体来说,先根据预先分类训练得到测试集,然后对所述采集的公司名称、公司描
述、公司经营范围数据采用自然语言处理方法进行分词处理。
步骤3,采用LSTM模型构建多个二分类器对所述预处理后的数据进行分类训练,以
训练数据真实标签作为寻优方向,训练出多标签行业分类模型。
具体来说,该步骤利用分词后的词汇从前往后的语义信息以及词序信息,理解不
同语境下各个词汇的真实含义,采用长短期记忆LSTM(Long Short-Term Memory)模型构建
多个二分类器,并且以每个公司的多个行业标签作为多个二分类寻优方向,通过不断循环
学习网络中的信息,对每一个公司在每一个行业上均预测是否能被划分为该行业,从而实
现有效分类。
步骤4,以精度、召回率和F1值作为评估指标,实现对测试集数据的自动评估,并采
集小部分新公司数据抽样进行人工评估,最终训练出精度更高的多标签行业分类模型。
具体的来说,设置F1值,如果测试集的值大于等于所述F1值,则认为训练完成,进
行步骤5;如果测试集的值小于所述F1值,则判定为训练尚未完成,回到步骤3,继续进行分
类训练,如此往复循环,直到训练出精度更高的多标签行业分类模型。
步骤5,利用基于LSTM模型的多标签行业分类模型自动实现对待分类公司的多个
行业标签预测。
更具体的,所述步骤5中的待分类公司通过用户输入公司名、公司描述、公司经营
范围实现。
图2示出了本发明一实施例的基于LSTM的多标签行业分类方法的流程图。
如图2所示,采集公司名、公司描述、公司经营范围数据;根据预先分类训练得到测
试集,然后对所述采集的公司名称、公司描述、公司经营范围数据进行数据的预处理,采用
自然语言处理方法进行分词处理;采用LSTM构建多个二分类器对所述预处理后的数据进行
分类训练,以训练数据真实标签作为寻优方向,训练出多标签行业分类模型;设置F1值,如
果测试集的值大于等于所述F1值,则认为训练完成,用户输入公司名、公司描述、公司经营
范围,利用基于LSTM模型的多标签行业分类模型自动实现对输入的待分类公司的多个行业
标签预测;如果测试集的值小于所述F1值,则判定为训练尚未完成,则继续进行LSTM模型的
分类训练,如此往复循环。
图3示出了根据本发明一种基于LSTM模型的多标签行业分类装置的框图。
如图3所示,该装置包括:采集模块、预处理模块、分类训练模块、分类测试评估模
块、分类预测模块
采集模块,采集公司名、公司描述、公司经营范围数据;
预处理模块,按类划分测试集,以及对所述采集的数据进行切分词等预处理操作;
分类训练模块,采用LSTM模型构建多个二分类器对所述预处理后的数据进行分类训
练,以训练数据真实标签作为寻优方向,训练出多标签行业分类模型;
分类测试评估模块,以精度、召回率和F1值作为评估指标,实现对测试集数据的自动评
估,并采集小部分新公司数据抽样进行人工评估,最终训练出精度更高的多标签行业分类
模型;
输入模块,用于用户输入待分类公司的公司名、公司描述、公司经营范围数据。
分类预测模块,利用基于LSTM模型的多标签行业分类模型自动实现对于待分类公
司的多个行业标签预测。
更具体的,所述预处理模块具体用于:
根据预先分类规则训练得到测试集;
对所述公司名称、公司描述、公司经营范围数据采用自然语言处理方法进行分词处理。
更具体的,所述分类训练模块具体用于:
利用分词后的词汇从前往后的语义信息以及词序信息,理解不同语境下各个词汇的真
实含义,采用LSTM构建多个二分类器,并且以每个公司的多个行业标签作为多个二分类寻
优方向,通过不断循环学习网络中的信息,对每一个公司在每一个行业上均预测是否能被
划分为该行业,从而实现有效分类。
更具体的,所述分类预测模块中的所述待分类公司通过用户输入待分类公司的公
司名、公司描述、公司经营范围实现。
LSTM模型是一种长短时记忆神经网络模型,可以用于连接先前的信息到当前的任
务上,并且学习长期依赖信息,即能记住前面时间节点的信息,不致于出现后面时间的节点
对于前面时间的节点感知力下降的情况。利用LSTM模型来训练行业分类器,不再需要进行
特征提取的预处理操作,不会产生因为特征提取而带来的问题,而且其能够有效利用公司
描述/公司经营范围中各个词汇之间的词序信息,理解不同语境下各个词汇的真实含义,通
过不断循环学习网络中的信息,从而实现有效分类。传统方法仅给每一个公司在多个行业
中寻找到一个行业,基于LSTM模型的多标签行业分类,在结果预测环节,实现多个二分类
器,对于每一个公司在每一个行业上均预测是否能被划分为该行业,此方法无需人工明确
每一个公司所应该标注的行业个数,能够实现自动判断每个公司所应该划分的行业个数,
符合现实需要。
本发明就是采用了性能表现优的长短时记忆神经网络模型LSTM,此种模型能有效
感知公司名+公司描述+经营范围文档描述中从前往后的语义信息以及词序信息,更好地理
解文档真实含义,并且以每个公司的多个行业标签作为多个二分类寻优方向,最终训练出
精度更高的多标签行业分类模型。
本发明的实施提高了过去行业分类采用传统分类方法所带来的效率低下,精度不
足的问题,同时能够实现全自动多标签分类,无需耗费人力,且无需提前明确各个公司所标
注行业标签个数,更好地满足行业分类应用需要。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技
术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修
改、等同替换、改进等,均应包含在本发明的保护范围之内。