一种分类纠错方法及装置.pdf

上传人:sha****007 文档编号:6095330 上传时间:2019-04-10 格式:PDF 页数:16 大小:1.03MB
返回 下载 相关 举报
摘要
申请专利号:

CN201610669153.4

申请日:

2016.08.15

公开号:

CN106339418A

公开日:

2017.01.18

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20160815|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

乐视控股(北京)有限公司; 乐视网信息技术(北京)股份有限公司

发明人:

刘中亮

地址:

100000 北京市朝阳区姚家园路105号3号楼10层1102

优先权:

专利代理机构:

深圳市爱迪森知识产权代理事务所(普通合伙) 44341

代理人:

何婷

PDF下载: PDF下载
内容摘要

本发明涉及数据搜索技术领域,特别是涉及一种分类纠错方法及装置。该方法包括:基于信息类别生成所述信息类别对应的关键词词表;根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词语集合;对所述已分类信息分别进行分类,生成所述已分类信息对应的正类词语集合和负类词语集合;根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错。该分类纠错方法及装置使分类结果更准确,用户获取到的信息更正确,从而更有效的帮助用户进行搜索。

权利要求书

1.一种分类纠错方法,其特征在于,包括:
基于信息类别生成所述信息类别对应的关键词词表;
根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词
语集合;
对所述已分类信息分别进行分类,生成所述已分类信息对应的正类词语集合和负类词
语集合;
根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述
负类词语集合进行纠错。
2.根据权利要求1所述的方法,其特征在于,所述根据所述信息类别对应的关键词词
表,生成所述信息类别对应的已分类信息的错误词语集合包括:
获取所述已分类信息的榜单数据;
根据所述榜单数据生成所述榜单数据对应的核心词;
基于相同的信息类别,将所述核心词在所述关键词词表中进行查找,若所述核心词不
在所述词表中,确定所述核心词被错误分类;
根据所述错误分类的核心词生成所述信息类别对应的已分类信息的错误词语集合。
3.根据权利要求1所述的方法,其特征在于,所述对所述已分类信息分别进行分类,生
成所述已分类信息对应的正类词语集合和负类词语集合包括:
基于分词处理技术对将所述已分类信息的榜单数据进行特征提取;
针对所述特征提取的数据生成所述榜单数据的特征向量;
基于所述榜单数据的特征向量划分训练集和测试集;
在所述训练集上进行训练得到SVM分类器;
将所述测试集输入所述SVM分类器进行测试,得到所述已分类信息对应的正类词语集
合和负类词语集合。
4.根据权利要求1述的方法,其特征在于,所述根据所述已分类信息的错误词语集合,
对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错包括:
基于相同的信息类别,将所述正类词语集合中的词语在所述错误分类词语集合中进行
查找,若在所述错误词语集合中查找到所述正类词语集合中的词语,则将所述词语确认为
属于所述负类词语集合。
5.根据权利要求1所述的方法,其特征在于,所述根据所述已分类信息的错误词语集
合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错包括:
基于相同的信息类别,将所述负类词语集合中的词语在所述错误分类词语集合中进行
查找,若在所述错误词语集合中没有查找到所述负类词语集合中的词语,则将所述词语确
认为属于所述正类词语集合。
6.一种分类纠错装置,其特征在于,包括:
第一生成模块,用于基于信息类别生成所述信息类别对应的关键词词表;
第二生成模块,用于根据所述信息类别对应的关键词词表,生成所述信息类别对应的
已分类信息的错误词语集合;
分类模块,用于对所述已分类信息进行分类,生成所述已分类信息对应的正类词语集
合和负类词语集合;
纠错模块,用于根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类
词语集合和所述负类词语集合进行纠错。
7.根据权利要求6所述的装置,其特征在于,所述第二生成模块包括:
获取单元,用于获取所述已分类信息的榜单数据;
第一生成单元,用于根据所述榜单数据生成所述榜单数据对应的核心词;
判断单元,用于基于相同的信息类别,将所述核心词在所述关键词词表中进行查找,若
所述核心词不在所述词表中,确定所述核心词被错误分类;
第二生成单元,用于根据所述错误分类的核心词生成所述信息类别对应的已分类信息
的错误词语集合。
8.根据权利要求6所述的装置,其特征在于,所述分类模块包括:
提取单元,用于基于分词处理技术对所述已分类信息的榜单数据进行特征提取;
第三生成单元,用于针对所述特征提取的数据生成所述榜单数据的特征向量;
划分单元,用于基于所述榜单数据的特征向量划分训练集和测试集;
训练单元,用于在所述训练集上进行训练得到SVM分类器;
测试单元,用于将所述测试集输入所述SVM分类器进行测试,得到所述已分类信息对应
的正类词语集合和负类词语集合。
9.根据权利要求6述的装置,其特征在于,所述纠错模块包括:
正类纠错单元,用于基于相同的信息类别,将所述正类词语集合中的词语在所述错误
词语集合中进行查找,若在所述错误词语集合中查找到,则将所述词语确认为属于所述负
类词语集合。
10.根据权利要求6所述的装置,其特征在于,所述纠错模块包括:
负类纠错单元,用于基于相同的信息类别,将所述负类词语集合中的词语在所述错误
分类词语集合中进行查找,若在所述错误词语集合中没有查找到所述负类词语集合中的词
语,则将所述词语确认为属于所述正类词语集合。

说明书

一种分类纠错方法及装置

技术领域

本发明涉及数据搜索技术领域,特别是涉及一种分类纠错方法及装置。

背景技术

随着互联网技术的发展,网络中的数据量越来越庞大,目前,大量的网络资源通常
划分不同的类别,例如网站中的大量视频信息通常分为体育、电影、电视、音乐等多个类别,
现有技术可以提供每个类别对应的关键词或热度词的榜单,用户通过浏览该榜单可快速了
解当前类别下比较核心和流行的内容,从而帮助用户搜索自己感兴趣的内容。

提炼某个类别的关键词或热度词通常涉及到文本挖掘、机器学习等领域,比如通
过支持向量机(Support Vector Machine,SVM)来对文本分类从而提炼出某文本的核心词,
SVM可以解决小样本情况下的机器学习问题,可提高泛化性能,能够解决高维问题和非线性
问题,但SVM也存在对缺失数据敏感,对非线性问题必须谨慎选择核函数且没有通用解决方
案等缺点,因此,SVM会造成分类不准确的问题。

发明内容

本发明实施例主要解决的技术问题是提供一种分类纠错的方法及装置,解决SVM
分类不准确的问题,并对分类错误的信息进行纠正。

在第一方面,本发明实施例提供一种分类纠错方法,包括:

基于信息类别生成所述信息类别对应的关键词词表;

根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错
误词语集合;

对所述已分类信息分别进行分类,生成所述已分类信息对应的正类词语集合和负
类词语集合;

根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和
所述负类词语集合进行纠错。

可选地,所述根据所述信息类别对应的关键词词表,生成所述信息类别对应的已
分类信息的错误词语集合包括:

获取所述已分类信息的榜单数据;

根据所述榜单数据生成所述榜单数据对应的核心词;

基于相同的信息类别,将所述核心词在所述关键词词表中进行查找,若所述核心
词不在所述词表中,确定所述核心词被错误分类;

根据所述错误分类的核心词生成所述信息类别对应的已分类信息的错误词语集
合。

可选地,所述对所述已分类信息分别进行分类,生成所述已分类信息对应的正类
词语集合和负类词语集合包括:

基于分词处理技术对将所述已分类信息的榜单数据进行特征提取;

针对所述特征提取的数据生成所述榜单数据的特征向量;

基于所述榜单数据的特征向量划分训练集和测试集;

在所述训练集上进行训练得到SVM分类器;

将所述测试集输入所述SVM分类器进行测试,得到所述已分类信息对应的正类词
语集合和负类词语集合。

可选地,所述根据所述已分类信息的错误词语集合,对所述已分类信息的所述正
类词语集合和所述负类词语集合进行纠错包括:

基于相同的信息类别,将所述正类词语集合中的词语在所述错误分类词语集合中
进行查找,若在所述错误词语集合中查找到所述正类词语集合中的词语,则将所述词语确
认为属于所述负类词语集合。

可选地,所述根据所述已分类信息的错误词语集合,对所述已分类信息的所述正
类词语集合和所述负类词语集合进行纠错包括:

基于相同的信息类别,将所述负类词语集合中的词语在所述错误分类词语集合中
进行查找,若在所述错误词语集合中没有查找到所述负类词语集合中的词语,则将所述词
语确认为属于所述正类词语集合。

在第二方面,本发明实施例提供一种分类纠错装置,包括:

第一生成模块,用于基于信息类别生成所述信息类别对应的关键词词表;

第二生成模块,用于根据所述信息类别对应的关键词词表,生成所述信息类别对
应的已分类信息的错误词语集合;

分类模块,用于对所述已分类信息进行分类,生成所述已分类信息对应的正类词
语集合和负类词语集合;

纠错模块,用于根据所述已分类信息的错误词语集合,对所述已分类信息的所述
正类词语集合和所述负类词语集合进行纠错。

可选地,所述第二生成模块包括:

获取单元,用于获取所述已分类信息的榜单数据;

第一生成单元,用于根据所述榜单数据生成所述榜单数据对应的核心词;

判断单元,用于基于相同的信息类别,将所述核心词在所述关键词词表中进行查
找,若所述核心词不在所述词表中,确定所述核心词被错误分类;

第二生成单元,用于根据所述错误分类的核心词生成所述信息类别对应的已分类
信息的错误词语集合。

可选地,所述分类模块包括:

提取单元,用于基于分词处理技术对所述已分类信息的榜单数据进行特征提取;

第三生成单元,用于针对所述特征提取的数据生成所述榜单数据的特征向量;

划分单元,用于基于所述榜单数据的特征向量划分训练集和测试集;

训练单元,用于在所述训练集上进行训练得到SVM分类器;

测试单元,用于将所述测试集输入所述SVM分类器进行测试,得到所述已分类信息
对应的正类词语集合和负类词语集合。

可选地,所述纠错模块包括:

正类纠错单元,用于基于相同的信息类别,将所述正类词语集合中的词语在所述
错误词语集合中进行查找,若在所述错误词语集合中查找到,则将所述词语确认为属于所
述负类词语集合。

可选地,所述纠错模块包括:

负类纠错单元,用于基于相同的信息类别,将所述负类词语集合中的词语在所述
错误分类词语集合中进行查找,若在所述错误词语集合中没有查找到所述负类词语集合中
的词语,则将所述词语确认为属于所述正类词语集合。

在本发明实施例中,根据关键词词表生成已分类信息的错误词语集合,并将该错
误词语集合分别与已分类信息对应的正类词语集合和负类词语集合进行匹配,找出错误分
类的词语并对错误分类的词语进行纠错,使得分类的结果更准确,用户获取到的信息更正
确,能够有效的帮助用户进行搜索。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使
用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图。

图1是本发明实施例提供的一种分类纠错方法的流程图;

图2是本发明实施例提供的生成错误词语集合方法的流程图;

图3是本发明实施例提供的SVM分类器进行分类的方法的流程图;

图4是本发明实施例提供的一种分类纠错装置的结构框图;

图5是本发明实施例提供的第二生成模块42的结构框图;

图6是本发明实施例提供的分类模块43的结构框图;

图7是本发明实施例提供的一种电子设备的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不
用于限定本发明。

此外,下面所描述的本发明各个实施例中所涉及到的技术特征只要彼此之间未构
成冲突就可以相互组合。

需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两
个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应
理解为对本发明实施例的限定,后续实施例对此不再一一说明。

本发明实施例的第一个方面提出了一种分类纠错方法,该方法应用于服务器,该
服务器可以是一台服务器,或者是由若干台服务器组成的服务器集群,或者是一个云计算
服务中心。如图1所示,所述分类纠错方法包括:

步骤101:基于信息类别生成所述信息类别对应的关键词词表。

在本发明实施例中,所述信息包括视频信息、音频信息及图片信息等,所述信息类
别为将所述视频信息、音频信息及图片信息各自进行分类后的得到的分类信息,例如,视频
信息的类别包括电影、电视、综艺、新闻等,音频信息的类别包括华语、欧美、流行、古典等,
图片信息的类别包括花草、萌宠、二次元、壁纸等。

所述生成所述信息类别对应的关键词词表,例如,某视频网站包含的所有视频信
息被分类为奥运、电视剧、电影、综艺等几类,分别针对奥运、电视剧、电影、综艺等几类进行
关键词提取,生成各类别对应的关键词词表,所述关键词包括热门词语或者一些具有概括
意义的词语等,比如奥运类别生成的关键词词表包括:洪荒之力、跳水梦之队、菲尔普斯等。

步骤102:根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类
信息的错误词语集合。

需要说明的是,所述错误词语集合是所述信息类别分类后的每一分类信息分别对
应的词语集合,其中,每个类别对应一个错误词语集合。例如,视频信息被分为奥运、电视
剧、电影、综艺等几类,则,需要分别生成奥运的错误词语集合,电视剧的错误词语集合、电
影的错误词语集合、以及综艺的错误词语集合等。

在本发明实施例中,可以通过人工总结的方式从所述信息类别对应的关键词词表
中提取错误词语,提取的错误词语建立错误词语集合,该错误词语是指分类错误的词语,例
如,电视剧信息类别对应的关键词词表中的“金牌榜”,显然该“金牌榜”应当属于奥运信息
类别。

在本发明实施例中,还可以通过其他方式来生成错误词语集合,并不仅限定于上
述方式。

步骤103:对所述已分类信息分别进行分类,生成所述已分类信息对应的的正类词
语集合和负类词语集合。

可以理解的是,对所述已分类信息分别进行分类,可以采用机器学习的一些方法
来进行分类,例如,决策树算法、贝叶斯方法、支持向量机方法等。

步骤104:根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词
语集合和所述负类词语集合进行纠错。

在本发明实施例中,对所述已分类信息的所述正类词语集合进行纠错的过程即
是,将所述正类词语集合与所述错误词语集合进行匹配,若匹配上则表示分类错误;对所述
已分类信息的所述负类词语集合进行纠错的过程即是,将所述负类词语集合与所述错误词
语集合进行匹配,若没有匹配上则表示分类错误。

本实施例根据关键词词表生成已分类信息的错误词语集合,并将该错误词语集合
分别与已分类信息对应的正类词语集合和负类词语集合进行匹配,找出错误分类的词语并
对错误分类的词语进行纠错,使得分类的结果更准确,用户获取到的信息更正确,能够有效
的帮助用户进行搜索。

本发明实施例的第二个方面提出了另一种分类纠错方法,用于对上述实施例的分
类纠错方法进行详细说明,该方法应用于服务器,该服务器可以是一台服务器,或者是由若
干台服务器组成的服务器集群,或者是一个云计算服务中心。如图1所示,所述分类纠错方
法包括:

步骤101:基于信息类别分别生成所述信息类别对应的关键词词表。

在本发明实施例中,所述信息包括视频信息、音频信息及图片信息等,所述信息类
别为将所述视频信息、音频信息及图片信息各自进行分类后的得到的分类信息,例如,视频
信息的类别包括电影、电视、综艺、新闻等,音频信息的类别包括华语、欧美、流行、古典等,
图片信息的类别包括花草、萌宠、二次元、壁纸等。

所述生成所述信息类别对应的关键词词表,例如,某视频网站包含的所有视频信
息被分类为奥运、电视剧、电影、综艺等几类,分别针对奥运、电视剧、电影、综艺等几类进行
关键词提取,生成各类别对应的关键词词表,所述关键词包括热门词语或者一些具有概括
意义的词语等,比如奥运类别生成的关键词词表包括:洪荒之力、跳水梦之队、菲尔普斯等。
其中,所述关键词提取的过程可以包括,将同一类别下的所有视频的文字标签通过分词处
理或者人工总结等方式,提取出关键词,所提取的关键词用于生成该类别对应的词表。

步骤102:根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类
信息的错误词语集合。

在本发明实施例中,对搜索关键词进行纠错前,需要建立纠错文件,所述纠错文件
即所述错误词语集合。生成所述信息类别对应的已分类信息的错误词语集合,可选地,如图
2所示,包括以下步骤:

步骤1021:获取所述已分类信息的榜单数据;

在本发明实施例中,所述已分类信息是指所述信息类别分类后的类别信息,例如
视频网站或视频APP中的体育、娱乐、游戏等分类。所述榜单数据是指每一类别内容对应的
当前情况下比较热门、流行或者比较核心的数据,该数据可以是文本、词语、声音、视频或者
图片等。每一类别生成所述榜单数据的准则根据其内容类别而定,例如音乐榜单数据,可以
根据歌曲的下载量、播放量以及收藏量等来进行排名,根据排名次序生成音乐榜单数据;体
育榜单数据,可以根据当前话题讨论数量、用户关注度等来生成体育榜单数据,比如某天某
个时刻德国对阵意大利的欧洲杯比赛。

步骤1022:根据所述榜单数据生成所述榜单数据对应的核心词;

在本发明实施例中,所述核心词包括关键词、热度词等,所述核心词根据所述榜单
数据(例如某个热门话题、热门电影或电视等)生成,可选地,例如某个热门话题,可以根据
所述话题对应的文本进行关键词和热度词提取,某个热门电影,则可以根据电影介绍、电影
内容、电影评论等文本描述进行关键词和热度词的提取。

步骤1023:基于相同的信息类别,将所述核心词在所述关键词词表中进行查找,若
所述核心词不在所述词表中,确定所述核心词被错误分类;

在本发明实施例中,通过将所述核心词与所述核心词对应的信息类别生成的词表
进行比较,从而确定所述核心词是否被分错类别。例如,某一电视的热度词在体育类别下找
到,则该词语被确定为错误分类。

步骤1024:将所述错误分类的核心词生成所述信息类别对应的已分类信息的错误
词语集合。

在本发明实施例中,通过上述步骤的比较,所述信息类别对应的已分类信息分别
对应一个错误词语集合,所述错误词语集合即纠错文件,用于进行下文所述的分类纠错。

步骤103:对已分类信息分别进行分类,生成所述已分类信息对应的正类词语集合
和负类词语集合。

在本发明实施例中,使用支持向量机(Support Vector Machine,SVM)算法对已分
类信息分别进行分类,所述SVM分类器用于对已分类信息进行二分类,所述正类词语集合和
负类词语集合为所述二分类的结果,其中,所述正类词语集合表示该词语本属于该类别下
且被正确分类至正类别,所述负类词语集合表示该词语本不属于该类别且被正确分类至负
类别。利用SVM进行所述二分类的过程,可选地,如图3所示,包括:

步骤1031:基于分词处理技术对所述已分类信息的榜单数据进行特征提取;

在本发明实施例中,所述将所述已分类信息的每一类别的榜单数据分别进行特征
提取的过程实质是将所述榜单数据转化成计算机能够识别的格式,具体的是SVM分类器能
够识别的格式。在中文信息处理方向上,一般文本的表示主要采用向量空间模型,向量空间
模型的基本思想是以向量来表示文档,例如,Di=(W1,W2,W3,…,Wn),其中D表示文档,Wi为第
i个特征项的权重。特征项的选取即特征提取过程,通常,特征项由文档的一些有代表性的
字、词或词组充当,它们是组成文档,反映文档内容的基本元素,并且在文档中的出现频率
有一定的规律性,适合作为文档的特征表示。

步骤1032:针对所述特征提取的数据生成所述榜单数据的特征向量;

在本发明实施例中,所述榜单数据被特征提取后,也即是表示所述榜单数据的文
档被分词后,可获得大量表示所述文档的特征项,所述特征项包括字或词或者概念等,一般
采用词作为特征项,词是构成中文文本的主体,最能够反映文本语义的基本单位,选择词作
为特征项能够充分表示汉语的语义,分类系统的性能明显优于选择字或概念作为特征项的
系统。获取所述特征项后,经过预处理(例如降维处理等)生成所述榜单数据的特征向量。

步骤1033:基于所述榜单数据的特征向量划分训练集和测试集;

在本发明实施例中,所述训练集用于训练分类器得到SVM分类模型,建立所述SVM
分类模型的关键是求取最优分类函数。所述测试集用于根据所述SVM分类模型进行测试得
到分类结果,一般采用分类准确率对分类模型的分类性进行评价。划分所述训练集和所述
测试集的数据量大小直接影响到分类结果的准确率,常用的划分数据集的方法包括:随机
划分数据集(一般是按照3:1的比例分配训练集和测试集,即3/4的数据集用于模型的建立,
1/4的数据集用于测试所建立的模型的性能);交叉验证法(包括2折交叉、10折交叉以及留
一法等)。

步骤1034:在所述训练集上进行训练得到SVM分类器;

在本发明实施例中,所述在所述训练集上进行训练得到SVM分类器的一般过程是
在选取核函数后,将训练样本映射到高维特征空间,利用SVM在样本特征空间中找出各类别
特征样本与其他特征样本的最优分类超平面,得到代表各样本特征的支持向量集及其相应
的可信度,最终形成判断各特征类别的最优分类函数,该最优分类函数即是所述SVM分类
器。

步骤1035:将所述测试集输入所述SVM分类器进行测试,得到所述已分类信息对应
的正类词语集合和负类词语集合。

在本发明实施例中,所述测试集作为待分类对象,通过核函数作用映射到特征空
间中,作为最优分类函数的输入,最终输出二类可分的结果,该结果即所述正类词语集合和
所述负类词语集合。

需要说明的是,利用SVM进行分类的过程中,所述SVM分类器的参数(比如惩罚系数
C、核半径g)可以根据人的经验来确定,也可以通过智能寻优算法(比如粒子群算法等)来进
行参数寻优,以确定参数的值。

步骤104:根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词
语集合和所述负类词语集合进行纠错。

可以理解的是,所述正类词语集合和所述负类词语集合是基于同一已分类信息得
到的词语集合,所以,该已分类信息对应的错误词语集合,即为需要分别与所述正类词语集
合和所述负类词语集合进行比较的词语集合。

可选地,所述根据所述已分类信息的错误词语集合,对所述已分类信息的所述正
类词语集合和所述负类词语集合进行纠错包括:基于相同的信息类别,将所述正类词语集
合中的词语在所述错误分类词语集合中进行查找,若在所述错误词语集合中查找到所述正
类词语集合中的词语,则将所述词语确认为属于所述负类词语集合。

可选地,所述根据所述已分类信息的错误词语集合,对所述已分类信息的所述正
类词语集合和所述负类词语集合进行纠错包括:基于相同的信息类别,将所述负类词语集
合中的词语在所述错误分类词语集合中进行查找,若在所述错误词语集合中没有查找到所
述负类词语集合中的词语,则将所述词语确认为属于所述正类词语集合。

在本发明实施例中,通过将生成的错误分类词语集合分别与SVM分类器分类的正
类词语集合和负类词语集合进行匹配,找出错误分类的词语并实现了错误分类词语的纠
错,使分类结果更准确,用户获取到的信息更正确,从而更有效的帮助用户进行搜索。

本发明实施例的第三个方面提出了一种分类纠错装置,如图4所示,所述分类纠错
装置4包括:第一生成模块41、第二生成模块42、分类模块43以及纠错模块44。

在本发明实施例中,所述第一生成模块,用于基于信息类别生成所述信息类别对
应的关键词词表;所述第二生成模块,用于根据所述信息类别对应的关键词词表,生成所述
信息类别对应的已分类信息的错误词语集合;所述分类模块,用于对所述已分类信息进行
分类,生成所述已分类信息对应的正类词语集合和负类词语集合;所述纠错模块,用于根据
所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语
集合进行纠错。

需要说明的是,本发明实施例提出的分类纠错装置与本发明实施例的第一个方面
提出的一种分类纠错方法基于相同的发明构思,方法实施例与装置实施例中的相应技术内
容可相互适用,此处不再详述。

在本发明实施例中,根据关键词词表生成已分类信息的错误词语集合,并将该错
误词语集合分别与已分类信息对应的正类词语集合和负类词语集合进行匹配,找出错误分
类的词语并对错误分类的词语进行纠错,使得分类的结果更准确,用户获取到的信息更正
确,能够有效的帮助用户进行搜索。

本发明实施例的第四个方面提出了另一种分类纠错装置,所述装置是对上述第三
个方面提出的分类纠错装置的详细说明。如图4所示,所述分类纠错装置包括:第一生成模
块41、第二生成模块42、分类模块43以及纠错模块44。

在本发明实施例中,所述第一生成模块41用于基于信息类别生成所述信息类别对
应的关键词词表。

在本发明实施例中,所述第二生成模块42用于根据所述信息类别对应的关键词词
表,生成所述信息类别对应的已分类信息的错误词语集合。

可选地,如图5所示,所述第二生成模块42包括:获取单元421、第一生成单元422、
判断单元423以及第二生成单元424。

其中,所述获取单元用于获取所述已分类信息的榜单数据;所述第一生成单元,用
于根据所述榜单数据生成所述榜单数据对应的核心词;所述判断单元,用于基于相同的信
息类别,将所述核心词在所述关键词词表中进行查找,若所述核心词不在所述词表中,确定
所述核心词被错误分类;所述第二生成单元,用于根据所述错误分类的核心词生成所述信
息类别对应的已分类信息的错误词语集合。

在本发明实施例中,所述分类模块43用于对所述已分类信息进行分类,生成所述
已分类信息对应的正类词语集合和负类词语集合。

可选地,如图6所示,所述分类模块43包括:提取单元431、第三生成单元432、划分
单元433、训练单元434以及测试单元435。

其中,所述提取单元用于基于分词处理技术对所述已分类信息的榜单数据进行特
征提取;所述第三生成单元用于针对所述特征提取的数据生成所述榜单数据的特征向量;
所述划分单元用于基于所述榜单数据的特征向量划分训练集和测试集;所述训练单元用于
在所述训练集上进行训练得到SVM分类器;所述测试单元用于将所述测试集输入所述SVM分
类器进行测试,得到所述已分类信息对应的正类词语集合和负类词语集合。

在本发明实施例中,所述纠错模块44用于根据所述已分类信息的错误词语集合,
对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错。

可选地,所述纠错模块44包括正类纠错单元,所述正类纠错单元,用于基于相同的
信息类别,将所述正类词语集合中的词语在所述错误词语集合中进行查找,若在所述错误
词语集合中查找到,则将所述词语确认为属于所述负类词语集合。

可选地,所述所述纠错模块44包括负类纠错单元,所述负类纠错单元用于基于相
同的信息类别,将所述负类词语集合中的词语在所述错误分类词语集合中进行查找,若在
所述错误词语集合中没有查找到所述负类词语集合中的词语,则将所述词语确认为属于所
述正类词语集合。

需要说明的是,本发明实施例提出的分类纠错装置与本发明实施例的第二个方面
提出的一种分类纠错方法基于相同的发明构思,方法实施例与装置实施例中的相应技术内
容可相互适用,此处不再详述。

在本发明实施例中,通过将生成的错误分类词语集合分别与SVM分类器分类的正
类词语集合和负类词语集合进行匹配,找出错误分类的词语并实现了错误分类词语的纠
错,使分类结果更准确,用户获取到的信息更正确,从而更有效的帮助用户进行搜索。

本发明实施例的第五个方面提出了一种电子设备5,如图7所示,该电子设备5包
括:

一个或多个处理器51以及存储器52,图7中以一个处理器51为例。

处理器51、存储器52可以通过总线或者其他方式连接,图7中以通过总线连接为
例。

存储器52作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程
序、非易失性计算机可执行程序以及模块,如本申请实施例中的分类纠错方法对应的程序
指令/模块(例如,附图4所示的第一生成模块41、第二生成模块42、分类模块43以及纠错模
块44)。处理器51通过运行存储在存储器52中的非易失性软件程序、指令以及模块,从而执
行服务器的各种功能应用以及数据处理,即实现上述方法实施例分类纠错方法。

存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、
至少一个功能所需要的应用程序;存储数据区可存储根据分类纠错装置的使用所创建的数
据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至
少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器
52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至分类
纠错装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组
合。

所述一个或者多个模块存储在所述存储器52中,当被所述一个或者多个处理器51
执行时,执行上述任意方法实施例中的分类纠错方法,例如,执行以上描述的图1中的方法
步骤101至步骤104,图2中的方法步骤1021至步骤1024,图3中的方法步骤1031至步骤1034,
实现图4中的模块41-44,图5中的单元421-424的功能,和实现图6中的单元431-435的功能。

上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有
益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在,包括但不限于:

(1)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总
线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能
力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(2)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可
以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单
元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可
借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术
方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机
软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以
使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者
实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;在本
申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以
以任意顺序实现,并存在如上所述的本申请的不同方面的许多其它变化,为了简明,它们没
有在细节中提供;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人
员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技
术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实
施例技术方案的范围。

一种分类纠错方法及装置.pdf_第1页
第1页 / 共16页
一种分类纠错方法及装置.pdf_第2页
第2页 / 共16页
一种分类纠错方法及装置.pdf_第3页
第3页 / 共16页
点击查看更多>>
资源描述

《一种分类纠错方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种分类纠错方法及装置.pdf(16页珍藏版)》请在专利查询网上搜索。

本发明涉及数据搜索技术领域,特别是涉及一种分类纠错方法及装置。该方法包括:基于信息类别生成所述信息类别对应的关键词词表;根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词语集合;对所述已分类信息分别进行分类,生成所述已分类信息对应的正类词语集合和负类词语集合;根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错。该分类纠错方法及装置。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1