变形词识别方法及装置技术领域
本发明涉及计算机技术,尤其涉及一种变形词识别方法及装置。
背景技术
随着网络的发展,出现了越来越多的变形词。网络平台需要对输入的信息进行变
形词识别,以防止由于部分用户使用恶意的变形词而造成的严重后果。
现有技术中,首先可以通过统计和规则的方法识别出实体词的变形词,进而,再通
过分类或者标注的方法识别出变形词所对应的实体词,以用于后续的变形词识别。
但是,现有技术在识别变形词时,需要使用人工标注的语料,因此进行变形词识别
的效率较低。
发明内容
本发明提供一种变形词识别方法及装置,用于解决现有技术中进行变形词识别效
率较低的问题。
本发明第一方面提供一种变形词识别方法,包括:
获取新增的语料库;
从所述新增的语料库中识别至少一个新词;
分别确定用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似
度;
根据用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度,分
别确定所述新词是否为所述实体词的变形词。
进一步地,所述根据用户输入的实体词与从所述新增的语料库中识别出的每个新
词的相似度,分别确定所述新词是否为所述实体词的变形词,包括:
对所述至少一个新词按照所述新词与所述实体词的相似度进行排序;
根据所述至少一个新词的排序结果,确定所述新词是否为所述实体词的变形词。
进一步地,还包括:
将所述至少一个新词加入分词字典。
进一步地,所述从新增的语料库中识别至少一个新词,包括:
使用所述分词字典对所述新增的语料库进行分词;
根据分词结果从所述新增的语料库中识别至少一个新词。
进一步地,所述根据所述至少一个新词的排序结果,确定所述新词是否为所述实
体词的变形词,包括:
如果,确定出第一新词的排序与从所述新增的语料库中识别出的新词数量的比值
小于预设阈值,则就可以确定所述第一新词即为所述实体词的变形词;
其中,所述第一新词为从所述新增的语料库中识别出的至少一个新词中的任意一
个新词。
本发明第二方面提供一种变形词识别装置,包括:
获取模块,用于获取新增的语料库;
识别模块,用于从所述新增的语料库中识别至少一个新词;
第一确定模块,用于分别确定用户输入的实体词与从所述新增的语料库中识别出
的每个新词的相似度;
第二确定模块,用于根据用户输入的实体词与从所述新增的语料库中识别出的每
个新词的相似度,分别确定所述新词是否为所述实体词的变形词。
进一步地,所述第二确定模块包括:
排序单元,用于对所述至少一个新词按照所述新词与所述实体词的相似度进行排
序;
确定单元,用于根据所述至少一个新词的排序结果,确定所述新词是否为所述实
体词的变形词。
进一步地,还包括:
增加模块,用于将所述至少一个新词加入分词字典。
进一步地,所述识别模块包括:
分词单元,用于使用所述分词字典对所述新增的语料库进行分词;
识别单元,用于根据分词结果从所述新增的语料库中识别至少一个新词。
进一步地,所述确定单元具体用于:
若第一新词的排序与从所述新增的语料库中识别出的新词数量的比值小于预设
阈值,则确定所述第一新词为所述实体词的变形词;
其中,所述第一新词为从所述新增的语料库中识别出的至少一个新词中的任意一
个新词。
本发明所提供的变形词识别方法及装置,首先自动发现语料库中的新词,其次根
据新词与实体词的相似度来识别变形词,从而实现自动发现可能的新的变形词,从而提升
变形词识别的效率。并且,该方法根据新词与实体词的相似度来识别变形词,相比于现有技
术人工识别变形词的方法,变形词识别的准确率也得到了较大提升。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术
描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一
些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这
些附图获得其他的附图。
图1为本发明提供的变形词识别方法实施例一的流程示意图;
图2为本发明提供的变形词识别方法实施例二的流程示意图;
图3为本发明提供的变形词识别方法实施例三的流程示意图;
图4为本发明提供的变形词识别方法实施例四的流程示意图;
图5为本发明提供的变形词识别装置实施一的模块结构图;
图6为本发明提供的变形词识别装置实施二的模块结构图;
图7为本发明提供的变形词识别装置实施三的模块结构图;
图8为本发明提供的变形词识别装置实施四的模块结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附
图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明
一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有
作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下首先对本发明所涉及到的概念进行解释。
语料库:是一些实际使用中真实出现过的语音材料的集合,例如报纸上所发表的
一篇文章、网络论坛上发的一篇帖子等,都可以作为语料库。
实体词:也可以称为原形词,是指在字典中可以查询或者已经被广泛使用的词语。
变形词:相对于实体词,对于实体词进行过转换的词语。例如,对于实体词“同学”
而言,“童鞋”为该实体词的变形词。
新词:是指未在字典中出现过的词语。
现有技术中进行变形词识别时,需要使用人工标注的语料,即需要在获取到语料
库之后通过人工识别语料库中的变形词,进而基于识别出的变形词进行其他场景下的变形
词识别,这种处理方法的效率低下,并且,对新出现的变形词的识别能力也较差。
本发明基于上述问题,提出一种变形词识别方法,通过自动发现语料库中的新词,
以及比较新词与实体词的相似度来识别变形词,从而实现自动发现可能的新的变形词,从
而提升变形词识别的效率。
图1为本发明提供的变形词识别方法实施例一的流程示意图,该方法的执行主体
为具有处理能力并且连接网络的设备,例如台式机、笔记本电脑等终端,或者其他服务器
等。本发明以下都以终端为例来进行说明。如图1所示,该方法包括:
S101、获取新增的语料库。
终端可以以事件触发方式或者周期性地从网络论坛、微博等互联网络平台上获取
用户的发帖等,将这些信息作为新增的语料库。
实际使用过程中,只有产生的变形词有趣,才有可能被广泛传播,而网络论坛、微
博等作为社交网络,能够较好地体现变形词的传播程度,因此,从这些网络平台上获取新增
的语料库,可以更准确地识别出实体词的变形词。
S102、从新增的语料库中识别至少一个新词。
S103、分别确定用户输入的实体词与从所述新增的语料库中识别出的每个新词的
相似度。
用户可以在终端中输入一个或多个实体词,由终端来自动识别该实体词的变形
词。当用户输入多个实体词时,终端可以分别针对每个实体词使用本发明的方法来识别出
该实体词的变形词。
对于一个实体词,终端需要确定该实体词与从新增的语料库中识别的每个新新词
的相似度。可选地,终端可以根据语义和规则来综合确定相似度,其中,语义相似度可以根
据词的上下文来识别,规则相似度主要通过统计变形的规则来计算相似度。
S104、根据用户输入的实体词与从新增的语料库中识别出的每个新词的相似度,
分别确定新词是否为实体词的变形词。
本实施例中,首先自动发现语料库中的新词,其次根据新词与实体词的相似度来
识别变形词,从而实现自动发现可能的新的变形词,从而提升变形词识别的效率。并且,该
方法根据新词与实体词的相似度来识别变形词,相比于现有技术人工识别变形词的方法,
变形词识别的准确率也得到了较大提升。
在上述实施例的基础上,本实施例涉及确定新词是否为实体词的变形词的具体方
法,即,图2为本发明提供的变形词识别方法实施例二的流程示意图,如图2所示,上述步骤
S103具体包括:
S201、对上述至少一个新词按照新词与实体词的相似度进行排序。
具体可以按照相似度的大小升序排列,或者降序排列。
S202、根据至少一个新词的排序结果,确定新词是否为实体词的变形词。
以相似度升序排列为例,即越靠前的新词与实体词的相似度越高。如果某个新词
在排序结果中排列靠前,则说明该新词与该实体词相似度大,可以认为是该实体词的的变
形词。
更进一步地,可以按照下述方法确定新词是否为实体词的变形词:
若第一新词的排序与从新增的语料库中识别出的新词数量的比值小于预设阈值,
则确定该第一新词为该实体词的变形词;
其中,上述第一新词为从新增的语料库中识别出的至少一个新词中的任意一个新
词。
预设阈值可以根据实际情况进行设置,当第一新词的排序与新词数量的比值小于
预设阈值时,说明该新词的与实体词的相似度很高,则可以确定该以新词为该实体词的变
形词。
在上述实施例的基础上,本实施例涉及生成分词字典的具体方法,即,图3为本发
明提供的变形词识别方法实施例三的流程示意图,如图3所示,该方法包括:
S301、获取新增的语料库。
具体过程与S301的过程相同,可以参见S101,此处不再赘述。
S302、从新增的语料库中识别至少一个新词。
具体过程与S102的过程相同,可以参见S102,此处不再赘述。
S303、将上述至少一个新词加入分词字典。
分词字典为词语库,每次从新增的语料库中识别出新词之后,可以将识别出的新
词加入到分词字典中,以用于下一次的新词识别。
S304、分别确定用户输入的实体词与从所述新增的语料库中识别出的每个新词的
相似度。
具体过程与S103的过程相同,可以参见S103,此处不再赘述。
S305、根据用户输入的实体词与从新增的语料库中识别出的每个新词的相似度,
分别确定新词是否为实体词的变形词。
具体过程与S104的过程相同,可以参见S104,此处不再赘述。
基于上述的分词字典,可以从新增的语料库中识别至少一个新词,即,图4为本发
明提供的变形词识别方法实施例四的流程示意图,如图4所示,上述步骤S101的具体执行过
程为:
S401、使用分词字典对新增的语料库进行分词。
分词字典中的词语是本次分词之前的多次分词过程中所积累下的词语,因此,使
用分词字典对新增的语料库进行分词,能够保证分词结果的准确性,并且,分词的速度也得
到提升。
对新增的语料库进行分词之后,终端可以获取到多个独立的词语。
S402、根据分词结果从新增的语料库中识别至少一个新词。
获取到多个独立的词语之后,终端可以进行新词识别,例如,终端可以通过统计的
方法进行多字词识别,再与已有词表进行对照,来识别出新词。或者,终端也可以根据词语
的凝结度和自由度来识别出新词。
图5为本发明提供的变形词识别装置实施一的模块结构图,如图5所示,该装置包
括:
获取模块501,用于获取新增的语料库。
识别模块502,用于从新增的语料库中识别至少一个新词。
第一确定模块503,用于分别确定用户输入的实体词与从新增的语料库中识别出
的每个新词的相似度。
第二确定模块504,用于根据用户输入的实体词与从新增的语料库中识别出的每
个新词的相似度,分别确定新词是否为实体词的变形词。
该装置用于实现前述方法实施例,其实现原理和技术效果类似,此处不再赘述。
图6为本发明提供的变形词识别装置实施二的模块结构图,如图6所示,第二确定
模块504包括:
排序单元5041,用于对上述至少一个新词按照新词与实体词的相似度进行排序。
确定单元5042,用于根据上述至少一个新词的排序结果,确定新词是否为实体词
的变形词。
图7为本发明提供的变形词识别装置实施三的模块结构图,如图7所示,该装置还
包括:
增加模块505,用于将上述至少一个新词加入分词字典。
图8为本发明提供的变形词识别装置实施四的模块结构图,如图8所示,识别模块
502包括:
分词单元5021,用于使用分词字典对新增的语料库进行分词。
识别单元5022,用于根据分词结果从新增的语料库中识别至少一个新词。
另一实施例中,上述确定单元5042具体用于:
若第一新词的排序与从新增的语料库中识别出的新词数量的比值小于预设阈值,
则确定第一新词为实体词的变形词。
其中,第一新词为从新增的语料库中识别出的至少一个新词中的任意一个新词。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通
过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程
序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或
者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽
管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依
然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进
行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术
方案的范围。