一种改进的词汇语义相似度求解算法.pdf

摘要
申请专利号：	CN201610838940.7	申请日：	2016.09.21
公开号：	CN106610948A	公开日：	2017.05.03
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/27申请日:20160921\|\|\|公开
IPC分类号：	G06F17/27	主分类号：	G06F17/27
申请人：	四川用联信息技术有限公司
发明人：	金平艳
地址：	610054 四川省成都市成华区电子信息产业大厦1101室
优先权：	2016.07.20 CN 2016105759690
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

一种改进的词汇语义相似度求解算法，本发明在初始化成功的统计方法模块基础上，输入待比较词，通过对待比较词相邻权重最大的上下文词与待比较词之间的相似度来提取最大关键字，最后计算所提取的最大关键字与待比较词的相关度得到结果。本发明语义相似度的计算结果与实际人工判断的语义相似程度基本一致；更好的反映客观现实；更符合用户需求。

权利要求书

1.一种改进的词汇语义相似度求解算法，本发明涉及语义网络技术领域，具体涉及一
种改进的词汇语义相似度求解算法，其特征是，包括如下步骤：
步骤1：初始化统计方法模块，这里可以是《词语字典》、《词林》、知网、《百度百科》等等
语料库
步骤2：将待比较词输入初始化统计方法模块中
步骤3：在统计模块中找到待比较词相邻上下文中权重最大的上下文词
步骤4：根据待比较词分别对应的权重最大上下文词之间的相似
度，提取相似度最大关键字
步骤5：分别计算相似度最大关键字与待比较词的相关度
步骤6：再利用步骤5求得的相关度，得出待比较词的相似度sim值。
2.根据权利要求1中所述的一种改进的词汇语义相似度求解算法，其特征是，以上所述
步骤3中的具体计算过程如下：
步骤3：在统计模块中找到待比较词相邻上下文中权重最大的上下文词
找出待比较词对应的上下文词在语料库中权重最大的值，具体
计算过程如下：
上下文词的根据约束条件查找，例如，在汉语中，具有比较强的上下文约束关系的词性
对有：形容词-名词、动词-名词、名词-动词、形容词-动词等等

上式分别为与某种关系和待比较词相邻的上下文词，
为与上下文词呈现某种关系的条件概率，上式1为平滑系数
上式

为语料库中待比较词分别与上下文词呈现一定关系的
共现数量，为语料库中待比较词与上下文词共现数量
综上所述，即得下式：

根据上式即找到待比较词的最佳上下文搭配词为与，呈
现一定关系所对应的最佳上下文搭配词，同理为与呈现一定关系所对应的最佳上
下文搭配词。
3.根据权利要求1中所述的一种改进的词汇语义相似度求解算法，其特征是，以上所述
步骤4中的具体计算过程如下：
步骤4：根据待比较词分别对应的权重最大上下文词之间的相似
度，提取相似度最大关键字
根据两权重最大的上下文词汇中所包含的共有词频数，可以找到其关键
字信息，即
Sim
上式为两权重最大的上下文词汇中所包含的共有词数
量，分别为两权重最大的上下文词汇中的条目长度
由上式得，

根据最大值，即可找到最佳匹配关键字。
4.根据权利要求1中所述的一种改进的词汇语义相似度求解算法，其特征是，以上所述
步骤5中的具体计算过程如下：
步骤5：分别计算相似度最大关键字与待比较词的相关度
根据与待比较词在语料库中共现的概率，与待比较词的语义
结构关系可分别得出最大关键字与待比较词的相关度，其具体计算过程如下：
步骤5.1）与待比较词在语料库中共现概率同理上述步骤4
原理可以得出

步骤5.2）与待比较词的语义结构关系，这个可以根据其在《知网》中的层次
结构关系得出其路径向量
步骤5.3）综上所述，可以分别得出最大关键字与待比较词的相关度

分别为最大关键字与待比较词
的相关度，上式为与待比较词的语义结构关系的调节因子，为共
现概率的调节因子。
5.根据权利要求1中所述的一种改进的词汇语义相似度求解算法，其特征是，以上所述
步骤6中的具体计算过程如下：
步骤6：再利用步骤4求得的相关度，得出待比较词的相似度sim值
sim。

说明书

一种改进的词汇语义相似度求解算法

技术领域

本发明涉及语义网络技术领域，具体涉及一种改进的词汇语义相似度求解算法。

背景技术

21世纪以来，全球的互联网行业进入了一个高速发展的新时期，各种新技术不断
涌现。作为联系计算机与人之间重要技术的自然语言处理也取得了快速的发展。传统的语
义相关度计算方法大致分为两类：基于语义词典的语义相似度计算方法以及基于语料库的
语义相似度计算方法，它们都属于基于统计的词语语义相似度计算方法，也是一种经验主
义方法；基于统计的词语语义相似度的研究建立在可观察的语言事实上，而不仅仅依赖于
语言学家的直觉。它是建立在两个词语语义相似当且仅当它们处于相似的上下文环境中这
一假设的基础上，利用大规模语料库，将词语的上下文信息作为语义相似度计算的参照依
据。另外，此种方法能够对词语间的语义相似性进行比较精确有效的度量，但该方法太依赖
于训练所使用的语料库，计算量大且方法比较复杂，受数据稀疏和数据噪声干扰较大，有时
会出现明显错误，基于满足以上需求，本发明提供了一种改进的词汇语义相似度求解算法。

发明内容

针对于词语中的相似度问题，本发明提供了一种改进的词汇语义相似度求解算
法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：初始化统计方法模块，这里可以是《词语字典》、《词林》、知网、《百度百科》
等等语料库。

步骤2：将待比较词(c1，c2)输入初始化统计方法模块中。

步骤3：在统计模块中找到待比较词(c1，c2)相邻上下文中权重最大的上下文词
(csx1,csx2)。

步骤4：根据待比较词(c1，c2)分别对应的权重最大上下文词(csx1,csx2)之间的相似
度，提取相似度最大关键字csx。

步骤5：分别计算相似度最大关键字csx与待比较词(c1，c2)的相关度。

步骤6：再利用步骤5求得的相关度，得出待比较词(c1，c2)的相似度sim(c1，c2)值。

本发明有益效果是：

1、语义相似度的计算结果与实际人工判断的语义相似程度基本一致。

2、更好的反映客观现实。

3、更符合用户需求。

附图说明

图1为一种改进的词汇语义相似度求解算法的结构流程图。

具体实施方式

为解决词语(c1，c2)之间语义相似度问题，结合图1对本发明进行了详细说明，其具
体实施步骤如下：

步骤1：初始化统计方法模块，这里可以是《词语字典》、《词林》、《知网》、《百度百
科》等等语料库。

步骤2：将待比较词(c1，c2)输入初始化统计方法模块中。

步骤3：在统计模块中找到待比较词(c1，c2)相邻上下文中权重最大的上下文词
(csx1,csx2)。

找出待比较词(c1，c2)对应的上下文词在语料库中权重最大的值(csx1,csx2)，具体
计算过程如下：

上下文词的根据约束条件查找，例如，在汉语中，具有比较强的上下文约束关系的
词性对有：形容词-名词、动词-名词、名词-动词、形容词-动词等等。

weightsx1，2＝p(c1，2/csx1，2)log2[p(c1，2/csx1，2)+1]

上式csx1，2分别为与某种关系和待比较词(c1，c2)相邻的上下文词，

p(c1，2/csx1，2)为c1，2与上下文词csx1，2呈现某种关系的条件概率，上式1为平滑系
数。

上式

n(c1，2/csx1，2)为语料库中待比较词(c1，c2)分别与上下文词csx1，2呈现一定关系的
共现数量，n(c1，2，csx1，2)为语料库中待比较词(c1，c2)与上下文词csx1，2共现数量。

综上所述，即得下式：

MAXweightsx1，2＝MAX{p(c1，2/csx1，2)log2[p(c1，2/csx1，2)+1]}

根据上式即找到待比较词(c1，c2)的最佳上下文搭配词(csx1,csx2),csx1为与c1。呈
现一定关系所对应的最佳上下文搭配词，同理csx2为与c2呈现一定关系所对应的最佳上下
文搭配词。

步骤4：根据待比较词(c1，c2)分别对应的权重最大上下文词(csx1,csx2)之间的相似
度，提取相似度最大关键字csx。

根据两权重最大的上下文词汇(csx1,csx2)中所包含的共有词频数，可以找到其关
键字信息csx，即

上式nf(csx1，csx2)为两权重最大的上下文词汇(csx1,csx2)中所包含的共有词数量，
分别为两权重最大的上下文词汇(csx1,csx2)中的条目长度。

由上式得，

f(csx)＝max[Sim(csx1，csx2)]

根据f(csx)最大值，即可找到最佳匹配关键字csx。

步骤5：分别计算相似度最大关键字csx与待比较词(c1，c2)的相关度。

根据csx与待比较词(c1，c2)在语料库中共现的概率，csx与待比较词(c1，c2)的语义
结构关系可分别得出最大关键字csx与待比较词(c1，c2)的相关度，其具体计算过程如下：

步骤5.1)csx与待比较词(c1，c2)在语料库中共现概率p(c1，2/csx)，同理上述步骤4
原理可以得出。

步骤5.2)csx与待比较词(c1，c2)的语义结构关系，这个可以根据其在《知网》中的
层次结构关系得出其路径向量

步骤5.3)综上所述，可以分别得出最大关键字csx与待比较词(c1，c2)的相关度。

relativity(csx，c1)、relativity(csx，c2)分别为最大关键字csx与待比较词(c1，
c2)的相关度，上式为csx与待比较词(c1，c2)的语义结构关系的调节因子，为共现
概率p(c1，2/csx)的调节因子。

步骤6：再利用步骤4求得的相关度，得出待比较词(c1，c2)的相似度sim(c1，c2)值。

一种改进的词汇语义相似度求解算法，其伪代码计算过程如下：

输入：初始化选定的统计模块，待比较词(c1，c2)

输出：待比较词(c1，c2)之间的语义相似度。