一种改进的词汇语义相似度求解算法技术领域
本发明涉及语义网络技术领域,具体涉及一种改进的词汇语义相似度求解算法。
背景技术
21世纪以来,全球的互联网行业进入了一个高速发展的新时期,各种新技术不断
涌现。作为联系计算机与人之间重要技术的自然语言处理也取得了快速的发展。传统的语
义相关度计算方法大致分为两类:基于语义词典的语义相似度计算方法以及基于语料库的
语义相似度计算方法,它们都属于基于统计的词语语义相似度计算方法,也是一种经验主
义方法;基于统计的词语语义相似度的研究建立在可观察的语言事实上,而不仅仅依赖于
语言学家的直觉。它是建立在两个词语语义相似当且仅当它们处于相似的上下文环境中这
一假设的基础上,利用大规模语料库,将词语的上下文信息作为语义相似度计算的参照依
据。另外,此种方法能够对词语间的语义相似性进行比较精确有效的度量,但该方法太依赖
于训练所使用的语料库,计算量大且方法比较复杂,受数据稀疏和数据噪声干扰较大,有时
会出现明显错误,基于满足以上需求,本发明提供了一种改进的词汇语义相似度求解算法。
发明内容
针对于词语中的相似度问题,本发明提供了一种改进的词汇语义相似度求解算
法。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:初始化统计方法模块,这里可以是《词语字典》、《词林》、知网、《百度百科》
等等语料库。
步骤2:将待比较词(c1,c2)输入初始化统计方法模块中。
步骤3:在统计模块中找到待比较词(c1,c2)相邻上下文中权重最大的上下文词
(csx1,csx2)。
步骤4:根据待比较词(c1,c2)分别对应的权重最大上下文词(csx1,csx2)之间的相似
度,提取相似度最大关键字csx。
步骤5:分别计算相似度最大关键字csx与待比较词(c1,c2)的相关度。
步骤6:再利用步骤5求得的相关度,得出待比较词(c1,c2)的相似度sim(c1,c2)值。
本发明有益效果是:
1、语义相似度的计算结果与实际人工判断的语义相似程度基本一致。
2、更好的反映客观现实。
3、更符合用户需求。
附图说明
图1为一种改进的词汇语义相似度求解算法的结构流程图。
具体实施方式
为解决词语(c1,c2)之间语义相似度问题,结合图1对本发明进行了详细说明,其具
体实施步骤如下:
步骤1:初始化统计方法模块,这里可以是《词语字典》、《词林》、《知网》、《百度百
科》等等语料库。
步骤2:将待比较词(c1,c2)输入初始化统计方法模块中。
步骤3:在统计模块中找到待比较词(c1,c2)相邻上下文中权重最大的上下文词
(csx1,csx2)。
找出待比较词(c1,c2)对应的上下文词在语料库中权重最大的值(csx1,csx2),具体
计算过程如下:
上下文词的根据约束条件查找,例如,在汉语中,具有比较强的上下文约束关系的
词性对有:形容词-名词、动词-名词、名词-动词、形容词-动词等等。
weightsx1,2=p(c1,2/csx1,2)log2[p(c1,2/csx1,2)+1]
上式csx1,2分别为与某种关系和待比较词(c1,c2)相邻的上下文词,
p(c1,2/csx1,2)为c1,2与上下文词csx1,2呈现某种关系的条件概率,上式1为平滑系
数。
上式
n(c1,2/csx1,2)为语料库中待比较词(c1,c2)分别与上下文词csx1,2呈现一定关系的
共现数量,n(c1,2,csx1,2)为语料库中待比较词(c1,c2)与上下文词csx1,2共现数量。
综上所述,即得下式:
MAXweightsx1,2=MAX{p(c1,2/csx1,2)log2[p(c1,2/csx1,2)+1]}
根据上式即找到待比较词(c1,c2)的最佳上下文搭配词(csx1,csx2),csx1为与c1。呈
现一定关系所对应的最佳上下文搭配词,同理csx2为与c2呈现一定关系所对应的最佳上下
文搭配词。
步骤4:根据待比较词(c1,c2)分别对应的权重最大上下文词(csx1,csx2)之间的相似
度,提取相似度最大关键字csx。
根据两权重最大的上下文词汇(csx1,csx2)中所包含的共有词频数,可以找到其关
键字信息csx,即
上式nf(csx1,csx2)为两权重最大的上下文词汇(csx1,csx2)中所包含的共有词数量,
分别为两权重最大的上下文词汇(csx1,csx2)中的条目长度。
由上式得,
f(csx)=max[Sim(csx1,csx2)]
根据f(csx)最大值,即可找到最佳匹配关键字csx。
步骤5:分别计算相似度最大关键字csx与待比较词(c1,c2)的相关度。
根据csx与待比较词(c1,c2)在语料库中共现的概率,csx与待比较词(c1,c2)的语义
结构关系可分别得出最大关键字csx与待比较词(c1,c2)的相关度,其具体计算过程如下:
步骤5.1)csx与待比较词(c1,c2)在语料库中共现概率p(c1,2/csx),同理上述步骤4
原理可以得出。
步骤5.2)csx与待比较词(c1,c2)的语义结构关系,这个可以根据其在《知网》中的
层次结构关系得出其路径向量
步骤5.3)综上所述,可以分别得出最大关键字csx与待比较词(c1,c2)的相关度。
relativity(csx,c1)、relativity(csx,c2)分别为最大关键字csx与待比较词(c1,
c2)的相关度,上式为csx与待比较词(c1,c2)的语义结构关系的调节因子,为共现
概率p(c1,2/csx)的调节因子。
步骤6:再利用步骤4求得的相关度,得出待比较词(c1,c2)的相似度sim(c1,c2)值。
一种改进的词汇语义相似度求解算法,其伪代码计算过程如下:
输入:初始化选定的统计模块,待比较词(c1,c2)
输出:待比较词(c1,c2)之间的语义相似度。