一种用于短文本语义相似度计算的方法.pdf

上传人:32 文档编号:498436 上传时间:2018-02-19 格式:PDF 页数:11 大小:1.06MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410319852.7

申请日:

2014.07.07

公开号:

CN104102626A

公开日:

2014.10.15

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/27申请日:20140707|||公开

IPC分类号:

G06F17/27

主分类号:

G06F17/27

申请人:

厦门推特信息科技有限公司

发明人:

洪志令; 吴梅红

地址:

361005 福建省厦门市湖里区软件园二期观日路32号10309

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明提供了一种用于短文本语义相似度计算的方法,该用于短文本语义相似度计算的方法包括以下步骤:1)提取短文本的特征;2)将提取的短文本的特征进行匹配,计算出短文本语义相似度。本发明的有益效果为:本发明提供的方法充分考虑了语义模糊性问题以及文本中词语的权重,能够准确的把握文本关键词的效果。

权利要求书

1.  一种用于短文本语义相似度计算的方法,其特征在于,包括以下步骤:
1)提取短文本的特征;
2)将提取的短文本的特征进行匹配,计算出短文本语义相似度。

2.
  根据权利要求1所述的用于短文本语义相似度计算的方法,其特征在于,所述提取短文本的特征具体包括以下步骤:
将短文本中的中文分词;
在中文分词后的短文本中选择文本特征;
对选择的文本特征进行权值计算。

3.
  根据权利要求2所述的用于短文本语义相似度计算的方法,其特征在于,所述将短文本中的中文分词具体为:通过分词算法对短文本进行分词。

4.
  根据权利要求3所述的用于短文本语义相似度计算的方法,其特征在于,所述在中文分词后的短文本中选择文本特征具体为:根据设定的规则从特征集中选择部分最有效的特征,形成文本特征向量。

5.
  根据权利要求4所述的用于短文本语义相似度计算的方法,其特征在于,所述对选择的文本特征进行权值计算具体为:将文本特征向量转化成数学模型。

6.
  根据权利要求5所述的用于短文本语义相似度计算的方法,其特征在于,所述将文本特征向量转化成数学模型具体为:
首先使用TF-IDF加权方法,利用统计的方法评估某个字词对于文本数据集中某份特定文件的重要程度,步骤如下:
a)计算词在该文件中出现的频次、词频TF,具体公式如下:
其中,nt,d表示词t在文件d中的出现次数,分母表示该文件中所有词的出现次数的总和;
b)计算逆向文件频率IDF,具体公式如下:
其中,N为文档库D中的文件数量,分母表示文档库D中包含有词t的文件的数量;
c)计算词语t对于文档库D中特定文件d的重要性TF-IDF,公式如下:
w=tfidf(t,d,D)=tf(t,d)×idf(t,D);
对于一个输入的短文本,经过上述步骤处理后,将得到一个文本向量T及其对应的权重向量W,其中,
T={t1,t2,...,tm}
W={w1,w2,...,wm}。

7.
  根据权利要求1~6任一项所述的用于短文本语义相似度计算的方法,其特征在于,所述将提取的短文本的特征进行匹配,计算出短文本语义相似度具体以下步骤:
1)词汇语义相似度计算;
2)词汇相似度矩阵;
3)短文本高相似词向量;
4)文本向量相似度计算。

8.
  根据权利要求7所述的用于短文本语义相似度计算的方法,其特征在于,所述词汇语义相似度计算具体为:利用相似度计算方法计算两个关键词之间的相似度,然后,把两个关键词之间的相似度问题归结为两个概念语义表达式之间的相似度问题,最后得到两个词汇的语义相似度。

9.
  根据权利要求8所述的用于短文本语义相似度计算的方法,其特征在于,所述步骤2)中词汇相似度矩阵,具体方法为对两个文本向量中的每个词分别计算它们之间的语义相似度,得到相似度矩阵。

10.
  根据权利要求9所述的用于短文本语义相似度计算的方法,其特征在于,其中步骤3)短文本高相似词向量,基于步骤2)中得到的相似度矩阵,获取高相似词向量;具体步骤如下:
首先遍历矩阵,取出相似度最大的词语组合,然后将其所属行和列从矩阵中删除,依次取余下矩阵中相似度最大的组合,直到矩阵为空,最后得到由k对相似度最高的词语组合构成的向量,其中,k为自然数;
其中步骤4)文本向量相似度计算,结合了向量空间模型和词汇语义相似度模型来计算文本的相似度,具体步骤如下:
首先,对于原文本向量中的部分词进行了重新排序,并找到了另一向量中与之最相似的对应词;
然后,结合传统通过测量两个向量内积空间的夹角余弦值来度量的相似性方法。

说明书

一种用于短文本语义相似度计算的方法
技术领域
本发明涉及文本挖掘技术领域,尤其是涉及一种用于短文本语义相似度计算的方法。
背景技术
不同年龄段、不同职业背景的人们,每天在微博上就国内外新闻、影视娱乐和个人生活等等话题进行评论或分享。目前,对于微博话题的归类,完全依赖于用户手工在微博内容中使用“#”符号添加话题标签,对于共同话题的归类使用的是最简单的字符串匹配方法。在这种场景下,任何两个不能完全匹配的字符串都会被当作是不同的话题。例如,“去旅游”和“去旅行”这两个具有相同语义的话题标签,就会因为字符串无法匹配而被当作是不同的话题。再或者,假如用户没有为微博内容添加话题标签,那么这条微博就成了孤立内容,除了被粉丝评论和转发,用户得不到任何其它关于所发表内容的话题的反馈。
基于相似词语的文本相似度计算方法则利用WordNet、知网等本体论或语义词典,完成对两个文本中词语之间的相似度计算,在此基础上再通过某种计算公式得到文本之间的相似度。这种方法充分考虑了语义模糊性问题,但是却忽略了文本中词语的权重,对文本关键词的把握效果不好。
发明内容
本发明的目的是为了克服现有技术的不足,提供了一种高精度环保用于短文本语义相似度计算的方法笔头。
本发明是通过以上技术方案实现:
本发明提供了一种用于短文本语义相似度计算的方法,该用于短文本语义相似度计算的方法包括以下步骤:
1)提取短文本的特征;
2)将提取的短文本的特征进行匹配,计算出短文本语义相似度。
优选的,所述提取短文本的特征具体包括以下步骤:
将短文本中的中文分词;
在中文分词后的短文本中选择文本特征;
对选择的文本特征进行权值计算。
优选的,所述将短文本中的中文分词具体为:通过分词算法对短文本进行分词。
优选的,所述在中文分词后的短文本中选择文本特征具体为:根据设定的规则从特征集中选择部分最有效的特征,形成文本特征向量。
优选的,所述对选择的文本特征进行权值计算具体为:将文本特征向量转化成数学模型。
优选的,所述将文本特征向量转化成数学模型具体为:
首先使用TF-IDF加权方法,利用统计的方法评估某个字词对于文本数据集中某份特定文件的重要程度,步骤如下:
a)计算词在该文件中出现的频次、词频TF,具体公式如下:
其中,nt,d表示词t在文件d中的出现次数,分母表示该文件中所有词的出现次数的总和;
b)计算逆向文件频率IDF,具体公式如下:
其中,N为文档库D中的文件数量,分母表示文档库D中包含有词t的文件的数量;
c)计算词语t对于文档库D中特定文件d的重要性TF-IDF,公式如下:
w=tfidf(t,d,D)=tf(t,d)×idf(t,D);
对于一个输入的短文本,经过上述步骤处理后,将得到一个文本向量T及其对应的权重向量W,其中,
T={t1,t2,...,tm}
W={w1,w2,...,wm}。
优选的,所述将提取的短文本的特征进行匹配,计算出短文本语义相似度具体以下步骤:
1)词汇语义相似度计算;
2)词汇相似度矩阵;
3)短文本高相似词向量;
4)文本向量相似度计算。
优选的,所述词汇语义相似度计算具体为:利用相似度计算方法计算两个关键词之间的相似度,然后,把两个关键词之间的相似度问题归结为两个概念语义表达式之间的相似度问题,最后得到两个词汇的语义相似度。
优选的,所述步骤2)中词汇相似度矩阵,具体方法为对两个文本向量中的每个词分别计算它们之间的语义相似度,得到相似度矩阵。
优选的,其中步骤3)短文本高相似词向量,基于步骤2)中得到的相 似度矩阵,获取高相似词向量;具体步骤如下:
首先遍历矩阵,取出相似度最大的词语组合,然后将其所属行和列从矩阵中删除,依次取余下矩阵中相似度最大的组合,直到矩阵为空,最后得到由k对相似度最高的词语组合构成的向量,其中,k为自然数;
其中步骤4)文本向量相似度计算,结合了向量空间模型和词汇语义相似度模型来计算文本的相似度,具体步骤如下:
首先,对于原文本向量中的部分词进行了重新排序,并找到了另一向量中与之最相似的对应词;
然后,结合传统通过测量两个向量内积空间的夹角余弦值来度量的相似性方法。
本发明的有益效果为:本发明提供的方法充分考虑了语义模糊性问题以及文本中词语的权重,能够准确的把握文本关键词的效果。
附图说明
图1是本发明中的用于短文本语义相似度计算的方法的流程图;
图2是本发明中的短文本特征提取流程图;
图3为本发明中的短文本特征匹配流图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以右结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明中的用于短文本语义相似度计算的方法的流程图。
本发明实施例提供了一种用于短文本语义相似度计算的方法,该用于短文本语义相似度计算的方法包括:本发明提供了一种用于短文本语义相似度计算的方法,该用于短文本语义相似度计算的方法包括以下步骤:
1)提取短文本的特征;
2)将提取的短文本的特征进行匹配,计算出短文本语义相似度。
其中的提取短文本的特征具体包括以下步骤:
将短文本中的中文分词;
具体为:通过分词算法对短文本进行分词。
在中文分词后的短文本中选择文本特征;
具体的,根据设定的规则从特征集中选择部分最有效的特征,形成文本特征向量。
对选择的文本特征进行权值计算。
具体的,将文本特征向量转化成数学模型其中,将文本特征向量转化成数学模型具体为:
首先使用TF-IDF加权方法,利用统计的方法评估某个字词对于文本数据集中某份特定文件的重要程度,步骤如下:
a)计算词在该文件中出现的频次、词频TF,具体公式如下:
其中,nt,d表示词t在文件d中的出现次数,分母表示该文件中所有词的出现次数的总和;
b)计算逆向文件频率IDF,具体公式如下:
其中,N为文档库D中的文件数量,分母表示文档库D中包含有词t的文件的数量;
c)计算词语t对于文档库D中特定文件d的重要性TF-IDF,公式如下:
w=tfidf(t,d,D)=tf(t,d)×idf(t,D);
对于一个输入的短文本,经过上述步骤处理后,将得到一个文本向量T及其对应的权重向量W,其中,
T={t1,t2,...,tm}
W={w1,w2,...,wm}。
优选的,所述将提取的短文本的特征进行匹配,计算出短文本语义相似度具体以下步骤:
1)词汇语义相似度计算;
具体的,所述词汇语义相似度计算具体为:利用相似度计算方法计算两个关键词之间的相似度,然后,把两个关键词之间的相似度问题归结为两个概念语义表达式之间的相似度问题,最后得到两个词汇的语义相似度。
2)词汇相似度矩阵;
具体方法为对两个文本向量中的每个词分别计算它们之间的语义相似度,得到相似度矩阵。
3)短文本高相似词向量;
具体的,基于步骤2)中得到的相似度矩阵,获取高相似词向量;具体步骤如下;
首先遍历矩阵,取出相似度最大的词语组合,然后将其所属行和列从矩阵中删除,依次取余下矩阵中相似度最大的组合,直到矩阵为空,最后得到由k对相似度最高的词语组合构成的向量,其中,k为自然数。
4)文本向量相似度计算。
具体的,结合向量空间模型和词汇语义相似度模型来计算文本的相似度,具体步骤如下:
首先,对于原文本向量中的部分词进行了重新排序,并找到了另一向量中与之最相似的对应词;
然后,结合传统通过测量两个向量内积空间的夹角余弦值来度量的相似性方法。
通过上述方法可以看出:本发明提供的方法充分考虑了语义模糊性问题以及文本中词语的权重,能够准确的把握文本关键词的效果。
为了对本发明提供的方法能够详细的了解,下面结合具体实施施力进行说明。
其中,文本的特征提取过程,如图2所示,包括如下步骤:
(1)中文分词
(2)特征选择
(3)权值计算
其中,步骤(1)中所描述的中文分词处理方法,具体描述如下:
中文分词是中文自然语言处理的首要步骤,目前中文分词的方法主要有基于语料库的正向或逆向最大匹配法、基于统计机器学习的方法等。经过多年发展,目前的中文分词技术已经较为成熟,国内外已有不少开源项目,这里可以选用任意一种较好的分词算法对短文本进行分词,如 ICTCLAS,MMSeg等。
其中,步骤(2)的特征是根据一定的规则从特征集中选择部分最有效的特征,形成文本特征向量。
在本发明中步骤(2)可以运用两种特征选择方法来实现:一种是为分词器增加停用词词典,使其在分词过程中自动过滤掉这些无关词;另外一种是根据词频进行筛选,将出现频率非常高的单字或词进行过滤。
其中,步骤(3)权值计算的特征在于将文本转化为具有一定意义的数学模型。
本发明的实施例中,使用TF-IDF加权技术,利用统计的方法评估某个字词对于文本数据集中某份特定文件的重要程度。
所描述的TF-IDF加权技术,主要方法具体如下:
某个词语对于特定文件的重要程度,与它在该文件中出现的频次成正比,而与它在所有文件中出现的频次成反比,即某个词的权重与词频TF和逆向文件频率IDF两部分相关,分别如下列公式所示:
tf(t,d)=nt,dΣknk,d---(1)]]>
其中,nt,d表示词t在文件d中的出现次数,分母表示该文件中所有词的出现次数的总和。
idf(t,D)=logN|{d∈D:t∈d}|---(2)]]>
其中,N为文档库D中的文件数量,分母表示文档库D中包含有词t的文件的数量。最后,词语t对于文档库D中特定文件d的重要性TF-IDF如下所示:
w=tfidf(t,d,D)=tf(t,d)×idf(t,D)  (3)
对于一个输入的短文本,经过上述步骤处理后,将得到一个文本向量T及其对应的权重向量W,即:
T={t1,t2,...,tm}
W={w1,w2,...,wm}
另一部分为短文本特征的匹配过程:
令两个短文本输入的文本向量分别为T1,T2,如下所示:
T1={t11,t12,...,t1m}
T2={t21,t22,...,t2n}
其中m≥n,它们对应的权重向量分别为W1,W2
W1={w11,w12,...,w1m}
W2={w21,w22,...,w2n}
则这两个短文本特征的匹配流程如图3所示,具体步骤如下:
词汇语义相似度计算
词汇相似度矩阵
短文本高相似词向量
文本向量相似度计算
其中步骤1)中,词汇语义相似度的计算过程主要利用知网(HowNet)提供的计算方式。
在知网中,“概念”和“义原”是语义表达的两个重要方式。每个词可以表达为多个概念,而每个概念使用义原进行描述,义原是最基本的、不能再分割的用于描述概念的最小意义单位。
对于两个词语W1和W2,如果W1由概念集合{S11,S12,…,S1m}组成,W2由概念集合{S21,S22,…,S2n}组成,那么W1和W2的相似度如下所示:
similarity(W1,W2,)=maxi=1...n,j=1...msimilarity(S1i,S2j)---(4)]]>
这样,就把两个词之间的相似度问题归结为两个概念之间的相似度问题。知网中对实词的描述表示为一个特征结构,该特征结构含有以下四个特征:第一基本义原描述、其它基本义原描述、关系义原描述、关系符号描述。于是,两个概念语义表达式的整体相似度记为上述四个特征的部分相似度的加权和,即
similarity(s1,s2)=Σi=14(βi×similarityi(S1,S2))---(5)]]>
其中,βi是可调节的参数,满足:β1≥β2≥β3≥β4。而所有的概念又都是由义原来描述的,所以该问题最终归结为义原之间的相似度问题。由于所有的义原根据上下位关系构成了一个树状层次体系,对于树型结构,任何两个结点之间有且只有一条路径,因此可以根据义原之间的路径距离来计算两者的相似度。
其中步骤2)词汇相似度矩阵,具体表示过程如下:
设f为词的语义相似度函数,对两个文本向量中的每个词分别计算它们之间的语义相似度,可以得到如下的相似度矩阵:

该矩阵为对称矩阵,f(t1i,t2j)为利用上述词汇语义相似度方法计算所得 值,f(t1i,t2j)∈[0,1],并且当i=j时,有f(t1i,t2j)=1,即矩阵对角线上的值为1。
其中步骤3)短文本高相似词向量,具体步骤如下:
基于步骤2)中得到的相似度矩阵,获取高相似词向量。基本思想是:遍历矩阵,取出相似度最大的词语组合,然后将其所属行和列从矩阵中删除,依次取余下矩阵中相似度最大的组合,直到矩阵为空,最后得到由k对相似对最高的词语组合构成的向量。具体步骤如下:
①由于矩阵的对称性,对矩阵左下部分的相似度值进行排序,即对相似度值f(t11,t22),f(t12,t22),...,f(t1m序列从大到小排序,并记录值对应于矩阵的位置;
②设定一个阈值,对于相似度排序序列的每个值,如果大于,则执行如下操作:取出对应的矩阵位置i和j,从文本向量,取得相应词汇,从权重向量,取得相应权重;同时划掉第j行和第j列。
最后得到k对最高相似词语组合构成的文本向量及其对应的权重向量。其中,向量中的每个元素为词在语义词典中的概念,且与原向量中词对应。
T1={t11,t12,...,t1k}]]>
T2={t21,t22,...,t2k}]]>
W1={w11,w12,...,w1k}]]>
W2={w21,w22,...,w2k}]]>
其中步骤4)文本向量相似度计算,具体步骤如下:
通过上述处理,对于原文本向量中的部分词进行了重新排序,并找到了另一向量中与之最相似的对应词。结合传统通过测量两个向量内积空间 的夹角余弦值来度量的相似性方法,最后,的相似度定义如下:
similarity(T1,T2)=similarity(T1,T2)=Σi=1kw1iw2iΣi=1kw1i2Σi=1kw2i2×Σi=1k(w1iw2i×f(t1i,t2i))Σi=1kw1iw2i=Σi=1k(w1iw2i×f(t1i,t2i))Σi=1kΣ1i2Σi=1kw2i2---(6)]]>
其中,w′为原向量中对应词的TF-IDF权重,f(t′1i,t′2i)为词的语义相似度函数。公式(6)的含义是,将两个文本向量的相似度看作是它们相似度最高的若干词组在向量空间上的相似度乘以语义偏差值,对于其中任意一组相似词而言,词的权重、语义偏差越大,对文本相似度的影响就越大。如果这些相似词组在语义上是完全相同的,那么在向量空间中就是可替换的。该方法结合了向量空间模型和词汇语义相似度模型来计算文本的相似度,与空间距离度量的关系如下所示:
d(T1,T2)=α(1-similarity(Ti,Ti))similarity(T1,T2)]]>
其中,α是一个可调节的参数,表示当相似度为0.5时的距离值。
虽然本发明已以优选实例公开如上,然而所公开实例并非用以限制本发明的范围。可以理解:在不脱离本发明的精神的情况下,在此可以产生各种附加、修改和替换。本领域普通技术人员很清楚:在不脱离本发明的精神或本质特性的情况下,可以以其他特殊形式、结构、布置、比例、以及利用其他元件、材料和部件来实现本发明。本领域的技术人员将意识到:本发明可以使用发明实际中使用的结构、布置、比例、材料以及部件和其 他的许多修改,这些修改在不脱离本发明的原理的情况下而特别适应于特殊环境和操作需求。因此,当前公开的实施例在所有方面应被理解为说明性的而非对其请求保护的范围的限制。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

一种用于短文本语义相似度计算的方法.pdf_第1页
第1页 / 共11页
一种用于短文本语义相似度计算的方法.pdf_第2页
第2页 / 共11页
一种用于短文本语义相似度计算的方法.pdf_第3页
第3页 / 共11页
点击查看更多>>
资源描述

《一种用于短文本语义相似度计算的方法.pdf》由会员分享,可在线阅读,更多相关《一种用于短文本语义相似度计算的方法.pdf(11页珍藏版)》请在专利查询网上搜索。

本发明提供了一种用于短文本语义相似度计算的方法,该用于短文本语义相似度计算的方法包括以下步骤:1)提取短文本的特征;2)将提取的短文本的特征进行匹配,计算出短文本语义相似度。本发明的有益效果为:本发明提供的方法充分考虑了语义模糊性问题以及文本中词语的权重,能够准确的把握文本关键词的效果。 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1