多粒度短文本语义相似度比较方法及系统.pdf

上传人:a3 文档编号:6092448 上传时间:2019-04-10 格式:PDF 页数:9 大小:593.25KB
返回 下载 相关 举报
摘要
申请专利号:

CN201610986272.2

申请日:

2016.11.09

公开号:

CN106569999A

公开日:

2017.04.19

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/27申请日:20161109|||公开

IPC分类号:

G06F17/27

主分类号:

G06F17/27

申请人:

武汉泰迪智慧科技有限公司

发明人:

李成华; 刘丽君

地址:

430000 湖北省武汉市东湖新技术开发区高新大道999号A5北2-509

优先权:

专利代理机构:

武汉智嘉联合知识产权代理事务所(普通合伙) 42231

代理人:

黄君军

PDF下载: PDF下载
内容摘要

一种多粒度短文本语义相似度比较方法,其包括如下步骤:S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;S2、对经过预处理的短文本进行特征选择;S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。实施本发明提供的多粒度短文本语义相似度比较方法及系统与现有技术相比具有以下有益效果:能够由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断,使得短文本的相似度对比存在较大的难度的问题,使得短文本相似度对比结果更为准确。

权利要求书

1.一种多粒度短文本语义相似度比较方法,其特征在于,其包括如下步骤:
S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;
S2、对经过预处理的短文本进行特征选择;
S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。
2.如权利要求1所述的多粒度短文本语义相似度比较方法,其特征在于,所述步骤S1中
对短文本进行中文分词预处理包括:
预先建立分词完的语料库,用于机器学习;
将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;
语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信息;
判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;形成
一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概率;记
录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概率;
将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩阵中
的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任何一
个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P是特
征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的中文
分词预处理。
3.如权利要求2所述的多粒度短文本语义相似度比较方法,其特征在于,所述步骤S1中
对短文本进行中文分词预处理包括:
通过隐马尔可夫模型完成对短文本的中文分词预处理。
4.如权利要求2所述的多粒度短文本语义相似度比较方法,其特征在于,所述步骤S2包
括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为
短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即
文本空间实际上是由一组由数字描述的词项所构建的向量空间。
5.如权利要求2所述的多粒度短文本语义相似度比较方法,其特征在于,所述步骤S2中
向量集表示模型包括:
<mrow> <mi>W</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>t</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <msub> <mi>n</mi> <mi>t</mi> </msub> <mo>+</mo> <mn>0.01</mn> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>d</mi> </mrow> </msub> <msup> <mrow> <mo>&lsqb;</mo> <mi>t</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <msub> <mi>n</mi> <mi>t</mi> </msub> <mo>+</mo> <mn>0.01</mn> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> </mrow>
W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总数;nt
为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度。
6.如权利要求5所述的多粒度短文本语义相似度比较方法,其特征在于,
通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相似度。
7.一种多粒度短文本语义相似度比较系统,其特征在于,其包括如下单元:
短文本预处理单元,用于对短文本进行预处理;所述预处理包括中文分词以及词性标
注;
短文本特征选择单元,用于对经过预处理的短文本进行特征选择;
短文本的相似度计算单元,用于对经过特征选择的向量集进行距离测量以确定短文本
的相似度。
8.如权利要求7所述的多粒度短文本语义相似度比较系统,其特征在于,所述短文本预
处理单元中对短文本进行中文分词预处理包括:
预先建立分词完的语料库,用于机器学习;
将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;
语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信息;
判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;形成
一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概率;记
录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概率;
将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩阵中
的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任何一
个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P是特
征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的中文
分词预处理;
所述短文本预处理单元中对短文本进行中文分词预处理包括:
通过隐马尔可夫模型完成对短文本的中文分词预处理。
9.如权利要求7所述的多粒度短文本语义相似度比较系统,其特征在于,所述短文本特
征选择单元包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表
性的词条作为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表
示该短文本,即文本空间实际上是由一组由数字描述的词项所构建的向量空间。
10.如权利要求9所述的多粒度短文本语义相似度比较系统,其特征在于,所述短文本
特征选择单元中向量集表示模型包括:
<mrow> <mi>W</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>t</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <msub> <mi>n</mi> <mi>t</mi> </msub> <mo>+</mo> <mn>0.01</mn> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>d</mi> </mrow> </msub> <msup> <mrow> <mo>&lsqb;</mo> <mi>t</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <msub> <mi>n</mi> <mi>t</mi> </msub> <mo>+</mo> <mn>0.01</mn> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> </mrow>
W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总数;nt
为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度;
所述短文本的相似度计算单元通过基于空间向量的余弦算法进行距离测量以确定不
同短文本之间的相似度。

说明书

多粒度短文本语义相似度比较方法及系统

技术领域

本发明涉及大数据文本处理技术领域,特别涉及一种多粒度短文本语义相似度比
较方法及系统。

背景技术

短文本分类如此重要,那么究竟什么是短文本呢?目前,对于短文本还没有统一规
范的定义,本文参考已有的研究文献将短文本定义为长度不超过200字的文本形式的信息。
短文本的几种常见形式有手机短信息、社交网络短信息、信息检索简介信息、BBS/论坛短信
息等。一般来说,短文本包括的特点有:

①稀疏性。每条短文本形式信息的长度都比较短,都在200字以内,通常只有几句
话,有的甚至只有几个词语如微博信息、手机短信息等,因此所包含的有效信息也就非常
少,造成样本的特征非常稀疏,并且特征集的维数非常高,很难从中抽取到准确而关键的样
本特征用于分类学习。

②实时性。在互联网上出现的短文本形式的信息,大部分都是实时更新的,刷新速
度非常快,像聊天信息、微博信息、评论信息等,都在以秒计时的速度不断更新,难以采集,
并且这部分动态文本数量非常庞大,这就要求对短文本信息分类必须具有更高的效率。

③不规则性。短文本形式的信息用语不规范,包含流行词汇较多,造成了噪声特征
非常多,如“94”代表“就是”,“88”代表“再见”,“童鞋”代表“同学”,“河蟹”代表“和谐”等。流
行语在短文本中更是频繁出现,而且更新很快,如2011年的流行词“伤不起”、“有没有”、“坑
爹”,2012年的流行词“屌丝”、“江南Style”、“元芳,你怎么看”等等。

短文本理解与长文本不同,短文本通常不遵循语法规则,并且长度短、没有足够的
信息量来进行统计推断,机器很难在有限的语境中进行准确的推断。此外,由于短文本通常
不遵循语法,自然语言处理技术难以直接用于短文本分析,使得短文本的相似度对比存在
较大的难度。

发明内容

有鉴于此,本发明提出一种能够有效解决由于短文本通常不遵循语法规则,并且
长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断,使
得短文本的相似度对比存在较大的难度问题的多粒度短文本语义相似度比较方法及系统。

一种多粒度短文本语义相似度比较方法,其包括如下步骤:

S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;

S2、对经过预处理的短文本进行特征选择;

S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。

在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进
行中文分词预处理包括:

预先建立分词完的语料库,用于机器学习;

将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;

语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信
息;

判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;
形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概
率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概
率;

将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩
阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任
何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P
是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的
中文分词预处理。

在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进
行中文分词预处理包括:

通过隐马尔可夫模型完成对短文本的中文分词预处理。

在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S2包括:对于经
过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为短文本的
特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即文本空间
实际上是由一组由数字描述的词项所构建的向量空间。

在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S2中向量集表示
模型包括:


W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总
数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度。

在本发明所述的多粒度短文本语义相似度比较方法中,

通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相似度。

本发明还提供一种多粒度短文本语义相似度比较系统,其包括如下单元:

短文本预处理单元,用于对短文本进行预处理;所述预处理包括中文分词以及词
性标注;

短文本特征选择单元,用于对经过预处理的短文本进行特征选择;

短文本的相似度计算单元,用于对经过特征选择的向量集进行距离测量以确定短
文本的相似度。

在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本预处理单元中
对短文本进行中文分词预处理包括:

预先建立分词完的语料库,用于机器学习;

将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;

语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信
息;

判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;
形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概
率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概
率;

将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩
阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任
何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P
是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的
中文分词预处理;

所述短文本预处理单元中对短文本进行中文分词预处理包括:

通过隐马尔可夫模型完成对短文本的中文分词预处理。

在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元
包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作
为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,
即文本空间实际上是由一组由数字描述的词项所构建的向量空间。

在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元
中向量集表示模型包括:


W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总
数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度;

所述短文本的相似度计算单元通过基于空间向量的余弦算法进行距离测量以确
定不同短文本之间的相似度。

实施本发明提供的多粒度短文本语义相似度比较方法及系统与现有技术相比具
有以下有益效果:能够由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来
进行统计推断,机器很难在有限的语境中进行准确的推断,使得短文本的相似度对比存在
较大的难度的问题,使得短文本相似度对比结果更为准确。

附图说明

图1是本发明实施例的多粒度短文本语义相似度比较方法流程图。

具体实施方式

如图1所示,一种多粒度短文本语义相似度比较方法,其包括如下步骤:

S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;

S2、对经过预处理的短文本进行特征选择;

S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。

在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进
行中文分词预处理包括:

预先建立分词完的语料库,用于机器学习;

将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;

语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信
息;

判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;
形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概
率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概
率;

将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩
阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任
何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P
是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的
中文分词预处理。

在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进
行中文分词预处理包括:

通过隐马尔可夫模型完成对短文本的中文分词预处理。

在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S2包括:对于经
过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为短文本的
特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即文本空间
实际上是由一组由数字描述的词项所构建的向量空间。

在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S2中向量集表示
模型包括:


W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总
数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度。

在本发明所述的多粒度短文本语义相似度比较方法中,

通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相似度。

本发明还提供一种多粒度短文本语义相似度比较系统,其包括如下单元:

短文本预处理单元,用于对短文本进行预处理;所述预处理包括中文分词以及词
性标注;

短文本特征选择单元,用于对经过预处理的短文本进行特征选择;

短文本的相似度计算单元,用于对经过特征选择的向量集进行距离测量以确定短
文本的相似度。

在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本预处理单元中
对短文本进行中文分词预处理包括:

预先建立分词完的语料库,用于机器学习;

将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;

语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信
息;

判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;
形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概
率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概
率;

将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩
阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任
何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P
是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的
中文分词预处理;

所述短文本预处理单元中对短文本进行中文分词预处理包括:

通过隐马尔可夫模型完成对短文本的中文分词预处理。

在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元
包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作
为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,
即文本空间实际上是由一组由数字描述的词项所构建的向量空间。

在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元
中向量集表示模型包括:


W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总
数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度;

所述短文本的相似度计算单元通过基于空间向量的余弦算法进行距离测量以确
定不同短文本之间的相似度。

实施本发明提供的多粒度短文本语义相似度比较方法及系统与现有技术相比具
有以下有益效果:能够由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来
进行统计推断,机器很难在有限的语境中进行准确的推断,使得短文本的相似度对比存在
较大的难度的问题,使得短文本相似度对比结果更为准确。。

可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做
出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范
围。

多粒度短文本语义相似度比较方法及系统.pdf_第1页
第1页 / 共9页
多粒度短文本语义相似度比较方法及系统.pdf_第2页
第2页 / 共9页
多粒度短文本语义相似度比较方法及系统.pdf_第3页
第3页 / 共9页
点击查看更多>>
资源描述

《多粒度短文本语义相似度比较方法及系统.pdf》由会员分享,可在线阅读,更多相关《多粒度短文本语义相似度比较方法及系统.pdf(9页珍藏版)》请在专利查询网上搜索。

一种多粒度短文本语义相似度比较方法,其包括如下步骤:S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;S2、对经过预处理的短文本进行特征选择;S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。实施本发明提供的多粒度短文本语义相似度比较方法及系统与现有技术相比具有以下有益效果:能够由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1