多粒度短文本语义相似度比较方法及系统技术领域
本发明涉及大数据文本处理技术领域,特别涉及一种多粒度短文本语义相似度比
较方法及系统。
背景技术
短文本分类如此重要,那么究竟什么是短文本呢?目前,对于短文本还没有统一规
范的定义,本文参考已有的研究文献将短文本定义为长度不超过200字的文本形式的信息。
短文本的几种常见形式有手机短信息、社交网络短信息、信息检索简介信息、BBS/论坛短信
息等。一般来说,短文本包括的特点有:
①稀疏性。每条短文本形式信息的长度都比较短,都在200字以内,通常只有几句
话,有的甚至只有几个词语如微博信息、手机短信息等,因此所包含的有效信息也就非常
少,造成样本的特征非常稀疏,并且特征集的维数非常高,很难从中抽取到准确而关键的样
本特征用于分类学习。
②实时性。在互联网上出现的短文本形式的信息,大部分都是实时更新的,刷新速
度非常快,像聊天信息、微博信息、评论信息等,都在以秒计时的速度不断更新,难以采集,
并且这部分动态文本数量非常庞大,这就要求对短文本信息分类必须具有更高的效率。
③不规则性。短文本形式的信息用语不规范,包含流行词汇较多,造成了噪声特征
非常多,如“94”代表“就是”,“88”代表“再见”,“童鞋”代表“同学”,“河蟹”代表“和谐”等。流
行语在短文本中更是频繁出现,而且更新很快,如2011年的流行词“伤不起”、“有没有”、“坑
爹”,2012年的流行词“屌丝”、“江南Style”、“元芳,你怎么看”等等。
短文本理解与长文本不同,短文本通常不遵循语法规则,并且长度短、没有足够的
信息量来进行统计推断,机器很难在有限的语境中进行准确的推断。此外,由于短文本通常
不遵循语法,自然语言处理技术难以直接用于短文本分析,使得短文本的相似度对比存在
较大的难度。
发明内容
有鉴于此,本发明提出一种能够有效解决由于短文本通常不遵循语法规则,并且
长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断,使
得短文本的相似度对比存在较大的难度问题的多粒度短文本语义相似度比较方法及系统。
一种多粒度短文本语义相似度比较方法,其包括如下步骤:
S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;
S2、对经过预处理的短文本进行特征选择;
S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进
行中文分词预处理包括:
预先建立分词完的语料库,用于机器学习;
将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;
语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信
息;
判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;
形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概
率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概
率;
将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩
阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任
何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P
是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的
中文分词预处理。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进
行中文分词预处理包括:
通过隐马尔可夫模型完成对短文本的中文分词预处理。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S2包括:对于经
过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为短文本的
特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即文本空间
实际上是由一组由数字描述的词项所构建的向量空间。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S2中向量集表示
模型包括:
W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总
数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度。
在本发明所述的多粒度短文本语义相似度比较方法中,
通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相似度。
本发明还提供一种多粒度短文本语义相似度比较系统,其包括如下单元:
短文本预处理单元,用于对短文本进行预处理;所述预处理包括中文分词以及词
性标注;
短文本特征选择单元,用于对经过预处理的短文本进行特征选择;
短文本的相似度计算单元,用于对经过特征选择的向量集进行距离测量以确定短
文本的相似度。
在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本预处理单元中
对短文本进行中文分词预处理包括:
预先建立分词完的语料库,用于机器学习;
将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;
语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信
息;
判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;
形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概
率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概
率;
将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩
阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任
何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P
是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的
中文分词预处理;
所述短文本预处理单元中对短文本进行中文分词预处理包括:
通过隐马尔可夫模型完成对短文本的中文分词预处理。
在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元
包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作
为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,
即文本空间实际上是由一组由数字描述的词项所构建的向量空间。
在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元
中向量集表示模型包括:
W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总
数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度;
所述短文本的相似度计算单元通过基于空间向量的余弦算法进行距离测量以确
定不同短文本之间的相似度。
实施本发明提供的多粒度短文本语义相似度比较方法及系统与现有技术相比具
有以下有益效果:能够由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来
进行统计推断,机器很难在有限的语境中进行准确的推断,使得短文本的相似度对比存在
较大的难度的问题,使得短文本相似度对比结果更为准确。
附图说明
图1是本发明实施例的多粒度短文本语义相似度比较方法流程图。
具体实施方式
如图1所示,一种多粒度短文本语义相似度比较方法,其包括如下步骤:
S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;
S2、对经过预处理的短文本进行特征选择;
S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进
行中文分词预处理包括:
预先建立分词完的语料库,用于机器学习;
将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;
语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信
息;
判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;
形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概
率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概
率;
将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩
阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任
何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P
是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的
中文分词预处理。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进
行中文分词预处理包括:
通过隐马尔可夫模型完成对短文本的中文分词预处理。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S2包括:对于经
过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为短文本的
特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即文本空间
实际上是由一组由数字描述的词项所构建的向量空间。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S2中向量集表示
模型包括:
W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总
数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度。
在本发明所述的多粒度短文本语义相似度比较方法中,
通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相似度。
本发明还提供一种多粒度短文本语义相似度比较系统,其包括如下单元:
短文本预处理单元,用于对短文本进行预处理;所述预处理包括中文分词以及词
性标注;
短文本特征选择单元,用于对经过预处理的短文本进行特征选择;
短文本的相似度计算单元,用于对经过特征选择的向量集进行距离测量以确定短
文本的相似度。
在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本预处理单元中
对短文本进行中文分词预处理包括:
预先建立分词完的语料库,用于机器学习;
将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;
语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信
息;
判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;
形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概
率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概
率;
将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩
阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任
何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P
是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的
中文分词预处理;
所述短文本预处理单元中对短文本进行中文分词预处理包括:
通过隐马尔可夫模型完成对短文本的中文分词预处理。
在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元
包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作
为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,
即文本空间实际上是由一组由数字描述的词项所构建的向量空间。
在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元
中向量集表示模型包括:
W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总
数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度;
所述短文本的相似度计算单元通过基于空间向量的余弦算法进行距离测量以确
定不同短文本之间的相似度。
实施本发明提供的多粒度短文本语义相似度比较方法及系统与现有技术相比具
有以下有益效果:能够由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来
进行统计推断,机器很难在有限的语境中进行准确的推断,使得短文本的相似度对比存在
较大的难度的问题,使得短文本相似度对比结果更为准确。。
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做
出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范
围。