问答匹配方法及装置.pdf

上传人:e1 文档编号:1306977 上传时间:2018-04-14 格式:PDF 页数:16 大小:1.01MB
返回 下载 相关 举报
摘要
申请专利号:

CN201611271173.2

申请日:

2016.12.30

公开号:

CN106649868A

公开日:

2017.05.10

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20161230|||公开

IPC分类号:

G06F17/30; G06K9/62

主分类号:

G06F17/30

申请人:

首都师范大学

发明人:

周建设; 袁家政; 刘宏哲; 刘琴; 史金生; 刘杰

地址:

100000 北京市海淀区西三环北路105号

优先权:

专利代理机构:

北京超凡志成知识产权代理事务所(普通合伙) 11371

代理人:

王宁宁

PDF下载: PDF下载
内容摘要

本发明提供了一种问答匹配方法及装置,涉及智能问答技术领域,包括一种问答匹配方法,包括:提取输入问句文本中的关键词;根据关键词,采用索引过滤的方式从预先建立的问题库中确定目标匹配问句文本;基于莱温斯坦距离算法,从目标匹配问句文本中确定与输入问句文本的相似度最高的最佳匹配问句文本;根据最佳匹配问句文本,输出与输入问句文本对应的答案文本。本发明可以在较短的时间内输出与输入问句相应的答案,既可缩短问答匹配时长,又可提升准确率。

权利要求书

1.一种问答匹配方法,其特征在于,包括:
提取输入问句文本中的关键词;
根据所述关键词,采用索引过滤的方式从预先建立的问题库中确定目标匹配问句文
本;
基于莱温斯坦距离算法,从所述目标匹配问句文本中确定与所述输入问句文本的相似
度最高的最佳匹配问句文本;
根据所述最佳匹配问句文本,输出与所述输入问句文本对应的答案文本。
2.根据权利要求1所述的方法,其特征在于,提取输入问句文本中的关键词包括:
对输入问句文本进行分词,生成词序列;
去除所述词序列中的停用词,得到词条;
利用改进后的信息熵公式,计算得到各个词条对应的权重;所述改进后的信息熵公式
为:
<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>+</mo> <mfrac> <mn>1</mn> <mrow> <mi>log</mi> <mi> </mi> <mi>N</mi> </mrow> </mfrac> <mo>&lsqb;</mo> <mfrac> <msub> <mi>f</mi> <mrow> <mi>t</mi> <mi>k</mi> </mrow> </msub> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <msub> <mi>f</mi> <mrow> <mi>t</mi> <mi>k</mi> </mrow> </msub> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow>
其中,H(t)为词条t对应的权重;ftk为词条t出现在文本k中的频率,nt为词条t出现在所
有的文本集合当中的频率,N为文本集合中文本的总数;
将所有词条按照计算后得到的所述权重的大小进行排序,得到权重排序表;
根据预先设置的提取比例,从所述权重排序表中提取关键词。
3.根据权利要求1所述的方法,其特征在于,根据所述关键词,采用索引过滤的方式从
预先建立的问题库中确定目标匹配问句文本包括:
根据所述输入问句文本中的关键词,以及预先建立的问题库中的预设关键词与预设问
句文本之间的索引关系,得到所述预设问句文本与所述输入问句文本对应的匹配值;
将所述匹配值大于预设匹配阈值的所述预设问句文本确定为目标匹配问句文本。
4.根据权利要求3所述的方法,其特征在于,根据所述输入问句文本中的关键词,以及
预先建立的问题库中的预设关键词与预设问句文本之间的索引关系,得到所述预设问句文
本与所述输入问句文本对应的匹配值包括:
将预先建立的问题库中与所述输入问句文本中的关键词相同的预设关键词作为匹配
关键词;
根据所述问题库中的预设关键词与预设问句文本之间的索引关系,遍历所述问题库中
的预设问句文本,以确定所述预设问句文本中包含的所述匹配关键词的个数;将所述预设
问句文本中包含的所述匹配关键词的个数作为所述预设问句文本与所述输入问句文本对
应的匹配值。
5.根据权利要求3或4所述的方法,其特征在于,所述问题库的建立包括:
预先设置预设问句文本,以及与所述预设问句文本对应的标准答案文本,并将所述预
设问句文本和所述标准答案文本存储于所述问题库中;
为各个所述预设问句文本建立编号标识;
提取各个所述预设问句文本对应的预设关键词;
建立所述预设关键词与所述预设问句文本之间的索引关系;其中,在所述索引关系中,
所述预设关键词与包含所述预设关键词的一个或多个预设问句文本的编号标识相对应。
6.根据权利要求1所述的方法,其特征在于,根据最佳匹配问句文本,输出与所述输入
问句文本对应的答案文本包括:
判断所述最佳匹配问句文本的相似度是否达到预设相似度阈值;
如果是,从所述问题库中查找所述最佳匹配问句文本对应的标准答案文本,将所述标
准答案文本作为所述输入问句文本对应的答案文本输出;
如果否,从互联网查找所述输入问句文本对应的网络答案文本,将所述网络答案文本
作为所述输入问句文本对应的答案文本输出。
7.一种问答匹配装置,其特征在于,包括:
提取模块,用于提取输入问句文本中的关键词;
第一确定模块,用于根据所述关键词,采用索引过滤的方式从预先建立的问题库中确
定目标匹配问句文本;
第二确定模块,用于基于莱温斯坦距离算法,从所述目标匹配问句文本中确定与所述
输入问句文本的相似度最高的最佳匹配问句文本;
答案输出模块,用于根据所述最佳匹配问句文本,输出与所述输入问句文本对应的答
案文本。
8.根据权利要求7所述的装置,其特征在于,所述提取模块包括:
分词单元,用于对输入问句文本进行分词,生成词序列;
停用词去除单元,用于去除所述词序列中的停用词,得到词条;
权重计算单元,用于利用改进后的信息熵公式,计算得到各个词条对应的权重;所述改
进后的信息熵公式为:
<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>+</mo> <mfrac> <mn>1</mn> <mrow> <mi>log</mi> <mi> </mi> <mi>N</mi> </mrow> </mfrac> <mo>&lsqb;</mo> <mfrac> <msub> <mi>f</mi> <mrow> <mi>t</mi> <mi>k</mi> </mrow> </msub> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <msub> <mi>f</mi> <mrow> <mi>t</mi> <mi>k</mi> </mrow> </msub> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow>
其中,H(t)为词条t对应的权重;ftk为词条t出现在文本k中的频率,nt为词条t出现在所
有的文本集合当中的频率,N为文本集合中文本的总数;
排序单元,用于将所有词条按照计算后得到的所述权重的大小进行排序,得到权重排
序表;
关键词提取单元,用于根据预先设置的提取比例,从所述权重排序表中提取关键词。
9.根据权利要求7所述的装置,其特征在于,所述第一确定模块包括:
匹配值获取单元,用于根据所述输入问句文本中的关键词,以及预先建立的问题库中
的预设关键词与预设问句文本之间的索引关系,得到所述预设问句文本与所述输入问句文
本对应的匹配值;
第一确定单元,用于将所述匹配值大于预设匹配阈值的所述预设问句文本确定为目标
匹配问句文本。
10.根据权利要求7所述的装置,其特征在于,所述答案输出模块包括:
判断单元,用于判断所述最佳匹配问句文本的相似度是否达到预设相似度阈值;
标准答案输出单元,用于在判断所述最佳匹配问句文本的相似度达到预设相似度阈值
时,从所述问题库中查找所述最佳匹配问句文本对应的标准答案文本,将所述标准答案文
本作为所述输入问句文本对应的答案文本输出;
网络答案输出单元,用于在判断所述最佳匹配问句文本的相似度未达到预设相似度阈
值时,从互联网查找所述输入问句文本对应的网络答案文本,将所述网络答案文本作为所
述输入问句文本对应的答案文本输出。

说明书

问答匹配方法及装置

技术领域

本发明涉及智能问答技术领域,尤其是涉及一种问答匹配方法及装置。

背景技术

随着科技的发展,方便快捷的问答系统也逐渐出现在人们的日常生活中,问答系
统可以根据用户的问题自动给出相应的答案,进而实现人机交互。

问答系统的实质为一种在已有的“问题—答案”集合中找到与用户提问相匹配的
问题文本,并将其对应的答案呈现给用户。该系统的核心思想为将用户提出的问句与问题
库中记录的问题进行相似度计算。现有的问答系统中大多采用基于空间模型的TF-IDF问句
相似度计算方法,然而,人机交互中用户所提问句大多较短,而该方法在问句较短时进行关
键词提取的准确率不高,并且匹配时间长,在用户提出问题后,需要较长时间才可收到匹配
答案,用户体验度不高。

针对上述现有技术中采用的问答匹配的方式准确率较低且用时较长的问题,目前
尚未提出有效的解决方案。

发明内容

有鉴于此,本发明的目的在于提供一种问答匹配方法及装置,以缓解现有技术中
的问答匹配的方式存在的准确率较低且用时较长的问题。

为了实现上述目的,本发明实施例采用的技术方案如下:

第一方面,本发明实施例提供了一种问答匹配方法,包括:提取输入问句文本中的
关键词;根据该关键词,采用索引过滤的方式从预先建立的问题库中确定目标匹配问句文
本;基于莱温斯坦距离算法,从目标匹配问句文本中确定与输入问句文本的相似度最高的
最佳匹配问句文本;根据该最佳匹配问句文本,输出与输入问句文本对应的答案文本。

结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,上
述提取输入问句文本中的关键词包括:对输入问句文本进行分词,生成词序列;去除词序列
中的停用词,得到词条;利用改进后的信息熵公式,计算得到各个词条对应的权重;改进后
的信息熵公式为:


其中,H(t)为词条t对应的权重;ftk为词条t出现在文本k中的频率,nt为词条t出现
在所有的文本集合当中的频率,N为文本集合中文本的总数;将所有词条按照计算后得到的
权重的大小进行排序,得到权重排序表;根据预先设置的提取比例,从权重排序表中提取关
键词。

结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,上
述根据关键词,采用索引过滤的方式从预先建立的问题库中确定目标匹配问句文本包括:
根据输入问句文本中的关键词,以及预先建立的问题库中的预设关键词与预设问句文本之
间的索引关系,得到预设问句文本与输入问句文本对应的匹配值;将匹配值大于预设匹配
阈值的预设问句文本确定为目标匹配问句文本。

结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种
可能的实施方式,其中,上述根据输入问句文本中的关键词,以及预先建立的问题库中的预
设关键词与预设问句文本之间的索引关系,得到预设问句文本与输入问句文本对应的匹配
值包括:将预先建立的问题库中与输入问句文本中的关键词相同的预设关键词作为匹配关
键词;根据问题库中的预设关键词与预设问句文本之间的索引关系,遍历问题库中的预设
问句文本,以确定预设问句文本中包含的匹配关键词的个数;将预设问句文本中包含的匹
配关键词的个数作为预设问句文本与输入问句文本对应的匹配值。

结合第一方面的第二种或第三种可能的实施方式,本发明实施例提供了第一方面
的第四种可能的实施方式,其中,上述问题库的建立包括:预先设置预设问句文本,以及与
预设问句文本对应的标准答案文本,并将预设问句文本和标准答案文本存储于问题库中;
为各个预设问句文本建立编号标识;提取各个预设问句文本对应的预设关键词;建立预设
关键词与预设问句文本之间的索引关系;其中,在索引关系中,预设关键词与包含预设关键
词的一个或多个预设问句文本的编号标识相对应。

结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,上
述根据最佳匹配问句文本,输出与输入问句文本对应的答案文本包括:判断最佳匹配问句
文本的相似度是否达到预设相似度阈值;如果是,从问题库中查找最佳匹配问句文本对应
的标准答案文本,将标准答案文本作为输入问句文本对应的答案文本输出;如果否,从互联
网查找输入问句文本对应的网络答案文本,将网络答案文本作为输入问句文本对应的答案
文本输出。

第二方面,本发明实施例还提供一种问答匹配装置,包括:提取模块,用于提取输
入问句文本中的关键词;第一确定模块,用于根据关键词,采用索引过滤的方式从预先建立
的问题库中确定目标匹配问句文本;第二确定模块,用于基于莱温斯坦距离算法,从目标匹
配问句文本中确定与输入问句文本的相似度最高的最佳匹配问句文本;答案输出模块,用
于根据最佳匹配问句文本,输出与输入问句文本对应的答案文本。

结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,上
述提取模块包括:分词单元,用于对输入问句文本进行分词,生成词序列;停用词去除单元,
用于去除词序列中的停用词,得到词条;权重计算单元,用于利用改进后的信息熵公式,计
算得到各个词条对应的权重;改进后的信息熵公式为:


其中,H(t)为词条t对应的权重;ftk为词条t出现在文本k中的频率,nt为词条t出现
在所有的文本集合当中的频率,N为文本集合中文本的总数;排序单元,用于将所有词条按
照计算后得到的权重的大小进行排序,得到权重排序表;关键词提取单元,用于根据预先设
置的提取比例,从权重排序表中提取关键词。

结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,上
述第一确定模块包括:匹配值获取单元,用于根据输入问句文本中的关键词,以及预先建立
的问题库中的预设关键词与预设问句文本之间的索引关系,得到预设问句文本与输入问句
文本对应的匹配值;第一确定单元,用于将匹配值大于预设匹配阈值的预设问句文本确定
为目标匹配问句文本。

结合第二方面,本发明实施例提供了第二方面的第三种可能的实施方式,其中,上
述答案输出模块包括:判断单元,用于判断最佳匹配问句文本的相似度是否达到预设相似
度阈值;标准答案输出单元,用于在判断最佳匹配问句文本的相似度达到预设相似度阈值
时,从问题库中查找最佳匹配问句文本对应的标准答案文本,将标准答案文本作为输入问
句文本对应的答案文本输出;网络答案输出单元,用于在判断最佳匹配问句文本的相似度
未达到预设相似度阈值时,从互联网查找输入问句文本对应的网络答案文本,将网络答案
文本作为输入问句文本对应的答案文本输出。

本发明实施例提供了一种问答匹配方法及装置,在提取输入问句文本中的关键词
后,通过索引过滤的方式从问题库中确定目标匹配问句文本,以缩小问题库中与输入问句
文本相匹配的问句范围,再基于莱温斯坦距离算法确定与输入问句文本的相似度最高的最
佳匹配问句文本,最后输出与输入问句文本对应的答案文本。与现有技术中采用的问答匹
配的方式准确率较低且用时较长的问题相比,本发明实施例提供的方法及装置可以在较短
的时间内输出与问句相应的答案,既可缩短问答匹配时长,又可提升准确率。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变
得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书
以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合
所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体
实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的
附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前
提下,还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种问答匹配方法流程图;

图2示出了本发明实施例所提供的一种问答匹配方法的具体流程图;

图3示出了本发明实施例所提供的一种问题库的建立方法流程图;

图4示出了本发明实施例所提供的一种问答匹配装置的结构框图;

图5示出了本发明实施例所提供的一种问答匹配装置的具体结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明
的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是
全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提
下所获得的所有其他实施例,都属于本发明保护的范围。

目前人机交互已逐渐融入人们的生活,能够针对用户的问题自主应答的设备或应
用软件已屡见不鲜,基本均通过记录有“问题—答案”集合的问答系统来实现问答匹配;然
而现有技术中的问答匹配方式大多采用基于空间模型的TF-IDF问句相似度计算方法来获
取用户,该方式的准确率较低且用时较长,基于此,本发明实施例提供的一种问答匹配方法
及装置,可以提高问答匹配的准确率,同时缩短匹配时长。以下对本发明实施例进行详细介
绍。

实施例一:

参见图1所示的一种问答匹配方法流程图,包括以下步骤:

步骤S102,提取输入问句文本中的关键词;该输入问句文本为用户通过人机交互
方式输入的问句文本;当用户采用语音输入方式时,则需将用户的语音问题转换为文字文
本,再将该文字文本作为输入问句文本;

步骤S104,根据关键词,采用索引过滤的方式从预先建立的问题库中确定目标匹
配问句文本;该目标匹配问句文本包括多个文本,目的在于可以预先缩小问题库中与用户
的输入问句文本相匹配的预设文本范围,有利于提升后续的问答匹配速度;

步骤S106,基于莱温斯坦距离算法,从目标匹配问句文本中确定与输入问句文本
的相似度最高的最佳匹配问句文本;莱温斯坦距离算法为:通过插入、删除、替换等编辑操
作,计算从一个字符串转换到另一个字符串所需要的最小编辑次数,从而衡量两个字符串
之间的相似度;基于该算法,可以快速准确的从预先筛选的目标匹配问句文本中查找到与
输入问句文本的相似度最高的匹配问句,将该匹配问句作为最佳匹配问句文本;

步骤S108,根据最佳匹配问句文本,输出与输入问句文本对应的答案文本。

本实施例的上述方法中,在提取输入问句文本中的关键词后,通过索引过滤的方
式从问题库中确定目标匹配问句文本,以缩小问题库中与输入问句文本相匹配的问句范
围,再基于莱温斯坦距离算法确定与输入问句文本的相似度最高的最佳匹配问句文本,最
后输出与输入问句文本对应的答案文本。该方法可以在较短的时间内输出与问句相应的答
案,既可缩短问答匹配时长,又可提升准确率。

具体的,现有技术中大多采用的是基于空间模型的TF-IDF问句相似度计算方法,
该方法主要适用于计算较长句子或文档的相似度,而针对短问句进行关键词提取的准确率
并不高;但是人机交互中用户所提的问句通常较短,因此现有技术所采用的基于空间模型
的TF-IDF问句相似度计算方法不能较好的达到用户的预期回答;此外,基于空间模型的TF-
IDF问句相似度计算方法还需要建立空间向量模型,过程较为复杂且用时较长,因此最终从
问题库(或问答系统)中查找到与用户的输入问句相匹配的答案时间较长,结合语音识别与
人机对答的特殊性,问答匹配速度也是关联用户体验度的重要因素,综上所述,现有技术致
使用户体验度不高,而本发明实施例提供的上述方法获得输入问句文本的过程简单,匹配
用时较短,且不受问句长短的限制,适用于短句,可以有效提高问答匹配的准确率,给用户
带来良好的体验。

为了便于理解与实施,可参见图2所示的一种问答匹配方法的具体流程图,包括以
下步骤:

步骤S202,对输入问句文本进行分词,生成词序列;即将输入问句文本切分为一个
一个单独的词,可将切分后的输入问句文本称为词序列;

步骤S204,去除词序列中的停用词,得到词条;为节省存储空间和提高搜索效率,
搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为停用
词,例如语气助词等通常自身并无明确意义的词,可以根据预先建立的停用词表而去除词
序列中的停用词。

步骤S206,利用改进后的信息熵公式,计算得到各个词条对应的权重;其中,改进
后的信息熵公式为:


其中,H(t)为词条t对应的权重;ftk为词条t出现在文本k中的频率,nt为词条t出现
在所有的文本集合当中的频率,N为文本集合中文本的总数;

通过上述改进后的信息熵公式来计算各个词条对应的权重,有助于后续基于各个
词条对应的权重判别关键词,可以较好地提升提取关键词的准确率,而且采用信息熵公式
的计算过程较为简便,得到结果的用时较短,有助于提高问答匹配速度。

步骤S208,将所有词条按照计算后得到的权重的大小进行排序,得到权重排序表;
可以由大至小排序,也可以由小至大排序,根据实际情况灵活设定。

步骤S210,根据预先设置的提取比例,从权重排序表中提取关键词;例如,设置提
取比例为百分之三十,则从权重排序表中提取权重最高的前百分之三十的关键词,如权重
排序表为按照权重由大至小排名,共记录有100个关键词,则提取前30个关键词。这种方式
可以有效缩小范围,有助于提升后续的问答匹配效率。

为了便于理解,本发明实施例提供了一种应用步骤S202至步骤S210的具体事例,
例如,输入问句文本为“中国四大名著”,经过分词后得到“中国/四/大/名著”的词序列,然
后去除停用词,并使用平均信息熵(即上述改进后的信息熵公式)计算各个词条的权重,最
终得到关键词为{中国,名著}。

步骤S212,根据输入问句文本中的关键词,以及预先建立的问题库中的预设关键
词与预设问句文本之间的索引关系,得到预设问句文本与输入问句文本对应的匹配值。

以下给出了一种具体的实现方式:

(1)将预先建立的问题库中与输入问句文本中的关键词相同的预设关键词作为匹
配关键词;

(2)根据问题库中的预设关键词与预设问句文本之间的索引关系,遍历问题库中
的预设问句文本,以确定预设问句文本中包含的匹配关键词的个数;将预设问句文本中包
含的匹配关键词的个数作为预设问句文本与输入问句文本对应的匹配值。

此外,为了便于理解,本实施例还给出了应用上述实现方式的一种实例:假设输入
问句文本有m个关键词,然后可用初始化为0,长度为N的一维数组来记录问题库中每个文本
包含的指定关键词的个数k值,然后遍历输入问句中包含的m个关键词的索引链,每出现一
个文本就把数组对应的位置加1,遍历完成后,就得到全部文本的k值,该k值即为匹配值。

步骤S214,将匹配值大于预设匹配阈值的预设问句文本确定为目标匹配问句文
本;

通过上述匹配值来衡量预设问句文本与输入问句文本之间的相似度,结果更加准
确可靠,而且根据匹配值预先筛选问题库中的预设问句文本,可以有效的缩小问题库中能
够与输入问句匹配的问句范围,有助于提升后续确定匹配文本的效率,缩短匹配时间。

步骤S216,基于莱温斯坦距离算法,从目标匹配问句文本中确定与输入问句文本
的相似度最高的最佳匹配问句文本;基于该算法,可以快速准确的从预先筛选的目标匹配
问句文本中查找到与输入问句文本的相似度最高的匹配问句(即包含的相同关键词最多),
将该匹配问句作为最佳匹配问句文本。

步骤S218,判断最佳匹配问句文本的相似度是否达到预设相似度阈值;如果是,执
行步骤S220;如果否,执行步骤S222;在从问题库中确定最佳匹配问句文本后,本步骤可以
在最后检验该最佳文本是否适合作为匹配结果,而不会像现有技术那样在最终查找到最适
合的匹配结果后盲目输出答案,造成答非所问,致使用户体验度不高。

步骤S220,从问题库中查找最佳匹配问句文本对应的标准答案文本,将标准答案
文本作为输入问句文本对应的答案文本输出;其中,问题库中预先存储有各个预设问句文
本以及对应的标准答案文本。

步骤S222,从互联网查找输入问句文本对应的网络答案文本,将网络答案文本作
为输入问句文本对应的答案文本输出。可以通过索索引擎等方式直接将用户的输入问句输
入至互联网中以查找网络答案文本,在问题库中没有查找到与用户问句相匹配的文本时,
通过网络答案文本来满足用户需求,提升用户体验度。

其中,图2中的步骤S202至步骤S210对应的是图1中的步骤S102;图2中的步骤S212
和步骤S214对应的是图1中的步骤S104;图2中的步骤S216与图1中的步骤S106相对应;图2
中的步骤S218至步骤S222对应的是图1中的步骤S108。

通过执行图2中的上述步骤,能够快速准确的获得与用户的输入问句文本相对应
的答案文本,进而提升用户体验度。

进一步,在本实施例中还给出了一种问题库的建立过程,具体的,参见图3所示的
一种问题库的建立方法流程图,问题库的建立可以参照下述步骤:

步骤S302,预先设置预设问句文本,以及与预设问句文本对应的标准答案文本,并
将预设问句文本和标准答案文本存储于问题库中;

步骤S304,为各个预设问句文本建立编号标识;

步骤S306,提取各个预设问句文本对应的预设关键词;其中,提取预设关键词的具
体实现方式可以参照图2中的步骤S202至步骤S210。

步骤S308,建立预设关键词与预设问句文本之间的索引关系;其中,在索引关系
中,预设关键词与包含预设关键词的一个或多个预设问句文本的编号标识相对应。

本发明实施例所提供的问题库,不仅仅为现有技术的问答系统“问题-答案”的合
集,而且还对“问题-答案”的合集进行了深层次处理,例如对各个问句预先提取关键词,并
将关键词与包含该关键词的问句建立了索引,而且通过编号的方式有助于缩小存储空间,
同时提高查找速度,进一步缩短了问答匹配过程中应用该问题库查找文本的用时。

综上所述,本发明实施例提供的上述问答匹配方法,可以在较短的时间内输出与
用户的输入问句相应的答案,可以达到1s内输出答案,较好地缩短了问答匹配时长,而且还
提升了准确率,综合提升了用户体验度。

实施例二:

对于实施例一中所提供的问答匹配方法,本发明实施例提供了一种问答匹配装
置,参见图4所示,该装置包括以下模块:

提取模块402,用于提取输入问句文本中的关键词;

第一确定模块404,用于根据关键词,采用索引过滤的方式从预先建立的问题库中
确定目标匹配问句文本;

第二确定模块406,用于基于莱温斯坦距离算法,从目标匹配问句文本中确定与输
入问句文本的相似度最高的最佳匹配问句文本;

答案输出模块408,用于根据最佳匹配问句文本,输出与输入问句文本对应的答案
文本。

本实施例的上述装置中,通过提取模块402提取输入问句文本的关键词后,通过第
一确定模块404采用索引过滤的方式从问题库中确定目标匹配问句文本,以缩小问题库中
与输入问句文本相匹配的问句范围,再通过第二确定模块406基于莱温斯坦距离算法确定
与输入问句文本的相似度最高的最佳匹配问句文本,最后由答案输出模块408输出与输入
问句文本对应的答案文本。该装置可以在较短的时间内输出与问句相应的答案,既可缩短
问答匹配时长,又可提升准确率。

为了便于理解与实施,在图4的基础上,可参见图5所示的一种问答匹配装置的具
体结构框图,其中:

提取模块402包括:分词单元4021,用于对输入问句文本进行分词,生成词序列;停
用词去除单元4022,用于去除词序列中的停用词,得到词条;权重计算单元4023,用于利用
改进后的信息熵公式,计算得到各个词条对应的权重;改进后的信息熵公式为:


其中,H(t)为词条t对应的权重;ftk为词条t出现在文本k中的频率,nt为词条t出现
在所有的文本集合当中的频率,N为文本集合中文本的总数;

还包括排序单元4024,用于将所有词条按照计算后得到的权重的大小进行排序,
得到权重排序表;关键词提取单元4025,用于根据预先设置的提取比例,从权重排序表中提
取关键词。

第一确定模块404包括:匹配值获取单元4041,用于根据输入问句文本中的关键
词,以及预先建立的问题库中的预设关键词与预设问句文本之间的索引关系,得到预设问
句文本与输入问句文本对应的匹配值;具体的,匹配值获取单元4041可以包括匹配关键词
确定子单元,用于将预先建立的问题库中与所述输入问句文本中的关键词相同的预设关键
词作为匹配关键词;以及匹配值确定子单元,用于根据所述问题库中的预设关键词与预设
问句文本之间的索引关系,遍历所述问题库中的预设问句文本,以确定所述预设问句文本
中包含的所述匹配关键词的个数;将所述预设问句文本中包含的所述匹配关键词的个数作
为所述预设问句文本与所述输入问句文本对应的匹配值。以上子单元均未在图5中示出。

第一确定模块404还包括第一确定单元4042,用于将匹配值大于预设匹配阈值的
预设问句文本确定为目标匹配问句文本。

答案输出模块408包括:判断单元4081,用于判断最佳匹配问句文本的相似度是否
达到预设相似度阈值;标准答案输出单元4082,用于在判断最佳匹配问句文本的相似度达
到预设相似度阈值时,从问题库中查找最佳匹配问句文本对应的标准答案文本,将标准答
案文本作为输入问句文本对应的答案文本输出;网络答案输出单元4083,用于在判断最佳
匹配问句文本的相似度未达到预设相似度阈值时,从互联网查找输入问句文本对应的网络
答案文本,将网络答案文本作为输入问句文本对应的答案文本输出。

本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简
要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。

综上所述,本发明实施例提供的问答匹配方法及装置,在提取输入问句文本中的
关键词后,通过索引过滤的方式从问题库中确定目标匹配问句文本,以缩小问题库中与输
入问句文本相匹配的问句范围,再基于莱温斯坦距离算法确定与输入问句文本的相似度最
高的最佳匹配问句文本,最后输出与输入问句文本对应的答案文本。与现有技术中采用的
问答匹配的方式准确率较低且用时较长的问题相比,本发明实施例提供的方法及装置可以
在较短的时间内输出与问句相应的答案,既可缩短问答匹配时长,又可提升准确率。

本发明实施例所提供的问答匹配方法及装置的计算机程序产品,包括存储了程序
代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述
的方法,具体实现可参见方法实施例,在此不再赘述。

另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相
连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可
以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是
两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本
发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以
存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说
对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计
算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个
人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存
储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、
“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了
便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、
以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、
“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明
的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发
明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员
在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻
易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使
相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护
范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

问答匹配方法及装置.pdf_第1页
第1页 / 共16页
问答匹配方法及装置.pdf_第2页
第2页 / 共16页
问答匹配方法及装置.pdf_第3页
第3页 / 共16页
点击查看更多>>
资源描述

《问答匹配方法及装置.pdf》由会员分享,可在线阅读,更多相关《问答匹配方法及装置.pdf(16页珍藏版)》请在专利查询网上搜索。

本发明提供了一种问答匹配方法及装置,涉及智能问答技术领域,包括一种问答匹配方法,包括:提取输入问句文本中的关键词;根据关键词,采用索引过滤的方式从预先建立的问题库中确定目标匹配问句文本;基于莱温斯坦距离算法,从目标匹配问句文本中确定与输入问句文本的相似度最高的最佳匹配问句文本;根据最佳匹配问句文本,输出与输入问句文本对应的答案文本。本发明可以在较短的时间内输出与输入问句相应的答案,既可缩短问答匹配。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1