自动回复信息的方法以及装置.pdf

上传人:b*** 文档编号:20192 上传时间:2018-01-12 格式:PDF 页数:18 大小:1.19MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310754249.7

申请日:

2013.12.31

公开号:

CN104753765A

公开日:

2015.07.01

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):H04L 12/58申请日:20131231|||公开

IPC分类号:

H04L12/58; G06F17/30

主分类号:

H04L12/58

申请人:

华为技术有限公司

发明人:

吕正东; 李航

地址:

518129广东省深圳市龙岗区坂田华为总部办公楼

优先权:

专利代理机构:

深圳市威世博知识产权代理事务所(普通合伙)44280

代理人:

何青瓦

PDF下载: PDF下载
内容摘要

本申请公开了一种自动回复信息的方法以及装置,包括如下步骤:获取待回复信息的关键词以作为第一特征,并获取待定回复集中的一待定回复的关键词以作为第二特征;根据第一特征以及第二特征的相关度计算待回复信息与待定回复的匹配度,其中,第一特征以及第二特征的相关度为由语料环境中获取的原文以及对原文的回复多次训练得到,语料环境包括微博、论坛以及贴吧;重复上述步骤,直到获得待回复信息与所有待定回复的匹配度;选择匹配度最高的待定回复以作为待回复信息的回复,以实现自动回复待回复信息。上述方案能选出一个匹配度最高的待定回复作为待回复信息的回复,从而能够提高用户回复的效率。

权利要求书

1.  一种特征相关度获取方法,其特征在于,包括如下步骤:
从语料环境中获取原文以及对所述原文的合格回复,其中,所述语料环境包括微博、论坛以及贴吧,所述合格回复为符合设定条件的回复;
获取原文的关键词以作为第一特征,并获取对所述合格回复的关键词以作为第二特征;
利用所述第一特征与所述第二特征对神经网络模型进行训练,以获得第一特征和第二特征之间的相关度。

2.
  根据权利要求1所述的方法,其特征在于,从语料环境中获取原文以及对所述原文的合格回复的步骤包括:
从语料环境中获取原文以及对所述原文的回复;
按设定条件对所述原文的回复进行清洗以获得对所述原文的合格回复,其中,所述设定条件包括字数超过5,没有附件,以及在按回复顺序排列的前一百条以内。

3.
  一种特征相关度获取装置,其特征在于,包括语料获取模块、特征获取模块以及训练模块,
所述语料获取模块用于从语料环境中获取原文以及对所述原文的合格回复,其中,所述语料环境包括微博、论坛以及贴吧,所述合格回复为符合设定条件的回复,所述语料获取模块将获取的原文以及对所述原文的合格回复发送给所述特征获取模块;
所述特征获取模块用于接收所述获取的原文以及对所述原文的合格回复,获取原文的关键词以作为第一特征,并获取对所述合格回复的关键词以作为第二特征,所述特征获取模块将所述第一特征以及第二特征发送给所述训练模块;
所述训练模块用于接收所述第一特征以及第二特征,利用所述第一特征与所述第二特征对神经网络模型进行训练,以获得第一特征和第二特征之间的相关度。

4.
  根据权利要求3所述的装置,其特征在于,所述语料获取模块包 括语料获取单元以及清洗单元,
所述语料获取单元用于从语料环境中获取原文以及对所述原文的回复,所述语料获取单元将对所述原文的回复发送所述清洗单元;
所述清洗单元用于接收对所述原文的回复,按设定条件对所述原文的回复进行清洗以获得对所述原文的合格回复,其中,所述设定条件包括字数超过5,没有附件,以及在按回复顺序排列的前一百条以内。

5.
  一种自动回复信息的方法,其特征在于,包括如下步骤:
接收待回复信息;
获取所述待回复信息的关键词以作为第一特征,并获取待定回复集中的一待定回复的关键词以作为第二特征;
根据所述第一特征以及所述第二特征的相关度计算所述待回复信息与所述待定回复的匹配度,其中,所述第一特征以及所述第二特征的相关度为由语料环境中获取的原文以及对所述原文的回复多次训练得到,其中,所述语料环境包括微博、论坛以及贴吧;
重复获取第一特征以及第二特征、计算匹配度的步骤,直到获得所述待回复信息与所有待定回复的匹配度;
选择匹配度最高的待定回复以作为所述待回复信息的回复,以实现自动回复待回复信息。

6.
  根据权利要求5所述的方法,其特征在于,所述方法还包括:
从语料环境中获取原文以及对所述原文的合格回复,其中,所述语料环境包括微博、论坛以及贴吧,所述合格回复为符合设定条件的回复;
获取所述原文的关键词以作为所述第一特征,并获取对所述合格回复的关键词以作为所述第二特征;
利用所述第一特征与所述第二特征对神经网络模型进行训练,以获得所述第一特征和所述第二特征之间的相关度。

7.
  根据权利要求5所述的方法,其特征在于,所述选择匹配度最高的待定回复以作为所述待回复信息的回复之后还包括:
对所述匹配度最高的待定回复进行个性化处理,以获得个性化的回复。

8.
  根据权利要求5所述的方法,其特征在于,所述获取待定回复集合中的一待定回复的关键词以作为第二特征的步骤包括:
对回复数据库中的回复进行快速检索以获得待定回复集合;
获取待定回复集合中的一待定回复的关键词以作为第二特征。

9.
  根据权利要求5所述的方法,其特征在于,所述根据第一特征以及所述第二特征的相关度计算所述待回复信息与所述待定回复的匹配度的步骤包括:
根据计算所述待回复信息与所述待定回复的匹配度,其中,P为匹配度,N为所述第一特征以及所述第二特征的关联集合,i为N中的一个元素,ai为权值,xi为所述第一特征以及所述第二特征的相关度。

10.
  一种自动回复信息的装置,其特征在于,包括接收模块、特征获取模块、匹配度计算模块以及选择模块,
所述接收模块用于接收待回复信息,所述接收模块将所述待回复信息发送给所述特征获取模块;
所述特征获取模块用于接收所述待回复信息,获取所述待回复信息的关键词以作为第一特征,并获取待定回复集中的一待定回复的关键词以作为第二特征,所述特征获取模块将所述第一特征以及所述第二特征发送给所述匹配度计算模块;
所述匹配度计算模块用于接收所述第一特征以及所述第二特征,根据所述第一特征以及所述第二特征的相关度计算所述待回复信息与所述待定回复的匹配度,其中,所述第一特征以及所述第二特征的相关度为由语料环境中获取的原文以及对所述原文的回复多次训练得到,其中,所述语料环境包括微博、论坛以及贴吧,所述匹配度计算模块将所述匹配度发送给所述选择模块;
所述选择模块用于接收所述匹配度,选择匹配度最高的待定回复以作为所述待回复信息的回复,以实现自动回复待回复信息。

11.
  根据权利要求10所述的装置,其特征在于,所述装置还包括语料获取模块、特征获取模块以及训练模块,
所述语料获取模块用于从语料环境中获取原文以及对所述原文的合格回复,其中,所述语料环境包括微博、论坛以及贴吧,所述合格回复为符合设定条件的回复,所述语料获取模块将获取的原文以及对所述原文的合格回复发送给所述特征获取模块;
所述特征获取模块用于接收所述获取的原文以及对所述原文的合格回复,获取原文的关键词以作为第一特征,并获取对所述合格回复的关键词以作为第二特征,所述特征获取模块将所述第一特征以及第二特征发送给所述训练模块;
所述训练模块用于接收所述第一特征以及第二特征,利用所述第一特征与所述第二特征对神经网络模型进行训练,以获得第一特征和第二特征之间的相关度。

12.
  根据权利要求10所述的装置,其特征在于,所述装置还包括个性化处理模块,
所述个性化处理模块用于对所述匹配度最高的待定回复进行个性化处理,以获得个性化的回复。

13.
  根据权利要求10所述的装置,其特征在于,所述特征获取模块包括快速检索单元以及特征获取单元,
所述快速检索单元用于对回复数据库中的回复进行快速检索以获得待定回复集合,所述快速检索单元将所述待定回复集合发送给所述特征获取单元;
所述特征获取单元用于接收所述待定回复集合,获取待定回复集合中的一待定回复的关键词以作为第二特征。

14.
  根据权利要求10所述的装置,其特征在于,所述匹配度计算模块用于根据计算所述待回复信息与所述待定回复的匹配度,其中,P为匹配度,N为所述第一特征以及所述第二特征的关联集合,i为N中的一个元素,ai为权值,xi为所述第一特征以及所述第二特征的相关度。

说明书

自动回复信息的方法以及装置
技术领域
本申请涉及人工智能,特别是涉及自动回复信息的方法以及装置。
背景技术
为用户带来更好的使用体验是终端生产商的重要目标,也是终端生产商脱颖而出的法宝。在现有技术中,当用户收到短信后,要回复短信就只能手动逐个输入,或者在QQ聊天中,当对方发过来一条待回复信息后,只能在回复框中手动逐个输入,效率非常低,给用户带来使用非常麻烦的感觉。
为了解决上述问题,现有技术提出了一种方法,可以预先设定一些常用回复,例如:“我正在开会,过一会再联系您”等等,当遇到相应的情景时,可选择这些设定的回复以实现快速输入的目的。
但是,这些做法只能针对特定的情景,当面对开放领域时,所接收到的对方所发的待回复信息的内容可能是千差万别的,则现有技术无法进行处理。
发明内容
本申请提供自动回复信息的方法以及装置,能够在开放领域中,对对方所发的信息进行自动回复,大大提高了回复的输入效率。
本申请第一方面提供了一种特征相关度获取方法,包括如下步骤:从语料环境中获取原文以及对所述原文的合格回复,其中,所述语料环境包括微博、论坛以及贴吧,所述合格回复为符合设定条件的回复;获取原文的关键词以作为第一特征,并获取对所述合格回复的关键词以作为第二特征;利用所述第一特征与所述第二特征对神经网络模型进行训练,以获得第一特征和第二特征之间的相关度。
结合第一方面,本申请第一方面的第一种可能的实施方式中,从语料环境中获取原文以及对所述原文的合格回复的步骤包括:从语料环境中获取原文以及对所述原文的回复;按设定条件对所述原文的回复进行清洗以获得对所述原文的合格回复,其中,所述设定条件包括字数超过5,没有附件,以及在按回复顺序排列的前一百条以内。
本申请第二方面提供了一种特征相关度获取装置,包括语料获取模块、特征获取模块以及训练模块,所述语料获取模块用于从语料环境中获取原文以及对所述原文的合格回复,其中,所述语料环境包括微博、论坛以及贴吧,所述合格回复为符合设定条件的回复,所述语料获取模块将获取的原文以及对所述原文的合格回复发送给所述特征获取模块;所述特征获取模块用于接收所述获取的原文以及对所述原文的合格回复,获取原文的关键词以作为第一特征,并获取对所述合格回复的关键词以作为第二特征,所述特征获取模块将所述第一特征以及第二特征发送给所述训练模块;所述训练模块用于接收所述第一特征以及第二特征,利用所述第一特征与所述第二特征对神经网络模型进行训练,以获得第一特征和第二特征之间的相关度。
结合第二方面,本申请第二方面的第一种可能的实施方式中,所述语料获取模块包括语料获取单元以及清洗单元,所述语料获取单元用于从语料环境中获取原文以及对所述原文的回复,所述语料获取单元将对所述原文的回复发送所述清洗单元;所述清洗单元用于接收对所述原文的回复,按设定条件对所述原文的回复进行清洗以获得对所述原文的合格回复,其中,所述设定条件包括字数超过5,没有附件,以及在按回复顺序排列的前一百条以内。
本申请第三方面提供了一种服务器,包括处理器、输入设备和输出设备,所述输入设备用于输入数据;所述处理器用于从语料环境中获取原文以及对所述原文的合格回复,其中,所述语料环境包括微博、论坛以及贴吧,所述合格回复为符合设定条件的回复;获取原文的关键词以作为第一特征,并获取对所述合格回复的关键词以作为第二特征;利用所述第一特征与所述第二特征对神经网络模型进行训练,以获得第一特 征和第二特征之间的相关度;所述输出设备用于输出数据。
结合第三方面,本申请第三方面的第一种可能的实施方式中,所述处理器还用于从语料环境中获取原文以及对所述原文的回复,按设定条件对所述原文的回复进行清洗以获得对所述原文的合格回复,其中,所述设定条件包括字数超过5,没有附件,以及在按回复顺序排列的前一百条以内。
本申请第四方面提供了一种自动回复信息的方法,包括如下步骤:接收待回复信息;获取待回复信息的关键词以作为第一特征,并获取待定回复集中的一待定回复的关键词以作为第二特征;根据所述第一特征以及所述第二特征的相关度计算所述待回复信息与所述待定回复的匹配度,其中,所述第一特征以及所述第二特征的相关度为由语料环境中获取的原文以及对所述原文的回复多次训练得到,其中,所述语料环境包括微博、论坛以及贴吧;重复获取第一特征以及第二特征、计算匹配度的步骤,直到获得所述待回复信息与所有待定回复的匹配度;选择匹配度最高的待定回复以作为所述待回复信息的回复,以实现自动回复待回复信息。
结合第四方面,本申请第四方面的第一种可能的实施方式中,所述方法还包括:从语料环境中获取原文以及对所述原文的合格回复,其中,所述语料环境包括微博、论坛以及贴吧,所述合格回复为符合设定条件的回复;获取所述原文的关键词以作为所述第一特征,并获取对所述合格回复的关键词以作为所述第二特征;利用所述第一特征与所述第二特征对神经网络模型进行训练,以获得所述第一特征和所述第二特征之间的相关度。
结合第四方面,本申请第四方面的第二种可能的实施方式中,所述选择匹配度最高的待定回复以作为所述待回复信息的回复之后还包括:对所述匹配度最高的待定回复进行个性化处理,以获得个性化的回复。
结合第四方面,本申请第四方面的第三种可能的实施方式中,所述获取待定回复集合中的一待定回复的关键词以作为第二特征的步骤包括:对回复数据库中的回复进行快速检索以获得待定回复集合;获取待 定回复集合中的一待定回复的关键词以作为第二特征。
结合第四方面,本申请第四方面的第四种可能的实施方式中,所述根据第一特征以及所述第二特征的相关度计算所述待回复信息与所述待定回复的匹配度的步骤包括:根据计算所述待回复信息与所述待定回复的匹配度,其中,P为匹配度,N为所述第一特征以及所述第二特征的关联集合,i为N中的一个元素,ai为权值,xi为所述第一特征以及所述第二特征的相关度。
本申请第五方面提供了一种自动回复信息的装置,包括接收模块、特征获取模块、匹配度计算模块以及选择模块,所述接收模块用于接收待回复信息,所述接收模块将所述待回复信息发送给所述特征获取模块;所述特征获取模块用于接收所述待回复信息,获取所述待回复信息的关键词以作为第一特征,并获取待定回复集中的一待定回复的关键词以作为第二特征,所述特征获取模块将所述第一特征以及所述第二特征发送给所述匹配度计算模块;所述匹配度计算模块用于接收所述第一特征以及所述第二特征,根据所述第一特征以及所述第二特征的相关度计算所述待回复信息与所述待定回复的匹配度,其中,所述第一特征以及所述第二特征的相关度为由语料环境中获取的原文以及对所述原文的回复多次训练得到,其中,所述语料环境包括微博、论坛以及贴吧,所述匹配度计算模块将所述匹配度发送给所述选择模块;所述选择模块用于接收所述匹配度,选择匹配度最高的待定回复以作为所述待回复信息的回复,以实现自动回复待回复信息。
结合第五方面,本申请第五方面的第一种可能的实施方式中,所述装置还包括语料获取模块、特征获取模块以及训练模块,所述语料获取模块用于从语料环境中获取原文以及对所述原文的合格回复,其中,所述语料环境包括微博、论坛以及贴吧,所述合格回复为符合设定条件的回复,所述语料获取模块将获取的原文以及对所述原文的合格回复发送给所述特征获取模块;所述特征获取模块用于接收所述获取的原文以及对所述原文的合格回复,获取原文的关键词以作为第一特征,并获取对所述合格回复的关键词以作为第二特征,所述特征获取模块将所述第一 特征以及第二特征发送给所述训练模块;所述训练模块用于接收所述第一特征以及第二特征,利用所述第一特征与所述第二特征对神经网络模型进行训练,以获得第一特征和第二特征之间的相关度。
结合第五方面,本申请第五方面的第二种可能的实施方式中,所述装置还包括个性化处理模块,所述个性化处理模块用于对所述匹配度最高的待定回复进行个性化处理,以获得个性化的回复。
结合第五方面,本申请第五方面的第三种可能的实施方式中,所述特征获取模块包括快速检索单元以及特征获取单元,所述快速检索单元用于对回复数据库中的回复进行快速检索以获得待定回复集合,所述快速检索单元将所述待定回复集合发送给所述特征获取单元;所述特征获取单元用于接收所述待定回复集合,获取待定回复集合中的一待定回复的关键词以作为第二特征。
结合第五方面,本申请第五方面的第四种可能的实施方式中,所述匹配度计算模块用于根据计算所述待回复信息与所述待定回复的匹配度,其中,P为匹配度,N为所述第一特征以及所述第二特征的关联集合,i为N中的一个元素,ai为权值,xi为所述第一特征以及所述第二特征的相关度。
本申请第六方面提供了一种终端,包括接收设备、处理器以及发送设备,所述接收设备用于接收待回复信息;所述处理器用于获取待回复信息的关键词以作为第一特征,并获取待定回复集中的一待定回复的关键词以作为第二特征;根据所述第一特征以及所述第二特征的相关度计算所述待回复信息与所述待定回复的匹配度,其中,所述第一特征以及所述第二特征的相关度为由语料环境中获取的原文以及对所述原文的回复多次训练得到,其中,所述语料环境包括微博、论坛以及贴吧;选择匹配度最高的待定回复以作为所述待回复信息的回复信息,以实现自动回复待回复信息,所述发送设备用于发送回复信息。
结合第六方面,本申请第六方面的第一种可能的实施方式中,所述处理器还用于从语料环境中获取原文以及对所述原文的合格回复,其中,所述语料环境包括微博、论坛以及贴吧,所述合格回复为符合设定 条件的回复;获取所述原文的关键词以作为所述第一特征,并获取对所述合格回复的关键词以作为所述第二特征;利用所述第一特征与所述第二特征对神经网络模型进行训练,以获得所述第一特征和所述第二特征之间的相关度。
结合第六方面,本申请第六方面的第二种可能的实施方式中,所述处理器还用于对所述匹配度最高的待定回复进行个性化处理,以获得个性化的回复。
结合第六方面,本申请第六方面的第三种可能的实施方式中,所述处理器还用于对回复数据库中的回复进行快速检索以获得待定回复集合,获取待定回复集合中的一待定回复的关键词以作为第二特征。
结合第六方面,本申请第六方面的第四种可能的实施方式中,所述处理器还用于根据计算所述待回复信息与所述待定回复的匹配度,其中,P为匹配度,N为所述第一特征以及所述第二特征的关联集合,i为N中的一个元素,ai为权值,xi为所述第一特征以及所述第二特征的相关度。
上述方案,能够在语料环境中获得回复数据库,并通过提取语料环境中的原文和对原文的回复进行训练,从而获得第一特征和第二特征之间的相关度,从而计算出待回复信息和待定回复之间的匹配度,进一步选出一个匹配度最高的待定回复作为所述待回复信息的回复,从而能够提高用户回复的效率,改善了用户体验。
附图说明
图1是本申请特征相关度获取方法一实施方式的流程图;
图2是本申请自动回复信息的方法一实施方式的流程图;
图3是本申请特征相关度获取装置一实施方式的结构示意图;
图4是本申请自动回复信息的装置一实施方式的结构示意图;
图5是本申请终端一实施方式的结构示意图;
图6是本申请终端另一实施方式的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施方式中也可以实现本申请。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
参阅图1,图1是本申请特征相关度获取方法一实施方式的流程图。本实施方式的特征相关度获取方法包括:
S101:服务器从语料环境中获取原文以及对原文的合格回复,其中,语料环境包括微博、论坛以及贴吧。
微博、论坛以及贴吧等语料环境中有大量的原文和对原文的回复,这些涵盖了生活的各种情景,能作为自动回复的良好素材。所以,从语料环境中获取原文以及对原文的回复。例如,
微博原文:“祝贺@***论文发表在ACL2012上,这是他第二篇ACL”。
回复1:“衷心祝贺师兄”。
微博原文:“社交媒体的重要会议ICWSM2013公开了一些社交媒体的数据集,包括推特,脸书,以及Youtube等,http://t.cn/zQwu2rs”。
回复1:“啊太及时,正在找这样的大数据集,谢谢分享”。
回复2:“呵呵,十分感谢”。
从语料环境中获取原文以及对原文的回复,并根据合格回复的设定条件对原文的回复进行清洗。设定条件可以根据实际使用的需要而进行设置,例如,将字数不超过5,带有附件,按回复顺序排列的第一百条以后的回复,或者特定用户的回复等等回复删去,剩下的回复为对原文的合格回复。
S102:服务器获取原文的关键词以作为第一特征,并获取对合格回复的关键词以作为第二特征。
从原文中提取关键词以作为第一特征,例如:原文为祝贺@***论文发表在ACL2012上,这是他第二篇ACL”时,可以提取到第一特征“论 文”以及“发表”等等。
从合格回复中提取关键词以作为第二特征,例如:合格回复为“衷心祝贺师兄”时,可以提取到第二特征“衷心”以及“祝贺”。
S103:终端利用第一特征与第二特征对神经网络模型进行训练,以获得第一特征与第二特征之间的相关度。
利用第一特征与第二特征对神经网络模型进行训练。例如:将第一特征“论文”以及“发表”以及第二特征“祝贺”输入至神经网络模型进行训练。当原文以及对原文的合格回复足够多时,从原文中提取得到的特征和合格回复中提取得到的特征之间的相关度则可以确定下来,并作为模型存储在本地,同时,也将合格回复或者部分合格回复存储在本地的回复数据库中。
上述方案,能够在语料环境中获得回复数据库,并通过提取语料环境中的原文和对原文的回复进行训练,从而获得第一特征和第二特征之间的相关度。
参阅图2,图2是本申请自动回复信息的方法一实施方式的流程图。本实施方式的自动回复信息的方法包括:
S201:终端接收待回复信息。
S202:终端获取待回复信息的关键词以作为第一特征,并获取待定回复集中的一待定回复的关键词以作为第二特征。
用户可以通过QQ、短信以及微信等接收待回复信息。例如,当用户接收到待回复信息“我的论文已发表在ACL2012上”时,获取待回复信息的关键词“论文”以及“发表”等作为第一特征。
在图1所示的实施方式中,已将合格回复或者部分合格回复存储在回复数据库中。但是,由于回复数据库中回复的数目相当庞大,当用户接收到待回复信息后,利用局部敏感哈希(Locality Sensitive Hash,LSH)或倒排索引等技术对回复数据库中的回复进行快速检索以获得一个较小的待定回复集合。然后,从待定回复集合中选取一个待定回复,并提取该待定回复的特征作为第二特征。例如,所选择的待定回复为“衷心祝贺您”,则所提取的第二特征为“衷心”以及“祝贺”。所以,此时第 一特征以及第二特征的关联集合为{(论文,衷心),(论文,祝贺),(发表,衷心),(发表,祝贺)}。
S203:终端根据第一特征以及第二特征的相关度计算待回复信息与待定回复的匹配度。
在图1所示的实施例中,已经由语料环境中获取的原文以及对原文的回复多次训练得到第一特征以及第二特征的相关度,其中,语料环境包括微博、论坛以及贴吧。所以,可知道第一特征以及第二特征的关联集合中第一特征“论文”与第二特征“衷心”的相关度,第一特征“论文”与第二特征“祝贺”的相关度,第一特征“发表”与第二特征“衷心”的相关度,第一特征“发表”与第二特征“祝贺”的相关度。根据第一特征以及第二特征的相关度计算待回复信息与待定回复的匹配度。根据P计算待回复信息与待定回复的匹配度,其中,P为匹配度,N为第一特征以及第二特征的关联集合,i为N中的一个元素,ai为权值,xi为第一特征以及第二特征的关联集合中的元素的相关度。例如,可令待回复信息与待定回复的匹配度=第一特征“论文”与第二特征“衷心”的相关度*第一权值+第一特征“论文”与第二特征“祝贺”的相关度*第二权值+第一特征“发表”与第二特征“衷心”的相关度*第三权值+第一特征“发表”与第二特征“祝贺”的相关度*第四权值。当然,在其它的实施方式中,也可以用其它的函数去计算待回复信息与待定回复的匹配度,此处不一一举例。
S204:终端判断是否获得所述待回复信息与所有待定回复的匹配度。如果没有获得所述待回复信息与所有待定回复的匹配度,则指向下一条待定回复(例如,下一条待定回复为“赞一个”),并返回步骤S202获取待定回复集中的下一个待定回复的关键词以作为第二特征,计算所述待回复信息与下一条待定回复的匹配度,直到获得所述待回复信息与所有待定回复的匹配度。如果获得所述待回复信息与所有待定回复的匹配度,则进入步骤S205。
S205:终端选择匹配度最高的待定回复以作为待回复信息的回复,以实现自动回复待回复信息。
对待回复信息与每一条待定回复之间的匹配度进行排序,并选择匹配度最高的待定回复以作为待回复信息的回复,以实现自动回复待回复信息。
上述方案,能够根据第一特征和第二特征之间的相关度,从而计算出待回复信息和待定回复之间的匹配度,从而选出一个匹配度最高的待定回复作为所述待回复信息的回复,从而能够提高用户回复的效率。
参阅图3,图3是本申请特征相关度获取装置一实施方式的结构示意图。本实施方式的特征相关度获取装置包括:语料获取模块310、特征获取模块320以及训练模块330。语料获取模块310包括语料获取单元311以及清洗单元312。
语料获取模块310用于从语料环境中获取原文以及对原文的合格回复,其中,语料环境包括微博、论坛以及贴吧。
其中,语料获取单元311用于从语料环境中获取原文以及对原文的回复。
比如,语料获取单元311从微博、论坛以及贴吧等语料环境中有大量的原文和对原文的回复,这些涵盖了生活的各种情景,能作为自动回复的良好素材。所以,从语料环境中获取原文以及对原文的回复。例如,
微博原文:“祝贺@***论文发表在ACL2012上,这是他第二篇ACL”。
回复1:“衷心祝贺师兄”。
微博原文:“社交媒体的重要会议ICWSM2013公开了一些社交媒体的数据集,包括推特,脸书,以及Youtube等,http://t.cn/zQwu2rs”。
回复1:“啊太及时,正在找这样的大数据集,谢谢分享”。
回复2:“呵呵,十分感谢”。
语料获取单元311将对原文的回复发送清洗单元312。
清洗单元312用于接收对原文的回复,并根据合格回复的设定条件对所述原文的回复进行清洗以获得对所述原文的合格回复,其中,设定条件可以根据实际使用的需要而进行设置,例如,所述合格回复的设定条件包括字数超过5,没有附件,以及在按回复顺序排列的前一百条以 内等等。所以,清洗单元312将字数不超过5,带有附件,第一百条以后的回复,或者特定用户的回复等等回复删去,剩下的回复为对原文的合格回复。
所述语料获取模块310将获取的原文以及对原文的合格回复发送给特征获取模块320。
特征获取模块320用于接收获取的原文以及对原文的合格回复,获取原文的关键词以作为第一特征,并获取对合格回复的关键词以作为第二特征。
比如,特征获取模块320从原文中提取关键词以作为第一特征,例如:原文为祝贺@***论文发表在ACL2012上,这是他第二篇ACL”时,可以提取到第一特征“论文”以及“发表”等等。
特征获取模块320从合格回复中提取关键词以作为第二特征,例如:合格回复为“衷心祝贺师兄”时,可以提取到第二特征“衷心”以及“祝贺”。
特征获取模块320将第一特征以及第二特征发送给训练模块330。
训练模块330用于接收第一特征以及第二特征,利用第一特征与第二特征对神经网络模型进行训练,以获得特征之间的相关度。
比如,利用第一特征与第二特征对神经网络模型进行训练。例如:将第一特征“论文”以及“发表”以及第二特征“祝贺”输入至神经网络模型进行训练。当原文以及对原文的合格回复足够多时,从原文中提取得到的特征和合格回复中提取得到的特征之间的相关度则可以确定下来,并作为模型存储在本地,同时,也将合格回复或者部分合格回复存储在本地的回复数据库中。
上述方案,能够在语料环境中获得回复数据库,并通过提取语料环境中的原文和对原文的回复进行训练,从而获得第一特征和第二特征之间的相关度。
参阅图4,图4是本申请自动回复信息的装置一实施方式的结构示意图。本实施方式的自动回复信息的装置包括:接收模块410、特征获取模块420、匹配度计算模块430以及选择模块440。其中,特征获取 模块420包括快速检索单元421以及特征获取单元422。
接收模块410用于接收待回复信息,接收模块410将待回复信息发送给特征获取模块420。
特征获取模块420用于获取待回复信息的关键词以作为第一特征,并获取待定回复集中的一待定回复的关键词以作为第二特征。其中,
快速检索单元421用于对回复数据库中的回复进行快速检索以获得待定回复集合。
比如,用户可通过QQ、短信以及微信等接收待回复信息。当用户接收到待回复信息“我的论文已发表在ACL2012上”时,获取待回复信息的关键词“论文”以及“发表”等作为第一特征。
可预先将回复存储在回复数据库中,但是,由于回复数据库中回复的数目相当庞大,当用户接收到待回复信息后,快速检索单元421利用局部敏感哈希(Locality Sensitive Hash,LSH)或倒排索引等技术对回复数据库中的回复进行快速检索以获得一个较小的待定回复集合
快速检索单元421将待定回复集合发送给特征获取单元422。
特征获取单元422用于接收待定回复集合,获取待定回复集合中的一待定回复的特征以作为第二特征。
比如,特征获取单元422从待定回复集合中选取一个待定回复,并提取该待定回复的特征作为第二特征。例如,所选择的待定回复为“衷心祝贺您”,则所提取的第二特征为“衷心”以及“祝贺”。所以,此时第一特征以及第二特征的关联集合为{(论文,衷心),(论文,祝贺),(发表,衷心),(发表,祝贺)}。
特征获取模块420将第一特征以及第二特征发送给匹配度计算模块430。
匹配度计算模块430用于接收第一特征以及第二特征,根据第一特征以及第二特征的相关度计算待回复信息与待定回复的匹配度。
比如,可通过图3所示的特征相关度获取装置预先由语料环境中获取的原文以及对原文的回复多次训练得到第一特征以及第二特征的相关度,其中,语料环境包括微博、论坛以及贴吧。可以理解的是,特征 相关度获取装置可以是一个单独、分离的装置,也可以和自动回复待回复信息的装置结合在一起。所以,匹配度计算模块430可获得第一特征以及第二特征的关联集合中第一特征“论文”与第二特征“衷心”的相关度,第一特征“论文”与第二特征“祝贺”的相关度,第一特征“发表”与第二特征“衷心”的相关度,第一特征“发表”与第二特征“祝贺”的相关度。根据第一特征以及第二特征的相关度计算待回复信息与待定回复的匹配度。根据计算待回复信息与待定回复的匹配度,其中,P为匹配度,N为第一特征以及第二特征的关联集合,i为N中的一个元素,ai为权值,xi为第一特征以及第二特征的关联集合中的元素的相关度。例如,可令待回复信息与待定回复的匹配度=第一特征“论文”与第二特征“衷心”的相关度*第一权值+第一特征“论文”与第二特征“祝贺”的相关度*第二权值+第一特征“发表”与第二特征“衷心”的相关度*第三权值+第一特征“发表”与第二特征“祝贺”的相关度*第四权值。当然,在其它的实施方式中,也可以用其它的函数去计算待回复信息与待定回复的匹配度,此处不一一举例。
匹配度计算模块430将匹配度发送给选择模块440。
选择模块440用于接收匹配度,选择匹配度最高的待定回复以作为待回复信息的回复,以实现自动回复待回复信息。
比如,选择模块440对所述待回复信息与每一条待定回复之间的匹配度进行排序,并选择匹配度最高的待定回复以作为待回复信息的回复,以实现自动回复待回复信息。
上述方案,能够根据第一特征和第二特征之间的相关度,从而计算出待回复信息和待定回复之间的匹配度,从而选出一个匹配度最高的待定回复作为所述待回复信息的回复,从而能够提高用户回复的效率。
参阅图5,图5是本申请服务器一实施方式的结构示意图。本实施方式的终端包括:输入设备510、处理器520、输出设备530、随机存取存储器540、只读存储器550以及总线560。
输入设备510可以采用网络技术、通用串行总线(Universal Serial Bus,USB)技术、通用异步收发传输器(Universal Asynchronous  Receiver/Transmitter,UART)技术、通用分组无线服务技术(General Packet Radio Service)以及蓝牙技术等等任一种方式输入数据。
处理器520控制终端的操作,处理器520还可以称为CPU(Central Processing Unit,中央处理单元)。处理器520可能是一种集成电路芯片,具有信号的处理能力。处理器520还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输出设备530可以采用网络技术、通用串行总线(Universal Serial Bus,USB)技术、通用异步收发传输器(Universal Asynchronous Receiver/Transmitter,UART)技术、通用分组无线服务技术(General Packet Radio Service)以及蓝牙技术等等任一种方式输入数据。
存储器可以包括只读存储器540和随机存取存储器550,并向处理器520提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(NVRAM)。
服务器的各个组件通过总线560耦合在一起,其中总线560除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线560。
存储器存储了如下的元素,可执行模块或者数据结构,或者它们的子集,或者它们的扩展集:
操作指令:包括各种操作指令,用于实现各种操作。
操作系统:包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
在本发明实施例中,处理器520通过调用存储器存储的操作指令(该操作指令可存储在操作系统中),执行如下操作:
处理器520从语料环境中获取原文以及对所述原文的合格回复,其中,所述语料环境包括微博、论坛以及贴吧,所述合格回复为符合设定条件的回复;
处理器520获取原文的关键词以作为第一特征,并获取对所述合格 回复的关键词以作为第二特征;
处理器520利用所述第一特征与所述第二特征对神经网络模型进行训练,以获得第一特征和第二特征之间的相关度。
可选地,处理器520用于从语料环境中获取原文以及对所述原文的回复,以及,按设定条件对所述原文的回复进行清洗以获得对所述原文的合格回复,其中,所述设定条件包括字数超过5,没有附件,以及在按回复顺序排列的前一百条以内。
上述方案,能够在语料环境中获得回复数据库,并通过提取语料环境中的原文和对原文的回复进行训练,从而获得第一特征和第二特征之间的相关度。
参阅图6,图6是本申请终端另一实施方式的结构示意图。本实施方式的终端包括:接收设备610、处理器620、发送设备630、随机存取存储器640、只读存储器650以及总线660。
接收设备610可以接收QQ、短信、微信等应用软件接收的待回复信息。
处理器620控制终端的操作,处理器620还可以称为CPU(Central Processing Unit,中央处理单元)。处理器620可能是一种集成电路芯片,具有信号的处理能力。处理器620还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
发送设备630用于发送回复信息。
存储器可以包括只读存储器640和随机存取存储器650,并向处理器620提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(NVRAM)。
终端的各个组件通过总线660耦合在一起,其中总线660除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线660。
存储器存储了如下的元素,可执行模块或者数据结构,或者它们的 子集,或者它们的扩展集:
操作指令:包括各种操作指令,用于实现各种操作。
操作系统:包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
在本发明实施例中,处理器620通过调用存储器存储的操作指令(该操作指令可存储在操作系统中),执行如下操作:
处理器620获取待回复信息的关键词以作为第一特征,并获取待定回复集的一待定回复的关键词以作为第二特征。
处理器620根据第一特征以及第二特征的相关度计算待回复信息与待定回复的匹配度,其中,第一特征以及第二特征的相关度为由语料环境中获取的原文以及对原文的回复多次训练得到,其中,语料环境包括微博、论坛以及贴吧。
处理器620选择匹配度最高的待定回复以作为待回复信息的回复信息,以实现自动回复待回复信息。
可选地,处理器620从语料环境中获取原文以及对所述原文的合格回复,其中,所述语料环境包括微博、论坛以及贴吧,所述合格回复为符合设定条件的回复;获取所述原文的关键词以作为所述第一特征,并获取对所述合格回复的关键词以作为所述第二特征;利用所述第一特征与所述第二特征对神经网络模型进行训练,以获得所述第一特征和所述第二特征之间的相关度。
可选地,处理器620对匹配度最高的待定回复进行个性化处理,以获得个性化的回复。
可选地,处理器620对回复数据库中的回复进行快速检索以获得待定回复集合,以及,获取待定回复集合中的一待定回复的关键词以作为第二特征。
可选地,处理器620用于根据计算所述待回复信息与所述待定回复的匹配度,其中,P为匹配度,N为所述第一特征以及所述第二特征的关联集合,i为N中的一个元素,ai为权值,xi为所述第一特征以及所述第二特征的相关度。
上述方案,能够根据第一特征和第二特征之间的相关度,从而计算出待回复信息和待定回复之间的匹配度,从而选出一个匹配度最高的待定回复作为所述待回复信息的回复,从而能够提高用户回复的效率。
在本申请所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

自动回复信息的方法以及装置.pdf_第1页
第1页 / 共18页
自动回复信息的方法以及装置.pdf_第2页
第2页 / 共18页
自动回复信息的方法以及装置.pdf_第3页
第3页 / 共18页
点击查看更多>>
资源描述

《自动回复信息的方法以及装置.pdf》由会员分享,可在线阅读,更多相关《自动回复信息的方法以及装置.pdf(18页珍藏版)》请在专利查询网上搜索。

本申请公开了一种自动回复信息的方法以及装置,包括如下步骤:获取待回复信息的关键词以作为第一特征,并获取待定回复集中的一待定回复的关键词以作为第二特征;根据第一特征以及第二特征的相关度计算待回复信息与待定回复的匹配度,其中,第一特征以及第二特征的相关度为由语料环境中获取的原文以及对原文的回复多次训练得到,语料环境包括微博、论坛以及贴吧;重复上述步骤,直到获得待回复信息与所有待定回复的匹配度;选择匹配。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 电学 > 电通信技术


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1