《一种复述资源获取方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种复述资源获取方法及系统.pdf(14页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410648040.7(22)申请日 2014.11.14G06F 17/30(2006.01)G06Q 30/00(2012.01)(71)申请人北京云知声信息技术有限公司地址 100191 北京市海淀区花园路2号牡丹科技楼A座5层A503(72)发明人赵凯 崇伟峰(74)专利代理机构北京轻创知识产权代理有限公司 11212代理人杨立(54) 发明名称一种复述资源获取方法及系统(57) 摘要本发明涉及一种复述资源获取方法及系统,包括对话语料存储模块、FAQ预处理模块、复述提取模块、问题复述存储模块和答案复述存储模块,对话语料存储模。
2、块存储人工客服与顾客的对话语料;FAQ预处理模块从对话语料存储模块中提取出FAQ合法问答对,并对所述FAQ合法问答对进行降噪处理;复述提取模块接收降噪处理结果,根据预设程序生成问题复述集和答案复述集;问题复述存储模块存储问题复述集;答案复述存储模块存储答案复述集。本发明的方案排除了语言随意性和主观性对于复述对提取准确率的影响,提取复述资源不受问答对领域的限制,适用范围广,可移植性强。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书3页 说明书7页 附图3页(10)申请公布号 CN 104376074 A(43)申请公布日 2015.02.25CN 104。
3、376074 A1/3页21.一种复述资源获取系统,其特征在于,包括对话语料存储模块、FAQ预处理模块、复述提取模块、问题复述存储模块和答案复述存储模块,所述对话语料存储模块,其用于存储人工客服与顾客的对话语料;所述FAQ预处理模块,其用于从对话语料存储模块中提取出FAQ合法问答对,并对所述FAQ合法问答对进行降噪处理,将降噪处理结果发送给复述提取模块;所述复述提取模块,其用于接收降噪处理结果,根据预设程序生成问题复述集和答案复述集;所述问题复述存储模块,其用于存储所述问题复述集;所述答案复述存储模块,其用于存储所述答案复述集。2.根据权利要求1所述一种复述资源获取系统,其特征在于,所述FAQ。
4、预处理模块包括计算匹配程度单元、阀值比较单元、FAQ合法问答对存储单元、候选问答对存储单元、问答复述重现检测单元、有效性检测单元和降噪单元;所述计算匹配程度单元,其用于从对话语料存储模块中提取出合法问答对,并计算所述合法问答对问题和答案的匹配程度值;所述阀值比较单元,其用于将所述匹配程度值与预设阈值Sim_Temp1相比较,根据比较结果生成FAQ合法问答对和候选问答对;所述FAQ合法问答对存储单元,其用于存储FAQ合法问答对;所述候选问答对存储单元,其用于存储候选问答对;所述问答复述重现检测单元,其用于获取所述候选问答对中问题的复述和答案的复述,判断其是否组成过FAQ合法问答对,如果是,则认为。
5、此候选问答对为FAQ合法问答对,将其输入到FAQ合法问答对存储单元;否则,将其输入到有效性检测单元;所述有效性检测单元,其用于获取问题的复述和答案的复述曾经没有组成过FAQ合法问答对的候选问答对,并根据问题的复述和答案的复述出现的频率和相对概率对其进行有效性检测,如果有效,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元,否则,将此候选问答对从候选问答对存储单元中删除;所述降噪单元,其用于对FAQ合法问答对进行降噪处理。3.根据权利要求1所述一种复述资源获取系统,其特征在于,所述FAQ预处理模块包括合法回答存储单元、候选问题存储单元、匹配单元、FAQ合法问答对存储单元。
6、;所述合法回答存储单元,其用于从对话语料存储模块中提取出合法回答,然后将出现在此合法回答之前,上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元;所述候选问题存储单元,其用于存储候选问题;所述匹配单元,其用于从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题,二者构成FAQ合法问答对,并将所述FAQ合法问答对发送至FAQ合法问答对存储单元;所述FAQ合法问答对存储单元,其用于存储FAQ合法问答对。4.根据权利要求1所述一种复述资源获取系统,其特征在于,所述复述提取模块包括矩阵转换单元、相似度计算单元和复述生成单元;所述矩阵转换单元,其用于获取降噪处理结果,并将其映射。
7、成为问题答案矩阵,并对所权 利 要 求 书CN 104376074 A2/3页3述问题答案矩阵进行降维处理,将降维处理结果发送给相似度计算单元;所述相似度计算单元,根据降维处理结果计算出所述问题答案矩阵内每一个问题或答案与其他问题或答案的余弦相似度值Sim(Ai,Aj),将所述余弦相似度值Sim(Ai,Aj)发送给复述生成单元;所述复述生成单元,将余弦相似度值Sim(Ai,Aj)与预设阀值Sim_Temp2进行比较,根据比较结果生成问题复述集和答案复述集,并将所述问题复述集和答案复述集分别发送给问题复述存储模块和答案复述存储模块。5.根据权利要求2所述一种复述资源获取系统,其特征在于,所述降噪。
8、单元的降噪过程为:如果某FAQ合法问答对的问题或答案的出现次数在FAQ合法问答对存储单元中只有一次,则认为此FAQ合法问答对无效,并将其从FAQ合法问答对存储单元中删除。6.根据权利要求4所述一种复述资源获取系统,其特征在于,所述矩阵转换单元中,生成的问题答案矩阵的维度为m*n,其中m是去重之后问题的总数,n是去重之后答案的总数,矩阵中的每个元素的值记录着对应的问题和答案在问答对库中出现的次数,未出现的记为0次。7.一种复述资源获取方法,其特征在于,包括以下步骤,S101:获取人工客服与顾客的对话语料,建立对话语料存储模块;S102:从对话语料存储模块中提取出FAQ合法问答对,并对所述FAQ合。
9、法问答对进行降噪处理;S103:获取降噪处理结果,根据预设程序生成问题复述集和答案复述集。8.根据权利要求7所述一种复述资源获取方法,其特征在于,步骤S102具体为,S102a:从对话语料存储模块中提取出合法问答对,并计算所述合法问答对问题和答案的匹配程度值;S102b:将所述匹配程度值与预设阈值Sim_Temp1相比较,根据比较结果生成FAQ合法问答对和候选问答对;S102c:获取所述候选问答对中问题的复述和答案的复述,判断其是否组成过FAQ合法问答对,如果是,则认为此候选问答对为FAQ合法问答对,将其输入到FAQ合法问答对存储单元;否则,将其输入到有效性检测单元;S102d:获取问题的复述。
10、和答案的复述曾经没有组成过FAQ合法问答对的候选问答对,并根据问题的复述和答案的复述出现的频率和相对概率对其进行有效性检测,如果有效,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元,否则,将此候选问答对从候选问答对存储单元中删除;S102e:对FAQ合法问答对进行降噪处理。9.根据权利要求7所述一种复述资源获取方法,其特征在于,步骤S102具体还可以为,S1021:从对话语料存储模块中提取出合法回答,然后将出现在此合法回答之前,上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元;S1022:匹配单元从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配。
11、的一个问题,二者构成FAQ合法问答对;S1023:重复以上过程,将重复得到的至少一个FAQ合法问答对储存至FAQ合法问答对存储单元。权 利 要 求 书CN 104376074 A3/3页410.根据权利要求7所述一种复述资源获取方法,其特征在于,步骤S103具体为,S103a:获取降噪处理结果,并将其映射成为问题答案矩阵,并对所述问题答案矩阵进行降维处理;S103b:根据降维处理结果计算出所述问题答案矩阵内每一个问题或答案与其他问题或答案的余弦相似度值Sim(Ai,Aj);S103c:将余弦相似度值Sim(Ai,Aj)与预设阀值Sim_Temp2进行比较,根据比较结果生成问题复述集和答案复述集。
12、。权 利 要 求 书CN 104376074 A1/7页5一种复述资源获取方法及系统技术领域0001 本发明涉及计算机应用技术领域,特别是涉及一种复述资源获取方法及系统。背景技术0002 在电子商务领域,客服承载着客户投诉、订单业务受理(新增、补单、调换货、撤单等)的重大责任,拥有一个及时的客服系统有助于电商公司树立良好形象。然而,现有的电商客服系统多为人工应答,在业务繁忙时,人工客服应答效率低,不能满足顾客的服务需求。一些现有的自动应答系统也仅仅是针对客户上门时,客服系统端自动抛出与顾客问题无关的店铺介绍情况,不能做到根据顾客的具体问题进行自动应答,因此电商领域需要一个良好的自动应答系统,可。
13、以实现根据顾客的具体问题进行自动应答。而一个良好的自动应答系统需要高准确率的复述资源库。如何获取高准确率的复述资源成为本领域亟待解决的技术问题。0003 目前自动获取复述资源主要是基于编辑距离的句子相似度方法和基于机器翻译的方法。基于编辑距离的方法过程如下:从对话语料分别提取买家的问题集和客服的答案集,将问题集和答案集中的句子分词后,利用编辑距离法计算句子之间的距离,若某些句子之间的编辑距离小于一定的阈值则认为这些句子相似度很高,从而认为这些句子互为复述资源。基于机器翻译的方法的基本思想如下:预先获得第一语言A和第二语言B之间的平行语料。利用机器翻译系统得到两种语言之间的互译结果,经过几次迭代。
14、,将翻译结果与原句子最为相近的句子作为原句子的复述。0004 电商领域,由于人工客服问答语料具有语言随意性和个体主观性的特点,上述两种方法针对此特点的问答语料处理效果较差。例如,在买家表述电商如何送货时既可以说“发哪家物流?”,也可以说“什么快递送货?”,这两个句子表达的意思相同,是互为复述的,但由于两种表述的相似度极低,已有的两种方案是无法识别出来这种复述的。同时,电商领域的问答语料还存在句子较短,标点符号使用不规范以及存在大量噪声信息的特点,已有的复述资源获取方法不能有效过滤噪声。另外,基于机器翻译的方法更适合应用于复述的自动生成而非提取,此方法在获得平行语料时也存在很大困难,使得这种方法。
15、很难在电商自动客服系统中得到应用。0005 综上所述,现有自动获取复述资源的方法均存在很大的缺陷,并不能解决在电商自动应答系统中自动获取复述资源的问题。发明内容0006 本发明所要解决的技术问题是提供一种复述资源获取方法和系统,根据客服对话语料提取高准确率的复述资源。0007 本发明解决上述技术问题的技术方案如下:一种复述资源获取系统,包括对话语料存储模块、FAQ预处理模块、复述提取模块、问题复述存储模块和答案复述存储模块,0008 所述对话语料存储模块,其用于存储人工客服与顾客的对话语料;说 明 书CN 104376074 A2/7页60009 所述FAQ预处理模块,其用于从对话语料存储模块。
16、中提取出FAQ合法问答对,并对所述FAQ合法问答对进行降噪处理,将降噪处理结果发送给复述提取模块;0010 所述复述提取模块,其用于接收降噪处理结果,根据预设程序生成问题复述集和答案复述集;0011 所述问题复述存储模块,其用于存储所述问题复述集;0012 所述答案复述存储模块,其用于存储所述答案复述集。0013 本发明的有益效果是:本发明技术方案获取了高质量、高准确率的问答对,去除了不必要的噪音,有利于复述资源提取。本发明的方案排除了语言随意性和主观性对于复述对提取准确率的影响,提取复述资源不受问答对领域的限制,适用范围广,可移植性强。0014 在上述技术方案的基础上,本发明还可以做如下改进。
17、。0015 进一步,所述FAQ预处理模块包括计算匹配程度单元、阀值比较单元、FAQ合法问答对存储单元、候选问答对存储单元、问答复述重现检测单元、有效性检测单元和降噪单元;0016 所述计算匹配程度单元,其用于从对话语料存储模块中提取出合法问答对,并计算所述合法问答对问题和答案的匹配程度值;0017 所述阀值比较单元,其用于将所述匹配程度值与预设阈值Sim_Temp1相比较,根据比较结果生成FAQ合法问答对和候选问答对;0018 所述FAQ合法问答对存储单元,其用于存储FAQ合法问答对;0019 所述候选问答对存储单元,其用于存储候选问答对;0020 所述问答复述重现检测单元,其用于获取所述候选。
18、问答对中问题的复述和答案的复述,判断其是否组成过FAQ合法问答对,如果是,则认为此候选问答对为FAQ合法问答对,将其输入到FAQ合法问答对存储单元;否则,将其输入到有效性检测单元;0021 所述有效性检测单元,其用于获取问题的复述和答案的复述曾经没有组成过FAQ合法问答对的候选问答对,并根据问题的复述和答案的复述出现的频率和相对概率对其进行有效性检测,如果有效,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元,否则,将此候选问答对从候选问答对存储单元中删除;0022 所述降噪单元,其用于对FAQ合法问答对进行降噪处理。0023 进一步,所述FAQ预处理模块包括合法回答。
19、存储单元、候选问题存储单元、匹配单元、FAQ合法问答对存储单元;0024 所述合法回答存储单元,其用于从对话语料存储模块中提取出合法回答,然后将出现在此合法回答之前,上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元;0025 所述候选问题存储单元,其用于存储候选问题;0026 所述匹配单元,其用于从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题,二者构成FAQ合法问答对,并将所述FAQ合法问答对发送至FAQ合法问答对存储单元;0027 所述FAQ合法问答对存储单元,其用于存储FAQ合法问答对。0028 进一步,所述复述提取模块包括矩阵转换单元、相似度计算单元和复。
20、述生成单元;说 明 书CN 104376074 A3/7页70029 所述矩阵转换单元,其用于获取降噪处理结果,并将其映射成为问题答案矩阵,并对所述问题答案矩阵进行降维处理,将降维处理结果发送给相似度计算单元;0030 所述相似度计算单元,根据降维处理结果计算出所述问题答案矩阵内每一个问题或答案与其他问题或答案的余弦相似度值Sim(Ai,Aj),将所述余弦相似度值Sim(Ai,Aj)发送给复述生成单元;0031 所述复述生成单元,将余弦相似度值Sim(Ai,Aj)与预设阀值Sim_Temp2进行比较,根据比较结果生成问题复述集和答案复述集,并将所述问题复述集和答案复述集分别发送给问题复述存储模。
21、块和答案复述存储模块。0032 进一步,所述降噪单元的降噪过程为:如果某FAQ合法问答对的问题或答案的出现次数在FAQ合法问答对存储单元中只有一次,则认为此FAQ合法问答对无效,并将其从FAQ合法问答对存储单元中删除。0033 进一步,所述矩阵转换单元中,生成的问题答案矩阵的维度为m*n,其中m是去重之后问题的总数,n是去重之后答案的总数,矩阵中的每个元素的值记录着对应的问题和答案在问答对库中出现的次数,未出现的记为0次。0034 为了解决上述技术问题,本发明还提供一种复述资源获取方法,包括以下步骤,0035 S101:获取人工客服与顾客的对话语料,建立对话语料存储模块;0036 S102:从。
22、对话语料存储模块中提取出FAQ合法问答对,并对所述FAQ合法问答对进行降噪处理;0037 S103:获取降噪处理结果,根据预设程序生成问题复述集和答案复述集。0038 本发明的有益效果是:本发明技术方案获取了高质量、高准确率的问答对,去除了不必要的噪音,有利于复述资源提取。本发明的方案排除了语言随意性和主观性对于复述对提取准确率的影响,提取复述资源不受问答对领域的限制,适用范围广,可移植性强。0039 在上述技术方案的基础上,本发明还可以做如下改进。0040 进一步,步骤S102具体为,0041 S102a:从对话语料存储模块中提取出合法问答对,并计算所述合法问答对问题和答案的匹配程度值;00。
23、42 S102b:将所述匹配程度值与预设阈值Sim_Temp1相比较,根据比较结果生成FAQ合法问答对和候选问答对;0043 S102c:获取所述候选问答对中问题的复述和答案的复述,判断其是否组成过FAQ合法问答对,如果是,则认为此候选问答对为FAQ合法问答对,将其输入到FAQ合法问答对存储单元;否则,将其输入到有效性检测单元;0044 S102d:获取问题的复述和答案的复述曾经没有组成过FAQ合法问答对的候选问答对,并根据问题的复述和答案的复述出现的频率和相对概率对其进行有效性检测,如果有效,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元,否则,将此候选问答对从候。
24、选问答对存储单元中删除;0045 S102e:对FAQ合法问答对进行降噪处理。0046 进一步,步骤S102具体还可以为,0047 S1021:从对话语料存储模块中提取出合法回答,然后将出现在此合法回答之前,上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元;说 明 书CN 104376074 A4/7页80048 S1022:匹配单元从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题,二者构成FAQ合法问答对;0049 S1023:重复以上过程,将重复得到的至少一个FAQ合法问答对储存至FAQ合法问答对存储单元。0050 进一步,步骤S103具体为,0051 S1。
25、03a:获取降噪处理结果,并将其映射成为问题答案矩阵,并对所述问题答案矩阵进行降维处理;0052 S103b:根据降维处理结果计算出所述问题答案矩阵内每一个问题或答案与其他问题或答案的余弦相似度值Sim(Ai,Aj);0053 S103c:将余弦相似度值Sim(Ai,Aj)与预设阀值Sim_Temp2进行比较,根据比较结果生成问题复述集和答案复述集。附图说明0054 图1为一种复述资源获取系统内各模块关系示意图;0055 图2为FAQ预处理模块实施例1各单元关系示意图;0056 图3为FAQ预处理模块实施例2各单元关系示意图;0057 图4为复述提取模块内各单元关系示意图;0058 图5为一种。
26、复述资源获取方法步骤流程图。具体实施方式0059 以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。0060 如图1所示,一种复述资源获取系统,包括对话语料存储模块、FAQ(Frequently Asked Questions)预处理模块、复述提取模块、问题复述存储模块和答案复述存储模块,所述对话语料存储模块,其用于存储人工客服与顾客的对话语料;所述FAQ预处理模块,其用于从对话语料存储模块中提取出FAQ合法问答对,并对所述FAQ合法问答对进行降噪处理,将降噪处理结果发送给复述提取模块;所述复述提取模块,其用于接收降噪处理结果,根据预设程序生成问题复。
27、述集和答案复述集,并将所述问题复述集和答案复述集分别存储于问题复述存储模块和答案复述存储模块;所述问题复述存储模块,其用于存储所述问题复述集;所述答案复述存储模块,其用于存储所述答案复述集。0061 如图2所示,FAQ预处理模块实施例1各单元关系示意图,FAQ预处理模块包括计算匹配程度单元、阀值比较单元、FAQ合法问答对存储单元、候选问答对存储单元、问答复述重现检测单元、有效性检测单元和降噪单元;所述计算匹配程度单元,其用于从对话语料存储模块中提取出合法问答对,并计算所述合法问答对问题和答案的匹配程度值;所述阀值比较单元,其用于将所述匹配程度值与预设阈值Sim_Temp1相比较,根据比较结果生。
28、成FAQ合法问答对和候选问答对;其比较过程为:如果匹配程度值大于预设阈值Sim_Temp1则认为所述问题和答案是FAQ合法问答对,将所述FAQ合法问答对输入到FAQ合法问答对存储单元,否则,则认为所述问题和答案是候选问答对,将所述候选问答对输入到候选问答对存储单元;所述FAQ合法问答对存储单元,其用于存储阀值比较单元所输入的FAQ合法问说 明 书CN 104376074 A5/7页9答对;所述候选问答对存储单元,其用于存储阀值比较单元所输入的候选问答对;所述问答复述重现检测单元,其用于从候选问答对存储单元中分别找出所述候选问答对中问题的复述和答案的复述,判断其是否曾经组成过FAQ合法问答对,如。
29、果判断结果为是,则认为此候选问答对为FAQ合法问答对,将其输入到FAQ合法问答对存储单元;否则,则将其输入到有效性检测单元;所述有效性检测单元,其用于获取问题的复述和答案的复述曾经没有组成过FAQ合法问答对的候选问答对,并根据问题的复述和答案的复述出现的频率和相对概率对其进行有效性检测,如果有效,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元,否则,将此候选问答对从候选问答对存储单元中删除;所述降噪单元,其用于对FAQ合法问答对存储单元内的FAQ合法问答对进行降噪处理,并将降噪处理结果发送给复述提取模块。降噪单元的降噪过程为:如果某FAQ合法问答对的问题或答案的出现。
30、次数在FAQ合法问答对存储单元中只有一次,则认为此FAQ合法问答对无效,并将其从FAQ合法问答对存储单元中删除。0062 如图3所示,FAQ预处理模块实施例2各单元关系示意图;FAQ预处理模块包括合法回答存储单元、候选问题存储单元、匹配单元、FAQ合法问答对存储单元;所述合法回答存储单元,其用于从对话语料存储模块中提取出合法回答,将出现在此合法回答之前,上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元;所述候选问题存储单元,其用于存储候选问题;所述匹配单元,其用于从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题,二者构成FAQ合法问答对,并将所述FAQ合法问答对。
31、发送至FAQ合法问答对存储单元;所述FAQ合法问答对存储单元,其用于存储FAQ合法问答对。0063 如图4所示,复述提取模块内各单元关系示意图,复述提取模块包括矩阵转换单元、相似度计算单元和复述生成单元;所述矩阵转换单元,其用于接收所述降噪处理结果,并将降噪处理后的合法问答对的集合映射成为问题答案矩阵,并对所述问题答案矩阵采用SVD奇异值分解方法进行降维处理,将降维处理结果发送给相似度计算单元;矩阵转换单元中,生成的问题答案矩阵的维度为m*n,其中m是去重之后问题的总数,n是去重之后答案的总数,矩阵中的每个元素的值记录着对应的问题和答案在问答对库中出现的次数,未出现的记为0次。所述相似度计算单。
32、元,其用于接收所述降维处理结果,利用降维处理后的问题答案矩阵及其转置矩阵,计算问题答案矩阵内每一个问题或答案与其他所有问题或答案的余弦距离,得出所有问题的余弦相似度值Sim(Ai,Aj),将所述余弦相似度值Sim(Ai,Aj)发送给复述生成单元;余弦相似度值Sim(Ai,Aj)的计算方法为:假设降维后的问题答案矩阵每一个行向量包含k维特征,第i个问题向量Ai(a1,a2,.ak-1,ak),其中ai的值代表着该位置的问题和答案在FAQ合法问答对存储单元中出现的次数;第j个问题向量Aj表示为Aj(b1,b2,.bk-1,bk);在空间向量模型中,问题Ai和Aj的相似度Sim(Ai,Aj)cos,。
33、其中即为向量Ai,Aj的夹角;所述复述生成单元,在此模块中,根据不同电商对于自动问答系统性能的要求,设定不同的复述资源生成阈值,记为Sim_Temp2。对于某一问题(或答案),在相似度计算模块中已经得到的此问题(或答案)与其他问题(或答案)之间的相似度Sim(Ai,Aj),将相似度值在阈值之上的所有问题(或答案)记为此问题(或答案)的复述。例如:对于问题Ai,如果它与另一个问题Aj的相似度Sim(Ai,Aj)Sim_Temp2,那么就将问题Aj记为Ai的复述。以此类推,从而得到问题复述集和答案复述集,将所述问说 明 书CN 104376074 A6/7页10题复述集和答案复述集分别发送给问题复。
34、述存储模块和答案复述存储模块。0064 如图5所示,一种复述资源获取方法步骤流程图。一种复述资源获取方法,包括以下步骤,S101:根据人工客服与顾客的对话语料,建立对话语料存储模块;S102:FAQ预处理模块从对话语料存储模块中提取出FAQ合法问答对,并对所述FAQ合法问答对进行降噪处理,将降噪处理结果发送给复述提取模块;S103:复述提取模块接受所述降噪处理结果,生成问题复述集和答案复述集,并将所述问题复述集和答案复述集分别存储于问题复述存储模块和答案复述存储模块。0065 其中,步骤S102具体为,S102a:从对话语料存储模块中提取出合法问答对,并计算所述合法问答对问题和答案的匹配程度值。
35、;S102b:将所述匹配程度值与预设阈值Sim_Temp1相比较,如果匹配程度值大于预设阈值Sim_Temp1则认为所述问题和答案是FAQ合法问答对,将所述FAQ合法问答对输入到FAQ合法问答对存储单元,否则,则认为所述问题和答案是候选问答对,将所述候选问答对输入到候选问答对存储单元;S102c:问答复述重现检测单元从候选问答对存储单元中分别找出所述候选问答对中问题和答案的复述,如果所述候选问答对中,问题的复述和答案的复述曾经组成过FAQ合法问答对,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元;否则,将其输入到有效性检测单元;S102d:有效性检测单元接收从问答复。
36、述重现检测单元发送的问题的复述和答案的复述没有组成过FAQ合法问答对的候选问答对,根据问题和答案的复述出现的频率以及问题复述和答案复述的相对概率来计算其有效性,如果有效,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元,否则,将此候选问答对从候选问答对存储单元中删除;S102e:对FAQ合法问答对存储单元中的FAQ合法问答对进行降噪处理,降噪过程为:如果某FAQ合法问答对的问题或答案的出现次数在FAQ合法问答对存储单元中只有一次,那么可以认为此FAQ合法问答对无效,并将其从FAQ合法问答对存储单元中删除。0066 其中,步骤S102具体还可以为,S1021:从对话语料。
37、存储模块中提取出合法回答,然后将出现在此合法回答之前,上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元;S1022:匹配单元从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题,二者构成FAQ合法问答对;S1023:重复以上过程,将重复得到的至少一个FAQ合法问答对储存至FAQ合法问答对存储单元。0067 其中,步骤S103具体为,0068 S103a:复述提取模块的矩阵转换单元接受所述降噪处理结果,并将降噪处理后的FAQ合法问答对的集合映射成为问题答案矩阵,其中,问题答案矩阵的维度为m*n,其中m是去重之后问题的总数,n是去重之后答案的总数,矩阵中的每个元素的值记。
38、录着对应的问题和答案在问答对库中出现的次数,未出现的记为0次;之后对问题答案矩阵采用SVD奇异值分解方法进行降维处理,将降维处理结果发送给相似度计算单元;0069 S103b:相似度计算单元接受所述降维处理结果,利用降维处理后的问题答案矩阵,计算出所述问题答案矩阵内每一个问题或答案与其他问题或答案的余弦相似度值Sim(Ai,Aj),将所述余弦相似度值Sim(Ai,Aj)发送给复述生成单元;余弦相似度值Sim(Ai,Aj)的计算方法为:假设降维后的问题答案矩阵每一个行向量包含k维特征,第i个问题向量Ai(a1,a2,.ak-1,ak),其中ai的值代表着该位置的问题和答案在FAQ合法说 明 书CN 104376074 A10。