自然语言的生成方法及系统.pdf

上传人:54 文档编号:274125 上传时间:2018-02-07 格式:PDF 页数:15 大小:2.44MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310196659.4

申请日:

2013.05.23

公开号:

CN104182059A

公开日:

2014.12.03

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 3/023申请日:20130523|||公开

IPC分类号:

G06F3/023

主分类号:

G06F3/023

申请人:

华为技术有限公司

发明人:

张杰; 齐泉; 张轶博

地址:

518129 广东省深圳市龙岗区坂田华为总部办公楼

优先权:

专利代理机构:

北京中博世达专利商标代理有限公司 11274

代理人:

申健

PDF下载: PDF下载
内容摘要

本发明公开了一种自然语言的生成方法及系统,涉及计算机科学领域,用于解决当用户采用自然语言来录入数据时,需要用户手段录入自然语言,录入过程较为繁琐,且容易出错的问题。本发明提供的自然语言的生成方法包括:获取用户输入的第一关键词;判定所述第一关键词所属的类别;根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。本发明适用于计算机科学领域,用于生成自然语言。

权利要求书

1.  一种自然语言的生成方法,其特征在于,包括:
获取用户输入的第一关键词;
判定所述第一关键词所属的类别;
根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。

2.
  根据权利要求1所述的方法,其特征在于,所述判定所述第一关键词所属的类别,包括:
基于预设规则,根据所述第一关键词的特定标识判定所述第一关键词所属的类别;
或者
基于历史统计结果,根据所述第一关键词在不同类别中出现的概率判定所述第一关键词所属的类别。

3.
  根据权利要求1或2所述的方法,其特征在于,还包括:
预先设定数据库,所述数据库用于存储各关键词的记录信息和各关键词的类别信息,所述记录信息包括:各关键词的共现词汇、所述共现词汇的类别和共现频率。

4.
  根据权利要求3所述的方法,其特征在于,所述根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言之前,还包括:
从所述数据库中读取所述第一关键词的记录信息;
根据所述第一关键词的记录信息计算所述第一关键词和其他关键词的关联 度、以及所述第一关键词所属的类别与其他类别间的关联度。

5.
  根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言,包括:
确定与所述第一关键词关联度最高的、以及与所述第一关键词所属类别关联度最高的一个或多个属于不同类别的关键词作为所述上下文关联词;
按照预设语言模板将所述第一关键词和上下文关联词组合为自然语言,其中,所述语言模板用于根据所述第一关键词的词性和上下文关联词的词性对所述第一关键词和上下文关键词进行符合常规语法结构的组合。

6.
  根据权利要求5所述的方法,其特征在于,还包括:
当生成的自然语言为多个时,以下拉框的形式对所述生成的多个自然语言进行显示以供用户确认;或者
当生成的自然语言不被用户认可时,则提示用户手动输入待录入的自然语言,并对用户输入的自然语言进行分析以更新所述数据库。

7.
  根据权利要求6所述的方法,其特征在于,所述对用户输入的自然语言进行分析以更新所述数据库,包括:
获取用户输入的自然语言中的所有关键词;
建立词间相似度矩阵,根据所述词间相似度矩阵对所述用户输入的自然语言中的所有关键词进行分析,从而对所述数据库中各关键词的记录信息和各关键词所属的类别信息进行更新,其中,所述词间相似度矩阵用于表征所述数据库中任意两个关键词之间的相似度。

8.
  一种自然语言的生成系统,其特征在于,包括:
获取模块,用于获取用户输入的第一关键词;
判定模块,用于判定所述获取模块获取的第一关键词所属的类别;
生成模块,用于根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。

9.
  根据权利要求8所述的系统,其特征在于,所述判定模块包括:
第一判定单元,用于基于预设规则,根据所述第一关键词的特定标识判定所述第一关键词所属的类别;
或者
第二判定单元,用于基于历史统计结果,根据所述第一关键词在不同类别中出现的概率判定所述第一关键词所属的类别。

10.
  根据权利要求8或9所述的系统,其特征在于,还包括:
数据库,用于存储各关键词的记录信息和各关键词的类别信息,所述记录信息包括:各关键词的共现词汇、所述共现词汇的类别和共现频率。

11.
  根据权利要求10所述的系统,其特征在于,还包括:
关联度计算模块,用于从所述数据库中读取所述第一关键词的记录信息,根据所述第一关键词的记录信息计算所述第一关键词和其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度。

12.
  根据权利要求8-11所述的系统,其特征在于,所述生成模块具体用于确定与所述第一关键词关联度最高的、以及与所述第一关键词所属类别关联度最高的一个或多个属于不同类别的关键词作为所述上下文关联词,并按照预设语言模板将所述第一关键词和上下文关联词组合为自然语言,其中,所述语言模板用于根据所述第一关键词的词性和上下文关联词的词性对所述第一关键词 和上下文关键词进行符合常规语法结构的组合。

13.
  根据权利要求12所述的系统,其特征在于,还包括显示模块、更新模块,其中:
所述显示模块用于当所述生成模块生成的自然语言为多个时,以下拉框的形式对所述生成的多个自然语言进行显示以供用户确认;
所述更新模块用于当所述生成模块生成的自然语言不被用户认可时,则提示用户手动输入待录入的自然语言,并对用户输入的自然语言进行分析以更新所述数据库。

14.
  根据权利要求13所述的系统,其特征在于,所述更新模块具体用于获取用户输入的自然语言中的所有关键词,并根据所述词间相似度矩阵对所述用户输入的自然语言中的所有关键词进行分析,从而对所述数据库中各关键词的记录信息和各关键词所属的类别信息进行更新,其中,所述词间相似度矩阵用于表征所述数据库中任意两个关键词之间的相似度。

说明书

自然语言的生成方法及系统
技术领域
本发明涉及计算机科学领域,尤其涉及一种自然语言的生成方法及系统。
背景技术
随着计算机技术的发展,计算机已经逐渐成为多个领域中的不可或缺的办公设备。一般的,计算机之间的通信、或者计算机与开发人员之间的通信可以挺过机器语言完成。但是,对于一般用户而言,用户与计算机之间是通过自然语言进行交互的。自然语言处理是计算机科学领域中的一个方向,主要是研究能实现人与计算机之间用自然语言进行有效通信的理论和方法。
在很多领域中,信息都是以自然语言的文本形式记录存储的,并且以自然语言的形式呈现给用户。例如,在医院的病例数据库中,对于一个由于感冒引起发烧的病人,医务工作人员在记录该病人的病例数据时,需要依次输入:病症-发烧,诊断结论-感冒,治疗方案-某药物。
目前,当用户采用自然语言来录入数据时,需要用户手段录入自然语言,录入过程较为繁琐,且容易出错。
发明内容
本发明的实施例提供一种自然语言的生成方法及系统,能够解决现有技术中当用户采用自然语言来录入数据时,需要用户手段录入自然语言,录入过程较为繁琐,且容易出错的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明实施例提供了一种自然语言的生成方法,所述方法包括:
获取用户输入的第一关键词;
判定所述第一关键词所属的类别;
根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。
在第一种可能的实现方式中,所述判定所述第一关键词所属的类别,包括:
基于预设规则,根据所述第一关键词的特定标识判定所述第一关键词所属的类别;
或者
基于历史统计结果,根据所述第一关键词在不同类别中出现的概率判定所述第一关键词所属的类别。
结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述方法还包括:
预先设定数据库,所述数据库用于存储各关键词的记录信息和各关键词的类别信息,所述记录信息包括:各关键词的共现词汇、所述共现词汇的类别和共现频率。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言之前,还包括:
从所述数据库中读取所述第一关键词的记录信息;
根据所述第一关键词的记录信息计算所述第一关键词和其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度。
结合第一方面或第一方面的第一种可能的实现方式、或第二种可能的实现 方式、或第三种可能的实现方式,在第四种可能的实现方式中,所述根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言,包括:
确定与所述第一关键词关联度最高的、以及与所述第一关键词所属类别关联度最高的一个或多个属于不同类别的关键词作为所述上下文关联词;
按照预设语言模板将所述第一关键词和上下文关联词组合为自然语言,其中,所述语言模板用于根据所述第一关键词的词性和上下文关联词的词性对所述第一关键词和上下文关键词进行符合常规语法结构的组合。
结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,所述方法还包括:
当生成的自然语言为多个时,以下拉框的形式对所述生成的多个自然语言进行显示以供用户确认;
或者
当生成的自然语言不被用户认可时,则提示用户手动输入待录入的自然语言,并对用户输入的自然语言进行分析以更新所述数据库。
结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,所述对用户输入的自然语言进行分析以更新所述数据库,包括:
获取用户输入的自然语言中的所有关键词;
建立词间相似度矩阵,根据所述词间相似度矩阵对所述用户输入的自然语言中的所有关键词进行分析,从而对所述数据库中各关键词的记录信息和各关键词所属的类别信息进行更新,其中,所述词间相似度矩阵用于表征所述数据库中任意两个关键词之间的相似度。
第二方面,本发明实施例提供了一种自然语言的生成系统,所述系统包括:
获取模块,用于获取用户输入的第一关键词;
判定模块,用于判定所述获取模块获取的第一关键词所属的类别;
生成模块,用于根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。
在第一种可能的实现方式中,所述判定模块包括:
第一判定单元,用于基于预设规则,根据所述第一关键词的特定标识判定所述第一关键词所属的类别;
或者
第二判定单元,用于基于历史统计结果,根据所述第一关键词在不同类别中出现的概率判定所述第一关键词所属的类别。
结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述系统还包括:
数据库,用于存储各关键词的记录信息和各关键词的类别信息,所述记录信息包括:各关键词的共现词汇、所述共现词汇的类别和共现频率。
结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述系统还包括:
关联度计算模块,用于从所述数据库中读取所述第一关键词的记录信息,根据所述第一关键词的记录信息计算所述第一关键词和其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度。
结合第二方面或第二方面的第一种可能的实现方式、或第二种可能的实现方式、或第三种可能的实现方式,在第四种可能的实现方式中,所述生成模块 具体用于确定与所述第一关键词关联度最高的、以及与所述第一关键词所属类别关联度最高的一个或多个属于不同类别的关键词作为所述上下文关联词,并按照预设语言模板将所述第一关键词和上下文关联词组合为自然语言,其中,所述语言模板用于根据所述第一关键词的词性和上下文关联词的词性对所述第一关键词和上下文关键词进行符合常规语法结构的组合。
结合第二方面的第四种可能的实现方式,在第五种可能的实现方式中,所述系统还包括显示模块、更新模块,其中:
所述显示模块用于当所述生成模块生成的自然语言为多个时,以下拉框的形式对所述生成的多个自然语言进行显示以供用户确认;
所述更新模块用于当所述生成模块生成的自然语言不被用户认可时,则提示用户手动输入待录入的自然语言,并对用户输入的自然语言进行分析以更新所述数据库。
结合第二方面的第五种可能的实现方式,在第六种可能的实现方式中,所述更新模块具体用于获取用户输入的自然语言中的所有关键词,并根据所述词间相似度矩阵对所述用户输入的自然语言中的所有关键词进行分析,从而对所述数据库中各关键词的记录信息和各关键词所属的类别信息进行更新,其中,所述词间相似度矩阵用于表征所述数据库中任意两个关键词之间的相似度。
本发明实施例提供的自然语言的生成方法及系统,在获取用户输入的第一关键词后,通过判定获取用户输入的第一关键词所属的类别,来确定与所述第一关键词对应的上下文关联词,从而生成自然语言。采用本发明实施例提供的方法,用户仅需要输入关键词即可自动生成自然语言,能够有效简化录入过程;同时,根据用户输入的关键词与其他关键词的关联度来确定上下文关联词,以大量的历史数据或经验作为依据,能够有效保证信息录入的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的自然语言的生成方法的流程示意图;
图2为本发明实施例二提供的自然语言的生成方法的流程示意图;
图3-图5为本发明实施例三提供的自然语言的生成系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种自然语言的生成方法,如图1所示,所述方法包括:
101、获取用户输入的第一关键词。
本实施例中,所述第一关键词是指用户输入的关键词,其数量可以为一个或多个。具体的,第一关键词的数量越多,则根据该第一关键词生成的自然语言的精确度越高,所述精确度是指生成的自然语言与用户需求相匹配的程度。
102、判定所述第一关键词所属的类别。
具体的,可以根据所述第一关键词的内容信息来判定其所属的类别,第一 关键词的类别可以包括但不限于:对象名称、原因、结果、时间等,用于表征所述第一关键词在自然语言中所处的位置以及所能表达的信息。
值得说明的是,在不同领域中,关键词所属的类别有所不同。例如,在设备维修日志系统中,关键词所属的类别可以是:器件名称、故障原因、故障现象、故障分类、故障时间、维修结果、维修时间等;在病例记录系统中,关键词所属的类别可以是:症状、病因、诊断结论、诊断时间、治疗方案等。
具体的,例如,在维修日志系统中,如果用户输入的第一关键词为“PCB板(Printed Circuit Board,印制电路板)”、“进水”,则可以判定其中的“PCB板”的类别为器件名称,“进水”的类别为故障原因。
103、根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。
例如,如果所述第一关键词是“PCB板”和“进水”,在判定“PCB板”所属的类别为“器件名称”、“进水”所属的类别为“故障原因”的前提下,如果确定与“PCB板”和“进水”关联度较高的关键词中包括“氧化腐蚀”,与“器件名称”和“故障原因”关联度较高类别中包括“故障描述”,同时“氧化腐蚀”的类别为“故障描述”,则可以将“氧化腐蚀”确定为“PCB板”和“进水”的上下文关联词,并通过符合自然语言的语法结构的组合得到包括上述所有关键词的自然语言,例如:PCB板由于进水导致氧化腐蚀。
本发明实施例提供的自然语言的生成方法,在获取用户输入的第一关键词后,通过判定获取用户输入的第一关键词所属的类别,来确定与所述第一关键词对应的上下文关联词,从而生成自然语言。采用本发明实施例提供的方法,用户仅需要输入关键词即可自动生成自然语言,能够有效简化录入过程;同时, 根据用户输入的关键词与其他关键词的关联度来确定上下文关联词,以大量的历史数据或经验作为依据,能够有效保证信息录入的准确率。
实施例二
在图1所示实施例的基础上,进一步的,本发明实施例提供了一种自然语言的生成方法,如图2所示,所述方法包括:
201、预先设定数据库,所述数据库用于存储各关键词的记录信息和各关键词的类别信息,所述记录信息至少包括:各关键词的共现词汇、所述共现词汇的类别和共现频率;所述关键词的类别信息在不同领域中有所不同,具体参见实施例一中相关描述,此处不再赘述。
其中,所述关键词的共现词汇是指与指定关键词共同出现的词汇(该词汇也属于关键词);所述共现词汇的类别是指所述共现词汇所属的类别;所述共现频率是指所述共现词汇与该关键词共同出现的频率;所述词性用于表征各关键词的词类,例如:名词、动词、形容词、数词、量词和代词等;所述句法依存关系用于表征多个关键词在组成自然语言时的位置和连接关系。
202、获取用户输入的第一关键词。
本实施例中,所述第一关键词是指用户输入的关键词,其数量可以为一个或多个。
203、判定所述第一关键词所属的类别。
值得说明的是,一个关键词所属的类别可以是多个。本实施例提供的数据库中存储有各关键词对应的类别信息,可以根据所述数据库来判定所述第一关键词所属的类别。
具体的,为了判定第一关键词所属的类别,本实施例提供了两种判定方法 以供参考:
方法一:
基于预设规则,根据所述第一关键词的特定标识判定所述第一关键词所属的类别。
上述方法适用于具备特定标识的关键词,一般的,具备特定标识的关键词所属的类别是唯一的。例如,如果用户输入的关键词为x月x日,则判定该关键词所属类别为时间;如果用户输入的关键词为阿莫西林,则判定该关键词所属类别为药物。
方法二:
基于历史统计结果,根据所述第一关键词在不同类别中出现的概率判定所述第一关键词所属的类别。
上述方法适用于所属类别包括多个类别的关键词。例如,当用户输入第一关键词时,根据历史记录,该第一关键词在过往的100次录入中,有90次是属于类别A,有10次是属于类别B,则判定该第一关键词所属类别为类别B。
204、从所述数据库中读取所述第一关键词的记录信息。
205、根据所述第一关键词的记录信息计算所述第一关键词和其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度。
206、确定与所述第一关键词关联度最高的、以及与所述第一关键词所属类别关联度最高的一个或多个属于不同类别的关键词作为所述上下文关联词。
上述步骤204-206用于确定所述第一关键词对应的上下文关联词。为了便于理解,本实施例进行举例说明:当用户输入的第一关键词为“PCB板”和“进水”,通过在所述数据库中查找,发现关键词“氧化腐蚀”与所述第一关键词(即“PCB板”和“进水”)共同出现的概率最高(即“PCB板”、“进水”、“氧化腐 蚀”互为共现词汇);另一方面,“氧化腐蚀”所属的类别、“PCB板”所属的类别、以及“进水”所属的类别共同出现的概率也最高,则可以确定“氧化腐蚀”为“PCB板”和“进水”的上下文关联词。
值得说明的是,上述仅为举例说明。实际应用中,某个领域中的关键词类别可以为多种。当获取用户输入的关键词后,所确定的对应的上下文关联词可以是输入不同类别的多个关联词。例如,当用户输入“PCB板”和“进水”作为关键词时,除了上述提到的“氧化腐蚀”作为“故障描述”,还可以确定“更换PCB板”作为“解决方案”,或者,确定“人为故障”作为“故障分类”等。
207、按照预设语言模板将所述第一关键词和上下文关联词组合为自然语言,其中,所述语言模板用于根据所述第一关键词的词性和上下文关联词的词性对所述第一关键词和上下文关键词进行符合常规语法结构的组合。
其中,所述语言模板可以是人工设定的,也可以从大量相似的句子中进行统计学习来设定。从而,结合各关键词所属的类别和所述语言模板,即可生成自然语言。例如,一种简单的语言模板可以为:“故障器件”由于“故障原因”导致“故障描述”;如果确定了“故障器件”为PCB板,“故障原因”为“进水”,“故障描述”为氧化腐蚀,则套用上述语言模板,即可生成如下自然语言:PCB板由于进水导致氧化腐蚀。
可选的,本实施例中的数据库存储的各关键词的记录信息还可以包括各关键词的词性和句法依存关系等,以供所述语言模板调用,使得组合得到的自然语言符合人类的语言习惯。
值得说明的是,用户输入的关键词数量越多,则确定的上下文关联词越少,生成的自然语言越精确。当用户输入的关键词较少时,最终生成的自然语言可能为多个,此时,可以通过下拉框的形式对所述生成的多个自然语言进行显示 以供用户确认。
另一方面,当生成的自然语言不被用户认可时,可以提示用户手动输入待录入的自然语言,并对用户输入的自然语言进行分析以更新所述数据库,以便于在用户下次输入相似关键词时,能够生成满足用户需求的自热语言。
具体的,当用户手动输入待录入的自然语言时,可以通过如下方法对用户输入的自然语言进行分析以更新所述数据库:
S1、获取用户输入的自然语言中的所有关键词;
S2、建立词间相似度矩阵,根据所述词间相似度矩阵对所述用户输入的自然语言中的所有关键词进行分析,从而对所述数据库中各关键词的记录信息和各关键词所属的类别信息进行更新,其中,所述词间相似度矩阵用于表征所述数据库中任意两个关键词之间的相似度。
其中,相似度矩阵用于衡量关键词之间的相似度。如果有n个关键词,则形成n*n的对称矩阵,矩阵中的元素Aij表示第i个关键词和第j个关键词的相似度,0≤Aij≤1。
本发明实施例提供的自然语言的生成方法,在获取用户输入的第一关键词后,通过判定获取用户输入的第一关键词所属的类别,来确定与所述第一关键词对应的上下文关联词,从而生成自然语言。采用本发明实施例提供的方法,用户仅需要输入关键词即可自动生成自然语言,能够有效简化录入过程;同时,根据用户输入的关键词与其他关键词的关联度来确定上下文关联词,以大量的历史数据或经验作为依据,能够有效保证信息录入的准确率。
实施例三
在图1、图2所示实施例的基础上,本发明实施例进一步提供了一种自然语 言的生成系统,能够实现上述图1和图2所示实施例,如图3所示,所述自然语言的生成系统包括:
获取模块31,用于获取用户输入的第一关键词;
判定模块32,用于判定所述获取模块31获取的第一关键词所属的类别;
生成模块33,用于根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。
具体的,如图4所示,所述判定模块32包括:
第一判定单元321,用于基于预设规则,根据所述第一关键词的特定标识判定所述第一关键词所属的类别;
或者
第二判定单元322,用于基于历史统计结果,根据所述第一关键词在不同类别中出现的概率判定所述第一关键词所属的类别。
如图4所示,所述系统还包括:数据库34和关联度计算模块35,其中:
所述数据库34用于存储各关键词的记录信息和各关键词的类别信息,所述记录信息包括:各关键词的共现词汇、所述共现词汇的类别和共现频率。
所述关联度计算模块35用于从所述数据库34中读取所述第一关键词的记录信息,根据所述第一关键词的记录信息计算所述第一关键词和其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度。
具体的,所述生成模块33用于确定与所述第一关键词关联度最高的、以及与所述第一关键词所属类别关联度最高的一个或多个属于不同类别的关键词作为所述上下文关联词,并按照预设语言模板将所述第一关键词和上下文关联词组合为自然语言,其中,所述语言模板用于根据所述第一关键词的词性和上下 文关联词的词性对所述第一关键词和上下文关键词进行符合常规语法结构的组合。
进一步的,如图5所示,所述系统还包括显示模块36和更新模块37,其中:
所述显示模块36用于当所述生成模块33生成的自然语言为多个时,以下拉框的形式对所述生成的多个自然语言进行显示以供用户确认;
所述更新模块37用于当所述生成模块33生成的自然语言不被用户认可时,则提示用户手动输入待录入的自然语言,并对用户输入的自然语言进行分析以更新所述数据库。
具体的,所述更新模块37具体用于获取用户输入的自然语言中的所有关键词,并根据所述词间相似度矩阵对所述用户输入的自然语言中的所有关键词进行分析,从而对所述数据库34中各关键词的记录信息和各关键词所属的类别信息进行更新,其中,所述词间相似度矩阵用于表征所述数据库中任意两个关键词之间的相似度。
本发明实施例提供的自然语言的生成系统,在获取用户输入的第一关键词后,通过判定获取用户输入的第一关键词所属的类别,来确定与所述第一关键词对应的上下文关联词,从而生成自然语言。采用本发明实施例提供的自然语言的生成系统,用户仅需要输入关键词即可自动生成自然语言,能够有效简化录入过程;同时,根据用户输入的关键词与其他关键词的关联度来确定上下文关联词,以大量的历史数据或经验作为依据,能够有效保证信息录入的准确率。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或 者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

自然语言的生成方法及系统.pdf_第1页
第1页 / 共15页
自然语言的生成方法及系统.pdf_第2页
第2页 / 共15页
自然语言的生成方法及系统.pdf_第3页
第3页 / 共15页
点击查看更多>>
资源描述

《自然语言的生成方法及系统.pdf》由会员分享,可在线阅读,更多相关《自然语言的生成方法及系统.pdf(15页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN104182059A43申请公布日20141203CN104182059A21申请号201310196659422申请日20130523G06F3/02320060171申请人华为技术有限公司地址518129广东省深圳市龙岗区坂田华为总部办公楼72发明人张杰齐泉张轶博74专利代理机构北京中博世达专利商标代理有限公司11274代理人申健54发明名称自然语言的生成方法及系统57摘要本发明公开了一种自然语言的生成方法及系统,涉及计算机科学领域,用于解决当用户采用自然语言来录入数据时,需要用户手段录入自然语言,录入过程较为繁琐,且容易出错的问题。本发明提供的自然语言的生成方法包括获取。

2、用户输入的第一关键词;判定所述第一关键词所属的类别;根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。本发明适用于计算机科学领域,用于生成自然语言。51INTCL权利要求书2页说明书8页附图4页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书8页附图4页10申请公布号CN104182059ACN104182059A1/2页21一种自然语言的生成方法,其特征在于,包括获取用户输入的第一关键词;判定所述第一关键词所属的类别;根据所述第一关键词与其他关键词的。

3、关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。2根据权利要求1所述的方法,其特征在于,所述判定所述第一关键词所属的类别,包括基于预设规则,根据所述第一关键词的特定标识判定所述第一关键词所属的类别;或者基于历史统计结果,根据所述第一关键词在不同类别中出现的概率判定所述第一关键词所属的类别。3根据权利要求1或2所述的方法,其特征在于,还包括预先设定数据库,所述数据库用于存储各关键词的记录信息和各关键词的类别信息,所述记录信息包括各关键词的共现词汇、所述共现词汇的类别和共现频率。4根据权利要求3所述的方法。

4、,其特征在于,所述根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言之前,还包括从所述数据库中读取所述第一关键词的记录信息;根据所述第一关键词的记录信息计算所述第一关键词和其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度。5根据权利要求14中任一项所述的方法,其特征在于,所述根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言,包括确定。

5、与所述第一关键词关联度最高的、以及与所述第一关键词所属类别关联度最高的一个或多个属于不同类别的关键词作为所述上下文关联词;按照预设语言模板将所述第一关键词和上下文关联词组合为自然语言,其中,所述语言模板用于根据所述第一关键词的词性和上下文关联词的词性对所述第一关键词和上下文关键词进行符合常规语法结构的组合。6根据权利要求5所述的方法,其特征在于,还包括当生成的自然语言为多个时,以下拉框的形式对所述生成的多个自然语言进行显示以供用户确认;或者当生成的自然语言不被用户认可时,则提示用户手动输入待录入的自然语言,并对用户输入的自然语言进行分析以更新所述数据库。7根据权利要求6所述的方法,其特征在于,。

6、所述对用户输入的自然语言进行分析以更新所述数据库,包括获取用户输入的自然语言中的所有关键词;建立词间相似度矩阵,根据所述词间相似度矩阵对所述用户输入的自然语言中的所有权利要求书CN104182059A2/2页3关键词进行分析,从而对所述数据库中各关键词的记录信息和各关键词所属的类别信息进行更新,其中,所述词间相似度矩阵用于表征所述数据库中任意两个关键词之间的相似度。8一种自然语言的生成系统,其特征在于,包括获取模块,用于获取用户输入的第一关键词;判定模块,用于判定所述获取模块获取的第一关键词所属的类别;生成模块,用于根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别。

7、间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。9根据权利要求8所述的系统,其特征在于,所述判定模块包括第一判定单元,用于基于预设规则,根据所述第一关键词的特定标识判定所述第一关键词所属的类别;或者第二判定单元,用于基于历史统计结果,根据所述第一关键词在不同类别中出现的概率判定所述第一关键词所属的类别。10根据权利要求8或9所述的系统,其特征在于,还包括数据库,用于存储各关键词的记录信息和各关键词的类别信息,所述记录信息包括各关键词的共现词汇、所述共现词汇的类别和共现频率。11根据权利要求10所述的系统,其特征在于,还包括关联度计算模块,用于从所。

8、述数据库中读取所述第一关键词的记录信息,根据所述第一关键词的记录信息计算所述第一关键词和其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度。12根据权利要求811所述的系统,其特征在于,所述生成模块具体用于确定与所述第一关键词关联度最高的、以及与所述第一关键词所属类别关联度最高的一个或多个属于不同类别的关键词作为所述上下文关联词,并按照预设语言模板将所述第一关键词和上下文关联词组合为自然语言,其中,所述语言模板用于根据所述第一关键词的词性和上下文关联词的词性对所述第一关键词和上下文关键词进行符合常规语法结构的组合。13根据权利要求12所述的系统,其特征在于,还包括显示模块、更。

9、新模块,其中所述显示模块用于当所述生成模块生成的自然语言为多个时,以下拉框的形式对所述生成的多个自然语言进行显示以供用户确认;所述更新模块用于当所述生成模块生成的自然语言不被用户认可时,则提示用户手动输入待录入的自然语言,并对用户输入的自然语言进行分析以更新所述数据库。14根据权利要求13所述的系统,其特征在于,所述更新模块具体用于获取用户输入的自然语言中的所有关键词,并根据所述词间相似度矩阵对所述用户输入的自然语言中的所有关键词进行分析,从而对所述数据库中各关键词的记录信息和各关键词所属的类别信息进行更新,其中,所述词间相似度矩阵用于表征所述数据库中任意两个关键词之间的相似度。权利要求书CN。

10、104182059A1/8页4自然语言的生成方法及系统技术领域0001本发明涉及计算机科学领域,尤其涉及一种自然语言的生成方法及系统。背景技术0002随着计算机技术的发展,计算机已经逐渐成为多个领域中的不可或缺的办公设备。一般的,计算机之间的通信、或者计算机与开发人员之间的通信可以挺过机器语言完成。但是,对于一般用户而言,用户与计算机之间是通过自然语言进行交互的。自然语言处理是计算机科学领域中的一个方向,主要是研究能实现人与计算机之间用自然语言进行有效通信的理论和方法。0003在很多领域中,信息都是以自然语言的文本形式记录存储的,并且以自然语言的形式呈现给用户。例如,在医院的病例数据库中,对于。

11、一个由于感冒引起发烧的病人,医务工作人员在记录该病人的病例数据时,需要依次输入病症发烧,诊断结论感冒,治疗方案某药物。0004目前,当用户采用自然语言来录入数据时,需要用户手段录入自然语言,录入过程较为繁琐,且容易出错。发明内容0005本发明的实施例提供一种自然语言的生成方法及系统,能够解决现有技术中当用户采用自然语言来录入数据时,需要用户手段录入自然语言,录入过程较为繁琐,且容易出错的问题。0006为达到上述目的,本发明的实施例采用如下技术方案0007第一方面,本发明实施例提供了一种自然语言的生成方法,所述方法包括0008获取用户输入的第一关键词;0009判定所述第一关键词所属的类别;001。

12、0根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。0011在第一种可能的实现方式中,所述判定所述第一关键词所属的类别,包括0012基于预设规则,根据所述第一关键词的特定标识判定所述第一关键词所属的类别;0013或者0014基于历史统计结果,根据所述第一关键词在不同类别中出现的概率判定所述第一关键词所属的类别。0015结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述方法还包括0016预先设定数据库,所述数据库用于存储各关键词的记录信息和各关键词。

13、的类别信说明书CN104182059A2/8页5息,所述记录信息包括各关键词的共现词汇、所述共现词汇的类别和共现频率。0017结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言之前,还包括0018从所述数据库中读取所述第一关键词的记录信息;0019根据所述第一关键词的记录信息计算所述第一关键词和其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度。0020结合第一方面或第一方面的第一种可能的实。

14、现方式、或第二种可能的实现方式、或第三种可能的实现方式,在第四种可能的实现方式中,所述根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言,包括0021确定与所述第一关键词关联度最高的、以及与所述第一关键词所属类别关联度最高的一个或多个属于不同类别的关键词作为所述上下文关联词;0022按照预设语言模板将所述第一关键词和上下文关联词组合为自然语言,其中,所述语言模板用于根据所述第一关键词的词性和上下文关联词的词性对所述第一关键词和上下文关键词进行符合常规语法结构的组合。0023。

15、结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,所述方法还包括0024当生成的自然语言为多个时,以下拉框的形式对所述生成的多个自然语言进行显示以供用户确认;0025或者0026当生成的自然语言不被用户认可时,则提示用户手动输入待录入的自然语言,并对用户输入的自然语言进行分析以更新所述数据库。0027结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,所述对用户输入的自然语言进行分析以更新所述数据库,包括0028获取用户输入的自然语言中的所有关键词;0029建立词间相似度矩阵,根据所述词间相似度矩阵对所述用户输入的自然语言中的所有关键词进行分析,从而对所述数据库中各关键词。

16、的记录信息和各关键词所属的类别信息进行更新,其中,所述词间相似度矩阵用于表征所述数据库中任意两个关键词之间的相似度。0030第二方面,本发明实施例提供了一种自然语言的生成系统,所述系统包括0031获取模块,用于获取用户输入的第一关键词;0032判定模块,用于判定所述获取模块获取的第一关键词所属的类别;0033生成模块,用于根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。0034在第一种可能的实现方式中,所述判定模块包括0035第一判定单元,用于基于预设规则,根据所述第一。

17、关键词的特定标识判定所述第说明书CN104182059A3/8页6一关键词所属的类别;0036或者0037第二判定单元,用于基于历史统计结果,根据所述第一关键词在不同类别中出现的概率判定所述第一关键词所属的类别。0038结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述系统还包括0039数据库,用于存储各关键词的记录信息和各关键词的类别信息,所述记录信息包括各关键词的共现词汇、所述共现词汇的类别和共现频率。0040结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述系统还包括0041关联度计算模块,用于从所述数据库中读取所述第一关键词的记录信息,根据所述。

18、第一关键词的记录信息计算所述第一关键词和其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度。0042结合第二方面或第二方面的第一种可能的实现方式、或第二种可能的实现方式、或第三种可能的实现方式,在第四种可能的实现方式中,所述生成模块具体用于确定与所述第一关键词关联度最高的、以及与所述第一关键词所属类别关联度最高的一个或多个属于不同类别的关键词作为所述上下文关联词,并按照预设语言模板将所述第一关键词和上下文关联词组合为自然语言,其中,所述语言模板用于根据所述第一关键词的词性和上下文关联词的词性对所述第一关键词和上下文关键词进行符合常规语法结构的组合。0043结合第二方面的第四种。

19、可能的实现方式,在第五种可能的实现方式中,所述系统还包括显示模块、更新模块,其中0044所述显示模块用于当所述生成模块生成的自然语言为多个时,以下拉框的形式对所述生成的多个自然语言进行显示以供用户确认;0045所述更新模块用于当所述生成模块生成的自然语言不被用户认可时,则提示用户手动输入待录入的自然语言,并对用户输入的自然语言进行分析以更新所述数据库。0046结合第二方面的第五种可能的实现方式,在第六种可能的实现方式中,所述更新模块具体用于获取用户输入的自然语言中的所有关键词,并根据所述词间相似度矩阵对所述用户输入的自然语言中的所有关键词进行分析,从而对所述数据库中各关键词的记录信息和各关键词。

20、所属的类别信息进行更新,其中,所述词间相似度矩阵用于表征所述数据库中任意两个关键词之间的相似度。0047本发明实施例提供的自然语言的生成方法及系统,在获取用户输入的第一关键词后,通过判定获取用户输入的第一关键词所属的类别,来确定与所述第一关键词对应的上下文关联词,从而生成自然语言。采用本发明实施例提供的方法,用户仅需要输入关键词即可自动生成自然语言,能够有效简化录入过程;同时,根据用户输入的关键词与其他关键词的关联度来确定上下文关联词,以大量的历史数据或经验作为依据,能够有效保证信息录入的准确率。附图说明0048为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现说明书CN1。

21、04182059A4/8页7有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。0049图1为本发明实施例一提供的自然语言的生成方法的流程示意图;0050图2为本发明实施例二提供的自然语言的生成方法的流程示意图;0051图3图5为本发明实施例三提供的自然语言的生成系统的结构示意图。具体实施方式0052下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施。

22、例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。0053实施例一0054本发明实施例提供了一种自然语言的生成方法,如图1所示,所述方法包括0055101、获取用户输入的第一关键词。0056本实施例中,所述第一关键词是指用户输入的关键词,其数量可以为一个或多个。具体的,第一关键词的数量越多,则根据该第一关键词生成的自然语言的精确度越高,所述精确度是指生成的自然语言与用户需求相匹配的程度。0057102、判定所述第一关键词所属的类别。0058具体的,可以根据所述第一关键词的内容信息来判定其所属的类别,第一关键词的类别可以包括但不限于对象名称、原因、结。

23、果、时间等,用于表征所述第一关键词在自然语言中所处的位置以及所能表达的信息。0059值得说明的是,在不同领域中,关键词所属的类别有所不同。例如,在设备维修日志系统中,关键词所属的类别可以是器件名称、故障原因、故障现象、故障分类、故障时间、维修结果、维修时间等;在病例记录系统中,关键词所属的类别可以是症状、病因、诊断结论、诊断时间、治疗方案等。0060具体的,例如,在维修日志系统中,如果用户输入的第一关键词为“PCB板PRINTEDCIRCUITBOARD,印制电路板”、“进水”,则可以判定其中的“PCB板”的类别为器件名称,“进水”的类别为故障原因。0061103、根据所述第一关键词与其他关键。

24、词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。0062例如,如果所述第一关键词是“PCB板”和“进水”,在判定“PCB板”所属的类别为“器件名称”、“进水”所属的类别为“故障原因”的前提下,如果确定与“PCB板”和“进水”关联度较高的关键词中包括“氧化腐蚀”,与“器件名称”和“故障原因”关联度较高类别中包括“故障描述”,同时“氧化腐蚀”的类别为“故障描述”,则可以将“氧化腐蚀”确定为“PCB板”和“进水”的上下文关联词,并通过符合自然语言的语法结构的组合得到包括上述所有关键词的自然语言,例如PC。

25、B板由于进水导致氧化腐蚀。0063本发明实施例提供的自然语言的生成方法,在获取用户输入的第一关键词后,通说明书CN104182059A5/8页8过判定获取用户输入的第一关键词所属的类别,来确定与所述第一关键词对应的上下文关联词,从而生成自然语言。采用本发明实施例提供的方法,用户仅需要输入关键词即可自动生成自然语言,能够有效简化录入过程;同时,根据用户输入的关键词与其他关键词的关联度来确定上下文关联词,以大量的历史数据或经验作为依据,能够有效保证信息录入的准确率。0064实施例二0065在图1所示实施例的基础上,进一步的,本发明实施例提供了一种自然语言的生成方法,如图2所示,所述方法包括0066。

26、201、预先设定数据库,所述数据库用于存储各关键词的记录信息和各关键词的类别信息,所述记录信息至少包括各关键词的共现词汇、所述共现词汇的类别和共现频率;所述关键词的类别信息在不同领域中有所不同,具体参见实施例一中相关描述,此处不再赘述。0067其中,所述关键词的共现词汇是指与指定关键词共同出现的词汇该词汇也属于关键词;所述共现词汇的类别是指所述共现词汇所属的类别;所述共现频率是指所述共现词汇与该关键词共同出现的频率;所述词性用于表征各关键词的词类,例如名词、动词、形容词、数词、量词和代词等;所述句法依存关系用于表征多个关键词在组成自然语言时的位置和连接关系。0068202、获取用户输入的第一关。

27、键词。0069本实施例中,所述第一关键词是指用户输入的关键词,其数量可以为一个或多个。0070203、判定所述第一关键词所属的类别。0071值得说明的是,一个关键词所属的类别可以是多个。本实施例提供的数据库中存储有各关键词对应的类别信息,可以根据所述数据库来判定所述第一关键词所属的类别。0072具体的,为了判定第一关键词所属的类别,本实施例提供了两种判定方法以供参考0073方法一0074基于预设规则,根据所述第一关键词的特定标识判定所述第一关键词所属的类别。0075上述方法适用于具备特定标识的关键词,一般的,具备特定标识的关键词所属的类别是唯一的。例如,如果用户输入的关键词为X月X日,则判定该。

28、关键词所属类别为时间;如果用户输入的关键词为阿莫西林,则判定该关键词所属类别为药物。0076方法二0077基于历史统计结果,根据所述第一关键词在不同类别中出现的概率判定所述第一关键词所属的类别。0078上述方法适用于所属类别包括多个类别的关键词。例如,当用户输入第一关键词时,根据历史记录,该第一关键词在过往的100次录入中,有90次是属于类别A,有10次是属于类别B,则判定该第一关键词所属类别为类别B。0079204、从所述数据库中读取所述第一关键词的记录信息。0080205、根据所述第一关键词的记录信息计算所述第一关键词和其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度。。

29、说明书CN104182059A6/8页90081206、确定与所述第一关键词关联度最高的、以及与所述第一关键词所属类别关联度最高的一个或多个属于不同类别的关键词作为所述上下文关联词。0082上述步骤204206用于确定所述第一关键词对应的上下文关联词。为了便于理解,本实施例进行举例说明当用户输入的第一关键词为“PCB板”和“进水”,通过在所述数据库中查找,发现关键词“氧化腐蚀”与所述第一关键词即“PCB板”和“进水”共同出现的概率最高即“PCB板”、“进水”、“氧化腐蚀”互为共现词汇;另一方面,“氧化腐蚀”所属的类别、“PCB板”所属的类别、以及“进水”所属的类别共同出现的概率也最高,则可以确。

30、定“氧化腐蚀”为“PCB板”和“进水”的上下文关联词。0083值得说明的是,上述仅为举例说明。实际应用中,某个领域中的关键词类别可以为多种。当获取用户输入的关键词后,所确定的对应的上下文关联词可以是输入不同类别的多个关联词。例如,当用户输入“PCB板”和“进水”作为关键词时,除了上述提到的“氧化腐蚀”作为“故障描述”,还可以确定“更换PCB板”作为“解决方案”,或者,确定“人为故障”作为“故障分类”等。0084207、按照预设语言模板将所述第一关键词和上下文关联词组合为自然语言,其中,所述语言模板用于根据所述第一关键词的词性和上下文关联词的词性对所述第一关键词和上下文关键词进行符合常规语法结构。

31、的组合。0085其中,所述语言模板可以是人工设定的,也可以从大量相似的句子中进行统计学习来设定。从而,结合各关键词所属的类别和所述语言模板,即可生成自然语言。例如,一种简单的语言模板可以为“故障器件”由于“故障原因”导致“故障描述”;如果确定了“故障器件”为PCB板,“故障原因”为“进水”,“故障描述”为氧化腐蚀,则套用上述语言模板,即可生成如下自然语言PCB板由于进水导致氧化腐蚀。0086可选的,本实施例中的数据库存储的各关键词的记录信息还可以包括各关键词的词性和句法依存关系等,以供所述语言模板调用,使得组合得到的自然语言符合人类的语言习惯。0087值得说明的是,用户输入的关键词数量越多,则。

32、确定的上下文关联词越少,生成的自然语言越精确。当用户输入的关键词较少时,最终生成的自然语言可能为多个,此时,可以通过下拉框的形式对所述生成的多个自然语言进行显示以供用户确认。0088另一方面,当生成的自然语言不被用户认可时,可以提示用户手动输入待录入的自然语言,并对用户输入的自然语言进行分析以更新所述数据库,以便于在用户下次输入相似关键词时,能够生成满足用户需求的自热语言。0089具体的,当用户手动输入待录入的自然语言时,可以通过如下方法对用户输入的自然语言进行分析以更新所述数据库0090S1、获取用户输入的自然语言中的所有关键词;0091S2、建立词间相似度矩阵,根据所述词间相似度矩阵对所述。

33、用户输入的自然语言中的所有关键词进行分析,从而对所述数据库中各关键词的记录信息和各关键词所属的类别信息进行更新,其中,所述词间相似度矩阵用于表征所述数据库中任意两个关键词之间的相似度。0092其中,相似度矩阵用于衡量关键词之间的相似度。如果有N个关键词,则形成NN的对称矩阵,矩阵中的元素AIJ表示第I个关键词和第J个关键词的相似度,0AIJ1。说明书CN104182059A7/8页100093本发明实施例提供的自然语言的生成方法,在获取用户输入的第一关键词后,通过判定获取用户输入的第一关键词所属的类别,来确定与所述第一关键词对应的上下文关联词,从而生成自然语言。采用本发明实施例提供的方法,用户。

34、仅需要输入关键词即可自动生成自然语言,能够有效简化录入过程;同时,根据用户输入的关键词与其他关键词的关联度来确定上下文关联词,以大量的历史数据或经验作为依据,能够有效保证信息录入的准确率。0094实施例三0095在图1、图2所示实施例的基础上,本发明实施例进一步提供了一种自然语言的生成系统,能够实现上述图1和图2所示实施例,如图3所示,所述自然语言的生成系统包括0096获取模块31,用于获取用户输入的第一关键词;0097判定模块32,用于判定所述获取模块31获取的第一关键词所属的类别;0098生成模块33,用于根据所述第一关键词与其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关。

35、联度,确定所述第一关键词对应的上下文关联词,根据所述第一关键词和上下文关联词生成自然语言。0099具体的,如图4所示,所述判定模块32包括0100第一判定单元321,用于基于预设规则,根据所述第一关键词的特定标识判定所述第一关键词所属的类别;0101或者0102第二判定单元322,用于基于历史统计结果,根据所述第一关键词在不同类别中出现的概率判定所述第一关键词所属的类别。0103如图4所示,所述系统还包括数据库34和关联度计算模块35,其中0104所述数据库34用于存储各关键词的记录信息和各关键词的类别信息,所述记录信息包括各关键词的共现词汇、所述共现词汇的类别和共现频率。0105所述关联度计。

36、算模块35用于从所述数据库34中读取所述第一关键词的记录信息,根据所述第一关键词的记录信息计算所述第一关键词和其他关键词的关联度、以及所述第一关键词所属的类别与其他类别间的关联度。0106具体的,所述生成模块33用于确定与所述第一关键词关联度最高的、以及与所述第一关键词所属类别关联度最高的一个或多个属于不同类别的关键词作为所述上下文关联词,并按照预设语言模板将所述第一关键词和上下文关联词组合为自然语言,其中,所述语言模板用于根据所述第一关键词的词性和上下文关联词的词性对所述第一关键词和上下文关键词进行符合常规语法结构的组合。0107进一步的,如图5所示,所述系统还包括显示模块36和更新模块37。

37、,其中0108所述显示模块36用于当所述生成模块33生成的自然语言为多个时,以下拉框的形式对所述生成的多个自然语言进行显示以供用户确认;0109所述更新模块37用于当所述生成模块33生成的自然语言不被用户认可时,则提示用户手动输入待录入的自然语言,并对用户输入的自然语言进行分析以更新所述数据库。0110具体的,所述更新模块37具体用于获取用户输入的自然语言中的所有关键词,并根据所述词间相似度矩阵对所述用户输入的自然语言中的所有关键词进行分析,从而对所说明书CN104182059A108/8页11述数据库34中各关键词的记录信息和各关键词所属的类别信息进行更新,其中,所述词间相似度矩阵用于表征所。

38、述数据库中任意两个关键词之间的相似度。0111本发明实施例提供的自然语言的生成系统,在获取用户输入的第一关键词后,通过判定获取用户输入的第一关键词所属的类别,来确定与所述第一关键词对应的上下文关联词,从而生成自然语言。采用本发明实施例提供的自然语言的生成系统,用户仅需要输入关键词即可自动生成自然语言,能够有效简化录入过程;同时,根据用户输入的关键词与其他关键词的关联度来确定上下文关联词,以大量的历史数据或经验作为依据,能够有效保证信息录入的准确率。0112通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前。

39、者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备可以是个人计算机,服务器,或者网络设备等执行本发明各个实施例所述的方法。0113以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。说明书CN104182059A111/4页12图1说明书附图CN104182059A122/4页13图2说明书附图CN104182059A133/4页14图3图4说明书附图CN104182059A144/4页15图5说明书附图CN104182059A15。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1