《组合不同类型强制组件以实现延迟类型评估的方法和系统.pdf》由会员分享,可在线阅读,更多相关《组合不同类型强制组件以实现延迟类型评估的方法和系统.pdf(34页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104050224A43申请公布日20140917CN104050224A21申请号201410095843422申请日2014031413/835,41120130315USG06F17/3020060171申请人国际商业机器公司地址美国纽约72发明人S巴格希JJ范DA弗鲁茨AA卡利安普JW默多克四世CA韦尔蒂74专利代理机构北京市中咨律师事务所11247代理人于静张亚非54发明名称组合不同类型强制组件以实现延迟类型评估的方法和系统57摘要本发明涉及组合不同类型强制组件以实现延迟类型评估的方法和系统。在一种回答问题的方法中,接收问题,确定问题LAT,并标识所述问题的候选答案。
2、。使用第一组件确定所述候选答案的初步类型以便产生所述初步类型。每个所述第一组件使用不同的方法产生初步类型。产生表示所述初步类型与所述问题LAT之间的匹配度的第一类型得分。使用第二组件评估每个初步类型和每个第一类型得分。每个所述第二组件基于所述第一类型得分以及所述初步类型匹配所述问题LAT的程度度量的组合而产生第二得分。所述第二组件使用不同的方法产生所述第二得分。基于所述第二得分计算表示所述候选答案与所述问题LAT匹配的置信度的最终得分。30优先权数据51INTCL权利要求书4页说明书18页附图11页19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书18页附图11页10申请公布。
3、号CN104050224ACN104050224A1/4页21一种方法,包括将问题接收到计算机化设备中;使用所述计算机化设备确定问题LAT,所述问题LAT是与所述问题关联的词法答案类型;使用所述计算机化设备标识所述问题的候选答案;使用所述计算机化设备的第一组件自动确定所述候选答案的初步类型,所述第一组件使用不同的方法产生所述初步类型,并且每个所述第一组件均产生初步类型;使用所述计算机化设备对所述初步类型与所述问题LAT之间的匹配进行自动评分,每个所述第一组件产生第一类型得分,所述第一类型得分表示所述初步类型与所述问题LAT之间的匹配度,基于所述第一组件中的哪个第一组件产生了所述初步类型而区分所。
4、述评分;使用所述计算机化设备的第二组件自动评估每个所述初步类型和每个所述第一类型得分,每个所述第二组件基于所述第一类型得分以及所述初步类型匹配所述问题LAT的程度度量的组合而产生第二得分,所述第二组件使用不同的方法产生所述第二得分;使用所述计算机化设备,基于来自每个所述第二组件的所述第二得分自动计算最终得分;以及使用所述计算机化设备自动输出所述最终得分,所述最终得分表示所述候选答案是与所述问题LAT匹配的类型的置信度。2根据权利要求1的方法,还包括使用所述计算机化设备执行自动查询分析以便确定所述问题LAT。3根据权利要求1的方法,所述评分进一步包括使用所述计算机化设备将所述候选答案与数据语料库。
5、中的实例相匹配;使用所述计算机化设备从所述数据语料库检索初步类型,所述初步类型与所述实例关联;使用所述计算机化设备将所述问题LAT与从所述数据语料库检索的所述初步类型相匹配;以及使用所述计算机化设备产生得分,所述得分表示所述问题LAT与所述候选答案的所述初步类型之间的匹配度。4根据权利要求1的方法,所述第一组件包括类型强制组件,所述类型强制组件具有不同的资源特定类型分类方法,以便对所述初步类型匹配所述问题LAT的所述程度度量进行评分,所述评分进一步包括将所述初步类型与所述问题LAT相比较,以便针对每个所述类型强制组件和所述计算机化设备的自动评分功能产生所述第一类型得分。5根据权利要求1的方法,。
6、还包括使用所述计算机化设备,利用聚合功能将来自每个所述第二组件的所述第二得分自动解析为单个最终得分。6根据权利要求1的方法,还包括使用所述计算机化设备,由所述第二组件基于所述初步类型与所述问题LAT匹配的良好程度而自动判定所述初步类型中的任何初步类型是否是所述问题LAT的子类型。7一种方法,包括权利要求书CN104050224A2/4页3使用计算机化设备自动标识问答系统中的问题的问题词法答案类型LAT;使用所述计算机化设备自动生成所述问题的候选答案;使用所述计算机化设备的第一组件自动确定所述候选答案的初步类型,所述第一组件使用不同的资源产生所述初步类型,并且每个所述第一组件均针对所述候选答案产。
7、生初步类型;使用所述计算机化设备的所述第一组件对所述初步类型与所述问题LAT之间的匹配进行自动评分,并且基于所述初步类型对应于所述问题LAT的数量,针对每个初步类型产生第一类型得分,所述第一组件使用不同的资源针对所述初步类型产生所述第一类型得分,并且基于所述第一组件中的哪个第一组件产生了所述初步类型而区分所述评分;使用所述计算机化设备,由每个第二组件自动评估来自每个所述第一组件的每个所述初步类型和所述第一类型得分,每个所述第二组件基于所述第一类型得分以及所述初步类型匹配所述问题LAT的程度度量的组合而针对所述候选答案产生所述初步类型的第二得分;以及使用所述计算机化设备自动输出最终得分,所述最终。
8、得分基于来自每个所述第二组件的所述第二得分,所述最终得分表示所述候选答案是与所述问题LAT匹配的类型的置信度。8根据权利要求7的方法,还包括将问题接收到所述计算机化设备中;以及使用所述计算机化设备执行自动查询分析以便确定所述问题LAT。9根据权利要求7的方法,所述问答系统进一步包括数据语料库,所述方法还包括使用所述计算机化设备,利用所述数据语料库自动生成所述问题的所述候选答案。10根据权利要求9的方法,所述评分进一步包括使用所述计算机化设备将所述候选答案与所述数据语料库中的实例相匹配;使用所述计算机化设备从所述数据语料库检索初步类型,所述初步类型与所述实例关联;使用所述计算机化设备将所述问题L。
9、AT与从所述数据语料库检索的所述初步类型相匹配;以及使用所述计算机化设备产生得分,所述得分表示所述问题LAT与所述候选答案的所述初步类型之间的匹配度。11根据权利要求7的方法,所述第一组件包括类型强制组件,所述类型强制组件具有不同的资源特定类型分类方法,以便对所述初步类型匹配所述问题LAT的所述程度度量进行评分,所述评分进一步包括将所述初步类型与所述问题LAT相比较,以便使用所述类型强制组件和所述计算机化设备的自动评分功能,针对每个所述初步类型产生所述第一类型得分。12根据权利要求7的方法,还包括使用所述计算机化设备,利用聚合功能将来自每个所述第二组件的所述第二得分自动解析为单个最终得分。13。
10、根据权利要求7的方法,还包括使用所述计算机化设备,由所述第二组件基于所述初步类型与所述问题LAT匹配的良权利要求书CN104050224A3/4页4好程度而判定所述初步类型中的任何初步类型是否是所述问题LAT的子类型。14一种用于确定问答系统中的问题的候选答案的置信度得分的计算机系统,所述计算机系统包括自动问答QA系统,其包括查询分析模块;候选答案生成器,其在操作上连接到所述查询分析模块;以及处理器,其包括多个第一组件;多个第二组件,其在操作上连接到所述多个第一组件;以及分类器,其在操作上连接到所述多个第二组件;以及用户接口,其在操作上连接到所述查询分析模块,所述用户接口将问题接收到所述自动Q。
11、A系统中,所述查询分析模块确定所述问题的问题词法答案类型LAT;所述候选答案生成器自动计算所述问题的候选答案;所述处理器针对来自所述多个第一组件中的每个第一组件的所述候选答案,自动计算初步类型,所述第一组件使用不同的方法产生所述初步类型;所述处理器对所述初步类型与所述问题LAT之间的匹配进行自动评分,以便基于所述初步类型对应于所述问题LAT的数量,从所述多个第一组件中的每个第一组件产生第一类型得分,基于所述多个第一组件中的哪个组件产生了所述初步类型而区分所述评分,并且基于产生相同初步类型的所述组件之间的差异,所述相同初步类型接收不同的类型得分;所述处理器使用所述多个第二组件中的每个第二组件,自。
12、动评估来自所述多个第一组件中的每个第一组件的每个所述初步类型和所述第一类型得分,并且针对所述多个第二组件中的每个第二组件,基于所述初步类型匹配所述问题LAT的程度度量而产生所述初步类型的第二得分;以及所述处理器基于来自所述多个第二组件中的每个第二组件的所述初步类型的所述第二得分,从所述分类器自动输出所述初步类型的最终得分。15根据权利要求14的系统,所述自动QA系统进一步包括数据语料库,所述候选答案生成器使用所述数据语料库自动计算所述问题的候选答案。16根据权利要求15的系统,还包括所述处理器自动将所述候选答案与所述数据语料库中的实例相匹配;所述处理器自动从所述数据语料库检索初步类型,所述初步。
13、类型与所述实例关联;所述处理器自动将所述问题LAT与从所述数据语料库检索的所述初步类型相匹配;以及所述处理器自动产生表示所述问题LAT与所述候选答案的所述初步类型之间的匹配度的得分。17根据权利要求14的系统,所述多个第一组件包括类型强制组件,所述类型强制组件具有不同的资源特定类型分类方法,以便对所述初步类型匹配所述问题LAT的所述程度度量进行评分,所述处理器自动将所述初步类型与所述问题LAT相比较,以便使用所述类型强制组件权利要求书CN104050224A4/4页5和所述处理器的自动评分功能,针对每个所述初步类型产生所述得分。18根据权利要求14的系统,还包括所述处理器使用所述分类器,利用聚。
14、合功能将来自所述多个第二组件中的每个第二组件的所述第二得分自动解析为单个最终得分。19根据权利要求14的系统,还包括所述处理器使用所述多个第二组件,基于所述初步类型与所述问题LAT匹配的良好程度而判定所述初步类型中的任何初步类型是否是所述问题LAT的子类型。权利要求书CN104050224A1/18页6组合不同类型强制组件以实现延迟类型评估的方法和系统技术领域0001本公开涉及问答(QA)系统,更具体地说,涉及判定候选答案是否具有适当的词法答案类型。背景技术0002在标题为“SYSTEMANDMETHODFORPROVIDINGQUESTIONANDANSWERSWITHDEFERREDTYP。
15、EEVALUATION(用于提供具有延迟类型评估的问答的系统和方法)”的第12/126,642号美国专利申请(2008年5月23日提交,公布为第US2009/0292687A1号美国专利申请公开,公告为第8,332,394B2号美国专利,其内容在此引入作为参考)中解释了延迟类型评估的概念。0003在先前提交的标题为“PROVIDINGQUESTIONANDANSWERSWITHDEFERREDTYPEEVALUATIONUSINGTEXTWITHLIMITEDSTRUCTURE(使用具有受限结构的文本提供具有延迟类型评估的问答)”的第13/239,165号美国专利申请(2011年9月21日提交。
16、,公布为第US2012/0078902A1号美国专利申请公开,其内容在此引入作为参考)中进一步讨论了延迟类型评估的概念。发明内容0004此处的系统和方法解决个体类型强制组件的覆盖问题。目前,具有各种方法以便判定候选答案是否具有词法答案类型(LAT)。所有这些解决方案依赖一组特定的资源和一组特定的算法。因为每个类型强制组件具有它自己的局限性和偏向性,所以通常可以改进类型强制的覆盖。0005此处的系统和方法组合不同类型强制组件的中间输出以便产生新的类型强制输出,这种新的类型强制输出分别可比其它类型强制组件改进覆盖。0006本公开利用LAT的概念。LAT从查询的自然语言分析计算得出,并且比其本体类别。
17、提供更多的答案描述。问题/查询的LAT是实体的一个或多个所指对象的描述符,该实体是问题的有效答案。0007根据此处的一种方法,将问题接收到计算机化设备中。使用所述计算机化设备确定问题LAT。所述问题LAT是与所述问题关联的词法答案类型。使用所述计算机化设备标识所述问题的候选答案。使用所述计算机化设备的第一组件自动确定所述候选答案的初步类型。所述第一组件使用不同的方法产生所述初步类型,并且每个所述第一组件均产生初步类型。使用所述计算机化设备对所述初步类型与所述问题LAT之间的匹配进行自动评分。每个所述第一组件产生第一类型得分。所述第一类型得分表示所述初步类型与所述问题LAT之间的匹配度。基于所述。
18、组件中的哪个组件产生了所述初步类型而区分所述评分。使用所述计算机化设备的第二组件自动评估每个初步类型和每个第一类型得分。每个所述第二组件基于所述第一类型得分以及所述初步类型匹配所述问题LAT的程度度量的组合而产生第二得分。所述第二组件使用不同的方法产生所述第二得分。使用所述计算机化设说明书CN104050224A2/18页7备,基于来自每个所述第二组件的所述第二得分自动计算最终得分。使用所述计算机化设备自动输出所述最终得分,所述最终得分表示所述候选答案是与所述问题LAT匹配的类型的置信度。0008根据此处的一种方法,使用计算机化设备自动标识与问答系统中的问题关联的词法答案类型(LAT)以便产生。
19、问题LAT。使用所述计算机化设备自动生成所述问题的候选答案。使用所述计算机化设备的第一组件自动确定所述候选答案的初步类型。所述第一组件使用不同的资源产生所述初步类型,并且每个所述第一组件针对所述候选答案产生初步类型。使用所述计算机化设备的所述第一组件对所述初步类型与所述问题LAT之间的匹配进行自动评分,基于所述初步类型对应于所述问题LAT的数量,针对每个初步类型产生第一类型得分。所述第一组件使用不同的资源针对所述初步类型产生所述第一类型得分,并且基于所述第一组件中的哪个第一组件产生了所述初步类型而区分所述评分。使用所述计算机化设备,每个第二组件自动评估每个初步类型和所述第一类型得分。每个所述第。
20、二组件基于所述第一类型得分以及所述初步类型匹配所述问题LAT的程度度量的组合,针对所述候选答案的所述初步类型产生第二得分。使用所述计算机化设备自动输出最终得分,所述最终得分基于来自每个所述第二组件的所述第二得分。所述最终得分表示所述候选答案是与所述问题LAT匹配的类型的置信度。0009根据此处的一种用于确定问答系统中的问题的候选答案的置信度得分的计算机系统,所述系统包括自动问答(QA)系统,其包括查询分析模块;在操作上连接到所述查询分析模块的候选答案生成器;处理器,其包括多个第一组件、在操作上连接到所述多个第一组件的多个第二组件,以及在操作上连接到所述多个第二组件的分类器;以及用户接口,其在操。
21、作上连接到所述查询分析模块。所述用户接口将问题接收到所述自动QA系统中。所述查询分析模块确定所述问题的问题词法答案类型(LAT)。所述候选答案生成器自动计算所述问题的候选答案。所述处理器针对来自所述多个第一组件中的每个第一组件的所述候选答案,自动计算初步类型。所述第一组件使用不同的方法产生所述初步类型。所述处理器对所述初步类型与所述问题LAT之间的匹配进行自动评分,以便基于所述初步类型对应于所述问题LAT的数量,从所述多个第一组件中的每个第一组件产生第一类型得分。基于所述第一组件中的哪个第一组件产生了所述初步类型而区分所述评分。基于产生相同候选答案类型的所述第一组件之间的差异,所述相同初步类型。
22、接收不同的类型得分。所述处理器使用所述多个第二组件中的每个第二组件,自动评估来自所述多个第一组件中的每个第一组件的每个初步类型和第一类型得分,并且针对所述多个第二组件中的每个第二组件,基于所述初步类型匹配所述问题LAT的程度度量产生所述初步类型的第二得分。所述处理器基于来自所述多个第二组件中的每个第二组件的所述初步类型的所述第二得分,从所述分类器自动输出所述初步类型的最终得分。0010根据此处的一种用于确定问答系统中的问题的候选答案的置信度得分的计算机程序产品,所述计算机程序产品包括有形的计算机可读存储介质,所述计算机可读存储介质具有随其包含的程序代码。所述程序代码可由计算机读取和执行以便执行。
23、一种方法。根据所述方法,将问题接收到计算机化设备中。确定问题LAT。所述问题LAT是与所述问题关联的词法答案类型。标识所述问题的候选答案。使用所述计算机化设备的第一组件自动确定所述候选答案的初步类型。所述第一组件使用不同的方法产生所述初步类型,并且每说明书CN104050224A3/18页8个所述第一组件均产生初步类型。对所述初步类型与所述问题LAT之间的匹配进行自动评分。每个所述第一组件产生第一类型得分。所述第一类型得分表示所述初步类型与所述问题LAT之间的匹配度。基于所述组件中的哪个组件产生了所述初步类型而区分所述评分。使用所述计算机化设备的第二组件自动评估每个初步类型和每个第一类型得分。。
24、每个所述第二组件基于所述第一类型得分以及所述初步类型匹配所述问题LAT的程度度量的组合而产生第二得分。所述第二组件使用不同的方法产生所述第二得分。基于来自每个所述第二组件的所述第二得分自动计算最终得分。自动输出所述最终得分,所述最终得分表示所述候选答案是与所述问题LAT匹配的类型的置信度。附图说明0011从以下参考附图的详细描述,将更好地理解此处的系统和方法,这些附图不一定按比例绘制,其中0012图1是根据此处的系统和方法的高级系统图;0013图2是示出此处的系统和方法的不同方面的框图;0014图3是示出此处的系统和方法的不同方面的框图;0015图4是示出此处的系统和方法的不同方面的框图;00。
25、16图5是示出此处的系统和方法的流程图;0017图6是根据此处的系统和方法的硬件系统的示意图;0018图7是根据此处的系统和方法的部署系统的示意图;0019图8是根据此处的系统和方法的集成系统的示意图;0020图9是根据此处的系统和方法的按需系统的示意图;0021图10是根据此处的系统和方法的虚拟专用网络系统的示意图;以及0022图11是根据此处的系统和方法的虚拟专用网络系统的示意图。具体实施方式0023应该很容易地理解,本公开的系统和方法如通常在此处附图中描述和示出的那样,可以以除了在此描述的系统和方法之外的各种不同的配置来布置和设计。因此,以下对这些系统和方法的详细描述如在附图中表示的那样。
26、,并非旨在限制由所附权利要求限定的范围,而仅是表示选定的系统和方法。以下描述仅作为实例,并且仅示出在此公开和要求保护的系统和方法的某些概念。0024如在此所指的,单词“问题”和“查询”及其扩展可以交换使用并且指同一概念,即对信息的请求。此类请求通常以疑问句表示,但它们也可以以其它形式表示,例如表示为提供感兴趣实体的描述的陈述句(其中可以从上下文推断对实体标识的请求)。“结构化信息”(来自“结构化信息源”)在此被定义为其本意明确并显式地以数据的结构或格式表示的信息(例如,数据库表)。“非结构化信息”(来自“非结构化信息源”)在此被定义为其本意仅由其内容暗示的信息(例如,自然语言文档)。“半结构化。
27、”指其某些含义显式地以数据的格式表示的数据,例如文档的一部分可以被标记为“标题”。0025图1示出显示在此描述的系统100的逻辑架构的高级系统图。如图1中所示,系统100包括查询分析模块112,其实现接收和分析用户问题或查询118的功能。根据一种系统说明书CN104050224A4/18页9和方法,“用户”115指与系统100交互的一个或多个人员,术语“用户查询”指用户115提出的查询118(及其上下文)。但是,应该理解,可以构造其它系统和方法,其中术语“用户”指以机械方式生成查询118的计算机系统120,并且其中术语“用户查询”指这种以机械方式生成的查询和上下文。提供候选答案生成模块123,。
28、以便通过遍历具有结构化、半结构化和非结构化源的主源126以及包含从主源中提取的关系和列表集合的答案源知识库129,实现对候选答案的搜索。所有信息源可以存储在本地,或者分布在包括因特网的网络上。候选答案生成模块123基于对检索的数据的分析,生成多个包含候选答案132的输出数据结构。0026在图1中,示出第一系统和方法,其包括证据收集和答案评分模块135,该模块与主源126和答案源知识库129对接,以便同时根据具有候选答案的段落来分析证据并对每个候选答案132进行评分,以作为并行处理操作。证据收集和答案评分模块135包括候选答案评分模块138,以便分析检索的段落并对所检索段落的每个候选答案132进。
29、行评分。0027答案源知识库129可以包括数据语料库,其包括一个或多个包含关系集合(例如,类型化列表)的结构化或半结构化源(预先计算或以其它方式)数据库。在一个示例性实施方式中,答案源知识库129可以包括存储在存储系统(例如,硬盘驱动器)中的数据库。答案源知识库129可以与数个结构化和非结构化源对接,这些源包括类型化列表(例如,世界上所有国家的列表)、精确的一元(例如,国家)、二元(例如,国家国家元首)、三元(例如,国家国家元首国家元首妻子)、N元提取关系等。0028答案排序模块141提供功能以便对候选答案132进行排序并确定响应144,响应144经由用户的计算机显示接口(未示出)或计算机系统。
30、120返回给用户115,其中所述响应可以是响应于问题的答案,或先前答案的详细描述,或澄清的请求当未找到高质量的问题答案时。0029图1示出一种机器学习实施方式,其中答案排序模块141包括训练后的模型组件147,其使用机器学习技术从先前数据中产生。先前数据可以对有关以下各项的信息进行编码候选答案132的特性、候选答案来自的段落的特性、候选答案评分模块138为候选答案提供的得分,以及候选答案132是否正确。换言之,可以将机器学习算法应用于候选答案评分模块138的全部内容以及有关候选答案的正确性的信息。这些先前数据例如在技术服务支持功能或者有关因特网的更通用设置中很容易获得,其中许多网站都列出问题以。
31、及正确答案。该模型对预测功能进行编码,该预测功能是该模型到图1中所示的学习后的特性组合模块148的输入。答案排序模块141还可以包括产生排序后的答案列表149以便为返回给用户115的响应144提供定性排序的模块。0030应该理解,技术人员可以对图1中所示的本公开的系统实现进一步扩展,以采用一个或多个模块以便根据但不限于以下形式在用户或计算机系统和系统100之间实现I/O通信文本、音频、视频、手势、触觉输入和输出等。因此,可以根据多个形式的一个或多个提供输入查询和生成的查询响应,这些形式包括文本、音频、图像、视频、触觉或手势。因此,例如,如果使用其它形式(例如,用户指向的一系列图像)提出问题,则。
32、所述方法应用于这些图像的文本方面,在图像的描述中捕获或者由分析系统(未示出)推断这些文本方面。0031图1中所示的系统100可以在本地、在服务器或服务器群集上、在企业中,或者备选地,可以是分布式或整体式,或以其它方式与公用或私用搜索引擎结合运行,以便以所描说明书CN104050224A5/18页10述的方式增强问答功能。因此,所述系统和方法可以作为计算机程序产品(包括可由处理设备执行的指令)提供,或者作为部署计算机程序产品的服务提供。所述架构采用搜索引擎(文档检索系统)作为候选答案生成模块123的一部分,搜索引擎可以专用于因特网、公用数据库、网站(例如,IMDBCOM)或私用数据库。数据库可以。
33、存储在任何存储系统(例如,硬盘驱动器或闪存)中,并且可以通过网络分发。0032如图1中所示,查询分析模块112接收输入,输入包括例如用户115经由基于WEB的浏览器设备输入的查询118。输入到系统100的查询118可以包括字符串,例如“WHOWASTHETALLESTAMERICANPRESIDENT(谁是最高的美国总统)”。备选地,查询118可以包括字符串和隐式上下文,例如“WHOWASTHESHORTEST(谁最矮)”。在该实例中,上下文的范围可以从简单的字符串(例如,“AMERICANPRESIDENTS(美国总统)”或“WHOWASTHETALLESTAMERICANPRESIDENT。
34、”)到任何数据结构,例如处理先前字符串的所有中间结果例如在多回合对话中发生的情况。查询分析模块112接收查询118,查询分析模块112包括但不限于以下一个或多个子过程解析和谓词论元结构块(未示出),其实现功能和编程接口以便将输入查询分解为其语法和语义成分,例如名词词组、动词词组和谓词/论元结构。可以使用(英语槽语法)ESG型解析器实现解析。可以提供焦点段、焦点和修饰语块,其计算问题的焦点和焦点修饰语。进一步实施方式可以还包括查询分析模块112中的问题分解块(未示出),其实现功能和编程接口以便分析查询118以确定问题指定的有关目标答案的约束集合。根据此处的系统和方法,查询分析模块112包括词法答。
35、案类型(LAT)块152,其实现功能和编程接口以便提供有关答案类型的附加约束。查询分析模块112中的计算包括但不限于词法答案类型。LAT从查询118的自然语言分析计算得出,并且比其本体类别提供更多的答案描述。0033在图1中,LAT块152包括某些功能/子功能(未示出)以确定LAT。这些子功能包括解析器(例如上面描述的ESG解析器)和共指解析模块(例如,如HTTP/WWWISIEDU/ABOUTHOBBS/MUC5GENERICFINALPDF;以及HTTP/GATEACUK/SALE/TALN02/TALNWSCOREFPDF中所述)。0034所述某些功能/子功能操作以便从查询的自然语言分析。
36、计算LAT,并且比其本体类别提供更多的答案描述。因此,例如,以下句子中的斜体单词表示LAT“AFTERCIRCUMNAVIGATINGTHEEARTH,WHICHEXPLORERBECAMEMAYOROFPLYMOUTH,ENGLAND(在环游地球之后,哪位探险家成为英国普利茅斯的市长)”,答案必须包括“EXPLORER(探险家)”和“MAYOR(市长)”,并且这两个字符串成为问题LAT。0035如上所述,问题/查询118的LAT是实体的所指对象的类型(即,描述符),该实体是问题的有效答案。实际上,LAT是自然语言理解模块(未示出,包括模式集合或具有语义解释器的解析器)检测到的答案的描述符。0。
37、036参考LAT块152,在图1的查询分析模块112中,LAT表示标识正确答案的语义类型的问题术语。如所公知的那样,可以通过诸如“在问题中,跟在疑问词之后并用作主要动词的主语或宾语的任何名词词组是LAT”之类的模式规则在问题中检测LAT。例如,在问题“WHICHDUBLINBORNACTORONCEMARRIEDELLENBARKIN(出生于都柏林的哪位男演员曾经与艾伦巴金结婚)”中,名词词组“DUBLINBORNACTOR(出生于都柏林的男演员)”跟在疑问词“WHICH(哪位)”之后,并且是主要动词“MARRY(结婚)”的主语。可以手动对LAT说明书CN104050224A106/18页11。
38、检测规则进行编码,或者由机器通过关联规则学习而自动学习LAT检测规则。在这种情况下,自然语言理解模块可以限于实施上述简单规则。0037LAT应该包括主要名词的修饰语,前提是LAT更改主要名词的含义。例如,词组“BODYOFWATER(水域)”具有不同于“WATER(水)”或“BODY(身体)”的含义,因此在以下查询中,LAT必须包括整个词组(斜体)0038“JOLIETANDCOFOUNDTHATTHEMISSISSIPPIEMPTIEDINTOWHATBODYOFWATER(乔利矣特和同事发现密西西比河流入什么水域)”0039应该理解,多个LAT可以存在于查询和上下文中,甚至可以存在于同一子。
39、句中。例如,在以下查询中斜体单词表示LAT0040“IN1581,AYEARAFTERCIRCUMNAVIGATINGTHEEARTH,WHICHEXPLORERBECAMEMAYOROFPLYMOUTH,ENGLAND(在1581年,即在环游地球之后的一年,哪位探险家成为英国普利茅斯的市长)”0041“WHICHNEWYORKCITYRIVERISACTUALLYATIDALSTRAITCONNECTINGUPPERNEWYORKBAYWITHLONGISLANDSOUND(纽约市的哪条河流实际上是连接上纽约湾与长岛海峡的潮汐海峡)”0042尽管在许多情况下,可以使用上面描述的简单规则计算问。
40、题的LAT,但在其它情况下(例如当存在多个LAT时),根据语法和谓词论元结构计算LAT。因此,自然语言理解模块应该包括解析器(例如使用ESG计算语法结构)和浅层语义解释器,以便计算对话实体(例如“RIVER(河流)”和“TIDALSTRAIT(潮汐海峡)”或者“EXPLORER”和“MAYOR”)之间的语义共指,从而将它们均添加到LAT列表中。应该理解,LAT可以包括修饰语。0043因此,在上面第一个实例中,LAT列表可以包含EXPLORER、MAYOR、MAYOROFPLYMOUTH(普利茅斯市长)、MAYOROFPLYMOUTH,ENGLAND(英国普利茅斯市长)。标识答案类型的最小可能名。
41、词词组对应于最大实体组,并且最大名词词组提供最佳匹配。0044根据此处的系统和方法,证据收集和答案评分模块135包括数个类型强制(TYCOR)组件155(如下面进一步详细描述的),以测试候选答案以便确定候选答案132是用于问题/查询118的适当类型。0045参考图2,类型强制框架包括一组答案评分组件,每个组件获得问题LAT207和候选答案132,并且判定候选答案132是否具有问题的词法类型,从而返回候选答案类型是适当的词法类型215的程度度量。对于每个候选答案132,将候选答案与数据语料库(例如,答案源知识库129)中的实例相匹配。检索与数据语料库中的这些实例关联的候选类型。将问题LAT207。
42、与候选类型相匹配,并且产生表示匹配度的得分。每个TYCOR组件155使用分型信息源并且执行例如下面描述的数个步骤,每个步骤能够检测影响其置信度的错误。0046实体消歧和匹配(EDM)在使用现有分型信息源中,最明显、最易于出错的步骤是在该源中查找对应于候选答案的实体。因为候选答案仅是字符串,所以该步骤同时考虑多义关系(同一名称可以指许多实体)和同义关系(同一实体可以具有多个名称)。每个源可能需要它自己的特殊EDM实施,这些实施利用源的属性,例如,DBPEDIA对实体URI中的有用命名信息进行编码。EDM实施通常尝试针对答案使用某个上下文,但在完全结构化源中,该上下文可能难以利用。0047谓词消歧。
43、和匹配(PDM)类似于EDM,在源中查找对应于LAT的类型。在某些源中,说明书CN104050224A117/18页12这是与EDM相同的算法,在其它源中,类型查找需要特殊处理。在少数源中,尤其是使用非结构化信息作为源的那些源中,PDM步骤仅返回LAT本身。在分型和生成中,该步骤对应于从问题中产生语义答案类型(SAT)。PDM严格对应于针对特定源的词义消歧概念。0048类型检索(TR)在EDM之后,检索所检索的实体的类型。对于某些TYCOR组件(如使用结构化源的那些组件),该步骤执行源的主要功能并且很简单。在其它组件(如非结构化源)中,这可能需要对自然语言的某些小片段进行解析或其它语义处理。0。
44、049类型对齐然后比较PDM和TR步骤的结果以便确定匹配度。在例如包含类型分类的源中,这包括检查包含、分离等的分类。对于其它源,对齐使用WORDNET之类的资源在类型之间查找同义词、上义词等。0050上面每个步骤都生成反映其操作准确性的类型得分,其中考虑到实体映射或信息检索过程的不确定性。每个TYCOR组件155产生的最终得分是分析步骤得分和候选答案类型中的置信度的组合。在第US2009/0292687A1号美国专利申请公开中详细描述了特定评分方法的某些实例。0051具体地说,将候选答案132和类型(多个)表示为词法字符串。得分(在此称为类型得分)的产生包括数个步骤候选答案与实例匹配,实例与类。
45、型关联提取,以及LAT与类型匹配。类型得分反映可以将候选答案“强制”为LAT的程度,其中较高的得分指示较好的强制。0052在候选答案与实例匹配中,将候选答案与知识资源中的一个或多个实例相匹配,其中实例采取的形式取决于知识资源。对于结构化知识库,实例可以是实体,对于百科全书源(例如WIKIPEDIA),实例可以是百科全书中的表项,对于诸如WORDNET(词法数据库)之类的词法资源,实例可以是同义词集合表项(同义词集合),以及对于非结构化文档(或网页)集合,实例可以是在文本中出现的任何术语或词组。如果发现多个实例,则采用使用聚合功能的汇总,以组合来自所有候选答案的得分。如果没有发现适合的实例,则返。
46、回为0的得分。0053接下来,从资源中提取实例关联信息。该信息将每个实例与类型或类型集合关联。取决于资源,这可以采取不同的形式;在知识库中,这对应于将实例与类型相关的特定感兴趣关系;对于百科全书源,这可以是为实体指定词法类型的词法类别信息;对于诸如WORDNET之类的词法资源,这是一组词法关系,例如同义词集合中的下义关系(例如,“艺术家”是“人”);以及对于非结构化文档集合,这可以是其它表示类型的术语和词组的共现或接近。0054然后,尝试将每个LAT与每个类型相匹配。将使用类型的词法表现。例如,对于百科全书,这可以是表示类别的字符串;对于诸如WORDNET之类的词法资源,这可以是包含在同义词集。
47、合中的字符串集合。通过以下方式执行匹配使用字符串匹配或其它词法资源(例如WORDNET)以便检查LAT和类型之间的同义关系或下义关系。可以针对感兴趣的类型实现特殊逻辑;例如可以激活PERSON匹配器逻辑,该逻辑不需要严格的匹配、同义词或下义词关系,而是LAT和类型是术语“PERSON(人)”的下义词。通过这种方式,例如将为“HE(他)”和“PAINTER(画家)”提供正得分,即使它们不是严格的同义词或下义词。最后,可以经由聚合功能,将对匹配度进行评分的得分对集合解析为单个最终得分。最终得分表示候选答案是与问题LAT207相匹配的类型的置信度。说明书CN104050224A128/18页1300。
48、55此处的公开描述一种方法和系统,其组合多个TYCOR组件155以便判定候选答案132是否具有问题的词法类型215。图3示出根据此处的系统和方法的类型强制链的实例。如图3中所示,可以组合使用第一组TYCOR组件155A155F以便为第二组TYCOR组件355A355G提供输入。如图3中所示,第一组TYCOR组件155A155F包括六个组件,第二组TYCOR组件355A355G包括七个组件。可以使用其它数量的TYCOR组件。每个TYCOR组件155A155F根据它自己的方法评估候选答案132,并且根据它自己的有关候选答案132匹配问题LAT207的置信度来提供初步类型和类型得分。可以基于经验评估。
49、确定在各种TYCOR组件155A155F中使用的阈值及其相应规则的权重。0056“答案类型”分类过程取决于候选答案132来自的资源。将不同的方法应用于不同的资源(结构化非结构化、语义词法等),以便查找候选答案132的答案类型。换言之,不同的资源可以产生不同的初步类型313。0057首先,第一组TYCOR组件(WIKIINTRO155A、WIKILIST155B、IDENTITY155C、WIKICATEGORY155D、WORDNET155E和YAGO155F)中的每一个尝试获得输入候选答案132的类型。因为不同的TYCOR组件155A155F使用不同的资源和不同的算法,所以它们可能针对相同的候选答案提取不同的初步类型313。0058即,可以通过以下方式查找给定候选答案的答案类型将不同的资源特定方法应用于每个不同的资源或数据库,以便获得其类型强制方法。例如,可能针对候选答案产生初步类型313的不同资源(WIKILIST、WORDNET、YAGO等)将不同的答案类型查找算法应用于自身以便查找答案类型。因此,使用不同的资源特定类型分类方法可能导致不同的资源针对相同的候选答案产生不同的类型类别,这只是因为以不同的方式评估候选答案132。0059此外,每个TYCOR组件155A155F生成反映其操作准确性的类型得分,其中考虑到实体映射或信息检索过程的不确定性。不同的资源。