《使用假设剪枝提供问题答案.pdf》由会员分享,可在线阅读,更多相关《使用假设剪枝提供问题答案.pdf(31页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN103229120A43申请公布日20130731CN103229120ACN103229120A21申请号201180056990522申请日2011092261/387,15720100928USG06E1/00200601G06F15/18200601G06G7/0020060171申请人国际商业机器公司地址美国纽约72发明人J舒卡罗尔DA弗鲁茨DC贡德克AP拉利JW默多克四世74专利代理机构北京市中咨律师事务所11247代理人于静张亚非54发明名称使用假设剪枝提供问题答案57摘要一种用于生成问题答案的方法、系统和计算机程序产品。在一个实施例中,所述方法包括接收查询,在。
2、一个或多个数据源中执行搜索以识别所述查询的候选答案,以及为每个所述候选答案提供初步得分。所述方法还包括筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案。初步得分符合此条件的候选答案形成所述候选答案的子集。处理该子集中的每个候选答案以生成进一步得分。将排序功能应用于这些进一步得分以确定所述子集中的所述每个候选答案的排序;以及在应用该排序功能之后,选择一个或多个所述候选答案作为所述查询的一个或多个最终答案。30优先权数据85PCT申请进入国家阶段日2013052786PCT申请的申请数据PCT/US2011/0527392011092287PCT申请的公布数据WO2012/047532E。
3、N2012041251INTCL权利要求书5页说明书19页附图6页19中华人民共和国国家知识产权局12发明专利申请权利要求书5页说明书19页附图6页10申请公布号CN103229120ACN103229120A1/5页21一种生成问题答案的方法,所述方法包括接收输入查询;在一个或多个数据源中执行搜索以识别所述输入查询的多个候选答案;根据一个或多个定义的条件为所述候选答案中的每个候选答案提供初步得分;筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案,其中初步得分符合所述定义的条件的候选答案形成所述候选答案的子集;针对所述子集中的每个候选答案,处理所述每个候选答案以生成所述每个候选答案的。
4、多个进一步得分;将候选排序功能应用于所述多个进一步得分以确定所述子集中的所述每个候选答案的排序;以及在应用所述候选排序功能之后,选择所述候选答案中的一个或多个作为所述输入查询的一个或多个最终答案。2根据权利要求1的方法,其中处理所述候选答案的子集中的所述每个候选答案包括使用支持段落检索过程识别其中出现所述每个候选答案的段落;以及应用所述候选排序功能包括将所述候选答案的子集从所述支持段落检索过程发送到候选排序功能模块,并且使用所述候选排序功能模块将所述候选排序功能应用于所述候选答案的子集中的所述候选答案。3根据权利要求2的方法,还包括以下步骤将任何筛选出的候选答案发送到所述候选排序功能,并且使用。
5、所述候选排序功能模块将所述候选排序功能应用于所述任何筛选出的候选答案;并且其中选择所述候选答案中的一个或多个作为一个或多个最终答案包括从所述候选答案的子集中的候选答案以及所述任何筛选出的候选答案中选择所述一个或多个最终答案。4根据权利要求3的方法,其中筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案包括使所述候选答案经过筛选模型以执行所述筛选;以及将任何筛选出的候选答案发送到所述候选排序功能模块包括以绕过所述支持段落检索过程的方式,将所述任何筛选出的候选答案从所述筛选模块发送到所述候选排序模块。5根据权利要求2的方法,其中处理所述候选答案的子集中的所述每个候选答案包括使用上下文无关的。
6、候选答案过程处理所述每个候选答案以获得所述每个候选答案的一个或多个筛选后得分。6根据权利要求5的方法,其中应用候选排序功能包括根据所述每个候选答案的所述筛选后得分对所述候选答案的子集中的每个候选答案进行排序。7根据权利要求1的方法,其中为每个候选答案提供初步得分包括使用逻辑回归模型对每个候选答案进行评分。8根据权利要求1的方法,其中所述筛选包括筛选出所述候选答案中任何初步得分低于定义的阈值的候选答案。9根据权利要求8的方法,其中确定所述定义的阈值以获得计算成本与所述最终答案的质量度量之间的期望权衡。权利要求书CN103229120A2/5页310根据权利要求9的方法,其中通过针对给定数据集运行。
7、测试来确定所述定义的阈值以便获得所述期望权衡。11一种用于生成问题答案的系统,所述系统包括计算机设备,其包括至少一个不同软件模块,每个不同软件模块包含在有形的计算机可读介质中;存储器;以及至少一个处理器,其与所述存储器耦合并可操作以执行以下步骤接收输入查询;在一个或多个数据源中执行搜索以识别所述输入查询的多个候选答案;根据一个或多个定义的条件为所述候选答案中的每个候选答案提供初步得分;筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案,其中初步得分符合所述定义的条件的候选答案形成所述候选答案的子集;针对所述子集中的每个候选答案,处理所述每个候选答案以生成所述每个候选答案的多个进一步得分。
8、;将候选排序功能应用于所述多个进一步得分以确定所述子集中的所述每个候选答案的排序;以及在应用所述候选排序功能之后,选择所述候选答案中的一个或多个作为所述输入查询的一个或多个最终答案。12根据权利要求11的系统,其中处理所述候选答案的子集中的所述每个候选答案包括使用支持段落检索过程识别其中出现所述每个候选答案的段落;以及应用所述候选排序功能包括将所述候选答案的子集从所述支持段落检索过程发送到候选排序功能模块,并且使用所述候选排序功能模块将所述候选排序功能应用于所述候选答案的子集中的所述候选答案。13根据权利要求12的系统,其中所述至少一个处理器还可操作以将任何筛选出的候选答案发送到所述候选排序功。
9、能,并且使用所述候选排序功能模块将所述候选排序功能应用于所述任何筛选出的候选答案;以及选择所述候选答案中的一个或多个作为一个或多个最终答案包括从所述候选答案的子集中的候选答案以及所述任何筛选出的候选答案中选择所述一个或多个最终答案。14根据权利要求13的系统,其中筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案包括使所述候选答案经过筛选模型以执行所述筛选;以及将任何筛选出的候选答案发送到所述候选排序功能模块包括以绕过所述支持段落检索过程的方式,将所述任何筛选出的候选答案从所述筛选模块发送到所述候选排序模块。15根据权利要求11的系统,其中所述筛选包括筛选出所述候选答案中任何初步得分低。
10、于定义的阈值的候选答案;以及通过针对给定数据集运行测试来确定所述定义的阈值以便获得计算成本与所述最终答案的质量度量之间的期望权衡。16一种制品,包括权利要求书CN103229120A3/5页4至少一个有形的计算机可读介质,所述介质包括生成问题答案的计算机可读程序代码逻辑,所述计算机可读程序代码逻辑当被执行时,执行以下步骤接收输入查询;在一个或多个数据源中执行搜索以识别所述输入查询的多个候选答案;根据一个或多个定义的条件为所述候选答案中的每个候选答案提供初步得分;筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案,其中初步得分符合所述定义的条件的候选答案形成所述候选答案的子集;针对所述子。
11、集中的每个候选答案,处理所述每个候选答案以生成所述每个候选答案的多个进一步得分;将候选排序功能应用于所述多个进一步得分以确定所述子集中的所述每个候选答案的排序;以及在应用所述候选排序功能之后,选择所述候选答案中的一个或多个作为所述输入查询的一个或多个最终答案。17根据权利要求16的制品,其中处理所述候选答案的子集中的所述每个候选答案包括使用支持段落检索过程识别其中出现所述每个候选答案的段落;以及应用所述候选排序功能包括将所述候选答案的子集从所述支持段落检索过程发送到候选排序功能模块,并且使用所述候选排序功能模块将所述候选排序功能应用于所述候选答案的子集中的所述候选答案。18根据权利要求17的制。
12、品,其中所述计算机可读程序代码逻辑当被执行时,还执行将任何筛选出的候选答案发送到所述候选排序功能,并且使用所述候选排序功能模块将所述候选排序功能应用于所述任何筛选出的候选答案;以及选择所述候选答案中的一个或多个作为一个或多个最终答案包括从所述候选答案的子集中的候选答案以及所述任何筛选出的候选答案中选择所述一个或多个最终答案。19根据权利要求18的制品,其中筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案包括使所述候选答案经过筛选模型以执行所述筛选;以及将任何筛选出的候选答案发送到所述候选排序功能模块包括以绕过所述支持段落检索过程的方式,将所述任何筛选出的候选答案从所述筛选模块发送到所。
13、述候选排序模块。20根据权利要求19的制品,其中所述筛选包括筛选出所述候选答案中任何初步得分低于定义的阈值的候选答案;以及通过针对给定数据集运行测试来确定所述定义的阈值以便获得计算成本与所述最终答案的质量度量之间的期望权衡。21一种生成问题答案的方法,所述方法包括接收输入查询;在一个或多个数据源中执行搜索以识别所述输入查询的多个候选答案;根据一个或多个定义的条件为所述候选答案中的每个候选答案提供初步得分;筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案,其中初步得分符权利要求书CN103229120A4/5页5合所述定义的条件的候选答案形成所述候选答案的子集;针对所述子集中的每个候选。
14、答案,处理所述每个候选答案以生成所述每个候选答案的多个进一步得分;将所述子集中的每个候选答案发送到候选排序模块;使用所述候选排序模块将候选排序功能应用于所述多个进一步得分以确定所述子集中的所述每个候选答案的排序;将任何筛选出的候选答案发送到所述候选排序模块;使用所述候选排序模块确定所述任何筛选出的候选答案的排序;以及根据所述候选答案的排序,选择一个或多个所述候选答案作为所述输入查询的一个或多个最终答案。22根据权利要求21的方法,其中处理所述候选答案的子集中的所述每个候选答案包括使用支持段落检索过程识别其中出现所述每个候选答案的段落;以及将所述候选答案的子集中的每个候选答案发送到所述排序模块包。
15、括将所述候选答案的子集从所述支持段落检索过程发送到所述候选排序功能模块;以及将任何筛选出的候选答案发送到所述候选排序功能包括以绕过所述支持段落检索过程的方式,将所述任何筛选出的候选答案发送到所述候选排序模块。23根据权利要求22的方法,其中处理所述候选答案的子集中的所述每个候选答案包括使用上下文无关的候选答案过程处理所述每个候选答案以获得所述每个候选答案的一个或多个筛选后得分;以及使用所述候选排序模块确定所述每个候选答案的排序包括根据所述每个候选答案的所述筛选后得分对所述每个候选答案进行排序。24一种生成问题答案的系统,所述系统包括计算机设备,其包括至少一个不同软件模块,每个不同软件模块包含在。
16、有形的计算机可读介质中;存储器;以及至少一个处理器,其与所述存储器耦合并可操作以执行以下步骤接收输入查询;在一个或多个数据源中执行搜索以识别所述输入查询的多个候选答案;根据一个或多个定义的条件为所述候选答案中的每个候选答案提供初步得分;筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案,其中初步得分符合所述定义的条件的候选答案形成所述候选答案的子集;针对所述子集中的每个候选答案,处理所述每个候选答案以生成所述每个候选答案的多个进一步得分;将所述子集中的每个候选答案发送到候选排序模块;使用所述候选排序模块将候选排序功能应用于所述多个进一步得分以确定所述子集中的所述每个候选答案的排序;将任。
17、何筛选出的候选答案发送到所述候选排序模块;使用所述候选排序模块确定所述任何筛选出的候选答案的排序;以及根据所述候选答案的排序,选择一个或多个所述候选答案作为所述输入查询的一个或权利要求书CN103229120A5/5页6多个最终答案。25根据权利要求24的系统,其中处理所述候选答案的子集中的所述每个候选答案包括使用支持段落检索过程识别其中出现所述每个候选答案的段落;以及将所述候选答案的子集中的每个候选答案发送到所述排序模块包括将所述候选答案的子集从所述支持段落检索过程发送到所述候选排序功能模块;以及将任何筛选出的候选答案发送到所述候选排序功能包括以绕过所述支持段落检索过程的方式,将所述任何筛选。
18、出的候选答案发送到所述候选排序模块;以及其中所述筛选包括筛选出所述候选答案中任何初步得分低于定义的阈值的候选答案;以及通过针对给定数据集运行测试来确定所述定义的阈值以便获得计算成本与所述最终答案的质量度量之间的期望权衡。权利要求书CN103229120A1/19页7使用假设剪枝提供问题答案0001相关申请的交叉引用0002本申请要求2010年9月28日提交的美国临时专利申请第61/387,157号的申请日期的优先权,该申请的公开内容在此全部纳入作为参考。技术领域0003本发明一般地涉及信息检索,具体地说,涉及问答。再具体地说,本发明的各实施例涉及通过生成和评估多个候选答案来实现并行分析以提供问。
19、题答案的问/答系统以及方法。背景技术0004一般而言,QA是一种类型的信息检索。如果给出文档集合(例如万维网或本地集合),则系统应能够检索以自然语言提出的问题的答案。QA被视为比其它类型信息检索(例如文档检索)需要更复杂的自然语言处理(NLP)技术,并且有时被视为超越搜索引擎的后续步骤。0005QA研究尝试处理各种问题类型,包括事实、列表、定义、方式、原因、假设、语义约束和跨语言问题。搜索集合有所不同,从小型本地文档集合到内部组织文档,到编译后的新闻专线报道,再到万维网。0006闭域问答在特定领域(例如,医学或汽车维修)下处理问题,并且可被视为较轻松的任务,因为NLP系统可利用经常以本体形式化。
20、的领域特定的知识。备选地,闭域可能指这样一种情况其中仅接受受限类型的问题,例如询问描述性信息而不是过程信息的问题。开域问答处理有关几乎任何事情的问题,并且可以仅依赖于通用本体和世界知识。但是开域Q/A系统通常具有更多可从中提取答案的可用数据。0007对信息的访问目前由两种范式控制数据库查询,其回答有关结构化记录集合中的内容的问题;以及搜索,其响应于针对非结构化数据(例如,文本或HTML)集合的查询而提供文档链接集合。0008此类信息查询范式的主要挑战在于提供能够根据大型文档集合(所有种类的文档,包括结构化文档和非结构化文档)中包括的信息回答实际问题的计算机程序。这种实际问题可以是宽泛的(例如“。
21、WHATARETHERISKSOFVITAMINKDEFICIENCY(维生素K缺乏的危害是什么)”),或者是狭窄的(例如“WHENANDWHEREWASHILLARYCLINTONSFATHERBORN(希拉里克林顿的父亲出生在何时何地)”)。0009用户与此类计算机程序的交互可以是单次用户计算机交换,也可以是用户与计算机系统之间的多轮对话。此类对话可以涉及一种或多种形式(文本、语音、触觉、手势等)。此类交互的实例包括这样一种情形其中电话用户使用语音提问,接收语音、文本和图像(例如,带有文本注释的图)及语音(计算机生成的)解释组合而成的答案。另一实例是用户与视频游戏进行交互,并使用机器可识别。
22、的手势拒绝或接受答案,或者是计算机生成指引用户的触觉输出。说明书CN103229120A2/19页80010构建此类计算机系统的挑战在于理解查询,查找可能包含答案的适合文档,以及提取要提供给用户的正确答案。目前,理解查询是一个公开的难题,因为计算机不具备人类理解自然语言的能力,也没有从当前(非常初级的)自然语言理解系统可生成的许多可能解释中做出选择的常识。0011通过一轮或多轮对话回答实际查询的能力具有巨大的潜在价值,因为它允许实时存取准确的信息。例如,提高现有问答技术水平具有巨大商业价值,因为这样可以实时了解业务状况、竞争对手、经济条件等。即使QA采取最初级的形式,也可以将信息工作者的生产力。
23、提高好几个量级。0012公开内容在此全部纳入作为参考的第12/152,441号美国专利描述了一种QA系统,其针对查询生成一组候选答案,然后处理(即,检索支持证据、评分和排序)所有候选答案。并非始终必须对所有候选答案执行该处理。在至少某些情况下,有些候选答案不可能为正确答案,对于这些低质量候选答案,不值得付出计算成本来搜索支持证据。发明内容0013本发明的各实施例提供一种用于生成问题答案的方法、系统和计算机程序产品。在一个实施例中,所述方法包括接收输入查询,在一个或多个数据源中执行搜索以识别所述输入查询的多个候选答案,以及根据一个或多个定义的条件为每个所述候选答案提供初步得分。所述方法还包括筛选。
24、出所述候选答案中任何初步得分不符合定义的条件的候选答案。作为此筛选的结果,初步得分符合所述定义的条件的候选答案形成所述候选答案的子集。处理该子集中的每个候选答案以针对这些候选答案中的每个候选答案生成多个进一步得分。将候选排序功能应用于这些进一步得分以确定所述候选答案的子集中的每个候选答案的排序;以及在应用该候选排序功能之后,选择一个或多个所述候选答案作为所述输入查询的一个或多个最终答案。0014在一个实施例中,使用支持段落检索过程处理所述候选答案的子集中的每个候选答案以识别其中出现所述每个候选答案的段落。将所述候选答案的子集从所述支持段落检索过程发送到候选排序功能模块,并且该模块用于将所述候选。
25、排序功能应用于所述候选答案的子集中的候选答案。0015在一个实施例中,任何筛选出的候选答案可被发送到所述候选排序功能,并且该模块还可用于将所述候选排序功能应用于任何筛选出的候选答案。在该实施例中,可从所述候选答案的子集中的候选答案以及任何筛选出的候选答案中选择被选为一个或多个最终答案的候选答案。0016在一个实施例中,筛选模块用于筛选出任何初步得分不符合所述定义的标准的候选答案,其中包括使所述候选答案经过筛选模型以执行所述筛选。以绕过所述支持段落检索过程的方式,将任何此类筛选出的候选答案发送到所述候选排序功能模块。0017在一个实施例中,使用上下文无关的候选答案过程处理所述候选答案的子集中的每。
26、个候选答案,以获得所述每个候选答案的一个或多个筛选后得分。在一个实施例中,根据所述每个候选答案的筛选后得分对所述候选答案的子集中的每个候选答案进行排序。0018在一个实施例中,使用逻辑回归模型为每个候选答案提供所述初步得分以对所述每个候选答案进行评分。说明书CN103229120A3/19页90019在一个实施例中,筛选出任何初步得分低于定义的阈值的候选答案。在一个实施例中,确定该定义的阈值以获得计算成本与所述最终答案的质量度量之间的期望权衡。在一个实施例中,通过针对给定数据集运行测试来确定所述定义的阈值以便获得此期望权衡。0020在本发明的一个实施例中,仅将所述候选答案的子集用于查找支持证据。
27、。该子集可能不包括所有所述候选答案。0021用于支持段落检索的候选答案的子集通过以下过程来识别00221针对所述候选答案运行上下文无关的评分器(因为这些评分器不需要支持段落)。00232使用评分功能(例如,逻辑回归模型)对每个候选答案进行评分。00243得分极低的候选答案被从支持段落检索中忽略;即,它们被视为不值得付出计算成本来搜索支持证据。可获得用于识别低评分答案的阈值,方式为优化所提供的(HELDOUT)数据集,例如执行参数扫描以选择计算成本与最终答案质量度量之间的最佳权衡。00254将剩余的候选答案视为值得进一步调查。附图说明0026在下面给出的具体实施方式的上下文中理解本发明的目标、特。
28、性和优点。在附图的上下文中理解具体实施方式,所述附图形成本公开的重要部分,其中0027图1是示出本发明的一个实施例的高级逻辑架构和问答方法的系统示意图;0028图2示出图1中的架构的变型,其中证据收集模块包括两个子模块支持段落检索模块和候选答案评分模块;0029图3示出图1中的查询分析模块和候选答案生成模块的更详细的示意图;0030图4示出图1和2中的候选答案评分模块和答案排序模块的更详细的示意图;0031图5是示出根据本发明的一个实施例的处理问题并提供答案的方法步骤的实例流程图;0032图6示出了用于提供处理CAS数据结构的一种类型的分析引擎的UIMA框架实现的一个方面。具体实施方式0033。
29、如在此使用的那样,单词“问题”和“查询”及其扩展词可以互换地使用并指示同一概念,即,信息请求。此类请求通常以疑问句表达,但是也可通过其他形式表达,例如采取提供感兴趣实体的描述的陈述句形式(其中可通过上下文推断出实体识别请求)。“结构化信息”(来自“结构化信息源”)在此被定义为其表达的含义很明确,并通过数据结构或格式(例如,数据库表)显式表示的信息。“非结构化信息”(来自“非结构化信息源”)在此被定义为其表达的含义仅通过其内容(例如,自然语言文档)暗示的信息。“半结构化信息”指其某些含义在数据格式中明确表示的数据,例如文档的一部分可被标记为“标题”。0034图1示出本发明的一个实施例的高级逻辑架。
30、构10和方法的系统示意图。如图1所示,架构10包括查询分析模块20,该模块实现接收和分析用户查询或问题的功能。根据说明书CN103229120A4/19页10本发明的一个实施例,“用户”指与系统交互的一个或多个人,术语“用户查询”指用户提出的查询(及其上下文)19。但是将理解,可以构建其他实施例,其中术语“用户”指通过机械手段生成查询的计算机系统22,其中术语“用户查询”指此类以机械方式生成的查询及其上下文19。候选答案生成模块30用于实现通过遍历主源模块11和答案源知识库模块21(包含从主源提取的关系和列表的集合)中包含的结构化、半结构化和非结构化源来搜索候选答案。所有信息源均可存储在本地或。
31、分布在包括因特网的网络上。候选答案生成模块30根据已检索数据的分析,生成多个包含候选答案的输出数据结构。在图1中,所示的一个实施例包括与主源11和知识库21通过接口连接的证据收集模块50,其作为并行处理操作而同时根据包含候选答案的段落分析证据,以及对每个候选答案进行评分。0035在一个实施例中,可以采用利用通用分析系统(CAS)候选答案结构,以及实现支持段落检索的架构,本文下面将更具体地进行描述。该处理在图2中示出,其中证据收集模块50包括支持段落检索40A和候选答案评分40B,它们作为独立的处理模块同时分析段落,以及对某些或每个候选答案进行评分以作为并行处理操作。答案源知识库21可以包括一个。
32、或多个包括关系集合(例如,类型化列表)的结构化或半结构化源(预计算的或以其他方式)数据库。在一个实例实施方式中,答案源知识库可以包括存储在存储系统(例如,硬盘)中的数据库。答案排序模块60提供对候选答案进行排序以及确定响应99的功能,所述响应经由用户的计算机显示界面(未示出)返回给用户或返回给计算机系统22。所述响应可以是响应于问题的答案,或先前答案的详细描述,或澄清的请求当未找到高质量的问题答案时。0036将理解,本领域的技术人员可以实现对图1所示系统的进一步扩展以根据但不限于文本、音频、视频、手势、触觉输入和输出等形式采用一个或多个模块实现用户或计算机系统与系统10之间的I/O通信。因此,。
33、在一个实施例中,输入查询和所生成的查询响应均可根据包括文本、语音、图像、视频、触觉或手势的多种形式中的一种或多种来提供。0037图1和2中所示的处理可以在本地、在服务器或服务器群集上、在企业中,或者备选地,可以是分布式或整体式,或以其它方式与公用或私用搜索引擎结合运行,以便以所描述的方式增强问答功能。因此,本发明的各实施例可以作为计算机程序产品(包括可由处理设备执行的指令)提供,或者作为部署所述计算机程序产品的服务提供。所述架构采用搜索引擎(例如,文档检索系统)作为候选答案生成模块30的一部分,所述搜索引擎可以专用于搜索因特网、公用数据库、网站(例如,IMDBCOM)或私用数据库。数据库可以存。
34、储在任何存储系统(例如,硬盘驱动器或闪存)中,并且可以通过网络分发或不分发。0038如上所述,本发明的实施例利用通用分析系统(CAS),其为非结构化信息管理架构(UIMA)的子系统,可处理各种UIMA组件(例如分析引擎和非结构化信息管理应用)之间的数据交换。CAS通过独立于程序设计语言的类型系统支持数据建模,通过强大的索引机制提供数据访问,并支持针对文本数据创建注释,例如在HTTP/WWWRESEARCHIBMCOM/JOURNAL/SJ/433/GOTZHTML中描述的(在此引入作为参考)。CAS还允许针对文档及其注释之间的链接进行多个定义,因为对分析图像、视频或其它非文本形式有用。0039。
35、在一个实施例中,UIMA可以作为中间件提供,以便对各种信息源中的非结构化信息进行有效管理和交换。所述架构通常包括搜索引擎、数据存储、包含流水线文档注释器和各种适配器的分析引擎。可以使用UIMA系统、方法和计算机程序生成输入查询的答案。所述方法包括输入文档并运行至少一个文本分析引擎,所述文本分析引擎包括多个耦合的注说明书CN103229120A105/19页11释器以便标记文档数据以及识别并注释特定类型的语义内容。因此,它可以用于分析问题,并从文档集合提取实体作为问题的可能答案。0040在一个非限制性实施例中,通用分析系统(CAS)数据结构形式根据第7,139,752号美国专利中的描述实现,该专。
36、利的全部内容及其公开在此纳入作为参考,就像完全在本文中列出一样。0041如图3中更详细的逻辑架构示意图中更详细地所示,“查询分析”模块20接收包括查询19的输入,该查询例如由用户通过其基于WEB的浏览设备输入。输入查询19可以包括诸如“WHOWASTHETALLESTAMERICANPRESIDENT(谁是最高的美国总统)”之类的字符串。备选地,问题可以包括字符串和隐含上下文(例如,“WHOWASTHESHORTEST(谁是最矮的美国总统)”)。在该实例中,上下文的范围可以从另一简单字符串(例如,“AMERICANPRESIDENTS(美国总统)”或“WHOWASTHETALLESTAMERI。
37、CANPRESIDENT(谁是最高的美国总统)”)到任何数据结构,例如处理上一字符串的所有中间结果(例如,在多轮对话中发生的情况)。输入查询由查询分析模块20接收,该模块包括但不限于下面的一个或多个子过程解析和谓词论元结构方块202;重点段、重点和修改符方块204;词法答案类型方块206;问题分解方块208;词法和语义关系模块210;问题分类器方块212;以及问题难度模块214。0042解析和谓词论元结构方块202实现功能和程序设计接口以将输入查询分解为语法和语义分量,例如名词短语、动词短语和谓词/论元结构。可使用(ENGLISHSLOTGRAMMAR)ESG型解析器实现方块202。重点段、重。
38、点和修改符方块204用于计算问题的重点和重点修改符,其将在下面进一步描述。词法答案类型(LAT)方块206实现功能和程序设计接口以提供对答案类型(词法)的额外约束,本文下面将更详细地进行描述。问题分解方块208实现功能和程序设计接口以分析输入问题来确定有关目标答案的问题所指定的约束集。这些约束有多种相互关联的方法1嵌套式约束;2冗余约束;以及3推论(TRIANGULATION)。对于嵌套式约束,“内部”问题的答案实例化“外部”问题。例如,“WHICHFLORIDACITYWASNAMEDFORTHEGENERALWHOLEDTHEFIGHTTOTAKEFLORIDAFROMTHESPANISH。
39、(佛罗里达的哪个城市以从西班牙手里夺取佛罗里达的将军名字命名)”。对于冗余约束,一个约束唯一地识别答案。例如,“THISTALLESTMAMMALCANRUNAT30MILESPERHOURWHICHISIT(最高的哺乳动物每小时奔跑30英里,这是什么动物)”对于推论,每个约束生成一组答案并且正确的答案是两个(或更多个)集合中的一个公共答案。例如,在“猜谜式”问题“WHATISAGROUPOFTHINGSOFTHESAMEKIND,ORSCENERYCONSTRUCTEDFORATHEATRICALPERFORMANCE(针对戏剧表演构建的一组同类物件或场景是什么)”中。0043词法和语义关系。
40、模块210用于检测查询中的词法和语义关系(例如,谓词论元关系),问题分类模块212也具有此功能,该模块采用提供信息寻址的主题分类器,例如问题涉及哪个方面问题难度模块214执行方法以提供确定问题难度的方式,例如,向问题应用可读性矩阵。将理解,可以针对特定实施方式选择图3所示的一个或多个查询/问题分析处理方块。0044解析和谓词论元结构方块202实现功能和程序设计接口以通过执行本领域公知的词法处理和句法与谓词论元结构分析而将输入查询分解为其语法分量。对于查询实例说明书CN103229120A116/19页120045“INTHE1960STHISLARGESTKANSASCITYBECAMETHE。
41、WORLDSLARGESTPRODUCEROFGENERALAVIATIONAIRCRAFT(在1960年代,这个最大的堪萨斯城市成为世界最大的通用航空飞机生产基地)”。0046解析和谓词论元方块202将生成下面的实例分析搜索结果树结构,其中EX提供树中的索引,例如单词“BECOME”为E8(结果树的第8个结构,E7索引结果树结构的第7个单词),其中7表示单词“CITY”,它是“BECOME”的第一论元,E13(索引结果树结构的第13个单词)是“PRODUCER”,它是“BECOME”在语义结构中的第二论元,如下所示0047INE1,E3,E80048THEE2,E300491960SE3,U。
42、0050THISE4,E70051LARGEE5,E70052KANSASE6,E70053CITYE7,U0054BECOMEE8,E7,E130055THEE9,E100056WORLDE10,U,E130057APOSTSE11,E100058LARGEE12,E130059PRODUCERE13,OFE170060GENERALE15,E170061AVIATIONE16,U,E170062AIRCRAFTE170063重点段、重点和修改符方块204检测重点段,该段是问题中被正确答案替换的文本跨度。例如,在下面的查询中,斜体字表示查询中的重点段“INTHE1960STHISLARGES。
43、TKANSASCITYBECAMETHEWORLDSLARGESTPRODUCEROFGENERALAVIATIONAIRCRAFT(在1960年代,这个最大的堪萨斯城市成为世界最大的通用航空飞机生产基地)”。0064为了检测重点段,实现一组作用于谓词论元结构和ESG分析的规则,该组规则与谓词论元结构(PAS)中的模式匹配。实例模式包括例如名词短语“WHAT/WHICH/THIS/THESEX(什么/哪个/这个/这些X)”,其中X是另一对象;“WHO/WHAT/WHEN/WHERE/WHY/THIS/THESE(谁/什么/何时/何地/为何/这个/这些)”;无指示的代词。下面是代词模式的实例,其。
44、中代词以斜体表示ASABOYHEBUILTAMODELWINDMILLHISCALCULUSFOEGOTTFRIEDLEIBNIZDESIGNEDTHEMASANADULT(作为一个男孩,他创建了模型风车;他的微积分对手戈特弗里德莱布尼兹成年之后才设计出这样的模型风车)。0065现在参考词法答案类型(LAT)方块206,LAT是识别正确答案的语义类型的问题术语。下面段落中的斜体单词表示以下查询中的LAT“WHATKANSASCITYISTHEWORLDSLARGESTPRODUCEROFGENERALAVIATIONAIRCRAFT(哪个堪萨斯城市是世界最大的通用航空飞机生产基地)”。0066。
45、LAT可在更改含义时包括修改符。例如,斜体单词表示以下查询中的LATJOLIET说明书CN103229120A127/19页13ANDCOFOUNDTHATTHEMISSISSIPPIEMPTIEDINTOWHATBODYOFWATER(乔利埃特和科发现密西西比河注入什么水体)0067现在参考图3,问题/查询分析方块20的输出29包括查询分析结果数据结构(CAS结构)。在该实施例中,可以实现输出数据结构问题/查询分析方块20和候选答案生成方块30以根据UIMA开源平台在模块之间传递数据。0068“候选答案生成”模块30接收来自问题/查询分析方块20的CAS型查询结果数据结构29输出,并且根据主。
46、源11和答案源KB21中存储的文档生成一组候选答案。“候选答案生成”模块30包括但不限于以下一个或多个功能性子处理模块术语加权和查询扩展模块302;文档标题(标题源中的文档检索)模块304;来自段落检索的实体模块308;以及来自结构化源知识库的实体模块310。0069术语加权和查询扩展模块302实现根据模块11和21创建查询的功能(部分查询生成),其中包括实现查询扩展的实施例(参阅例如HTTP/ENWIKIPEDIAORG/WIKI/QUERY_EXPANSION)。文档标题(标题源中的文档检索)模块304实现(从源11和21)检测候选答案的功能。来自段落检索的实体模块308实现例如根据段落和。
47、查询的语法和语义结构而在文本段落中检测候选答案的功能。来自结构化源知识库的实体模块310实现根据查询中的实体与答案源知识库21中的实体之间的关系之间的匹配来检索候选答案的功能(例如实现为SQL查询)。0070作为实现候选答案生成方块30的功能模块的结果,创建查询并针对(本地或分布式)源数据库或类似的存储设备(多个)中的所有结构化和非结构化主数据源11运行查询。可针对结构化(KB)、半结构化(例如,维基百科、IMDB数据库、XBRL中的SECFILINGS集合等)或非结构化数据(文本库)运行查询以生成候选答案列表39(也作为CAS,或现有CAS的扩展)。应该理解,在一个实施例中,针对列出的主源数。
48、据库的本地副本运行查询,也可访问公用的公共数据库源。此外,可以理解,在一个实施例中,并非查询中的所有术语均需要用于搜索答案因此需要根据查询分析的结果创建查询。例如,在回答问题“FIVELETTERPREVIOUSCAPITALOFPOLAND(波兰首都名称中的前五个字母)”时,查询中不应包含“FIVELETTER(五个字母)”。0071如图3进一步所示,答案源知识库21被示为与来自结构化源的实体模块310对接,模块310包括类型化列表(例如,世界上所有国家的列表)、所提取的精确一元(例如,国家)、二元(例如,国家国家元首)、三元(例如,国家国家元首元首夫人)、N元关系等。0072现在参考图2和。
49、4,“候选答案评分”模块40B从例如证据收集方块50的支持段落检索(SPR)方块40A接收CAS型数据结构49(即,一个或多个CAS)输出。“候选答案评分”模块40B包括但不限于以下一个或多个功能性子处理模块段落中的词法与语义关系模块402;文本对齐模块405;段落中的查询术语匹配模块407;语法关系方块410;知识库中的答案查找模块413;以及候选答案类型分析模块415。0073段落中的词法与语义关系模块402实现计算候选答案段落中的语义0074(谓词/论元)关系满足程度(答案评分的一部分)的功能。文本对齐模块405实现对齐查询(或其中的某些部分)与答案段落以及计算描述对齐程度的评分(例如,当对齐引用的答案时)的功能。段落中查询术语匹配模块407实现将查询段落的匹配程度与候选答案段落中的术语进行关联的功能(答案评分的一部分)。语法关系方块410实现检测候选答说明书CN103229120A138/19页14案之间的语法关系(可归入段落中的词法与语义关系模块402之下)的功能。知识库中的答案查找模块413实现根据评分排序检测候选答案的功能。候选答案类型分析模块415例如根据对出现候选答案的文档执行语法和语义分析而生成候选答案为正确类型的概率测量。“候选答案评分”模块40B的输出为CAS结构,此结构包含一系列评分由所述模块给出的答案。0075如此出描述的那样,可实现多个并。