《非事实型询问应答系统以及计算机程序.pdf》由会员分享,可在线阅读,更多相关《非事实型询问应答系统以及计算机程序.pdf(27页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104137102A43申请公布日20141105CN104137102A21申请号201380010249422申请日20130123201203697220120223JPG06F17/3020060171申请人独立行政法人情报通信研究机构地址日本国东京都72发明人吴钟勋鸟泽健太郎桥本力川田拓也史蒂恩德萨哲风间淳一王轶讴74专利代理机构中科专利商标代理有限责任公司11021代理人赵琳琳54发明名称非事实型询问应答系统以及计算机程序57摘要为了提供在非事实型询问应答系统中能进一步提高精度的询问应答系统,询问应答系统160包含候选句检索部222,其响应于询问而从语料库存储部1。
2、78中取出回答候选;特征向量生成部232,其针对询问与各个回答候选的组合来生成特征;SVM176,其进行了学习,使得在被给出特征向量时,对成为基础的询问以及回答候选的组合,来计算表示为正确的组合的程度的得分;以及回答句排序部234,其将计算出的得分最高的回答候选作为回答进行输出。特征是基于针对询问的词素解析及句法解析的结果、询问当中被进行了正或负的评价的词组及其极性、以及特征内的名词的含义类而生成的。30优先权数据85PCT国际申请进入国家阶段日2014082086PCT国际申请的申请数据PCT/JP2013/0513272013012387PCT国际申请的公布数据WO2013/125286J。
3、A2013082951INTCL权利要求书2页说明书16页附图8页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书16页附图8页10申请公布号CN104137102ACN104137102A1/2页21一种非事实型询问应答系统,接受非事实型询问的输入并生成针对该询问的回答,所述非事实型询问应答系统与用于对由处理对象的语言的文档亦即计算机可读取的文档组成的语料库进行存储的语料库存储单元相连接而被使用,所述非事实型询问应答系统包含候选检索单元,其用于响应于已接受询问的输入的情况,从所述语料库存储单元之中检索并取出针对该询问的多个回答候选;特征生成单元,其用于响应于已接受询问的输。
4、入的情况,针对该询问与存储在所述候选检索单元中的各个回答候选的组合,来生成给定的特征的集合;得分计算单元,其预先进行了学习,使得在被给出由所述特征生成单元生成的所述特征的集合时,针对成为生成该特征的集合的基础的询问以及回答候选的组合,来计算表示该回答候选是针对该询问的正确回答的程度的得分;以及回答选择单元,其针对所述询问与存储在所述回答候选中的各个回答候选的组合,基于由所述得分计算单元计算出的得分,将针对所述询问为正确回答的可能性最高的回答候选作为针对所述询问的回答进行输出,针对由所述候选检索单元检索出的各个回答候选,赋予了由所述特征生成单元生成特征所需的信息,所述特征生成单元,包含句法解析单。
5、元,其用于针对所述询问进行词素解析以及句法解析,并输出词素信息以及语法信息;以及评价单元,其用于从所述询问当中确定遵照某评价基准而被分类为第1评价类的词组以及被分类为第2评价类的词组,针对所述第1评价类以及第2评价类各自分配了彼此相反的评价的极性,所述询问应答系统还包含特征集合生成单元,其用于针对所述询问与各个所述回答候选的组合,基于所述句法解析单元的解析结果、由所述评价单元确定出的词组的位置及其评价类的极性、以及对所述回答候选所赋予的特征生成用信息,来生成所述特征的集合。2根据权利要求1所述的非事实型询问应答系统,其中,所述特征生成单元还包含含义类变换单元,其用于将包含在所述句法解析单元的输。
6、出中的各名词分类成预先准备的多个单词的含义类中的任一者,并将该名词变换成对应的含义类,所述特征集合生成单元包含第1单元,其用于针对所述询问与各个所述回答候选的组合,基于所述句法解析单元的解析结果、由所述评价单元确定出的词组的位置及其评价类的极性、由所述含义类变换单元被进行了变换后的所述句法解析单元的输出、以及对所述回答候选所赋予的特征生成用信息,来生成所述特征的集合。3根据权利要求2所述的非事实型询问应答系统,其中,所述第1单元基于由所述评价单元确定出的词组的位置以及评价类的极性而生成的特征包含表示询问中的词组的评价类的极性与回答候选中的词组的评价类的极性是否一致的信息。4根据权利要求2所述的。
7、非事实型询问应答系统,其中,所述第1单元所生成的特征包含从所述句法解析单元的输出得到且未使用所述评价权利要求书CN104137102A2/2页3单元的输出或所述含义类变换单元的输出而得到的特征、对所述句法解析单元的输出组合所述评价单元的输出而得到的特征、以及对所述句法解析单元的输出组合所述含义类变换单元的输出而得到的特征。5根据权利要求2所述的非事实型询问应答系统,其中,所述第1单元所生成的特征包含对所述句法解析单元的输出组合所述评价单元的输出,进而组合所述含义类变换单元的输出而得到的特征。6一种计算机程序,由计算机来实现接受非事实型询问的输入并生成针对该询问的回答的非事实型询问应答系统,所述。
8、计算机与用于对由处理对象的语言的文档亦即计算机可读取的文档组成的语料库进行存储的语料库存储单元相连接,所述计算机程序使所述计算机作为如下单元发挥功能,即,候选检索单元,其用于响应于已接受询问的输入的情况,从所述语料库存储单元之中检索并取出针对该询问的多个回答候选;特征生成单元,其用于响应于已接受询问的输入的情况,针对该询问与存储在所述候选检索单元中的各个回答候选的组合,来生成给定的特征的集合;得分计算单元,其预先进行了学习,使得在被给出由所述特征生成单元生成的所述特征的集合时,针对成为生成该特征的集合的基础的询问以及回答候选的组合,来计算表示该回答候选是针对该询问的正确回答的程度的得分;以及回。
9、答选择单元,其针对所述询问与存储在所述回答候选中的各个回答候选的组合,基于由所述得分计算单元计算出的得分,将针对所述询问为正确回答的可能性最高的回答候选作为针对所述询问的回答进行输出,针对由所述候选检索单元检索出的各个回答候选,赋予了由所述特征生成单元生成特征所需的信息,使所述计算机作为所述特征生成单元发挥功能的程序部分,使所述计算机作为如下单元发挥功能,即,句法解析单元,其用于针对所述询问进行词素解析以及句法解析,并输出词素信息以及语法信息;以及评价单元,其用于从所述询问当中确定遵照某评价基准而被分类为第1评价类的词组以及被分类为第2评价类的词组,针对所述第1评价类以及第2评价类各自分配了彼。
10、此相反的评价的极性,所述计算机程序还使所述计算机作为如下单元发挥功能,即,特征集合生成单元,其用于针对所述询问与各个所述回答候选的组合,基于所述句法解析单元的解析结果、由所述评价单元确定出的词组的位置及其评价类的极性、以及对所述回答候选所赋予的特征生成用信息,来生成所述特征的集合。权利要求书CN104137102A1/16页4非事实型询问应答系统以及计算机程序技术领域0001本发明涉及询问应答系统,尤其涉及针对询问某事的理由等的所谓的HOW型、WHY型询问等被称为非事实询问的询问的应答系统。背景技术0002与针对一些事实的询问应答QA相关的研究最近取得了大的进展。例如美国的竞猜节目中这种系统战。
11、胜人类的情况记忆犹新。针对与事实相关的询问,其精度据说为85程度。即便在这样的与事实相关的询问应答系统以外的领域,同样地关于针对精度高的询问应答系统的研究,其必要性也开始被认可。然而,关于并非与事实相关的询问,例如与“为何”相关的询问,以及与“如何”相关的询问,实情是研究还未取得进展。0003作为这样的系统的例子,有在后述的非专利文献1中记载的系统。在该系统中,对询问和语料库内的各句进行词素解析,进而使用其结果来计算利用了从询问中所得到的单词的文档频度、各句中的单词频度、文档总数、文档的长度等的得分,并从语料库中选择得分上位的给定个数的文档。将在选择出的文档中所含的段落、以及13个连续的段落作。
12、为回答候选,主要通过询问中的单词与回答候选中所含的单词之间所计算的得分,来选择针对询问的回答。0004然而,如后述可知,在该系统中得不到足够的性能。为此,作为对该系统进一步改良后的系统,能考虑后述的非专利文献2中所记载的那样的系统。该系统例如在通过非专利文献1所记载的技术而选择了几个回答候选后,进而通过给定的得分来对各回答候选进行重新排序。0005以下,基于非专利文献2的记载来说明被认为是典型的实现该系统时的实现例。此外,以下将关于并非与事实相关的询问称为“非事实型询问”。0006参照图1,该询问应答系统30例如将在互联网上能检索的非常多的句子在此限定为日语来考虑。所组成的语料库存储至语料库存。
13、储部48,接受从可实现文本通信的便携式电话等的服务利用终端44发送的非事实型询问,回答处理部40从存储在语料库存储部48中的众多句子当中选择作为其回答的概率高的几个回答句,并作为回答句列表50而返回给服务利用终端44。回答处理部40在进行回答句的排序时使用支持向量机SVM46,由学习处理部42预先进行针对该SVM46的带监督的机器学习。0007学习处理部42包含QA句存储部60,其用于预先对非事实型询问、针对该询问的正确的回答或错误的回答、表示回答是否正确的标志所组成的几个日语的QA句进行存储;学习数据生成部62,其用于针对QA句存储部60中所存储的QA句进行解析,生成预先选择出的与语法相关的。
14、统计学信息的各种组合、以及表示该QA句的回答是否为针对询问的正确回答的标志所组成的学习数据,来作为用在SVM46的学习中的特征;学习数据存储部64,其存储由学习数据生成部62生成的学习数据;以及学习处理部66,其使用学习数据存储部64中所存储的学习数据,来进行SVM46的带监督的机器学习。该学习的结果是,当SVM46接受到与由学习数据生成部62生成的学习数据为同种组合的特征时,SVM46输出表示使该特说明书CN104137102A2/16页5征的组合被生成的询问句以及回答候选的组合是否为正确的组合,即回答候选是否为针对询问的正确的答案这样的尺度。0008针对语料库存储部48中所存储的各句,预先。
15、执行与学习数据生成部62对各回答句进行过的解析处理相同的解析处理,并对各句附加为了生成赋予给SVM46的特征所需的信息。0009对此,回答处理部40包含询问句解析部86,其用于响应于从服务利用终端44接受到询问句的情况,对该询问句进行预先规定的文法性解析,针对该询问句中所含的各单词,输出为了生成特征所需的信息词类、活用形、修饰被修饰结构等;候选句检索部82,其用于响应于服务利用终端44接受到询问句的情况,从语料库存储部48之中检索并提取针对询问的给定个数例如300个的回答候选句;以及回答候选句存储部84,其用于将候选句检索部82所输出的给定个数的候选句与其文法信息一起存储。0010此外,在本实。
16、施方式中,虽然从语料库存储部48中检索并提取候选句而存储至回答候选句存储部84,但是无需如此缩减候选句。例如,可以将语料库存储部48中所存储的所有句子作为回答候选句。在此情况下,既可以是,候选句检索部82仅具有将语料库存储部48中所存储的句子全部读出的功能,也可以是,回答候选句存储部84发挥将由候选句检索部82读出的句子仅临时蓄积的功能。进而,语料库存储部48在本实施方式中虽然是询问应答系统30在本地保持,但本发明不限于这样的实施方式。例如语料库48还可以为远程,也不限于1个,还可以分布于多个存储装置来执行存储。0011回答处理部40还包含特征向量生成部88,其用于基于从询问句解析部86输出的。
17、信息与回答候选句存储部84中所存储的各个回答候选句的组合,来生成应该赋予给SVM46的特征向量;以及回答句排序部90,其用于对于询问句与各回答候选句的组合,将从特征向量生成部88给出的特征向量赋予给SVM46,其结果是基于从SVM46输出的结果来对回答候选句存储部84中所存储的各回答句进行排序,将上位的给定个数的回答句候选作为回答句列表50进行输出。SVM46通常以数学方法来求取把对象分类为2个类CLASS的超平面,基于其结果来确定输入属于哪一类,并将其结果以正/负的极性信息进行输出,这些是基本的功能,但还能输出从该超平面起到通过输入而确定的点为止的距离。该距离被认定为表征作为回答句的适合度的。
18、距离,因此回答句排序部90将该距离与SVM46所输出的极性信息的组合用作回答候选句的得分。0012在该询问应答系统30中,预先在QA句存储部60中存储众多询问句与作为针对该询问句的回答而适合的句子的组合、以及与作为针对询问句的回答而错误的句子的组合。对于各组合,预先手工地赋予表示该回答是否正确的标志。学习数据生成部62根据这些组合来生成用于进行SVM46的学习的学习数据,并保存至学习数据存储部64。学习处理部66使用学习数据存储部64中所存储的学习数据来进行SVM46的学习。该处理的结果是,SVM46在接受到与由学习数据生成部62生成的学习数据为相同种类的特征的组合时,能输出表示与作为获得其特。
19、征的基础的句子的组合询问句和回答候选的组合是否正确,即回答候选作为针对该询问句的回答是否正确的尺度的值。0013另一方面,在语料库存储部48中存储有由众多的句子组成的语料库。这些各句被预先执行了与学习数据生成部62所进行的处理为同种的解析处理,被赋予了与学习数据的一部分同样的用于回答候选的排序的信息。在从服务利用终端44接受到询问句时,候选说明书CN104137102A3/16页6句检索部82进行现有的候选句检索处理,从语料库存储部48之中提取给定个数的针对询问句的回答候选。由候选句检索部82提取出的回答候选句与用于回答候选的排序的信息一起被保存至回答候选句存储部84。0014另一方面,询问句。
20、解析部86对询问句进行给定的解析处理,生成为了生成特征所需的信息并赋予给特征向量生成部88。特征向量生成部88在从询问句解析部86接受到信息时,通过与回答候选句存储部84中所存储的各回答候选句的用于回答候选的排序的信息合在一起,来生成与由学习数据生成部62生成的学习数据相同的构成其中,将表示回答候选是否为正确回答的标志除外。的特征向量,并赋予给回答句排序部90。0015回答句排序部90将从特征向量生成部88给出的、根据各回答候选与询问句的组合而得到的特征向量赋予给SVM46。SVM46按所赋予的各组合的特征向量的每一个,输出表示该组合中所含的回答候选作为针对该组合中所含的询问的回答适合到何种程。
21、度的得分。回答句排序部90将询问句与各回答候选的组合以它们的得分来降序地排序,并将得分上位的给定个数的回答候选作为针对从服务利用终端44给出的询问句的回答句列表50而返给服务利用终端44。0016在先技术文献0017非专利文献0018非专利文献1、,型日本語質問対、回答型応重付回答検索用回答ASYSTEMFORANSWERINGNONFACTOIDJAPANESEQUESTIONSBYUSINGPASSAGERETRIEVALWEIGHTEDBASEDONTYPEOFANSWER,INPROCOFNTCIR60019非专利文献2、,型質問、一用質問応答CORPUSBASEDQUESTIONAN。
22、SWERINGFORWHYQUESTIONS,INPROCOFIJCNLP,PP4184250020非专利文献3、才,依存木基、潜在変数持CRF用感情分類TETSUJINAKAGAWA,KENTAROINUI,ANDSADAOKUROHASHI,DEPENDENCYTREEBASEDSENTIMENTCLASSICATIONUSINGCRFSWITHHIDDENVARIABLES,INPROCOFHUMANLANGUAGETECHNOLOGIESTHE2010ANNUALCONFERENCEOFCOMPUTATIONALLINGUISTICS,PP786794,LOSANGELES,CALIF。
23、ORNIA,JUNEASSOCIATIONFORCOMPUTATIONALLINGUISTICS发明内容0021发明要解决的课题0022在非专利文献1所记载的系统中可知得不到足够的精度。特别是,在同与事实相关的询问应答系统的性能比较时,非事实型询问应答系统的性能极低,从而寻求提高非事实型询问应答系统的性能。特别是,今后不仅是与单纯的事实相关的询问,还需要从一些现象中知晓其理由,或从一些现象中推论其结论。0023因此,本发明的目的在于,提供在关于与理由或方法相关的询问的询问应答系统中能进一步提高精度的询问应答系统。说明书CN104137102A4/16页70024用于解决课题的手段0025本发明。
24、的第1局面所涉及的询问应答系统是接受非事实型询问的输入并生成针对该询问的回答的非事实型询问应答系统。该系统与用于对由处理对象的语言的文档亦即计算机可读取的文档组成的语料库进行存储的语料库存储单元相连接而被使用。该系统包含候选检索单元,其用于响应于已接受询问的输入的情况,从语料库存储单元之中检索并取出针对该询问的多个回答候选;特征生成单元,其用于响应于已接受询问的输入的情况,针对该询问与存储在候选检索单元中的各个回答候选的组合,来生成给定的特征的集合;得分计算单元,其预先进行了学习,使得在被给出由特征生成单元生成的特征的集合时,针对成为生成该特征的集合的基础的询问以及回答候选的组合,来计算表示该。
25、回答候选是针对该询问的正确回答的程度的得分;以及回答选择单元,其针对询问与存储在回答候选中的各个回答候选的组合,基于由得分计算单元计算出的得分,将针对询问为正确回答的可能性最高的回答候选作为针对询问的回答进行输出。针对由候选检索单元检索出的各个回答候选,赋予了由特征生成单元生成特征所需的信息。特征生成单元包含句法解析单元,其用于针对询问进行词素解析以及句法解析,并输出词素信息以及语法信息;以及评价单元,其用于从询问当中确定遵照某评价基准而被分类为第1类的词组以及被分类为第2类的词组。针对第1类以及第2类各自分配了彼此相反的评价的极性。该询问应答系统还包含特征集合生成单元,其用于针对询问与各个回。
26、答候选的组合,基于句法解析单元的解析结果、由评价单元确定出的词组的位置及其评价类的极性、以及对回答候选所赋予的特征生成用信息,来生成特征的集合。0026优选地,特征生成单元还包含含义类变换单元,其用于将包含在句法解析单元的输出中的各名词分类成预先准备的多个单词的含义类中的任一者,并将该名词变换成对应的含义类。特征集合生成单元包含第1单元,其用于针对询问与各个回答候选的组合,基于句法解析单元的解析结果、由评价单元确定出的词组的位置及其评价类的极性、由含义类变换单元被进行了变换后的句法解析单元的输出、以及对回答候选所赋予的特征生成用信息,来生成特征的集合。0027第1单元基于由评价单元确定出的词组。
27、的位置以及评价类的极性而生成的特征可以包含表示询问中的词组的评价类的极性与回答候选中的词组的评价类的极性是否一致的信息。0028更优选地,第1单元基于由评价单元确定出的词组的位置以及评价类的极性而生成的特征还包含表示当询问中的词组的评价类的极性与回答候选中的词组的评价类的极性一致时的该极性的信息。0029第1单元所生成的特征可以包含从句法解析单元的输出得到且未使用评价单元的输出或含义类变换单元的输出而得到的特征、对句法解析单元的输出组合评价单元的输出而得到的特征、以及对句法解析单元的输出组合含义类变换单元的输出而得到的特征。0030或者,第1单元所生成的特征可以包含对句法解析单元的输出组合评价。
28、单元的输出,进而组合含义类变换单元的输出而得到的特征。0031本发明的第2局面所涉及的计算机程序是由计算机来实现接受非事实型询问的输入并生成针对该询问的回答的非事实型询问应答系统的计算机程序。该计算机与用于对由处理对象的语言的文档亦即计算机可读取的文档组成的语料库进行存储的语料库存储说明书CN104137102A5/16页8单元相连接。第2局面所涉及的计算机程序使计算机作为如下单元发挥功能,即,候选检索单元,其用于响应于已接受询问的输入的情况,从语料库存储单元之中检索并取出针对该询问的多个回答候选;特征生成单元,其用于响应于已接受询问的输入的情况,针对该询问与存储在候选检索单元中的各个回答候选。
29、的组合,来生成给定的特征的集合;得分计算单元,其预先进行了学习,使得在被给出由特征生成单元生成的特征的集合时,针对成为生成该特征的集合的基础的询问以及回答候选的组合,来计算表示该回答候选是针对该询问的正确回答的程度的得分;以及回答选择单元,其针对询问与存储在回答候选中的各个回答候选的组合,基于由得分计算单元计算出的得分,将针对询问为正确回答的可能性最高的回答候选作为针对询问的回答进行输出。针对由候选检索单元检索出的各个回答候选,赋予了由特征生成单元生成特征所需的信息。使计算机作为特征生成单元发挥功能的程序部分使计算机作为如下单元发挥功能,即,句法解析单元,其用于针对询问进行词素解析以及句法解析。
30、,并输出词素信息以及语法信息;以及评价单元,其用于从询问当中确定遵照某评价基准而被分类为第1评价类的词组以及被分类为第2评价类的词组。该计算机程序还使计算机作为如下单元发挥功能,即,特征集合生成单元,其用于针对询问与各个回答候选的组合,基于句法解析单元的解析结果、由评价单元评价出的词组的位置及其评价类的极性、以及对回答候选所赋予的特征生成用信息,来生成特征的集合。附图说明0032图1是表示现有的非事实型询问应答系统的简要构成的框图。0033图2是表示非事实型询问和其回答候选的例子的图。0034图3是表示非事实型询问的回答候选的例子的图。0035图4是说明对本发明的1实施方式所涉及的询问应答系统。
31、进行利用的场景的图。0036图5是本发明的1实施方式所涉及的询问应答系统的框图。0037图6是用于说明NGRAM的构成的示意图。0038图7是用于说明依赖于语法结构的NGRAM的构成的图。0039图8是以表格形式来表示本发明的1实施方式所涉及的询问应答系统中使用的特征的一览的图。0040图9是表示非事实型询问与其回答候选的组合的例子的图。0041图10是将本发明所涉及的询问应答系统的实验结果与现有技术的性能进行比较并以表格形式来表示的图。0042图11是将在本发明所涉及的询问应答系统中改变了要使用的特征的组合时的性能相互比较并以表格形式来表示的图。0043图12是表示用于实现本发明的1实施方式。
32、所涉及的询问应答系统的计算机的外观的示意图。0044图13是说明图12所示的计算机的硬件构成的框图。具体实施方式0045在以下的说明以及附图中,对同一部件赋予了同一参照编号。因此,不重复针对它们的详细说明。说明书CN104137102A6/16页90046引言0047在本申请发明中,着眼于非事实型询问与其回答之间存在以下那样的关系,并将其设为了第1假定。即,着眼于以下的点0048当令人不满意的状况发生时其理由也有些令人不满意的情况多,0049当令人满意的状况发生时其理由也令人满意的情况多。0050例如,考虑图2所示那样的询问Q1与其回答候选A11以及A12的组合110。回答候选A11的下线部1。
33、20描述了关于癌的令人不满意的现象,与此相对,回答候选A12的下线部122描述了用于预防癌的令人满意的对应。本发明在上面的组合中,作为针对询问Q1的回答,可以说回答候选A11更加适合。在本说明书中,为了简化说明,将这种“令人满意的”以及“令人不满意的”这样的评价的方向称为“极性”,将“描述令人满意的现象的词组”以及“描述令人不满意的现象的词组”那样的、成为伴随极性的评价的对象的词组称为“评价词组”。即,在本申请发明中,针对词组,来确定遵照某评价基准而被分类至“描述令人满意的现象的词组”这样的第1评价类、以及“描述令人不满意的现象的词组”这样的第2评价类当中的任一者的词组。对于这些评价类,如“令。
34、人满意的”以及“令人不满意的”那样,分配了彼此相反的极性。此外,在此,作为极性,虽然考虑了“令人满意的/令人不满意的”这样的表达,但除此以外,还能基于评价基准来以各种方式考虑极性。例如能考虑“增加/减少”、“活性/惰性”、“美味/难吃”、“改善/恶化”、“采纳/不采纳”、“高兴/悲伤”等。0051本发明的第2假定是在询问中的单词的词汇语义论的类与回答句中的它们之间存在极强的联系的假定。例如,针对像图2所示的询问Q1那样关于病的询问句的回答在多数情况下,包含像回答候选A11那样与化学物质相关的回答、或者与病毒或身体的一部分相关的提及。如此,例如,通过使病以及与病关联的有害物质等之间的统计性关联明。
35、确,从而能提高作为针对询问句的回答可列举适合的回答的可能性。为此,在以下叙述的实施方式中,将含义相近的单词归为含义类而用作了特征。尽管也能人工进行含义类的构筑,或利用了基于现有含义的同类词汇编,但在本实施方式中,利用了从WEB文档所组成的大规模语料库中使用EM法而自动构筑的单词类群。关于该方法,详细记载于KAZAMAANDTORISAWA,INDUCINGGAZETTEERSFORNAMEDENTITYRECOGNITIONBYLARGESCALECLUSTERINGOFDEPENDENCYRELATIONS”HTTP/HTTP/WWWACLWEBORG/ANTHOLOGYNEW/P/P08/。
36、P081047PDF。0052进而成为问题的可以说是,在回答候选之中存在包含极性不同的多个词组的回答候选。0053例如,在图3中示出与图2的回答候选A12类似的回答候选A13。图3所示的回答候选A13包含关于癌的令人不满意的评价词组140、以及关于癌的令人满意的评价词组142。在此情况下,留下如下问题作为针对图2所示的询问Q1的回答,应该采用图2所示的回答候选A11与图3所示的回答候选A13的哪一者。在本发明中,为了应对这样的问题,使用了评价的极性、与询问句以及回答候选双方的与该极性关联的评价词组的内容的组合。0054为了解决针对评价词组的内容进行统计学处理时的数据的稀疏性,开发了将评价的极性。
37、与单词含义类有效组合后的特征的组。对于这些特征,通过带监督的学习,进行了执行针对非事实型询问句的回答候选的评分的分类器的学习。实验的结果将在后面叙述。说明书CN104137102A7/16页100055构成0056参照图4,本实施方式所涉及的非事实型询问应答系统160预先获得互联网上的大量的文档所组成的文档集合164,响应于经由互联网162而从服务利用终端166接受到非事实型询问的情况,从所蓄积的文档集合164中生成作为针对该询问的回答而适合的回答的列表,并返给服务利用终端166。在本实施方式中,来自服务利用终端166的询问作为到WEB的形式的输入数据而被发送至非事实型询问应答系统160。00。
38、57参照图5,该询问应答系统160包含语料库存储部178,其用于预先存储从互联网取得的大量的文档所组成的文档集合164,该文档集合是针对各句赋予了用于排序回答候选的特征形成所需的信息后的文档的集合;回答处理部170,其用于响应于从服务利用终端166接受到询问句的情况,从语料库存储部178中所存储的文章中提取几个作为针对接受到的询问的回答而言适合的回答,进行排序,对服务利用终端166输出将上位的给定个数列表后的回答句列表174;SVM176,其在回答处理部170进行回答候选的排序时使用;以及学习处理部172,其通过预先准备的学习数据来进行针对SVM176的带监督的机器学习,在SVM176接受到根。
39、据询问句与回答句的组合所得到的预先确定的特征的组合时,输出得分,该得分不仅表示该组合是否正确,即对于该组合中的询问,该组合中的回答句是否为正确的回答,而且表示该回答的正确度是何种程度。0058回答处理部170包含候选句检索部222,其用于响应于从服务利用终端166接受到询问的情况,通过与现有技术同样的处理来检索语料库存储部178,并从众多句子之中提取给定个数例如300个的回答候选句;回答候选句存储部224,其用于存储由候选句检索部222提取出的候选句;询问句解析部226,其用于响应于从服务利用终端166接受到询问句的情况,进行针对询问句的解析处理,进行特征所利用的词素解析以及句法解析语法性解析。
40、,来输出词素信息以及语法信息;含义类变换部230,其通过从询问句解析部226所输出的信息当中,对单词应用给定的统计学概率模型来估计含义类,并赋予表征含义类的信息来输出;以及评价处理部228,其用于对询问句解析部226的输出进行评价,如已叙述那样确定评价词组和其极性,并按各个评价词组来进行输出。0059此外,尽管未图示,但针对语料库存储部178中所存储的文档的各句子,也预先进行与由询问句解析部226、评价处理部228以及含义类变换部230所进行的处理相同的处理。如此,能降低在后用于根据询问与回答候选的组来生成特征向量的处理量。0060回答处理部170还包含特征向量生成部232,其用于接受询问句解。
41、析部226的输出、评价处理部228的输出、以及含义类变换部230的输出,进而从回答候选句存储部224读出各回答候选句和附随信息,并基于询问句与回答候选的双方的信息来生成应用于SVM176的特征向量;以及回答句排序部234,其用于按每个回答候选句,基于通过将特征向量生成部232所输出的特征向量应用于SVM176而从SVM176得到的得分,来对回答候选进行排序,生成上位的给定个数的回答候选所组成的回答句列表174,并返给服务利用终端166。0061学习处理部172包含QA句存储部190,其用于将众多的QA句与表示其组合的适当与否的标志一起存储;QA句解析部192,其用于对于QA句存储部190中所存。
42、储的询问句与回答候选的各个组合,进行与询问句解析部226同样的处理;含义类变换部196,其用于对QA句解析部192的输出中的各单词,使用统计学模型来附加含义类信息;评价处理说明书CN104137102A108/16页11部194,其用于通过对QA句的询问句以及回答句各自进行评价处理,来附加表示评价词组的标签及其极性来进行输出;学习数据生成部198,其通过将QA句解析部192、评价处理部194、以及含义类变换部196所输出的信息进行组合,来生成用于进行SVM176的学习的学习数据特征向量并输出;学习数据存储部200,其用于存储学习数据生成部198所输出的学习数据;以及SVM学习部202,其用于使。
43、用学习数据存储部200中所存储的学习数据,来对SVM176进行带监督的机器学习。0062在本实施方式中,从互联网收集了6亿个日语文档并保存至语料库存储部178。0063回答候选的提取0064作为候选句检索部222,在本实施方式中使用以HTTP/LUCENEAPACHEORG/SOLR所分发的SOLR。在本实施方式中,候选句检索部222按照如下方式进行调整对于一个询问句,从语料库存储部178中所保存的6亿个文档当中,例如按照包含回答的可能性从高到低的顺序,提取位于前面的给定个数例如300个的文档。各候选进而被分割成由5个连续的句子组成的回答候选的集合。为了减小因文档的分割方法的错误而得不到正确的。
44、回答的可能性,针对所分割的文档,使其能彼此共享至2个句子。0065在候选句检索部222中,进而通过以下的式1所示的评分函数SQ,AC来对如此针对询问Q所得到的各回答候选AC进行评分。此外,在本实施方式中,为了提取回答候选,检索包含询问中所含的词语的部分,进而检索包含表示因果关系的3个线索语理由、原因以及要因的部分。候选句检索部222基于式1的排序,选择300个针对询问的回答候选,并经回答候选句存储部224而赋予给回答句排序部234。0066式1所示的评分函数SQ,AC对各回答候选分配与TF对数指数词频IDF文档频度的倒数相似的得分。在此,式1的1/DISTT1,T2起到TF那样的作用,1/DF。
45、T2是询问Q以及回答候选AC所共有的针对所给的T1以及T2的IDF。0067数式1006800690070其中,T是询问Q中的名词、动词以及形容词亦即回答候选AC中也出现的词所组成的词集。在回答候选AC中存在线索语的情况下,注意将它们追加至词集T。N是文档的合计数6亿,DISTT1,T2是回答候选AC中的单词T1以及T2之间的距离字符数。DFT是词语T的文档频度,是指标,若TST1,T21,则否则0071回答候选的排序0072如上所述,对于排序,使用利用了3种类的特征集合的带监督的分类器SVM。特征集合包含1表征询问和回答候选的词素分析以及语法分析的结果的特征以“MSA”来表示。、2表征询问和。
46、回答候选中出现的含义的单词类的特征以“SWC”来表示。、以及3表征评价分析的结果的特征以“SA”来表示。0073MSA0074MSA是为了回答候选的重新排序而从以往广泛使用的特征。该特征用于使询问与说明书CN104137102A119/16页12回答候选之间的词素、句节以及语法结构级别下的联系更明确。0075将询问和其回答候选中所含的全部句子以3种方法来表征。即,词素包ABAGOFMORPHEMES,句节包ABAGOFWORDPHRASES,语法结构链包。它们分别能使用词素分析程序例如HTTP/NLPISTIKYOTOUACJP/INDEXPHPJUMAN以及句法解析程序例如HTTP/NLPI。
47、STIKYOTOUACJP/INDEXPHPKNP来得到。0076在本实施方式中,从询问以及回答候选的每一个中提取词素、句节、以及语法结构的GGRAMN为13。例如,设句子如图6A所示,包含由连续的4个句节A、B、C以及D组成的部分240。从该4个句节所得到的句节3GRAM是由图6B1所示的句节A、B以及C组成的3GRAM242、以及由图6B2所示的句节B、C以及D组成的3GRAM244。0077对此,语法结构NGRAM在本说明书中是指,在语法结构的网络中具有连续的3个句节的通道。例如,设为得到了图7A所示那样的语法结构的网络260。若从该网络260中取出3GRAM,则可得到图7B1所示的句节。
48、A、B以及C所组成的3GRAM262、以及图7B2所示的句节A、C以及D所组成的3GRAM264。将它们与图6进行比较可知其差异。此外,语法结构NGRAM的1GRAM与句节1GRAM一致,因此不使用。0078作为MSA,能使用图8的表270所示的MSA1MSA4的4种类的特征。其说明如图8所示那样,因此不对各个反复说明。此外,MSA2例如像图2的“类型的癌”那样,是包含询问中的单词那样的NGRAM。0079SWC0080单词含义类是指在含义上类似的单词的集合。在本实施方式中,使用前述的KAZAMA以及TORISAWA的文献所记载的名词的聚类技术来构筑了这样的单词含义类。该文献所记载的算法基于含。
49、义上类似的单词有出现在类似的语境中的趋势这样的假定。该方法通过将单词间的语法的修饰被修饰关系作为语境进行处理,从而以以下的式2来定义与非动词的修饰被修饰关系相关的针对隐性类的概率模型。0081数式20082PN,V,RPN|CP|CPC20083其中,在此的N是名词,V是基于语法关系R日语中为后置语而名词N所从属的动词或名词,C是隐性类。修饰被修饰关系的频度能从6亿的句子所组成的语料库中得到。模型参数PN|C、P|C以及PC是使用EM算法而估计出的。能使用该技术将550万的名词聚类为500个类。即,对于各名词N,通过EM聚类来估计与表征含义类的隐性变量相关的概率分布。基于该分布,对各名词N分配使CARGMAXCPC|N的类C。其结果,得到了化学物质、营养素、病等明确含义的类。0084SWC用于反映询问中的单词与回答候选中的单词之间的关联性。在学习数据中,存在具有特定的含义类的单词的询问和具有特定的含义类的单词的回答候选,在彼此的关系是肯定性回答候选是针对询问的正确的回答。的情况下,若。