ImageVerifierCode 换一换
格式:PDF , 页数:40 ,大小:1.06MB ,
资源ID:1036138      下载积分:30 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zhuanlichaxun.net/d-1036138.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(信息处理装置、信息处理方法以及程序.pdf)为本站会员(a****)主动上传,专利查询网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知专利查询网(发送邮件至2870692013@qq.com或直接QQ联系客服),我们立即给予删除!

信息处理装置、信息处理方法以及程序.pdf

1、10申请公布号CN102339278A43申请公布日20120201CN102339278ACN102339278A21申请号201110195267722申请日20110707201015959820100714JPG06F17/2720060171申请人索尼公司地址日本东京都72发明人小林由幸74专利代理机构北京集佳知识产权代理有限公司11227代理人朱胜陈炜54发明名称信息处理装置、信息处理方法以及程序57摘要本发明公开了一种信息处理装置、信息处理方法以及程序,该方法包括输入多个符号串以及期望从每个符号串提取的属性信息;从包括用于将符号串转换为数值的函数的预定函数组选择多个函数,并且通过

2、组合多个函数生成用于根据符号串输出特征量的多个特征量函数;将每个符号串输入到每个特征量函数,并且计算对应于每个符号串的特征量;使用与每个符号串对应的属性信息和与每个符号串对应的特征量来执行机器学习,并且生成用于根据特征量估计属性信息的估计函数;以及输出特征量函数和估计函数。30优先权数据51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书17页附图20页CN102339291A1/2页21一种信息处理装置,包括输入部,用于输入多个符号串以及期望从每个符号串提取的属性信息;特征量函数生成部,用于从预定函数组选择多个函数,并且通过组合所述多个函数生成用于根据所述符号串

3、输出特征量的多个特征量函数,所述预定函数组包括用于将符号串转换为数值的函数;特征量计算部,用于将所述输入部输入的每个符号串输入到所述特征量函数生成部生成的每个特征量函数,并且计算对应于每个符号串的特征量;估计函数生成部,用于使用所述输入部输入的、与每个符号串对应的属性信息和所述特征量计算部算出的、与每个符号串对应的特征量来执行机器学习,并且生成用于根据所述特征量估计所述属性信息的估计函数;以及输出部,用于输出所述特征量函数生成部生成的特征量函数和所述估计函数生成部生成的估计函数。2根据权利要求1所述的信息处理装置,其中,所述符号串是字符串。3根据权利要求2所述的信息处理装置,其中,所述估计函数

4、生成部包括有效特征量选择部,用于选择对于估计所述属性信息有效的特征量;以及机器学习部,用于使用所述有效特征量选择部选择的有效特征量和与所述有效特征量对应的属性信息来执行机器学习,并且生成用于根据所述有效特征量估计所述属性信息的估计函数。4根据权利要求3所述的信息处理装置,还包括世代更替部,用于通过假设所述特征量函数为个体并且执行个体选择、个体间交叉以及个体突变,生成下一代特征量函数;其中,如果所述世代更替部生成了所述下一代特征量函数,则所述特征量计算部使用所述下一代特征量函数来计算特征量,并且所述估计函数生成部使用所述特征量计算部使用所述下一代特征量函数算出的特征量来生成估计函数,并且所述世代

5、更替部生成所述下一代特征量函数、所述特征量计算部计算所述特征量以及所述估计函数生成部生成所述估计函数是重复地执行的。5根据权利要求4所述的信息处理装置,还包括NGRAM分析部,用于对所述输入部输入的符号串执行NGRAM分析,并且测量NGRAM出现在所述符号串中的出现频率,其中,所述特征量函数生成部使用通过所述NGRAM分析部的分析获得的NGRAM和所述NGRAM出现频率,生成所述特征量函数。6一种信息处理方法,包括输入多个符号串以及期望从每个符号串提取的属性信息;从包括用于将符号串转换为数值的函数的预定函数组选择多个函数,并且通过组合所述多个函数生成用于根据所述符号串输出特征量的多个特征量函数

6、;将每个符号串输入到每个特征量函数,并且计算对应于每个符号串的特征量;使用与每个符号串对应的属性信息和与每个符号串对应的特征量来执行机器学习,并且生成用于根据所述特征量估计所述属性信息的估计函数;以及输出所述特征量函数和所述估计函数。权利要求书CN102339278ACN102339291A2/2页37一种用于使计算机实现以下功能的程序输入功能,输入多个符号串以及期望从每个符号串提取的属性信息;特征量函数生成功能,从预定函数组选择多个函数,并且通过组合所述多个函数生成用于根据所述符号串输出特征量的多个特征量函数,所述预定函数组包括用于将符号串转换为数值的函数;特征量计算功能,将通过所述输入功能

7、输入的每个符号串输入到通过所述特征量函数生成功能生成的每个特征量函数,并且计算对应于每个符号串的特征量;估计函数生成功能,使用通过所述输入功能输入的、与每个符号串对应的属性信息和通过所述特征量计算功能算出的、与每个符号串对应的特征量来执行机器学习,并且生成用于根据所述特征量估计所述属性信息的估计函数;以及输出功能,输出通过所述特征量函数生成功能生成的特征量函数和通过所述估计函数生成功能生成的估计函数。权利要求书CN102339278ACN102339291A1/17页4信息处理装置、信息处理方法以及程序技术领域0001本公开内容涉及一种信息处理装置、信息处理方法以及程序。背景技术0002近来,

8、已关注于从难以量化地决定特征的任意数据组机械地提取数据组的特征量的技术。例如,已知自动构造用于接收任意音乐数据以及机械地提取该音乐数据所属的音乐属类的算法的技术。诸如爵士乐、古典音乐以及流行歌曲的音乐属类根据乐器的类型或演奏类型是难以量化地决定的。因此,一般而言,之前已认为当给定任意音乐数据时难以从音乐数据提取音乐属类。0003然而,实际上,划分音乐属类的特征潜在地包括在各种信息组合中,诸如包括在音乐数据中的音程的组合、音程组合方法、乐器类型的组合、以及旋律线或基线的结构。因此,已从是否可以通过机器学习自动构造提取特征的算法下文中被称作特征量提取器的观点研究了特征量提取器。作为一个研究结果,例

9、如,在日本专利申请早期公开第2009048266号中公开了基于遗传算法的特征量提取器的自动构造方法。遗传算法仿效生物进化过程,在机器学习过程中考虑对元素进行选择、交叉以及突变。0004可以使用日本专利申请早期公开第2009048266号中公开的自动构造特征量提取器的算法,自动构造用于从任意音乐数据提取音乐数据所属的音乐属类的特征量提取器。在日本专利申请早期公开第2009048266号中公开的自动构造特征量提取器的算法具有非常高的通用性且不限于音乐数据,并且可以自动构造从任意数据组提取数据组的特征量的特征量提取器。因此,日本专利申请早期公开第2009048266号中公开的自动构造特征量提取器的算

10、法被期望应用于诸如音乐数据或视频数据的人工数据的特征量分析、各种自然的观测量的特征量分析等。发明内容0005目前,需要使用上述自动构造特征量提取器的算法来自动构造语言分析算法。语言分析算法是分析输入字符串并且估计表示该字符串的特征的属性信息的算法。由于现有技术的语言分析算法是手动构造的,因此对于其开发花费了大量的时间和成本。此外,语言处理的专业知识对于构造语言分析算法是必要的,并且能够构造语言分析算法的人力是有限的。由于现有技术的语言分析技术是语形学分析技术或使用字典的特征量提取技术的应用,因此现有技术的语言分析算法依赖于语言的类型。0006期望提供一种新颖且改进的信息处理装置、信息处理方法以

11、及程序,其可以自动构造语言分析算法而无需依赖于语言的类型。此外,期望提供一种信息处理装置、信息处理方法以及程序,其可以自动构造接收任意符号串并且估计表示符号串的特征的属性信息的分析算法。0007根据本公开内容的实施例,提供了一种信息处理装置,其包括输入部,用于输入多个符号串以及期望从每个符号串提取的属性信息;特征量函数生成部,用于从预定函数说明书CN102339278ACN102339291A2/17页5组选择多个函数,并且通过组合多个函数而生成用于根据符号串输出特征量的多个特征量函数,该预定函数组包括用于将符号串转换成数值的函数;特征量计算部,用于将输入部输入的每个符号串输入到特征量函数生成

12、部生成的每个特征量函数并且计算对应于每个符号串的特征量;估计函数生成部,用于使用输入部输入的与每个符号串对应的属性信息以及特征量计算部算出的与每个符号串对应的特征量来执行机器学习,并且生成用于根据特征量估计属性信息的估计函数;以及输出部,用于输出特征量函数生成部生成的特征量函数和估计函数生成部生成的估计函数。0008符号串可以是字符串。0009估计函数生成部可包括有效特征量选择部,用于选择对估计属性信息有效的特征量;以及机器学习部,用于使用有效特征量选择部选择的有效特征量和与有效特征量对应的属性信息来执行机器学习,并且生成用于根据有效特征量估计属性信息的估计函数。0010信息处理装置还可包括世

13、代更替部,该世代更替部用于通过假设特征量函数为个体并且执行个体选择、个体间交叉以及个体突变,生成下一代特征量函数。如果世代更替部已生成了下一代特征量函数,则特征量计算部可使用下一代特征量函数计算特征量,并且估计函数生成部可使用特征量计算部使用下一代特征量函数算出的特征量来生成估计函数。可重复执行世代更替部生成下一代特征量函数、特征量计算部计算特征量以及估计函数生成部生成估计函数。0011信息处理装置还可包括NGRAM分析部,该NGRAM分析部用于对输入部输入的符号串执行NGRAM分析,并且测量NGRAM出现在符号串中的出现频率。特征量函数生成部可使用通过NGRAM分析部的分析获得的NGRAM和

14、NGRAM出现频率来生成特征量函数。0012根据本公开内容的另一实施例,提供了一种信息处理方法,其包括输入多个符号串以及期望从每个符号串提取的属性信息;从预定函数组选择多个函数,并且通过组合多个函数生成用于根据符号串输出特征量的多个特征量函数,该预定函数组包括用于将符号串转换成数值的函数;将每个符号串输入到每个特征量函数,并且计算对应于每个符号串的特征量;使用对应于每个符号串的属性信息和对应于每个符号串的特征量来执行机器学习,并且生成用于根据特征量估计属性信息的估计函数;以及输出特征量函数和估计函数。0013根据本公开内容的另一实施例,提供了一种用于使得计算机实现以下功能的程序输入功能,输入多

15、个符号串以及期望从每个符号串提取的属性信息;特征量函数生成功能,从预定函数组选择多个函数,并且通过组合多个函数生成用于根据符号串输出特征量的多个特征量函数,该预定函数组包括用于将符号串转换成数值的函数;特征量计算功能,将通过输入功能输入的每个符号串输入到通过特征量函数生成功能生成的每个特征量函数,并且计算对应于每个符号串的特征量;估计函数生成功能,使用通过输入功能输入的与每个符号串对应的属性信息和通过特征量计算功能算出的与每个符号串对应的特征量来执行机器学习,并且生成用于根据特征量估计属性信息的估计函数;以及输出功能,输出通过特征量函数生成功能生成的特征量函数和通过估计函数生成功能生成的估计函

16、数。0014根据本公开内容的另一实施例,提供了一种记录程序的计算机可读记录介质。0015根据上述本公开内容的实施例,可以自动构造语言分析算法而不依赖于语言的类型。此外,可以自动构造接收任意符号串并且估计表示符号串的特征的属性信息的分析算法。说明书CN102339278ACN102339291A3/17页6附图说明0016图1是示出根据本公开内容的实施例的自动算法构造方法的概况的说明图;0017图2是示出根据同一实施例的自动算法构造方法的概况的说明图;0018图3是示出根据同一实施例的信息处理装置学习装置的功能配置的说明图;0019图4是示出在根据同一实施例的自动算法构造方法中使用的学习数据的配

17、置的说明图;0020图5是示出根据同一实施例的NGRAM分析方法的说明图;0021图6是示出根据同一实施例的计算特征量函数的方法的说明图;0022图7是示出根据同一实施例的计算估计函数的方法的说明图;0023图8是示出根据同一实施例的选择有效特征量函数的方法的说明图;0024图9是示出根据同一实施例的自动算法构造方法的完整配置的说明图;0025图10是示出根据同一实施例的NGRAM分析方法的说明图;0026图11是示出根据同一实施例的、生成特征量函数的方法完整配置的说明图;0027图12是示出根据同一实施例的、生成特征量函数的方法随机生成的说明图;0028图13是示出根据同一实施例的、生成特征

18、量函数的方法随机生成的说明图;0029图14是示出根据同一实施例的、生成特征量函数的方法进化生成的说明图;0030图15是示出根据同一实施例的、生成特征量函数的方法进化生成;选择的说明图;0031图16是示出根据同一实施例的、生成特征量函数的方法进化生成;交叉的说明图;0032图17是示出根据同一实施例的、生成特征量函数的方法进化生成;突变的说明图;0033图18是示出根据同一实施例的、生成特征量函数的方法进化生成;随机生成的说明图;0034图19是示出根据同一实施例的、计算特征量函数的方法的说明图;0035图20是根据同一实施例的、计算估计函数的方法的说明图;0036图21是示出根据同一实施

19、例的信息处理装置估计装置的功能配置的说明图;0037图22是示出根据同一实施例的、估计属性信息的方法的说明图;以及0038图23是示出信息处理装置学习装置和估计装置的硬件配置的说明图。具体实施方式0039在下文中,将参照附图详细描述本公开内容的优选实施例。注意,在该说明书和附图中,具有基本上相同的功能和结构的结构元件以相同的附图标记来表示,并且省略这些结构元件的重复说明。0040描述流程0041这里,将简要描述与以下公开的本公开内容的实施例有关的描述流程。首先,将参照图1和2描述根据本公开内容的实施例的自动算法构造方法的概况。然后,将参照图3描述根据同一实施例的信息处理装置100学习装置的功能

20、配置。在此,还将参照图4至说明书CN102339278ACN102339291A4/17页78描述学习数据的配置、NGRAM分析方法、计算特征量函数的方法、计算估计函数的方法以及选择有效特征量函数的方法等。0042然后,将参照图9描述与同一实施例的自动算法构造方法有关的处理的完整流程。然后,将参照图10描述与同一实施例的NGRAM分析方法有关的处理的流程。然后,将参照图11至18描述与根据同一实施例的生成特征量函数的方法有关的处理的完整流程。然后,将参照图19描述与根据同一实施例的计算特征量函数的方法有关的处理的流程。然后,将参照图20描述与根据同一实施例的计算估计函数的方法有关的处理的流程。

21、0043然后,将参照图21描述根据同一实施例的信息处理装置200估计装置的功能配置。然后,将参照图22描述与根据同一实施例的估计属性信息的方法有关的处理的流程。然后,将参照图23描述能够实现根据同一实施例的信息处理装置100和200的功能的硬件配置。最后,将总结同一实施例的技术构思并且将简要描述从技术构思获得的功能效果。0044描述项00451实施例004611概况004712信息处理装置100学习装置的功能配置004813自动算法构造方法0049131完整处理流程0050132NGRAM分析0051133特征量函数的生成0052134特征量函数的计算0053135估计函数的生成005414信

22、息处理装置200估计装置的功能配置005515估计属性信息的方法005616硬件配置00572总结00580059将描述本公开内容的实施例。该实施例涉及一种自动算法构造方法,该方法分析任意符号串,并且自动构造能够估计表示符号串的特征的属性信息的分析算法。006011概况0061首先,将参照图1简要描述根据该实施例的自动算法构造方法的概况。0062如上所述,根据该实施例的自动算法构造方法是自动构造能够接收任意符号串例如,字符串、基因序列等并且估计表示符号串的特征的属性信息的分析算法的方法。根据该方法,例如,如图1所示,如果输入字符串“非常好的歌曲”,则可以自动构造输出属性信息“字符串是意见语句”

23、或“字符串是肯定的”的分析算法。0063例如,该实施例的方法可以被应用于自动构造接收邮件文本并且自动对邮件是垃圾邮件还是正常邮件进行分类的分析算法。该实施例的方法可以被应用于自动构造接收邮件文本并且自动将邮件分类为针对各种使用应用而预先分类的文件夹的分析算法。另外,该实施例的方法可以被应用于自动构造接收写到网络的公告板上的文本并且自动辨别所说明书CN102339278ACN102339291A5/17页8写的文本是客观内容还是主观内容的分析算法。另外,该实施例的方法可以被应用于自动构造接收写到网络的公告板上的文本并且自动对所写内容是肯定的文字还是否定的文字进行分类的分析算法。0064此外,该实

24、施例的方法可以被应用于自动构造接收新闻文本并且自动辨别新闻被分类的类别例如,政治、经济、艺术、技术、国际等的分析算法。另外,该实施例的方法可以被应用于自动构造接收任意文本并且自动辨别书写文本的语言例如,英语、日语、德语等的分析算法。另外,该实施例的方法可以被应用于自动构造接收与内容有关的文本例如,诸如新闻或小说的文本内容、音乐、视频等的评论、或者介绍语句并且自动提取内容偏好的分析算法。0065另外,能够由该实施例的方法自动构造的分析算法可以将任何符号串设置为目标。例如,该实施例的方法可以被应用于自动构造接收表情符号并且自动对表情符号所属的类别例如,笑、哭、生气等进行分类的分析算法。此外,该实施

25、例的方法可以被应用于自动构造如下分析算法其接收名字被转换成罗马字符的符号串,并且根据名字的音素的风格而自动对名字是日本的还是西方的、或者名字是新声音还是古老声音进行分类。0066另外,该实施例的方法可以被应用于自动构造如下分析算法其接收表示音乐编码进行的字符串或以MML描述的旋律的字符串,并且自动辨别该音乐心情例如,明快、阴郁、平静、兴奋等。上述MML代表“音乐宏语言”。另外,该实施例的方法可以被应用于自动构造接收小说的文本并且自动辨别该小说所属的类别例如,现代、浪漫、历史、幻想、恐怖等的分析算法。0067另外,能够由该实施例的方法自动构造的分析算法不限于仅提取输入符号串的现有特征。例如,该实

26、施例的方法可以被应用于自动构造接收经济新闻的文本并且估计经济前景例如,股票价格的上涨/下跌等的分析算法。另外,该实施例的方法可以被应用于自动构造如下分析算法其接收广播节目或电影的字幕数据,自动估计广播节目或电影的场景或基调,并且将其估计结果作为元数据分配给广播节目或电影。场景是例如新闻、体育、综艺、CM等。基调是例如轻松、严肃、浪漫等。0068另外,该实施例的方法可以被应用于自动构造接收博客等的书写文本并且自动估计作者的年龄或性格例如,阳光、阴郁、主动、被动等的分析算法。此外,该实施例的方法可以被应用于自动构造如下分析算法其接收描述疾病的主观症状的文本,并且自动估计疾病名称或显示与估计结果对应

27、的建议。另外,该实施例的方法可以被应用于自动构造如下分析算法其接收应试者在进入考试期间提交的材料的文本,并且估计在应试者加入公司之后五年的个人评估。0069另外,该实施例的方法可以被应用于自动构造如下分析算法其接收表示基因的基本序列的符号串,并且估计在未来可能出现的、具有该基因的人类或动物的疾病。该实施例的方法可以被应用于自动构造如下分析算法其接收表示基因的基本序列的符号串,并且估计具有该基因的人类或动物的性格。如上所述,因为该实施例的方法可以被应用于任意符号串被设置为目标的分析算法,因此其应用范围非常宽。0070顺便提及,如图2中所示地配置由该实施例的方法自动构造的分析算法。如图2所示,如果

28、输入符号串X,则分析算法首先通过将输入的符号串X输入到特征量函数FEF来计算特征量,并且通过将特征量输入到估计函数F来计算属性信息Y。特征量函数FEF和估说明书CN102339278ACN102339291A6/17页9计函数F是由该实施例的方法自动预先生成的。换言之,自动生成能够准确估计属性信息的一组特征量函数FEF和估计函数F的机制是根据该实施例的自动算法构造方法。0071以上已描述了根据该实施例的自动算法构造方法的概况。007212信息处理装置100学习装置的功能配置0073接下来,将参照图3描述根据该实施例的、能够实现自动算法构造方法的信息处理装置100学习装置的功能配置。图3是示出根

29、据该实施例的信息处理装置100的功能配置的说明图。0074如图3所示,信息处理装置100具有数据输入部101、NGRAM分析部102、特征量函数生成部103、存储部104、特征量计算部105、估计函数生成部106以及函数输出部107。估计函数生成部106包括机器学习部1061和有效特征量选择部1062。0075首先,一组符号串和属性信息被输入到数据输入部101作为学习数据。例如,如图4所示的一组符号串X和属性信息T被输入到数据输入部101。在图4的示例中,符号串X是字符串并且属性信息T是表示字符串是否是意见语句的指标。例如,字符串“我们应该更早完成它”表示人的意见。因此,表示意见语句的值1被分

30、配给该字符串作为属性信息T。另一方面,字符串“今天天气很好。”不表示人的意见。因此,不表示意见语句的值0被分配给该字符串作为属性信息T。0076如上所述,一组符号串和属性信息被输入到数据输入部101。如果输入了一组符号串和属性信息,则数据输入部101将输入的符号串输入到NGRAM分析部102和特征量计算部105。另外,数据输入部101将属性信息输入到包括在估计函数生成部106中的机器学习部1061。如果输入了符号串,则NGRAM分析部102从输入的符号串提取NGRAM由N个符号构成的符号单位,并且如图5所示检测每个NGRAM的出现频率。由一个符号构成的符号单位被称为单GRAM,而由两个符号构成

31、的符号单位被称为双GRAM。0077例如,如果输入串“ABCABABCDEDEF”,则NGRAM分析部102通过组合单GRAM而提取A,B,C,A,B,A,B,C,D,E,D,E,F。另外,NGRAM分析部102通过组合双GRAM而提取AB,BC,CA,AB,BA,AB,BC,CD,DE,ED,DE,EF。同样地,NGRAM分析部102从输入的字符串提取MGRAMM3至13的组合。如果字符串的长度是L,则提取LM1个MGRAM的组合。0078然后,NGRAM分析部102按照符号索引例如,字符码的顺序对提取的NGRAMN1至13的组合进行排序。例如,单GRAM的组合A,B,C,A,B,A,B,C

32、,D,E,D,E,F被NGRAM分析部102排序为A,A,A,B,B,B,C,C,D,D,E,E,F。另外,双GRAM的组合AB,BC,CA,AB,BA,AB,BC,CD,DE,ED,DE,EF被NGRAM分析部102排序为AB,AB,AB,BA,BC,BC,CA,CD,DE,DE,ED,EF。同样地,对MGRAMM3至13的组合进行排序。0079然后,NGRAM分析部102基于排序后的每个NGRAM组合检测每个NGRAM的出现频率,并且生成出现频率信息。例如,NGRAM分析部102根据排序后的单GRAM组合A,A,A,B,B,B,C,C,D,D,E,E,F生成出现频率信息A3,B3,C2,D

33、2,E2,F1。出现频率信息表示A出现三次,B出现三次,C出现两次,D出现两次,E出现两次,并且F出现一次。另外,NGRAM分析部102根据排序后的双GRAM的组合AB,AB,AB,BA,BC,BC,CA,CD,DE,DE,ED,EF生成出现频率信息AB3,BA1,BC2,CA1,CD1,DE2,ED1,EF1。同样地,还根据MGRAM的组合生成出现频率信息。说明书CN102339278ACN102339291A7/17页100080然后,NGRAM分析部102将NGRAMN1至13的出现频率信息合并为一个并且按照出现频率对出现频率信息进行排序。例如,如果单GRAM出现频率信息A3,B3,C2

34、,D2,E2,F1和双GRAM出现频率信息AB3,BA1,BC2,CA1,CD1,DE2,ED1,EF1是按照出现频率的降序来合并和排序的,则获得A3,B3,AB3,C2,D2,E2,BC2,DE2,F1,BA1,CA1,CD1,ED1,EF1。如果该处理被应用于图4中示出的符号串X,则如图5所示获得表示每个NGRAM出现频率的出现频率信息。0081如上所述,NGRAM分析部102生成的出现频率信息被输入到特征量函数生成部103。如上所述,来自数据输入部101的符号串以及来自NGRAM分析部102的出现频率信息被输入到特征量函数生成部103。如果输入了符号串,则特征量函数生成部103通过组合已

35、在存储部104中准备好的基本函数来生成特征量函数FEF。基本函数是例如CUT、FIND、MEAN、VARIANCE、MEDIAN、LENGTH、VARIATION、APPERANCE、COOCCURANCE、POW等。0082这里,补充了上述基本函数的示例的描述。0083上述基本函数CUT是接收符号串并且输出符号串的函数。基本函数CUT被表示为CUT符号串X,开始位置S,长度L,并且是从指定符号串X的指定开始位置S提取具有指定长度L的符号串的函数。例如,如果符号串X是X“ABCDABABCA”,则CUTX,02,05“CDABA”。在该示例中,通过将符号串X的长度表示为10,从对应于02的位置

36、提取具有长度为05的符号串。0084上述基本函数FIND是接收符号串并且输出向量的函数。基本函数FIND被表示为FIND符号串X,符号串X,并且是检测指定的符号串X在指定的符号串X中出现的位置并且输出表示该位置的向量的函数。例如,如果符号串X是X“CDABA”,则FINDX,“A”04,08。在该示例中,通过将符号串X的长度表示为10,在对应于04的位置和对应于08的位置检测到符号串“A”。0085上述基本函数MEAN、VARIANCE以及MEDIAN是接收向量并且输出标量的函数。基本函数MEAN是计算输入向量的所有元素的均值的函数。基本函数VARIANCE是计算输入向量的所有元素的方差的函数

37、。基本函数MEDIAN是计算输入向量的所有元素的中心值的函数。例如,如果向量V04,08,则MEANV06。0086上述基本函数LENGTH、VARIATION、APPEARANCE以及COOCCURRENCE是接收符号串并且输出标量的函数。基本函数LENGTH是输出输入的符号串的长度的函数。基本函数VARIATION是对包括在输入符号串中的符号的类型进行计数并且输出类型数量的函数。基本函数APPEARANCE被表示为APPEARANCE符号串X,符号串X,并且是输出指定符号串X中的指定符号串X的出现次数的函数。此外,基本函数COOCCURRENCE被表示为COOCCURRENCE符号串X,符

38、号串X1,符号串X2,并且是输出符号串X中的符号串X1和X2的共同出现次数的函数。0087上述基本函数POW是接收标量并且输出标量的函数。基本函数POW被表示为POW数字Q,数字N,并且是将指定数字Q升高至第N次幂的函数。例如,如果数字Q是Q06,则POWQ,2036。0088如上所述,特征量函数生成部103可以使用各种基本函数用于生成特征量函数FEF。0089特征量函数生成部103组合如上所述的基本函数并且生成多个特征量函数FEF。说明书CN102339278ACN102339291A8/17页11首先,特征量函数生成部103随机选择可以输入符号串的基本函数。如果存在要输入到随机选择的基本函

39、数的参数,则特征量函数生成部103随机决定要输入的参数。0090此后,特征量函数生成部103检查随机选择的基本函数的输出是否是标量。特征量函数生成部103还检查是否满足了与基本函数选择有关的终止条件。作为与基本函数选择有关的终止条件,例如,考虑生成的随机数等于或小于预定值的情况下终止选择的条件。如果随机选择的基本函数的输出是标量并且满足了与基本函数选择有关的终止条件,则特征量函数生成部103终止基本函数选择。0091另一方面,如果随机选择的基本函数的输出不是标量,或者如果不满足与基本函数选择有关的终止条件,则特征量函数生成部103随机选择下一基本函数。此时,特征量函数生成部103从与之前选择的

40、基本函数的输出类型例如,符号串、标量、向量等对应的基本函数当中随机选择基本函数。例如,如果之前选择的基本函数的输出是向量,则特征量函数生成部103从可以输入向量的基本函数当中随机选择下一基本函数。如果存在要输入到随机选择的基本函数的参数,则特征量函数生成部103随机决定要输入的参数。0092此后,特征量函数生成部103检查随机选择的下一基本函数的输出是否是标量。特征量函数生成部103还检查是否满足与基本函数选择有关的终止条件。如果随机选择的下一基本函数的输出是标量并且满足了与基本函数选择有关的终止条件,则特征量函数生成部103终止基本函数选择。另一方面,如果随机选择的基本函数的输出不是标量,或

41、者如果不满足与基本函数选择有关的终止条件,则特征量函数生成部103随机选择下一基本函数。0093如上所述,特征量函数生成部103顺序地选择基本函数。如果最后选择的基本函数的输出是标量并且满足了与基本函数选择有关的终止条件,则特征量函数生成部103执行的基本函数选择终止。如果基本函数选择终止,则特征量函数生成部103通过按照选择顺序组合所选择的基本函数来生成特征量函数FEF。0094例如,如果已顺序选择了基本函数CUT、FIND、MEAN以及POW,则特征量函数生成部103生成可以输入符号串X的FEFXPOWMEANFINDCUTX,02,05,“A”,2。例如,如果符号串X“ABCDABABC

42、A”被输入到特征量函数FEFX,则获得YFEFX036。基本函数CUT的参数“02”和“05”、基本函数FIND的参数“A”以及基本函数POW的参数“2”是特征量函数生成部103随机选择的参数。0095当决定了基本函数的符号串参数例如,上述基本函数FIND的参数“A”等时,特征量函数生成部103使用NGRAM分析部102输入的NGRAM出现频率信息。具体地,当特征量函数生成部103决定符号串参数时,基于NGRAM分析部102输入的出现频率信息,使用使得具有高出现频率的NGRAM的选择概率变得较高的随机数来决定符号串参数。特征量函数生成部103如上所述生成多个特征量函数FEF。特征量函数生成部1

43、03生成的多个特征量函数FEF被输入到特征量计算部105和函数输出部107。0096如果输入了多个特征量函数FEF,则特征量计算部105接收针对每个输入的特征量函数FEF的、数据输入部101输入的符号串,并且计算该符号串的特征量。例如,如果输入了特征量函数FEFJJ1至N和符号串X,则如图6所示,特征量计算部105通过将符号串X输入到特征量函数FEFJ来计算特征量XJFEFJX。例如,如果特征量函数FEFJXAPPEARANCECUTX,00,03,“OO”,则X1FEF1“我们应该更早完成它”0。说明书CN102339278ACN102339291A9/17页12同样地,如果特征量函数FEF

44、NXAPPEARANCEX,“”,则XNFEFN“今天天气很好。”1。0097如上所述由特征量计算部105算出的特征量被输入到估计函数生成部106。如果输入了特征量,则估计函数生成部106通过机器学习部1061的机器学习功能,生成用于根据输入特征量估计属性信息的估计函数。例如,如图7所示,与符号串X对应的属性信息T和特征量XJFEFJJ1至N被输入到机器学习部1061。机器学习部1061通过机器学习生成用于在输入了特征量向量XX1,XN的情况下输出属性信息T的估计函数FXWTX。即,机器学习部1061通过机器学习计算TWTX时的W线性组合权重。0098计算估计函数FX的方法不限于此,而是例如,

45、可以使用在日本专利申请早期公开第2009048266号中公开的方法。另外,可以使用能够计算估计函数FX的任何方法作为通过机器学习部1061计算估计函数FX的方法,该估计函数FX用于根据多维从属变量对应于特征量向量X估计目标变量对应于属性信息T。此处,为了便于描述,假设使用计算上述线性组合权重W类型的方法。0099如上所述由机器学习部1061算出的估计函数F被输入到有效特征量选择部1062。如果输入了估计函数F,则有效特征量选择部1062参考构成输入的估计函数F的线性组合权重W,并且从特征量X1至XN当中选择有效特征量。这里,有效特征量是有助于计算估计函数F时的计算结果的特征量。例如,如果线性组

46、合权重WW1,WN的元素WK是0,则获得相同的计算结果TWTX而与特征量XK的值无关。有效特征量选择部1062检测变为小于预定值的值或0的线性组合权重W的元素,并且选择与除检测到的元素之外的元素对应的特征量。0100有效特征量选择部1062选择的有效特征量的信息被报告给特征量函数生成部103,并且用于选择特征量函数。例如,如图8所示,如果特征量函数FEFJXAPPEARANCECUTX,00,03,“OO”算出的特征量XK有助于估计函数FX的计算结果,则特征量函数FEFK被选择作为有效特征量函数。同样地,如果特征量函数EFFQXPOWMEDIANFINDCUTX,01,03,“A”,2算出的特

47、征量XQ无助于估计函数FX的计算结果,则特征量函数FEFQ不被选择作为有效特征量函数。0101如果报告了有效特征量,则特征量函数生成部103基于所报告的内容选择有效特征量函数,并且保持所选择的特征量函数作为下一代特征量函数。此外,特征量函数生成部103使用所选择的特征量函数下文中称为上一代特征量函数来生成下一代特征量函数。首先,特征量函数生成部103通过组合随机选择的基本函数来生成预定数量的特征量函数。此时,特征量函数生成部103根据需要随机决定基本函数的参数。0102然后,特征量函数生成部103通过改变上一代特征量函数的部分突变来生成下一代特征量函数。0103例如,特征量函数生成部103将基

48、本函数CUT添加到上一代特征量函数FEFXPOWMEDIANFINDX,“B”,2,并且生成下一代特征量函数FEFXPOWMEDIANFINDCUTX,01,03,“B”,2基本函数添加。0104特征量函数生成部103通过针对上一代特征量函数FEFXPOWMEDIANFINDX,“B”,2将基本函数MEDIAN改变为基本函数VARIANCE,来生成下一代特征量函数FEFXPOWVARIANCEFINDX,“B”,2基本函数改变。说明书CN102339278ACN102339291A10/17页130105特征量函数生成部103删除包括在上一代特征量函数FEFXPOWMEDIANFINDX,“B

49、”,2中的基本函数POW,并且生成下一代特征量函数FEFXMEDIANFINDX,“B”基本函数删除。0106特征量函数生成部103以预定概率随机改变包括在上一代特征量函数FEFXPOWMEDIANFINDX,“B”,2中的基本函数FIND的参数,并且生成下一代特征量函数FEFXPOWMEDIANFINDX,“BL”,2基本函数参数改变。在改变符号串参数时,可使用NGRAM分析部102的分析结果。例如,可改变符号串参数,以改变为包括当前符号串参数的符号串的NGRAM或包括符号串的部分的NGRAM。0107特征量函数生成部103可被配置成通过组合上述“基本函数添加”、“基本函数改变”、“基本函数删除”以及“基本函数参数改变”来生成下一代特征量函数FEF。0108然后,特征量函数生成部103通过交叉两个上一代特征量函数来生成下一代特征量函数交叉。0109首先,特征量函数生成部103选择两个上一代特征量函数并且检测具有共同输出类型符号串、向量或者标量的部分。例如,考虑从上一代特征量函数选择FEF1XPOWMEDIANFINDCUTX,01,03,“B”,2和FEF2XVARIANCEFINDX,“FOO”的情况。两个特征量函数

copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1