信息处理装置、信息处理方法以及程序.pdf

上传人:a**** 文档编号:1036138 上传时间:2018-03-27 格式:PDF 页数:40 大小:1.06MB
返回 下载 相关 举报
摘要
申请专利号:

CN201110195267.7

申请日:

2011.07.07

公开号:

CN102339278A

公开日:

2012.02.01

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/27申请日:20110707|||公开

IPC分类号:

G06F17/27

主分类号:

G06F17/27

申请人:

索尼公司

发明人:

小林由幸

地址:

日本东京都

优先权:

2010.07.14 JP 2010-159598

专利代理机构:

北京集佳知识产权代理有限公司 11227

代理人:

朱胜;陈炜

PDF下载: PDF下载
内容摘要

本发明公开了一种信息处理装置、信息处理方法以及程序,该方法包括:输入多个符号串以及期望从每个符号串提取的属性信息;从包括用于将符号串转换为数值的函数的预定函数组选择多个函数,并且通过组合多个函数生成用于根据符号串输出特征量的多个特征量函数;将每个符号串输入到每个特征量函数,并且计算对应于每个符号串的特征量;使用与每个符号串对应的属性信息和与每个符号串对应的特征量来执行机器学习,并且生成用于根据特征量估计属性信息的估计函数;以及输出特征量函数和估计函数。

权利要求书

1: 一种信息处理装置, 包括 : 输入部, 用于输入多个符号串以及期望从每个符号串提取的属性信息 ; 特征量函数生成部, 用于从预定函数组选择多个函数, 并且通过组合所述多个函数生 成用于根据所述符号串输出特征量的多个特征量函数, 所述预定函数组包括用于将符号串 转换为数值的函数 ; 特征量计算部, 用于将所述输入部输入的每个符号串输入到所述特征量函数生成部生 成的每个特征量函数, 并且计算对应于每个符号串的特征量 ; 估计函数生成部, 用于使用所述输入部输入的、 与每个符号串对应的属性信息和所述 特征量计算部算出的、 与每个符号串对应的特征量来执行机器学习, 并且生成用于根据所 述特征量估计所述属性信息的估计函数 ; 以及 输出部, 用于输出所述特征量函数生成部生成的特征量函数和所述估计函数生成部生 成的估计函数。
2: 根据权利要求 1 所述的信息处理装置, 其中, 所述符号串是字符串。
3: 根据权利要求 2 所述的信息处理装置, 其中, 所述估计函数生成部包括 : 有效特征量选择部, 用于选择对于估计所述属性信息有效的特征量 ; 以及 机器学习部, 用于使用所述有效特征量选择部选择的有效特征量和与所述有效特征量 对应的属性信息来执行机器学习, 并且生成用于根据所述有效特征量估计所述属性信息的 估计函数。
4: 根据权利要求 3 所述的信息处理装置, 还包括 : 世代更替部, 用于通过假设所述特征量函数为个体并且执行个体选择、 个体间交叉以 及个体突变, 生成下一代特征量函数 ; 其中, 如果所述世代更替部生成了所述下一代特征量函数, 则所述特征量计算部使用 所述下一代特征量函数来计算特征量, 并且所述估计函数生成部使用所述特征量计算部使 用所述下一代特征量函数算出的特征量来生成估计函数, 并且 所述世代更替部生成所述下一代特征量函数、 所述特征量计算部计算所述特征量以及 所述估计函数生成部生成所述估计函数是重复地执行的。
5: 根据权利要求 4 所述的信息处理装置, 还包括 : N-gram 分析部, 用于对所述输入部输入的符号串执行 N-gram 分析, 并且测量 N-gram 出 现在所述符号串中的出现频率, 其中, 所述特征量函数生成部使用通过所述 N-gram 分析部的分析获得的 N-gram 和所 述 N-gram 出现频率, 生成所述特征量函数。
6: 一种信息处理方法, 包括 : 输入多个符号串以及期望从每个符号串提取的属性信息 ; 从包括用于将符号串转换为数值的函数的预定函数组选择多个函数, 并且通过组合所 述多个函数生成用于根据所述符号串输出特征量的多个特征量函数 ; 将每个符号串输入到每个特征量函数, 并且计算对应于每个符号串的特征量 ; 使用与每个符号串对应的属性信息和与每个符号串对应的特征量来执行机器学习, 并 且生成用于根据所述特征量估计所述属性信息的估计函数 ; 以及 输出所述特征量函数和所述估计函数。 2
7: 一种用于使计算机实现以下功能的程序 : 输入功能, 输入多个符号串以及期望从每个符号串提取的属性信息 ; 特征量函数生成功能, 从预定函数组选择多个函数, 并且通过组合所述多个函数生成 用于根据所述符号串输出特征量的多个特征量函数, 所述预定函数组包括用于将符号串转 换为数值的函数 ; 特征量计算功能, 将通过所述输入功能输入的每个符号串输入到通过所述特征量函数 生成功能生成的每个特征量函数, 并且计算对应于每个符号串的特征量 ; 估计函数生成功能, 使用通过所述输入功能输入的、 与每个符号串对应的属性信息和 通过所述特征量计算功能算出的、 与每个符号串对应的特征量来执行机器学习, 并且生成 用于根据所述特征量估计所述属性信息的估计函数 ; 以及 输出功能, 输出通过所述特征量函数生成功能生成的特征量函数和通过所述估计函数 生成功能生成的估计函数。

说明书


信息处理装置、 信息处理方法以及程序

    【技术领域】
     本公开内容涉及一种信息处理装置、 信息处理方法以及程序。背景技术 近来, 已关注于从难以量化地决定特征的任意数据组机械地提取数据组的特征量 的技术。例如, 已知自动构造用于接收任意音乐数据以及机械地提取该音乐数据所属的音 乐属类的算法的技术。诸如爵士乐、 古典音乐以及流行歌曲的音乐属类根据乐器的类型或 演奏类型是难以量化地决定的。 因此, 一般而言, 之前已认为当给定任意音乐数据时难以从 音乐数据提取音乐属类。
     然而, 实际上, 划分音乐属类的特征潜在地包括在各种信息组合中, 诸如包括在 音乐数据中的音程的组合、 音程组合方法、 乐器类型的组合、 以及旋律线或基线的结构。 因此, 已从是否可以通过机器学习自动构造提取特征的算法 ( 下文中被称作特征量提取 器 ) 的观点研究了特征量提取器。作为一个研究结果, 例如, 在日本专利申请早期公开第
     2009-048266 号中公开了基于遗传算法的特征量提取器的自动构造方法。遗传算法仿效生 物进化过程, 在机器学习过程中考虑对元素进行选择、 交叉以及突变。
     可以使用日本专利申请早期公开第 2009-048266 号中公开的自动构造特征量提 取器的算法, 自动构造用于从任意音乐数据提取音乐数据所属的音乐属类的特征量提取 器。在日本专利申请早期公开第 2009-048266 号中公开的自动构造特征量提取器的算法具 有非常高的通用性且不限于音乐数据, 并且可以自动构造从任意数据组提取数据组的特征 量的特征量提取器。因此, 日本专利申请早期公开第 2009-048266 号中公开的自动构造特 征量提取器的算法被期望应用于诸如音乐数据或视频数据的人工数据的特征量分析、 各种 自然的观测量的特征量分析等。 发明内容 目前, 需要使用上述自动构造特征量提取器的算法来自动构造语言分析算法。语 言分析算法是分析输入字符串并且估计表示该字符串的特征的属性信息的算法。 由于现有 技术的语言分析算法是手动构造的, 因此对于其开发花费了大量的时间和成本。 此外, 语言 处理的专业知识对于构造语言分析算法是必要的, 并且能够构造语言分析算法的人力是有 限的。 由于现有技术的语言分析技术是语形学分析技术或使用字典的特征量提取技术的应 用, 因此现有技术的语言分析算法依赖于语言的类型。
     期望提供一种新颖且改进的信息处理装置、 信息处理方法以及程序, 其可以自动 构造语言分析算法而无需依赖于语言的类型。 此外, 期望提供一种信息处理装置、 信息处理 方法以及程序, 其可以自动构造接收任意符号串并且估计表示符号串的特征的属性信息的 分析算法。
     根据本公开内容的实施例, 提供了一种信息处理装置, 其包括 : 输入部, 用于输入 多个符号串以及期望从每个符号串提取的属性信息 ; 特征量函数生成部, 用于从预定函数
     组选择多个函数, 并且通过组合多个函数而生成用于根据符号串输出特征量的多个特征量 函数, 该预定函数组包括用于将符号串转换成数值的函数 ; 特征量计算部, 用于将输入部输 入的每个符号串输入到特征量函数生成部生成的每个特征量函数并且计算对应于每个符 号串的特征量 ; 估计函数生成部, 用于使用输入部输入的与每个符号串对应的属性信息以 及特征量计算部算出的与每个符号串对应的特征量来执行机器学习, 并且生成用于根据特 征量估计属性信息的估计函数 ; 以及输出部, 用于输出特征量函数生成部生成的特征量函 数和估计函数生成部生成的估计函数。
     符号串可以是字符串。
     估计函数生成部可包括 : 有效特征量选择部, 用于选择对估计属性信息有效的特 征量 ; 以及机器学习部, 用于使用有效特征量选择部选择的有效特征量和与有效特征量对 应的属性信息来执行机器学习, 并且生成用于根据有效特征量估计属性信息的估计函数。
     信息处理装置还可包括世代更替部, 该世代更替部用于通过假设特征量函数为个 体并且执行个体选择、 个体间交叉以及个体突变, 生成下一代特征量函数。 如果世代更替部 已生成了下一代特征量函数, 则特征量计算部可使用下一代特征量函数计算特征量, 并且 估计函数生成部可使用特征量计算部使用下一代特征量函数算出的特征量来生成估计函 数。可重复执行世代更替部生成下一代特征量函数、 特征量计算部计算特征量以及估计函 数生成部生成估计函数。
     信息处理装置还可包括 N-gram 分析部, 该 N-gram 分析部用于对输入部输入的符 号串执行 N-gram 分析, 并且测量 N-gram 出现在符号串中的出现频率。特征量函数生成部 可使用通过 N-gram 分析部的分析获得的 N-gram 和 N-gram 出现频率来生成特征量函数。
     根据本公开内容的另一实施例, 提供了一种信息处理方法, 其包括 : 输入多个符号 串以及期望从每个符号串提取的属性信息 ; 从预定函数组选择多个函数, 并且通过组合多 个函数生成用于根据符号串输出特征量的多个特征量函数, 该预定函数组包括用于将符号 串转换成数值的函数 ; 将每个符号串输入到每个特征量函数, 并且计算对应于每个符号串 的特征量 ; 使用对应于每个符号串的属性信息和对应于每个符号串的特征量来执行机器学 习, 并且生成用于根据特征量估计属性信息的估计函数 ; 以及输出特征量函数和估计函数。
     根据本公开内容的另一实施例, 提供了一种用于使得计算机实现以下功能的程 序: 输入功能, 输入多个符号串以及期望从每个符号串提取的属性信息 ; 特征量函数生成 功能, 从预定函数组选择多个函数, 并且通过组合多个函数生成用于根据符号串输出特征 量的多个特征量函数, 该预定函数组包括用于将符号串转换成数值的函数 ; 特征量计算功 能, 将通过输入功能输入的每个符号串输入到通过特征量函数生成功能生成的每个特征量 函数, 并且计算对应于每个符号串的特征量 ; 估计函数生成功能, 使用通过输入功能输入的 与每个符号串对应的属性信息和通过特征量计算功能算出的与每个符号串对应的特征量 来执行机器学习, 并且生成用于根据特征量估计属性信息的估计函数 ; 以及输出功能, 输出 通过特征量函数生成功能生成的特征量函数和通过估计函数生成功能生成的估计函数。
     根据本公开内容的另一实施例, 提供了一种记录程序的计算机可读记录介质。
     根据上述本公开内容的实施例, 可以自动构造语言分析算法而不依赖于语言的类 型。此外, 可以自动构造接收任意符号串并且估计表示符号串的特征的属性信息的分析算 法。附图说明 图 1 是示出根据本公开内容的实施例的自动算法构造方法的概况的说明图 ;
     图 2 是示出根据同一实施例的自动算法构造方法的概况的说明图 ;
     图 3 是示出根据同一实施例的信息处理装置 ( 学习装置 ) 的功能配置的说明图 ;
     图 4 是示出在根据同一实施例的自动算法构造方法中使用的学习数据的配置的 说明图 ;
     图 5 是示出根据同一实施例的 N-gram 分析方法的说明图 ;
     图 6 是示出根据同一实施例的计算特征量函数的方法的说明图 ;
     图 7 是示出根据同一实施例的计算估计函数的方法的说明图 ;
     图 8 是示出根据同一实施例的选择有效特征量函数的方法的说明图 ;
     图 9 是示出根据同一实施例的自动算法构造方法的完整配置的说明图 ;
     图 10 是示出根据同一实施例的 N-gram 分析方法的说明图 ;
     图 11 是示出根据同一实施例的、 生成特征量函数的方法 ( 完整配置 ) 的说明图 ;
     图 12 是示出根据同一实施例的、 生成特征量函数的方法 ( 随机生成 ) 的说明图 ;
     图 13 是示出根据同一实施例的、 生成特征量函数的方法 ( 随机生成 ) 的说明图 ; 图 14 是示出根据同一实施例的、 生成特征量函数的方法 ( 进化生成 ) 的说明图 ; 图 15 是示出根据同一实施例的、 生成特征量函数的方法 ( 进化生成 ; 选择 ) 的说 图 16 是示出根据同一实施例的、 生成特征量函数的方法 ( 进化生成 ; 交叉 ) 的说 图 17 是示出根据同一实施例的、 生成特征量函数的方法 ( 进化生成 ; 突变 ) 的说明图 ;
     明图 ;
     明图 ; 图 18 是示出根据同一实施例的、 生成特征量函数的方法 ( 进化生成 ; 随机生成 ) 的说明图 ;
     图 19 是示出根据同一实施例的、 计算特征量函数的方法的说明图 ;
     图 20 是根据同一实施例的、 计算估计函数的方法的说明图 ;
     图 21 是示出根据同一实施例的信息处理装置 ( 估计装置 ) 的功能配置的说明图 ;
     图 22 是示出根据同一实施例的、 估计属性信息的方法的说明图 ; 以及
     图 23 是示出信息处理装置 ( 学习装置和估计装置 ) 的硬件配置的说明图。
     具体实施方式
     在下文中, 将参照附图详细描述本公开内容的优选实施例。 注意, 在该说明书和附 图中, 具有基本上相同的功能和结构的结构元件以相同的附图标记来表示, 并且省略这些 结构元件的重复说明。
     [ 描述流程 ]
     这里, 将简要描述与以下公开的本公开内容的实施例有关的描述流程。 首先, 将参 照图 1 和 2 描述根据本公开内容的实施例的自动算法构造方法的概况。然后, 将参照图 3 描述根据同一实施例的信息处理装置 100( 学习装置 ) 的功能配置。在此, 还将参照图 4 至8 描述学习数据的配置、 N-gram 分析方法、 计算特征量函数的方法、 计算估计函数的方法以 及选择有效特征量函数的方法等。
     然后, 将参照图 9 描述与同一实施例的自动算法构造方法有关的处理的完整流 程。然后, 将参照图 10 描述与同一实施例的 N-gram 分析方法有关的处理的流程。然后, 将 参照图 11 至 18 描述与根据同一实施例的生成特征量函数的方法有关的处理的完整流程。 然后, 将参照图 19 描述与根据同一实施例的计算特征量函数的方法有关的处理的流程。然 后, 将参照图 20 描述与根据同一实施例的计算估计函数的方法有关的处理的流程。
     然后, 将参照图 21 描述根据同一实施例的信息处理装置 200( 估计装置 ) 的功能 配置。然后, 将参照图 22 描述与根据同一实施例的估计属性信息的方法有关的处理的流 程。然后, 将参照图 23 描述能够实现根据同一实施例的信息处理装置 100 和 200 的功能的 硬件配置。最后, 将总结同一实施例的技术构思并且将简要描述从技术构思获得的功能效 果。
     ( 描述项 )
     1: 实施例
     1-1 : 概况 1-2 : 信息处理装置 100( 学习装置 ) 的功能配置
     1-3 : 自动算法构造方法
     1-3-1 : 完整处理流程
     1-3-2 : N-gram 分析
     1-3-3 : 特征量函数的生成
     1-3-4 : 特征量函数的计算
     1-3-5 : 估计函数的生成
     1-4 : 信息处理装置 200( 估计装置 ) 的功能配置
     1-5 : 估计属性信息的方法
     1-6 : 硬件配置
     2: 总结
     <1 : 实施例 >
     将描述本公开内容的实施例。该实施例涉及一种自动算法构造方法, 该方法分析 任意符号串, 并且自动构造能够估计表示符号串的特征的属性信息的分析算法。
     [1-1 : 概况 ]
     首先, 将参照图 1 简要描述根据该实施例的自动算法构造方法的概况。
     如上所述, 根据该实施例的自动算法构造方法是自动构造能够接收任意符号串 ( 例如, 字符串、 基因序列等 ) 并且估计表示符号串的特征的属性信息的分析算法的方法。 根据该方法, 例如, 如图 1 所示, 如果输入字符串 “非常好的歌曲! ” , 则可以自动构造输出属 性信息 “字符串是意见语句” 或 “字符串是肯定的” 的分析算法。
     例如, 该实施例的方法可以被应用于自动构造接收邮件文本并且自动对邮件是垃 圾邮件还是正常邮件进行分类的分析算法。 该实施例的方法可以被应用于自动构造接收邮 件文本并且自动将邮件分类为针对各种使用应用而预先分类的文件夹的分析算法。另外, 该实施例的方法可以被应用于自动构造接收写到网络的公告板上的文本并且自动辨别所
     写的文本是客观内容还是主观内容的分析算法。另外, 该实施例的方法可以被应用于自动 构造接收写到网络的公告板上的文本并且自动对所写内容是肯定的文字还是否定的文字 进行分类的分析算法。
     此外, 该实施例的方法可以被应用于自动构造接收新闻文本并且自动辨别新闻被 分类的类别 ( 例如, 政治、 经济、 艺术、 技术、 国际等 ) 的分析算法。另外, 该实施例的方法 可以被应用于自动构造接收任意文本并且自动辨别书写文本的语言 ( 例如, 英语、 日语、 德 语等 ) 的分析算法。另外, 该实施例的方法可以被应用于自动构造接收与内容有关的文本 ( 例如, 诸如新闻或小说的文本内容、 音乐、 视频等的评论、 或者介绍语句 ) 并且自动提取内 容偏好的分析算法。
     另外, 能够由该实施例的方法自动构造的分析算法可以将任何符号串设置为目 标。例如, 该实施例的方法可以被应用于自动构造接收表情符号并且自动对表情符号所属 的类别 ( 例如, 笑、 哭、 生气等 ) 进行分类的分析算法。此外, 该实施例的方法可以被应用于 自动构造如下分析算法 : 其接收名字被转换成罗马字符的符号串, 并且根据名字的音素的 风格而自动对名字是日本的还是西方的、 或者名字是新声音还是古老声音进行分类。
     另外, 该实施例的方法可以被应用于自动构造如下分析算法 : 其接收表示音乐编 码进行的字符串或以 MML 描述的旋律的字符串, 并且自动辨别该音乐心情 ( 例如, 明快、 阴 郁、 平静、 兴奋等 )。上述 MML 代表 “音乐宏语言” 。另外, 该实施例的方法可以被应用于自 动构造接收小说的文本并且自动辨别该小说所属的类别 ( 例如, 现代、 浪漫、 历史、 幻想、 恐 怖等 ) 的分析算法。 另外, 能够由该实施例的方法自动构造的分析算法不限于仅提取输入符号串的现 有特征。例如, 该实施例的方法可以被应用于自动构造接收经济新闻的文本并且估计经济 前景 ( 例如, 股票价格的上涨 / 下跌等 ) 的分析算法。另外, 该实施例的方法可以被应用于 自动构造如下分析算法 : 其接收广播节目或电影的字幕数据, 自动估计广播节目或电影的 场景或基调, 并且将其估计结果作为元数据分配给广播节目或电影。场景是例如新闻、 体 育、 综艺、 CM 等。基调是例如轻松、 严肃、 浪漫等。
     另外, 该实施例的方法可以被应用于自动构造接收博客等的书写文本并且自动估 计作者的年龄或性格 ( 例如, 阳光、 阴郁、 主动、 被动等 ) 的分析算法。此外, 该实施例的方 法可以被应用于自动构造如下分析算法 : 其接收描述疾病的主观症状的文本, 并且自动估 计疾病名称或显示与估计结果对应的建议。另外, 该实施例的方法可以被应用于自动构造 如下分析算法 : 其接收应试者在进入考试期间提交的材料的文本, 并且估计在应试者加入 公司之后五年的个人评估。
     另外, 该实施例的方法可以被应用于自动构造如下分析算法 : 其接收表示基因的 基本序列的符号串, 并且估计在未来可能出现的、 具有该基因的人类或动物的疾病。 该实施 例的方法可以被应用于自动构造如下分析算法 : 其接收表示基因的基本序列的符号串, 并 且估计具有该基因的人类或动物的性格。如上所述, 因为该实施例的方法可以被应用于任 意符号串被设置为目标的分析算法, 因此其应用范围非常宽。
     顺便提及, 如图 2 中所示地配置由该实施例的方法自动构造的分析算法。如图 2 所示, 如果输入符号串 X, 则分析算法首先通过将输入的符号串 X 输入到特征量函数 FEF 来 计算特征量, 并且通过将特征量输入到估计函数 f 来计算属性信息 y。 特征量函数 FEF 和估
     计函数 f 是由该实施例的方法自动预先生成的。换言之, 自动生成能够准确估计属性信息 的一组特征量函数 FEF 和估计函数 f 的机制是根据该实施例的自动算法构造方法。
     以上已描述了根据该实施例的自动算法构造方法的概况。
     [1-2. 信息处理装置 100( 学习装置 ) 的功能配置 ]
     接下来, 将参照图 3 描述根据该实施例的、 能够实现自动算法构造方法的信息处 理装置 100( 学习装置 ) 的功能配置。图 3 是示出根据该实施例的信息处理装置 100 的功 能配置的说明图。
     如图 3 所示, 信息处理装置 100 具有数据输入部 101、 N-gram 分析部 102、 特征量 函数生成部 103、 存储部 104、 特征量计算部 105、 估计函数生成部 106 以及函数输出部 107。 估计函数生成部 106 包括机器学习部 1061 和有效特征量选择部 1062。
     首先, 一组符号串和属性信息被输入到数据输入部 101 作为学习数据。例如, 如图 4 所示的一组符号串 X 和属性信息 t 被输入到数据输入部 101。在图 4 的示例中, 符号串 X 是字符串并且属性信息 t 是表示字符串是否是意见语句的指标。 例如, 字符串 “我们应该更 早完成它 ...” 表示人的意见。因此, 表示意见语句的值 1 被分配给该字符串作为属性信息 t。另一方面, 字符串 “今天天气很好。 ” 不表示人的意见。因此, 不表示意见语句的值 0 被 分配给该字符串作为属性信息 t。
     如上所述, 一组符号串和属性信息被输入到数据输入部 101。如果输入了一组符 号串和属性信息, 则数据输入部 101 将输入的符号串输入到 N-gram 分析部 102 和特征量计 算部 105。另外, 数据输入部 101 将属性信息输入到包括在估计函数生成部 106 中的机器 学习部 1061。如果输入了符号串, 则 N-gram 分析部 102 从输入的符号串提取 N-gram( 由 N 个符号构成的符号单位 ), 并且如图 5 所示检测每个 N-gram 的出现频率。由一个符号构成 的符号单位被称为单 gram, 而由两个符号构成的符号单位被称为双 gram。
     例如, 如果输入串 “abcababcdedef” , 则 N-gram 分析部 102 通过组合单 gram 而提 取 {a, b, c, a, b, a, b, c, d, e, d, e, f}。另外, N-gram 分析部 102 通过组合双 gram 而提取 {ab, bc, ca, ab, ba, ab, bc, cd, de, ed, de, ef}。同样地, N-gram 分析部 102 从输入的字符 串提取 m-gram(m = 3 至 13) 的组合。如果字符串的长度是 L, 则提取 (L-m+1) 个 m-gram 的 组合。
     然后, N-gram 分析部 102 按照符号索引 ( 例如, 字符码 ) 的顺序对提取的 n-gram(n = 1 至 13) 的组合进行排序。例如, 单 gram 的组合 {a, b, c, a, b, a, b, c, d, e, d, e, f} 被 N-gram 分析部 102 排序为 {a, a, a, b, b, b, c, c, d, d, e, e, f}。另外, 双 gram 的组合 {ab, bc, ca, ab, ba, ab, bc, cd, de, ed, de, ef} 被 N-gram 分析部 102 排序为 {ab, ab, ab, ba, bc, bc, ca, cd, de, de, ed, ef}。同样地, 对 m-gram(m = 3 至 13) 的组合进行排序。
     然后, N-gram 分析部 102 基于排序后的每个 n-gram 组合检测每个 n-gram 的出现 频率, 并且生成出现频率信息。例如, N-gram 分析部 102 根据排序后的单 gram 组合 {a, a, a, b, b, b, c, c, d, d, e, e, f} 生成出现频率信息 {a:3, b:3, c:2, d:2, e:2, f:1}。出现频率 信息表示 a 出现三次, b 出现三次, c 出现两次, d 出现两次, e 出现两次, 并且 f 出现一次。 另外, N-gram 分析部 102 根据排序后的双 gram 的组合 {ab, ab, ab, ba, bc, bc, ca, cd, de, de, ed, ef} 生成出现频率信息 {ab:3, ba:1, bc:2, ca:1, cd:1, de:2, ed:1, ef:1}。同样地, 还根据 m-gram 的组合生成出现频率信息。然后, N-gram 分析部 102 将 n-gram(n = 1 至 13) 的出现频率信息合并为一个并且 按照出现频率对出现频率信息进行排序。例如, 如果单 gram 出现频率信息 {a:3, b:3, c:2, d:2, e:2, f:1} 和双 gram 出现频率信息 {ab:3, ba:1, bc:2, ca:1, cd:1, de:2, ed:1, ef:1} 是按照出现频率的降序来合并和排序的, 则获得 {a:3, b:3, ab:3, c:2, d:2, e:2, bc:2, de:2, f:1, ba:1, ca:1, cd:1, ed:1, ef:1}。如果该处理被应用于图 4 中示出的符号串 X, 则如图 5 所示获得表示每个 n-gram 出现频率的出现频率信息。
     如上所述, N-gram 分析部 102 生成的出现频率信息被输入到特征量函数生成部 103。如上所述, 来自数据输入部 101 的符号串以及来自 N-gram 分析部 102 的出现频率信 息被输入到特征量函数生成部 103。 如果输入了符号串, 则特征量函数生成部 103 通过组合 已在存储部 104 中准备好的基本函数来生成特征量函数 FEF。基本函数是例如 Cut、 Find、 Mean、 Variance、 Median、 Length、 Variation、 Apperance、 Co-Occurance、 Pow 等。
     这里, 补充了上述基本函数的示例的描述。
     上述基本函数 Cut 是接收符号串并且输出符号串的函数。基本函数 Cut 被表示为 Cut( 符号串 X, 开始位置 S, 长度 L), 并且是从指定符号串 X 的指定开始位置 S 提取具有指 定长度 L 的符号串的函数。例如, 如果符号串 X 是 X = “ABCDABABCA” , 则 Cut(X, 0.2, 0.5) = “CDABA” 。在该示例中, 通过将符号串 X 的长度表示为 1.0, 从对应于 0.2 的位置提取具 有长度为 0.5 的符号串。 上述基本函数 Find 是接收符号串并且输出向量的函数。基本函数 Find 被表示为 Find( 符号串 X, 符号串 X’ ), 并且是检测指定的符号串 X’ 在指定的符号串 X 中出现的位置 并且输出表示该位置的向量的函数。例如, 如果符号串 X 是 X = “CDABA” , 则 Find(X, “A” ) = {0.4, 0.8}。在该示例中, 通过将符号串 X 的长度表示为 1.0, 在对应于 0.4 的位置和对 应于 0.8 的位置检测到符号串 “A” 。
     上述基本函数 Mean、 Variance 以及 Median 是接收向量并且输出标量的函数。基 本函数 Mean 是计算输入向量的所有元素的均值的函数。基本函数 Variance 是计算输入向 量的所有元素的方差的函数。基本函数 Median 是计算输入向量的所有元素的中心值的函 数。例如, 如果向量 V = {0.4, 0.8}, 则 Mean(V) = 0.6。
     上 述 基 本 函 数 Length、 Variation、 Appearance 以 及 Co-Occurrence 是 接 收 符 号串并且输出标量的函数。基本函数 Length 是输出输入的符号串的长度的函数。基本 函数 Variation 是对包括在输入符号串中的符号的类型进行计数并且输出类型数量的函 数。基本函数 Appearance 被表示为 Appearance( 符号串 X, 符号串 X’ ), 并且是输出指定 符号串 X 中的指定符号串 X’ 的出现次数的函数。此外, 基本函数 Co-Occurrence 被表示为 Co-Occurrence( 符号串 X, 符号串 X1, 符号串 X2), 并且是输出符号串 X 中的符号串 X1 和 X2 的共同出现次数的函数。
     上述基本函数 Pow 是接收标量并且输出标量的函数。基本函数 Pow 被表示为 Pow( 数字 q, 数字 n), 并且是将指定数字 q 升高至第 n 次幂的函数。例如, 如果数字 q 是 q = 0.6, 则 Pow(q, 2) = 0.36。
     如上所述, 特征量函数生成部 103 可以使用各种基本函数用于生成特征量函数 FEF。
     特征量函数生成部 103 组合如上所述的基本函数并且生成多个特征量函数 FEF。
     首先, 特征量函数生成部 103 随机选择可以输入符号串的基本函数。如果存在要输入到随 机选择的基本函数的参数, 则特征量函数生成部 103 随机决定要输入的参数。
     此后, 特征量函数生成部 103 检查随机选择的基本函数的输出是否是标量。特征 量函数生成部 103 还检查是否满足了与基本函数选择有关的终止条件。作为与基本函数选 择有关的终止条件, 例如, 考虑生成的随机数等于或小于预定值的情况下终止选择的条件。 如果随机选择的基本函数的输出是标量并且满足了与基本函数选择有关的终止条件, 则特 征量函数生成部 103 终止基本函数选择。
     另一方面, 如果随机选择的基本函数的输出不是标量, 或者如果不满足与基本函 数选择有关的终止条件, 则特征量函数生成部 103 随机选择下一基本函数。此时, 特征量函 数生成部 103 从与之前选择的基本函数的输出类型 ( 例如, 符号串、 标量、 向量等 ) 对应的 基本函数当中随机选择基本函数。 例如, 如果之前选择的基本函数的输出是向量, 则特征量 函数生成部 103 从可以输入向量的基本函数当中随机选择下一基本函数。如果存在要输入 到随机选择的基本函数的参数, 则特征量函数生成部 103 随机决定要输入的参数。
     此后, 特征量函数生成部 103 检查随机选择的下一基本函数的输出是否是标量。 特征量函数生成部 103 还检查是否满足与基本函数选择有关的终止条件。如果随机选择的 下一基本函数的输出是标量并且满足了与基本函数选择有关的终止条件, 则特征量函数生 成部 103 终止基本函数选择。另一方面, 如果随机选择的基本函数的输出不是标量, 或者如 果不满足与基本函数选择有关的终止条件, 则特征量函数生成部 103 随机选择下一基本函 数。 如上所述, 特征量函数生成部 103 顺序地选择基本函数。如果最后选择的基本函 数的输出是标量并且满足了与基本函数选择有关的终止条件, 则特征量函数生成部 103 执 行的基本函数选择终止。如果基本函数选择终止, 则特征量函数生成部 103 通过按照选择 顺序组合所选择的基本函数来生成特征量函数 FEF。
     例如, 如果已顺序选择了基本函数 Cut、 Find、 Mean 以及 Pow, 则特征量函数生成部 103 生成可以输入符号串 X 的 FEF(X) = Pow(Mean(Find(Cut(X, 0.2, 0.5), “A” )), 2)。 例如, 如果符号串 X = “ABCDABABCA” 被输入到特征量函数 FEF(X), 则获得 Y = FEF(X) = 0.36。 基本函数 Cut 的参数 “0.2” 和 “0.5” 、 基本函数 Find 的参数 “A” 以及基本函数 Pow 的参数 “2” 是特征量函数生成部 103 随机选择的参数。
     当决定了基本函数的符号串参数 ( 例如, 上述基本函数 Find 的参数 “A” 等 ) 时, 特征量函数生成部 103 使用 N-gram 分析部 102 输入的 n-gram 出现频率信息。具体地, 当 特征量函数生成部 103 决定符号串参数时, 基于 N-gram 分析部 102 输入的出现频率信息, 使用使得具有高出现频率的 n-gram 的选择概率变得较高的随机数来决定符号串参数。特 征量函数生成部 103 如上所述生成多个特征量函数 FEF。特征量函数生成部 103 生成的多 个特征量函数 FEF 被输入到特征量计算部 105 和函数输出部 107。
     如果输入了多个特征量函数 FEF, 则特征量计算部 105 接收针对每个输入的特征 量函数 FEF 的、 数据输入部 101 输入的符号串, 并且计算该符号串的特征量。例如, 如果输 入了特征量函数 FEFj(j = 1 至 N) 和符号串 X, 则如图 6 所示, 特征量计算部 105 通过将符 号串 X 输入到特征量函数 FEFj 来计算特征量 xj = FEFj(X)。例如, 如果特征量函数 FEFj(X) = Appearance(Cut(X, 0.0, 0.3), “OO” ), 则 x1 = FEF1(“我们应该更早完成它 ...” ) = 0。
     同样地, 如果特征量函数 FEFN(X) = Appearance(X, “.” ), 则 xN = FEFN(“今天天气很好。 ” ) = 1。
     如上所述由特征量计算部 105 算出的特征量被输入到估计函数生成部 106。如果 输入了特征量, 则估计函数生成部 106 通过机器学习部 1061 的机器学习功能, 生成用于根 据输入特征量估计属性信息的估计函数。例如, 如图 7 所示, 与符号串 X 对应的属性信息 t 和特征量 xj = FEFj(j = 1 至 N) 被输入到机器学习部 1061。机器学习部 1061 通过机器 学习生成用于在输入了特征量向量 x = {x1, ..., xN} 的情况下输出属性信息 t 的估计函数 T f(x) = w x。即, 机器学习部 1061 通过机器学习计算 t = wTx 时的 w( 线性组合权重 )。
     计算估计函数 f(x) 的方法不限于此, 而是例如, 可以使用在日本专利申请早期公 开第 2009-048266 号中公开的方法。另外, 可以使用能够计算估计函数 f(x) 的任何方法作 为通过机器学习部 1061 计算估计函数 f(x) 的方法, 该估计函数 f(x) 用于根据多维从属变 量 ( 对应于特征量向量 x) 估计目标变量 ( 对应于属性信息 t)。此处, 为了便于描述, 假设 使用计算上述线性组合权重 w 类型的方法。
     如上所述由机器学习部 1061 算出的估计函数 f 被输入到有效特征量选择部 1062。 如果输入了估计函数 f, 则有效特征量选择部 1062 参考构成输入的估计函数 f 的线性组合 权重 w, 并且从特征量 x1 至 xN 当中选择有效特征量。这里, 有效特征量是有助于计算估计 函数 f 时的计算结果的特征量。例如, 如果线性组合权重 w = {w1, ...wN} 的元素 wk 是 0, 则 T 获得相同的计算结果 t = w x 而与特征量 xk 的值无关。有效特征量选择部 1062 检测变为 小于预定值的值或 0 的线性组合权重 w 的元素, 并且选择与除检测到的元素之外的元素对 应的特征量。
     有 效 特 征 量 选 择 部 1062 选 择 的 有 效 特 征 量 的 信 息 被 报 告 给 特 征 量 函 数 生 成 部 103, 并 且 用 于 选 择 特 征 量 函 数。 例 如, 如 图 8 所 示, 如 果 特 征 量 函 数 FEFj(X) = Appearance(Cut(X, 0.0, 0.3), “OO” ) 算 出 的 特 征 量 xk 有 助 于 估 计 函 数 f(x) 的 计 算 结 果, 则特征量函数 FEFk 被选择作为有效特征量函数。同样地, 如果特征量函数 EFFq(X) = Pow(Median(Find(Cut(X, 0.1, 0.3), “A” )), 2) 算出的特征量 xq 无助于估计函数 f(x) 的计 算结果, 则特征量函数 FEFq 不被选择作为有效特征量函数。
     如果报告了有效特征量, 则特征量函数生成部 103 基于所报告的内容选择有效特 征量函数, 并且保持所选择的特征量函数作为下一代特征量函数。此外, 特征量函数生成 部 103 使用所选择的特征量函数 ( 下文中称为上一代特征量函数 ) 来生成下一代特征量函 数。首先, 特征量函数生成部 103 通过组合随机选择的基本函数来生成预定数量的特征量 函数。此时, 特征量函数生成部 103 根据需要随机决定基本函数的参数。
     然后, 特征量函数生成部 103 通过改变上一代特征量函数的部分 ( 突变 ) 来生成 下一代特征量函数。
     例 如, 特 征 量 函 数 生 成 部 103 将 基 本 函 数 Cut 添 加 到 上 一 代 特 征 量 函 数 FEF(X) = Pow(Median(Find(X, “B” )), 2), 并 且 生 成 下 一 代 特 征 量 函 数 FEF(X) = Pow(Median(Find(Cut(X, 0.1, 0.3), “B” )), 2)( 基本函数添加 )。
     特 征 量 函 数 生 成 部 103 通 过 针 对 上 一 代 特 征 量 函 数 FEF(X) = Pow(Median(Find(X, “B” )), 2) 将基本函数 Median 改变为基本函数 Variance, 来生成下一 代特征量函数 FEF(X) = Pow(Variance(Find(X, “B” )), 2)( 基本函数改变 )。特 征 量 函 数 生 成 部 103 删 除 包 括 在 上 一 代 特 征 量 函 数 FEF(X) = Pow(Median(Find(X, “B” )), 2) 中的基本函数 Pow, 并且生成下一代特征量函数 FEF(X) = Median(Find(X, “B” ))( 基本函数删除 )。
     特征量函数生成部 103 以预定概率随机改变包括在上一代特征量函数 FEF(X) = Pow(Median(Find(X, “B” )), 2) 中的基本函数 Find 的参数, 并且生成下一代特征量函数 FEF(X) = Pow(Median(Find(X, “BL” )), 2)( 基本函数参数改变 )。在改变符号串参数时, 可使用 N-gram 分析部 102 的分析结果。例如, 可改变符号串参数, 以改变为包括当前符号 串参数的符号串的 n-gram 或包括符号串的部分的 n-gram。
     特征量函数生成部 103 可被配置成通过组合上述 “基本函数添加” 、 “基本函数改 变” 、 “基本函数删除” 以及 “基本函数参数改变” 来生成下一代特征量函数 FEF。
     然后, 特征量函数生成部 103 通过交叉两个上一代特征量函数来生成下一代特征 量函数 ( 交叉 )。
     首先, 特征量函数生成部 103 选择两个上一代特征量函数并且检测具有共同输出 类型 ( 符号串、 向量或者标量 ) 的部分。例如, 考虑从上一代特征量函数选择 FEF1(X) = Pow(Median(Find(Cut(X, 0.1, 0.3), “B” )), 2) 和 FEF2(X) = Variance(Find(X, “Foo” )) 的情况。两个特征量函数 FEF1 和 FEF2 共同包括输出类型是向量的部分 Find(...)。特 征量函数生成部 103 通过交叉 Find(...) 的部分来生成下一代特征量函数 FEF(X) = Pow(Median(Find(X, “Foo” )), 2)。
     如上所述, 通过进化技术 ( 选择、 随机生成、 突变或者交叉 ) 生成的下一代特征量 函数被输入到特征量计算部 105。 如果输入了下一代特征量函数, 则特征量计算部 105 通过 将符号串输入到输入的下一代特征量函数来计算特征量。特征量计算部 105 算出的特征量 被输入到估计函数生成部 106。 如果输入了使用下一代特征量函数算出的特征量, 则估计函 数生成部 106 通过机器学习部 1061 的功能来估计估计函数 f, 并且通过有效特征量选择部 1062 的功能选择有效特征量。有效特征量选择部 1062 选择的有效特征量的信息被报告给 特征量函数生成部 103。
     如果报告了有效特征量的信息, 则特征量函数生成部 103 基于所报告的有效特征 量信息而选择有效特征量函数, 并且保持所选择的特征量函数作为下一代特征量函数。然 后, 特征量函数生成部 103 使用所选择的特征量函数来生成下一代特征量函数。特征量函 数生成部 103 生成的下一代特征量函数被输入到特征量计算部 105。如果输入了下一代特 征量函数, 则特征量计算部 105 通过将符号串输入到输入的下一代特征量函数来计算特征 量。 特征量计算部 105 算出的特征量被输入到估计函数生成部 106。 如果特征量计算部 105 输入了特征量, 则估计函数生成部 106 基于输入的特征量而生成估计函数。
     如上所述, 在信息处理装置 100 中, 针对特征量函数重复执行世代更替, 并且顺序 生成一组特征量函数和估计函数。执行重复处理直到满足预定终止条件 ( 例如, 用户的终 止操作的存在 / 不存在 ) 为止。如果满足了预定终止条件, 则估计函数生成部 106 将当前 代估计函数输入到函数输出部 107。特征量函数生成部 103 将一组当前代特征量函数输入 到函数输出部 107。 如果输入了估计函数和一组特征量函数, 则函数输出部 107 输出所输入 的估计函数和该组特征量函数。
     以上描述了根据该实施例的信息处理装置 100 的功能配置。如上所述, 信息处理装置 100 重复执行诸如特征量函数生成、 特征量计算、 估计函数生成以及有效特征量选择 的处理。另外, 信息处理装置 100 通过特征量函数生成部 103 的功能, 基于进化技术而执行 特征量函数的世代更替。 如上所述, 获得了估计函数和一组特征量函数, 其可以通过基于进 化技术重复地优化特征量函数, 根据给定的符号串准确地计算属性信息。 即, 自动构造从符 号串准确地估计属性信息的算法。
     [1-3. 自动算法构造方法 ]
     接下来, 将描述与该实施例的自动算法构造方法有关的处理的流程。
     (1-3-1. 完整处理流程 )
     首先, 将参照图 9 描述与该实施例的自动算法构造方法有关的处理的完整流程。 图 9 是示出与该实施例的自动算法构造方法有关的处理的完整流程的说明图。
     如图 9 所示, 首先, 将学习数据 ( 符号串 X 和属性信息 t) 输入到信息处理装置 100(S101)。如果输入了学习数据, 则信息处理装置 100 通过 N-gram 分析部 102 的功能来 对输入的符号串 X 执行 N-gram 分析 (S102)。然后, 信息处理装置 100 通过特征量函数生 成部 103 的功能生成多个特征量函数 (S103)。然后, 信息处理装置 100 通过特征量计算部 105 的功能, 通过将符号串 X 输入到各个特征量函数来计算特征量 (S104)。然后, 信息处理 装置 100 通过估计函数生成部 106 的功能, 使用算出的特征量和属性信息 t 来生成估计函 数 (S105)。
     然后, 信息处理装置 100 基于预定终止条件 ( 例如, 用户的终止操作的存在 / 不存 在 ) 而确定是否终止学习处理 ( 特征量函数和估计函数的更新处理 )(S106)。如果学习处 理终止, 则信息处理装置 100 将处理移动到步骤 S107。另一方面, 如果学习处理没有终止, 则信息处理装置 100 将处理返回到步骤 S103。如果处理移动到步骤 S107, 则信息处理装置 100 通过函数输出部 107 的功能输出特征量函数和估计函数 (S107)。
     以上描述了完整处理流程。在下文中, 将更详细地描述 N-gram 分析处理、 特征量 函数生成处理、 特征量计算处理以及估计函数生成处理的处理流程。
     (1-3-2.N-gram 分析 )
     首先, 将参照图 10 更详细地描述 N-gram 分析处理的流程。图 10 是示出 N-gram 分析处理的流程的说明图。N-gram 分析处理主要由 N-gram 分析部 102 来执行。
     如图 10 所示, N-gram 分析部 102 开始 N-gram 有关的处理循环 (n = 1 至 N 个循 环 )(S111)。如果开始了 N-gram 有关的处理循环, 则 N-gram 分析部 102 首先设置 n = 1, 并且从包括在学习数据中的符号串 X 提取所有一个符号的组合 (S112)。例如, 如果给定 “abcababcdedef” 作为符号串 X, 则 N-gram 分析部 102 从符号串 X 提取所有单 gram{a, b, c, a, b, a, b, c, d, e, d, e, f}。
     然后, N-gram 分析部 102 按照符号索引 ( 例如, 字符码 ) 的顺序对提取的单 gram 进行排序 (S113)。例如, 如果一组提取的单 gram 是 {a, b, c, a, b, a, b, c, d, e, d, e, f}, 则 N-gram 分析部 102 将该组单 gram 排序为 {a, a, a, b, b, b, c, c, d, d, e, e, f}。然后, N-gram 分析部 102 基于一组排序后的单 gram 检测每个单 gram 的出现频率, 并且生成表示出现频 率的 n-gram 信息 ( 出现频率信息 )(S114)。例如, 如果该组排序后的单 gram 是 {a, a, a, b, b, b, c, c, d, d, e, e, f}, 则 N-gram 分析部 102 生成 {a:3, b:3, c:2, d:2, e:2, f:1} 作为 单 gram 的出现频率信息。然后, N-gram 分析部 102 将 n 递增 1(S115), 并且重新执行步骤 S112 至 S114 的处 理步骤。如果完成对于 n = 1 至 N 的步骤 S112 至 S114 的处理, 则 N-gram 分析部 102 终止 N-gram 有关的处理循环并且将处理移动到步骤 S116(S115)。 如果处理移动到步骤 S116, 则 N-gram 分析部 102 将单 gram 到 N-gram 的出现频率信息合并为一个, 并且按照出现频率的 降序对出现频率信息进行排序 (S116)。在步骤 S116 中排序的出现频率信息被输入到特征 量函数生成部 103, 并且终止与 N-gram 分析有关的一系列处理。
     以上描述了 N-gram 分析处理的流程。
     (1-3-3 : 特征量函数的生成 )
     接下来, 将参照图 11 至 18 更详细地描述与特征量函数生成有关的处理的流程。 图 11 至 18 是示出与特征量函数生成有关的处理的更多细节的说明图。由特征量函数生成部 103 执行与特征量函数生成有关的处理。
     首先, 参照图 11。如图 11 所示, 特征量函数生成部 103 确定要生成的特征量函数 是否是第二代或更后面的代 (S121)。即, 特征量函数生成部 103 确定是否生成用于学习数 据的输入的第一特征量函数。如果特征量函数不是第二代或更后面的代 ( 如果生成了第一 特征量函数 ), 则特征量函数生成部 103 将处理移动到步骤 S122。另一方面, 如果特征量函 数是第二代或更后面的代, 则特征量函数生成部 103 将处理移动到步骤 S123。 如果处理移动到步骤 S122, 则特征量函数生成部 103 通过随机组合基本函数来生 成预定数量的特征量函数 ( 在下文中称为特征量函数列表 )(S122)。 另一方面, 如果处理移 动到步骤 S123, 则特征量函数生成部 103 使用进化技术来更新特征量函数列表 (S123)。
     ( 步骤 S122 的细节 : 特征量函数的随机生成 )
     这里, 将参照图 12 更详细地描述步骤 S122( 参见图 11) 的处理。
     如图 12 所示, 特征量函数生成部 103 首先开始与特征量函数列表有关的处理循 环 (M = 0 至 m 个循环 )(S131)。在这点上, m 是包括在特征量函数列表中的特征量函数的 数量。如果开始了处理循环, 则特征量函数生成部 103 通过随机组合基本函数来生成特征 量函数 (S132)。然后, 特征量函数生成部 103 将随机生成的特征量函数添加到特征量函数 列表 (S133)。然后, 特征量函数生成部 103 将 M 递增 1(S134), 并且重新执行步骤 S132 和 S133 的处理。在这点上, 如果完成了对于 M = m-1 的步骤 S132 和 S133 的处理, 则特征量函 数生成部 103 终止与步骤 S122 有关的一系列处理。
     ( 步骤 S132 的细节 )
     接下来, 将参照图 13 更详细地描述步骤 S132( 参见图 12) 的处理。
     如图 13 所示, 特征量函数生成部 103 首先将当前数据类型 ( 符号串、 向量、 标量 等 ) 设置为 “符号串” (S141)。然后, 特征量函数生成部 103 从多个已经准备好的基本函数 当中提取可以输入被设置为当前数据类型的数据类型的基本函数 (S142)。例如, 如果当前 数据类型是 “符号串” , 则提取基本函数 Cut、 Find 等。然后, 特征量函数生成部 103 从在步 骤 S142 中提取的基本函数中随机选择一个基本函数, 并且将所选择的基本函数添加到特 征量函数 (S143)。
     然后, 特征量函数生成部 103 随机决定基本函数的参数 (S144)。 然后, 特征量函数 生成部 103 将添加到特征量函数的基本函数的输出类型设置为当前数据类型 (S145)。例 如, 如果被添加到特征量函数的基本函数是 Find, 则 Find 的输出类型 “向量” 被设置为当前
     数据类型。然后, 特征量函数生成部 103 确定当前数据类型是否是 “标量” , 以及是否达到了 预定终止条件 (S146)。
     例如, 如下条件被认为是预定终止条件 : 如果随机决定数量的基本函数已被添加 到特征量函数则终止, 或者如果步骤 S146 中生成的随机数等于或小于预定值则终止。如果 当前数据类型不是 “标量” 或者尚未达到预定终止条件, 则特征量函数生成部 103 重新将处 理移动到步骤 S142。另一方面, 如果当前数据类型是 “标量” 并且达到了预定终止条件, 则 特征量函数生成部 103 终止与步骤 S132 有关的一系列处理。
     ( 步骤 S123 的细节 : 通过进化技术进行的特征量函数生成 )
     接下来, 将参照图 14 更详细地描述步骤 S123( 参见图 11) 的处理。
     如图 14 所示, 特征量函数生成部 103 首先决定交叉数 mx、 突变数 mm 以及随机生成 数 mr(S151)。 在这点上, 如果上一代特征量函数当中的、 保留在下一代中的特征量函数的数 量是 ms, 则决定 mx、 mm 以及 mr 使得满足 ms+mx+mm+mr = m。
     然后, 特征量函数生成部 103 从上一代特征量函数中选择要保留的 ms 个特征量函 数 (S152)。然后, 特征量函数生成部 103 从在步骤 S152 选择的特征量函数当中选择两个 特征量函数, 并且通过交叉这两个特征量函数来生成新的特征量函数 (S153)。然后, 特征 量函数生成部 103 通过使得在步骤 S152 中选择的特征量函数突变来生成新的特征量函数 (S154)。然后, 特征量函数生成部 103 通过随机组合基本函数来随机生成新的特征量函数 (S155)。 在下文中, 将更详细地描述选择 (S152)、 交叉 (S153)、 突变 (S154) 以及随机生成 (S155) 的各个处理步骤。
     ( 步骤 S152 的细节 : 选择 )
     首先, 将参照图 15 更详细地描述步骤 S152( 参见图 14) 的处理。如图 15 所示, 特 征量函数生成部 103 从上一代特征量函数列表中选择有效特征量函数, 并且将该有效特征 量函数添加到下一代特征量函数列表 (S161)。 基于当生成上一代估计函数时获得的有效特 征量的信息来决定有效特征量函数。
     ( 步骤 S153 的细节 : 交叉 )
     接下来, 将参照图 16 更详细地描述步骤 S153( 参见图 14) 的处理。
     如图 16 所示, 首先, 特征量函数生成部 103 开始与索引 MX(MX = 0 至 mx-1) 有关 的处理循环 (S171)。 然后, 特征量函数生成部 103 从在步骤 S152 选择的上一代特征量函数 中随机选择一个特征量函数 (S172)。在步骤 S172 中选择的特征量函数被表示为 ( 表达式 A)。然后, 特征量函数生成部 103 从在步骤 S152 选择的上一代特征量函数中选择与 ( 表达 式 A) 不同的一个特征量函数 (S173)。在步骤 S173 中选择的特征量函数被表示为 ( 表达式 B)。
     然后, 特征量函数生成部 103 通过重新组合 ( 表达式 A) 和 ( 表达式 B) 的一些元 素来生成新的特征量函数 (S174)。 然后, 特征量函数生成部 103 将在步骤 S174 中生成的新 特征量函数添加到下一代特征量函数列表 (S175)。然后, 特征量函数生成部 103 通过将索 引 MX 递增 1 而使处理返回到步骤 S172(S176)。在这点上, 如果完成了对于索引 MX = 0 至 mx-1 的步骤 S172 至 S175 的处理, 则特征量函数生成部 103 终止与交叉有关的一系列处理。
     ( 步骤 S154 的细节 : 突变 )
     接下来, 将参照图 17 更详细地描述步骤 S154( 参见图 14) 的处理。
     如图 17 所示, 特征量函数生成部 103 首先开始与索引 MM(MM = 0 至 mm-1) 有关的 处理循环 (S181)。 然后, 特征量函数生成部 103 从在步骤 S152 选择的上一代特征量函数中 随机选择一个特征量函数 (S182)。然后, 特征量函数生成部 103 通过随机改变在步骤 S182 中选择的特征量函数的一些元素来生成新的特征量函数 (S183)。然后, 特征量函数生成部 103 将在步骤 S183 中生成的新的特征量函数添加到下一代特征量函数列表 (S184)。然后, 特征量函数生成部 103 通过将索引 MM 递增 1 而使得处理返回至步骤 S182(S185)。在这点 上, 如果完成了对于索引 MM = 0 至 mm-1 的步骤 S182 至 S184 的处理, 则特征量函数生成部 103 终止与突变有关的一系列处理。
     ( 步骤 S155 的细节 : 随机生成 )
     现在将参照图 18 更详细地描述步骤 S155( 参见图 14) 的处理。
     如图 18 所示, 特征量函数生成部 103 首先开始与索引 MR(MR = 0 至 mr-1) 有关 的处理循环 (S191)。然后, 特征量函数生成部 103 通过随机组合基本函数来生成新的特 征量函数 (S192)。步骤 S192 的处理与图 13 中示出的步骤 S132 的处理基本相同。然后, 特征量函数生成部 103 将在步骤 S192 中生成的新的特征量函数添加到下一代特征量函数 列表 (S193)。然后, 特征量函数生成部 103 通过将索引 MR 递增 1 而使得处理返回至步骤 S192(S194)。在这点上, 如果完成了对于索引 MR = 0 至 mr-1 的步骤 S192 和 S193 的处理, 则特征量函数生成部 103 终止与随机生成有关的一系列处理。
     以上描述了与特征量函数生成有关的处理流程。如上所述, 第一代特征量函数列 表是随机生成的, 而第二代或更后面代的特征量函数列表是通过进化技术生成的。
     (1-3-4 : 特征量函数的计算 )
     接下来, 将参照图 19 更详细地描述与特征量函数计算有关的处理的流程。图 19 是更详细地示出与特征量函数计算有关的处理的流程的说明图。 与特征量函数计算有关的 处理主要由特征量计算部 105 来执行。
     如图 19 所示, 特征量计算部 105 首先开始与包括在学习数据中的符号串 {X(i)} 有 关的处理循环 ( 符号串循环 )(S201)。例如, 如果 q 个符号串 X(1)、 ...、 X(q) 包括在学习数据 中, 则特征量计算部 105 在索引 i = 1 至 q 的符号串循环内执行处理。然后, 特征量计算部 105 开始与包括在特征量函数列表中的特征量函数 {FEFj} 有关的处理循环 ( 特征量函数循 环 )(S202)。例如, 如果特征量函数 FEF1、 ...、 FEFm 包括在特征量函数列表中, 则特征量计 算部 105 在索引 j = 1 至 m 的特征量函数循环内执行处理。
     然后, 特征量计算部 105 计算符号串 X(j) 的特征量函数 FEFj, 并且计算特征量 x(i) (i) )(S203)。然后, 特征量计算部 105 通过将索引 j 递增 1 而重新执行步骤 S203 j = FEFj(X 的处理 (S204)。在这点上, 在对于 j = m 执行了步骤 S203 之后, 特征量计算部 105 通过将 索引 j 初始化为 1 而将处理移动到步骤 S205。
     如果处理移动到步骤 S205, 则特征量计算部 105 将索引 i 递增 1, 并且重新执行步 骤 S202 至 S204 的特征量函数循环 (S205)。在这点上, 如果对于索引 i = 1 至 q 完成了步 骤 S202 至 S204 的处理, 则特征量计算部 105 终止与特征量计算有关的一系列处理。
     以上描述了与特征量计算有关的处理的流程。
     (1-3-5 : 估计函数的生成 )接下来, 将参照图 20 更详细地描述与估计函数生成有关的处理的流程。图 20 是 更详细地示出与估计函数生成有关的处理的流程的说明图。 与估计函数生成有关的处理主 要由估计函数生成部 106 来执行。
     如图 20 所示, 估计函数生成部 106 通过机器学习部 1061 的功能, 使用机器学习来 生成用于从特征量估计属性信息的估计函数 f(S211)。 然后, 估计函数生成部 106 通过有效 特征量选择部 1062 的功能来选择用于估计函数生成的一组特征量, 并且将关于所选择的 特征量组的信息 ( 有效特征量的信息 ) 输入到特征量函数生成部 103(S212)。如果输入了 有效特征量的信息, 则特征量函数生成部 103 选择与输入的有效特征量组对应的一组特征 量函数, 并且存储其信息 (S212)。 有效特征量选择部 1062 可执行与对应于有效特征量组的 特征量函数的选择和存储有关的处理。
     以上描述了与估计函数生成有关的处理的流程。
     [1-4 : 信息处理装置 200( 估计装置 ) 的功能配置 ]
     接下来, 将参照图 21 描述根据该实施例的信息处理装置 200( 估计装置 ) 的功能 配置。图 21 是示出根据该实施例的信息处理装置 200( 估计装置 ) 的功能配置的说明图。 信息处理装置 200 是如下估计装置 : 其使用上述信息处理装置 100 生成的特征量函数和估 计函数, 根据任意符号串估计表示符号串的特征的属性信息。
     如图 21 所示, 信息处理装置 200 主要由数据输入部 201、 属性估计部 202 以及存储 部 203 构成。
     首先, 符号串被输入到数据输入部 201。这里, 输入的符号串是没有被给定作为学 习数据的任意符号串。输入到数据输入部 201 的符号串被输入到属性估计部 202。如果输 入了符号串, 则属性估计部 202 获取预先存储在存储部 203 中的特征量函数和估计函数。 然后, 属性估计部 202 通过将符号串输入到所获取的特征量函数来计算特征量。此外, 属性 估计部 202 通过将算出的特征量输入到估计函数来计算属性信息, 并且输出算出的属性信 息。
     以上描述了信息处理装置 200 的功能配置。以上信息处理装置 100 和 200 是分开 表示的, 但是它们也可集成在一起。
     [1-5 : 估计属性信息的方法 ]
     接下来, 将参照图 22 描述与根据该实施例的估计属性信息的方法有关的处理的 流程。图 22 是示出根据该实施例的估计属性信息的方法的说明图。根据该实施例的估计 属性信息的方法由信息处理装置 200 的功能来实现。
     如图 22 所示, 首先, 将符号串 X 输入到信息处理装置 200(S221)。然后, 信息处理 装置 200 通过属性估计部 202 的功能, 通过将输入的符号串 X 输入到特征量函数 FEF 来计 算特征量 x(S222)。然后, 信息处理装置 200 通过属性估计部 202 的功能, 通过将算出的特 征量 x 输入到估计函数 f 来计算属性信息 y = f(x)(S223)。然后, 信息处理装置 200 输出 算出的属性信息 y(S224)。
     以上描述了与根据该实施例的估计属性信息的方法有关的处理的流程。
     [1-6 : 硬件配置 ]
     以上描述的信息处理装置 100 和 200 的每个结构元件的功能可以通过使用例如图 23 中示出的硬件配置来实现。即, 每个结构元件的功能可以通过使用计算机程序控制图 23中示出的硬件来实现。另外, 该硬件的模式是任意的, 并且可以是个人计算机、 诸如移动电 话、 PHS 或 PDA 的移动信息终端、 游戏机或者各种类型的信息设施。另外, PHS 是个人手持电 话系统的缩写。另外, PDA 是个人数字助理的缩写。
     如图 23 所示, 该硬件主要包括 CPU 902、 ROM 904、 RAM 906、 主机总线 908 以及桥 910。 此外, 该硬件包括外部总线 912、 接口 914、 输入单元 916、 输出单元 918、 存储单元 920、 驱动器 922、 连接端口 924 以及通信单元 926。另外, CPU 是中央处理单元的缩写。另外, ROM 是只读存储器的缩写。此外, RAM 是随机存取存储器的缩写。
     CPU 902 用作例如算术处理单元或控制单元, 并且基于记录在 ROM 904、 RAM 906、 存储单元 920 或者可拆卸记录介质 928 上的各种程序, 控制每个结构元件的完整操作或操 作的一部分。ROM 904 是用于存储例如要加载到 CPU 902 上的程序或者在算术运算中使用 的数据等的装置。RAM 906 暂时或永久存储例如要加载到 CPU 902 上的程序或者在执行程 序时任意改变的各种参数等。
     这些结构元件通过例如能够执行高速数据传输的主机总线 908 而彼此连接。例 如, 一方面, 主机总线 908 通过桥 910 连接到数据传输速度相对低的外部总线 912。 此外, 输 入单元 916 是例如鼠标、 键盘、 触摸板、 按钮、 开关或者摇杆。另外, 输入单元 916 可以是远 程控制装置, 该远程控制装置可以通过使用红外线或其它无线电波来传输控制信号。
     输出单元 918 是例如诸如 CRT、 LCD、 PDP 或 ELD 的显示装置、 诸如扬声器或耳机的 音频输出装置、 打印机、 移动电话或者传真机, 它们可以在视觉上或听觉上向用户通知获取 的信息。另外, CRT 是阴极射线管的缩写。LCD 是液晶显示器的缩写。PDP 是等离子显示面 板的缩写。另外, ELD 是电致发光显示器的缩写。
     存储单元 920 是用于存储各种数据的装置。存储单元 920 是例如诸如硬盘驱动器 (HDD) 的磁存储装置、 半导体存储装置、 光存储装置或者磁光存储装置。HDD 是硬盘驱动器 的缩写。
     驱动器 922 是读取记录在可拆卸记录介质 928( 诸如磁盘、 光盘、 磁光盘或者半导 体存储器 ) 上的信息或将信息写入可拆卸记录介质 928 中的装置。可拆卸记录介质 928 是 例如 DVD 介质、 蓝光介质、 HD-DVD 介质、 各种类型的半导体存储介质等。当然, 可拆卸记录 介质 928 可以是例如安装有非接触式 IC 芯片的 IC 卡或电子装置。IC 是集成电路的缩写。
     连接端口 924 是诸如 USB 端口、 IEEE 1394 端口、 SCSI、 RS-232C 端口的端口或者 用于连接外部连接的装置 930( 诸如光音频终端 ) 的端口。外部连接的装置 930 是例如打 印机、 移动音乐播放器、 数字摄像装置、 数字摄像机或者 IC 记录器。另外, USB 是通用串行 总线的缩写。另外, SCSI 是小型计算机系统接口的缩写。
     通信单元 926 是要连接到网络 932 的通信装置, 并且是例如用于有线或无线 LAN、 蓝牙 ( 注册商标 ) 或者 WUSB 的通信卡、 光通信路由器、 ADSL 路由器或者各种通信调制解调 器。连接到通信单元 926 的网络 932 由有线连接的或无线连接的网络来配置, 并且是例如 因特网、 家用 LAN、 红外通信、 可见光通信、 广播或者卫星通信。另外, LAN 是局域网的缩写。 另外, WUSB 是无线 USB 的缩写。此外, ADSL 是非对称数字订户线路的缩写。
     <2 : 总结 >
     最后, 将简要地总结根据本公开内容的实施例的技术内容。 这里, 所述的技术内容 可以被应用于各种信息处理装置, 例如, 诸如 PC、 移动电话、 移动游戏机、 移动信息终端、 信息设施以及汽车导航系统。
     上述信息处理装置的功能配置可以被表示为如下。信息处理装置具有如下输入 部、 特征量函数生成部、 特征量计算部、 估计函数生成部以及输出部。上述输入部是用于输 入多个符号串以及期望从每个符号串提取的属性信息的输入装置。 属性信息是表示各个符 号串的特征的信息。 上述特征量函数生成部是用于从预定函数组中选择多个函数并且通过 组合多个函数而生成用于根据符号串输出特征量的多个特征量函数的装置, 该预定函数组 包括用于将符号串转换为数值的函数。
     上述特征量计算部是用于将输入部输入的每个符号串输入到特征量函数生成部 生成的每个特征量函数并且计算对应于每个符号串的特征量的装置。 上述估计函数生成部 是如下装置 : 其用于使用输入部输入的与每个符号串对应的属性信息和特征量计算部算出 的与每个符号串对应的特征量来执行机器学习, 并且生成用于根据特征量估计属性信息的 估计函数。 上述输出部是用于输出特征量函数生成部生成的特征量函数和估计函数生成部 生成的估计函数的装置。
     如上所述, 根据该实施例的信息处理装置生成用于将符号串转换为特征量的特征 量函数和用于根据特征量估计属性信息的估计函数。此时, 用于根据符号串估计属性信息 的估计函数不是通过机器学习获得的, 但是用于将符号串转换为特征量并且根据特征量估 计属性信息的估计函数是通过机器学习获得的。如上所述, 包括从符号串获得特征量的处 理, 以使得可以获得能够根据任意符号串估计属性信息的估计函数。可以提高估计函数的 估计准确性。
     ( 参考 )
     上述数据输入部 101 是输入部的示例。上述特征量函数生成部 103 是世代更替部 的示例。
     本领域的技术人员应理解, 在所附权利要求或其等同物的范围内, 取决于设计要 求和其它因素, 可进行各种修改、 组合、 子组合和变更。
     本公开内容包含与 2010 年 7 月 14 日向日本专利局提交的日本优先权专利申请 JP 2010-159598 中公开的主题内容有关的主题内容。

信息处理装置、信息处理方法以及程序.pdf_第1页
第1页 / 共40页
信息处理装置、信息处理方法以及程序.pdf_第2页
第2页 / 共40页
信息处理装置、信息处理方法以及程序.pdf_第3页
第3页 / 共40页
点击查看更多>>
资源描述

《信息处理装置、信息处理方法以及程序.pdf》由会员分享,可在线阅读,更多相关《信息处理装置、信息处理方法以及程序.pdf(40页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN102339278A43申请公布日20120201CN102339278ACN102339278A21申请号201110195267722申请日20110707201015959820100714JPG06F17/2720060171申请人索尼公司地址日本东京都72发明人小林由幸74专利代理机构北京集佳知识产权代理有限公司11227代理人朱胜陈炜54发明名称信息处理装置、信息处理方法以及程序57摘要本发明公开了一种信息处理装置、信息处理方法以及程序,该方法包括输入多个符号串以及期望从每个符号串提取的属性信息;从包括用于将符号串转换为数值的函数的预定函数组选择多个函数,并且通过。

2、组合多个函数生成用于根据符号串输出特征量的多个特征量函数;将每个符号串输入到每个特征量函数,并且计算对应于每个符号串的特征量;使用与每个符号串对应的属性信息和与每个符号串对应的特征量来执行机器学习,并且生成用于根据特征量估计属性信息的估计函数;以及输出特征量函数和估计函数。30优先权数据51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书17页附图20页CN102339291A1/2页21一种信息处理装置,包括输入部,用于输入多个符号串以及期望从每个符号串提取的属性信息;特征量函数生成部,用于从预定函数组选择多个函数,并且通过组合所述多个函数生成用于根据所述符号串。

3、输出特征量的多个特征量函数,所述预定函数组包括用于将符号串转换为数值的函数;特征量计算部,用于将所述输入部输入的每个符号串输入到所述特征量函数生成部生成的每个特征量函数,并且计算对应于每个符号串的特征量;估计函数生成部,用于使用所述输入部输入的、与每个符号串对应的属性信息和所述特征量计算部算出的、与每个符号串对应的特征量来执行机器学习,并且生成用于根据所述特征量估计所述属性信息的估计函数;以及输出部,用于输出所述特征量函数生成部生成的特征量函数和所述估计函数生成部生成的估计函数。2根据权利要求1所述的信息处理装置,其中,所述符号串是字符串。3根据权利要求2所述的信息处理装置,其中,所述估计函数。

4、生成部包括有效特征量选择部,用于选择对于估计所述属性信息有效的特征量;以及机器学习部,用于使用所述有效特征量选择部选择的有效特征量和与所述有效特征量对应的属性信息来执行机器学习,并且生成用于根据所述有效特征量估计所述属性信息的估计函数。4根据权利要求3所述的信息处理装置,还包括世代更替部,用于通过假设所述特征量函数为个体并且执行个体选择、个体间交叉以及个体突变,生成下一代特征量函数;其中,如果所述世代更替部生成了所述下一代特征量函数,则所述特征量计算部使用所述下一代特征量函数来计算特征量,并且所述估计函数生成部使用所述特征量计算部使用所述下一代特征量函数算出的特征量来生成估计函数,并且所述世代。

5、更替部生成所述下一代特征量函数、所述特征量计算部计算所述特征量以及所述估计函数生成部生成所述估计函数是重复地执行的。5根据权利要求4所述的信息处理装置,还包括NGRAM分析部,用于对所述输入部输入的符号串执行NGRAM分析,并且测量NGRAM出现在所述符号串中的出现频率,其中,所述特征量函数生成部使用通过所述NGRAM分析部的分析获得的NGRAM和所述NGRAM出现频率,生成所述特征量函数。6一种信息处理方法,包括输入多个符号串以及期望从每个符号串提取的属性信息;从包括用于将符号串转换为数值的函数的预定函数组选择多个函数,并且通过组合所述多个函数生成用于根据所述符号串输出特征量的多个特征量函数。

6、;将每个符号串输入到每个特征量函数,并且计算对应于每个符号串的特征量;使用与每个符号串对应的属性信息和与每个符号串对应的特征量来执行机器学习,并且生成用于根据所述特征量估计所述属性信息的估计函数;以及输出所述特征量函数和所述估计函数。权利要求书CN102339278ACN102339291A2/2页37一种用于使计算机实现以下功能的程序输入功能,输入多个符号串以及期望从每个符号串提取的属性信息;特征量函数生成功能,从预定函数组选择多个函数,并且通过组合所述多个函数生成用于根据所述符号串输出特征量的多个特征量函数,所述预定函数组包括用于将符号串转换为数值的函数;特征量计算功能,将通过所述输入功能。

7、输入的每个符号串输入到通过所述特征量函数生成功能生成的每个特征量函数,并且计算对应于每个符号串的特征量;估计函数生成功能,使用通过所述输入功能输入的、与每个符号串对应的属性信息和通过所述特征量计算功能算出的、与每个符号串对应的特征量来执行机器学习,并且生成用于根据所述特征量估计所述属性信息的估计函数;以及输出功能,输出通过所述特征量函数生成功能生成的特征量函数和通过所述估计函数生成功能生成的估计函数。权利要求书CN102339278ACN102339291A1/17页4信息处理装置、信息处理方法以及程序技术领域0001本公开内容涉及一种信息处理装置、信息处理方法以及程序。背景技术0002近来,。

8、已关注于从难以量化地决定特征的任意数据组机械地提取数据组的特征量的技术。例如,已知自动构造用于接收任意音乐数据以及机械地提取该音乐数据所属的音乐属类的算法的技术。诸如爵士乐、古典音乐以及流行歌曲的音乐属类根据乐器的类型或演奏类型是难以量化地决定的。因此,一般而言,之前已认为当给定任意音乐数据时难以从音乐数据提取音乐属类。0003然而,实际上,划分音乐属类的特征潜在地包括在各种信息组合中,诸如包括在音乐数据中的音程的组合、音程组合方法、乐器类型的组合、以及旋律线或基线的结构。因此,已从是否可以通过机器学习自动构造提取特征的算法下文中被称作特征量提取器的观点研究了特征量提取器。作为一个研究结果,例。

9、如,在日本专利申请早期公开第2009048266号中公开了基于遗传算法的特征量提取器的自动构造方法。遗传算法仿效生物进化过程,在机器学习过程中考虑对元素进行选择、交叉以及突变。0004可以使用日本专利申请早期公开第2009048266号中公开的自动构造特征量提取器的算法,自动构造用于从任意音乐数据提取音乐数据所属的音乐属类的特征量提取器。在日本专利申请早期公开第2009048266号中公开的自动构造特征量提取器的算法具有非常高的通用性且不限于音乐数据,并且可以自动构造从任意数据组提取数据组的特征量的特征量提取器。因此,日本专利申请早期公开第2009048266号中公开的自动构造特征量提取器的算。

10、法被期望应用于诸如音乐数据或视频数据的人工数据的特征量分析、各种自然的观测量的特征量分析等。发明内容0005目前,需要使用上述自动构造特征量提取器的算法来自动构造语言分析算法。语言分析算法是分析输入字符串并且估计表示该字符串的特征的属性信息的算法。由于现有技术的语言分析算法是手动构造的,因此对于其开发花费了大量的时间和成本。此外,语言处理的专业知识对于构造语言分析算法是必要的,并且能够构造语言分析算法的人力是有限的。由于现有技术的语言分析技术是语形学分析技术或使用字典的特征量提取技术的应用,因此现有技术的语言分析算法依赖于语言的类型。0006期望提供一种新颖且改进的信息处理装置、信息处理方法以。

11、及程序,其可以自动构造语言分析算法而无需依赖于语言的类型。此外,期望提供一种信息处理装置、信息处理方法以及程序,其可以自动构造接收任意符号串并且估计表示符号串的特征的属性信息的分析算法。0007根据本公开内容的实施例,提供了一种信息处理装置,其包括输入部,用于输入多个符号串以及期望从每个符号串提取的属性信息;特征量函数生成部,用于从预定函数说明书CN102339278ACN102339291A2/17页5组选择多个函数,并且通过组合多个函数而生成用于根据符号串输出特征量的多个特征量函数,该预定函数组包括用于将符号串转换成数值的函数;特征量计算部,用于将输入部输入的每个符号串输入到特征量函数生成。

12、部生成的每个特征量函数并且计算对应于每个符号串的特征量;估计函数生成部,用于使用输入部输入的与每个符号串对应的属性信息以及特征量计算部算出的与每个符号串对应的特征量来执行机器学习,并且生成用于根据特征量估计属性信息的估计函数;以及输出部,用于输出特征量函数生成部生成的特征量函数和估计函数生成部生成的估计函数。0008符号串可以是字符串。0009估计函数生成部可包括有效特征量选择部,用于选择对估计属性信息有效的特征量;以及机器学习部,用于使用有效特征量选择部选择的有效特征量和与有效特征量对应的属性信息来执行机器学习,并且生成用于根据有效特征量估计属性信息的估计函数。0010信息处理装置还可包括世。

13、代更替部,该世代更替部用于通过假设特征量函数为个体并且执行个体选择、个体间交叉以及个体突变,生成下一代特征量函数。如果世代更替部已生成了下一代特征量函数,则特征量计算部可使用下一代特征量函数计算特征量,并且估计函数生成部可使用特征量计算部使用下一代特征量函数算出的特征量来生成估计函数。可重复执行世代更替部生成下一代特征量函数、特征量计算部计算特征量以及估计函数生成部生成估计函数。0011信息处理装置还可包括NGRAM分析部,该NGRAM分析部用于对输入部输入的符号串执行NGRAM分析,并且测量NGRAM出现在符号串中的出现频率。特征量函数生成部可使用通过NGRAM分析部的分析获得的NGRAM和。

14、NGRAM出现频率来生成特征量函数。0012根据本公开内容的另一实施例,提供了一种信息处理方法,其包括输入多个符号串以及期望从每个符号串提取的属性信息;从预定函数组选择多个函数,并且通过组合多个函数生成用于根据符号串输出特征量的多个特征量函数,该预定函数组包括用于将符号串转换成数值的函数;将每个符号串输入到每个特征量函数,并且计算对应于每个符号串的特征量;使用对应于每个符号串的属性信息和对应于每个符号串的特征量来执行机器学习,并且生成用于根据特征量估计属性信息的估计函数;以及输出特征量函数和估计函数。0013根据本公开内容的另一实施例,提供了一种用于使得计算机实现以下功能的程序输入功能,输入多。

15、个符号串以及期望从每个符号串提取的属性信息;特征量函数生成功能,从预定函数组选择多个函数,并且通过组合多个函数生成用于根据符号串输出特征量的多个特征量函数,该预定函数组包括用于将符号串转换成数值的函数;特征量计算功能,将通过输入功能输入的每个符号串输入到通过特征量函数生成功能生成的每个特征量函数,并且计算对应于每个符号串的特征量;估计函数生成功能,使用通过输入功能输入的与每个符号串对应的属性信息和通过特征量计算功能算出的与每个符号串对应的特征量来执行机器学习,并且生成用于根据特征量估计属性信息的估计函数;以及输出功能,输出通过特征量函数生成功能生成的特征量函数和通过估计函数生成功能生成的估计函。

16、数。0014根据本公开内容的另一实施例,提供了一种记录程序的计算机可读记录介质。0015根据上述本公开内容的实施例,可以自动构造语言分析算法而不依赖于语言的类型。此外,可以自动构造接收任意符号串并且估计表示符号串的特征的属性信息的分析算法。说明书CN102339278ACN102339291A3/17页6附图说明0016图1是示出根据本公开内容的实施例的自动算法构造方法的概况的说明图;0017图2是示出根据同一实施例的自动算法构造方法的概况的说明图;0018图3是示出根据同一实施例的信息处理装置学习装置的功能配置的说明图;0019图4是示出在根据同一实施例的自动算法构造方法中使用的学习数据的配。

17、置的说明图;0020图5是示出根据同一实施例的NGRAM分析方法的说明图;0021图6是示出根据同一实施例的计算特征量函数的方法的说明图;0022图7是示出根据同一实施例的计算估计函数的方法的说明图;0023图8是示出根据同一实施例的选择有效特征量函数的方法的说明图;0024图9是示出根据同一实施例的自动算法构造方法的完整配置的说明图;0025图10是示出根据同一实施例的NGRAM分析方法的说明图;0026图11是示出根据同一实施例的、生成特征量函数的方法完整配置的说明图;0027图12是示出根据同一实施例的、生成特征量函数的方法随机生成的说明图;0028图13是示出根据同一实施例的、生成特征。

18、量函数的方法随机生成的说明图;0029图14是示出根据同一实施例的、生成特征量函数的方法进化生成的说明图;0030图15是示出根据同一实施例的、生成特征量函数的方法进化生成;选择的说明图;0031图16是示出根据同一实施例的、生成特征量函数的方法进化生成;交叉的说明图;0032图17是示出根据同一实施例的、生成特征量函数的方法进化生成;突变的说明图;0033图18是示出根据同一实施例的、生成特征量函数的方法进化生成;随机生成的说明图;0034图19是示出根据同一实施例的、计算特征量函数的方法的说明图;0035图20是根据同一实施例的、计算估计函数的方法的说明图;0036图21是示出根据同一实施。

19、例的信息处理装置估计装置的功能配置的说明图;0037图22是示出根据同一实施例的、估计属性信息的方法的说明图;以及0038图23是示出信息处理装置学习装置和估计装置的硬件配置的说明图。具体实施方式0039在下文中,将参照附图详细描述本公开内容的优选实施例。注意,在该说明书和附图中,具有基本上相同的功能和结构的结构元件以相同的附图标记来表示,并且省略这些结构元件的重复说明。0040描述流程0041这里,将简要描述与以下公开的本公开内容的实施例有关的描述流程。首先,将参照图1和2描述根据本公开内容的实施例的自动算法构造方法的概况。然后,将参照图3描述根据同一实施例的信息处理装置100学习装置的功能。

20、配置。在此,还将参照图4至说明书CN102339278ACN102339291A4/17页78描述学习数据的配置、NGRAM分析方法、计算特征量函数的方法、计算估计函数的方法以及选择有效特征量函数的方法等。0042然后,将参照图9描述与同一实施例的自动算法构造方法有关的处理的完整流程。然后,将参照图10描述与同一实施例的NGRAM分析方法有关的处理的流程。然后,将参照图11至18描述与根据同一实施例的生成特征量函数的方法有关的处理的完整流程。然后,将参照图19描述与根据同一实施例的计算特征量函数的方法有关的处理的流程。然后,将参照图20描述与根据同一实施例的计算估计函数的方法有关的处理的流程。。

21、0043然后,将参照图21描述根据同一实施例的信息处理装置200估计装置的功能配置。然后,将参照图22描述与根据同一实施例的估计属性信息的方法有关的处理的流程。然后,将参照图23描述能够实现根据同一实施例的信息处理装置100和200的功能的硬件配置。最后,将总结同一实施例的技术构思并且将简要描述从技术构思获得的功能效果。0044描述项00451实施例004611概况004712信息处理装置100学习装置的功能配置004813自动算法构造方法0049131完整处理流程0050132NGRAM分析0051133特征量函数的生成0052134特征量函数的计算0053135估计函数的生成005414信。

22、息处理装置200估计装置的功能配置005515估计属性信息的方法005616硬件配置00572总结00580059将描述本公开内容的实施例。该实施例涉及一种自动算法构造方法,该方法分析任意符号串,并且自动构造能够估计表示符号串的特征的属性信息的分析算法。006011概况0061首先,将参照图1简要描述根据该实施例的自动算法构造方法的概况。0062如上所述,根据该实施例的自动算法构造方法是自动构造能够接收任意符号串例如,字符串、基因序列等并且估计表示符号串的特征的属性信息的分析算法的方法。根据该方法,例如,如图1所示,如果输入字符串“非常好的歌曲”,则可以自动构造输出属性信息“字符串是意见语句”。

23、或“字符串是肯定的”的分析算法。0063例如,该实施例的方法可以被应用于自动构造接收邮件文本并且自动对邮件是垃圾邮件还是正常邮件进行分类的分析算法。该实施例的方法可以被应用于自动构造接收邮件文本并且自动将邮件分类为针对各种使用应用而预先分类的文件夹的分析算法。另外,该实施例的方法可以被应用于自动构造接收写到网络的公告板上的文本并且自动辨别所说明书CN102339278ACN102339291A5/17页8写的文本是客观内容还是主观内容的分析算法。另外,该实施例的方法可以被应用于自动构造接收写到网络的公告板上的文本并且自动对所写内容是肯定的文字还是否定的文字进行分类的分析算法。0064此外,该实。

24、施例的方法可以被应用于自动构造接收新闻文本并且自动辨别新闻被分类的类别例如,政治、经济、艺术、技术、国际等的分析算法。另外,该实施例的方法可以被应用于自动构造接收任意文本并且自动辨别书写文本的语言例如,英语、日语、德语等的分析算法。另外,该实施例的方法可以被应用于自动构造接收与内容有关的文本例如,诸如新闻或小说的文本内容、音乐、视频等的评论、或者介绍语句并且自动提取内容偏好的分析算法。0065另外,能够由该实施例的方法自动构造的分析算法可以将任何符号串设置为目标。例如,该实施例的方法可以被应用于自动构造接收表情符号并且自动对表情符号所属的类别例如,笑、哭、生气等进行分类的分析算法。此外,该实施。

25、例的方法可以被应用于自动构造如下分析算法其接收名字被转换成罗马字符的符号串,并且根据名字的音素的风格而自动对名字是日本的还是西方的、或者名字是新声音还是古老声音进行分类。0066另外,该实施例的方法可以被应用于自动构造如下分析算法其接收表示音乐编码进行的字符串或以MML描述的旋律的字符串,并且自动辨别该音乐心情例如,明快、阴郁、平静、兴奋等。上述MML代表“音乐宏语言”。另外,该实施例的方法可以被应用于自动构造接收小说的文本并且自动辨别该小说所属的类别例如,现代、浪漫、历史、幻想、恐怖等的分析算法。0067另外,能够由该实施例的方法自动构造的分析算法不限于仅提取输入符号串的现有特征。例如,该实。

26、施例的方法可以被应用于自动构造接收经济新闻的文本并且估计经济前景例如,股票价格的上涨/下跌等的分析算法。另外,该实施例的方法可以被应用于自动构造如下分析算法其接收广播节目或电影的字幕数据,自动估计广播节目或电影的场景或基调,并且将其估计结果作为元数据分配给广播节目或电影。场景是例如新闻、体育、综艺、CM等。基调是例如轻松、严肃、浪漫等。0068另外,该实施例的方法可以被应用于自动构造接收博客等的书写文本并且自动估计作者的年龄或性格例如,阳光、阴郁、主动、被动等的分析算法。此外,该实施例的方法可以被应用于自动构造如下分析算法其接收描述疾病的主观症状的文本,并且自动估计疾病名称或显示与估计结果对应。

27、的建议。另外,该实施例的方法可以被应用于自动构造如下分析算法其接收应试者在进入考试期间提交的材料的文本,并且估计在应试者加入公司之后五年的个人评估。0069另外,该实施例的方法可以被应用于自动构造如下分析算法其接收表示基因的基本序列的符号串,并且估计在未来可能出现的、具有该基因的人类或动物的疾病。该实施例的方法可以被应用于自动构造如下分析算法其接收表示基因的基本序列的符号串,并且估计具有该基因的人类或动物的性格。如上所述,因为该实施例的方法可以被应用于任意符号串被设置为目标的分析算法,因此其应用范围非常宽。0070顺便提及,如图2中所示地配置由该实施例的方法自动构造的分析算法。如图2所示,如果。

28、输入符号串X,则分析算法首先通过将输入的符号串X输入到特征量函数FEF来计算特征量,并且通过将特征量输入到估计函数F来计算属性信息Y。特征量函数FEF和估说明书CN102339278ACN102339291A6/17页9计函数F是由该实施例的方法自动预先生成的。换言之,自动生成能够准确估计属性信息的一组特征量函数FEF和估计函数F的机制是根据该实施例的自动算法构造方法。0071以上已描述了根据该实施例的自动算法构造方法的概况。007212信息处理装置100学习装置的功能配置0073接下来,将参照图3描述根据该实施例的、能够实现自动算法构造方法的信息处理装置100学习装置的功能配置。图3是示出根。

29、据该实施例的信息处理装置100的功能配置的说明图。0074如图3所示,信息处理装置100具有数据输入部101、NGRAM分析部102、特征量函数生成部103、存储部104、特征量计算部105、估计函数生成部106以及函数输出部107。估计函数生成部106包括机器学习部1061和有效特征量选择部1062。0075首先,一组符号串和属性信息被输入到数据输入部101作为学习数据。例如,如图4所示的一组符号串X和属性信息T被输入到数据输入部101。在图4的示例中,符号串X是字符串并且属性信息T是表示字符串是否是意见语句的指标。例如,字符串“我们应该更早完成它”表示人的意见。因此,表示意见语句的值1被分。

30、配给该字符串作为属性信息T。另一方面,字符串“今天天气很好。”不表示人的意见。因此,不表示意见语句的值0被分配给该字符串作为属性信息T。0076如上所述,一组符号串和属性信息被输入到数据输入部101。如果输入了一组符号串和属性信息,则数据输入部101将输入的符号串输入到NGRAM分析部102和特征量计算部105。另外,数据输入部101将属性信息输入到包括在估计函数生成部106中的机器学习部1061。如果输入了符号串,则NGRAM分析部102从输入的符号串提取NGRAM由N个符号构成的符号单位,并且如图5所示检测每个NGRAM的出现频率。由一个符号构成的符号单位被称为单GRAM,而由两个符号构成。

31、的符号单位被称为双GRAM。0077例如,如果输入串“ABCABABCDEDEF”,则NGRAM分析部102通过组合单GRAM而提取A,B,C,A,B,A,B,C,D,E,D,E,F。另外,NGRAM分析部102通过组合双GRAM而提取AB,BC,CA,AB,BA,AB,BC,CD,DE,ED,DE,EF。同样地,NGRAM分析部102从输入的字符串提取MGRAMM3至13的组合。如果字符串的长度是L,则提取LM1个MGRAM的组合。0078然后,NGRAM分析部102按照符号索引例如,字符码的顺序对提取的NGRAMN1至13的组合进行排序。例如,单GRAM的组合A,B,C,A,B,A,B,C。

32、,D,E,D,E,F被NGRAM分析部102排序为A,A,A,B,B,B,C,C,D,D,E,E,F。另外,双GRAM的组合AB,BC,CA,AB,BA,AB,BC,CD,DE,ED,DE,EF被NGRAM分析部102排序为AB,AB,AB,BA,BC,BC,CA,CD,DE,DE,ED,EF。同样地,对MGRAMM3至13的组合进行排序。0079然后,NGRAM分析部102基于排序后的每个NGRAM组合检测每个NGRAM的出现频率,并且生成出现频率信息。例如,NGRAM分析部102根据排序后的单GRAM组合A,A,A,B,B,B,C,C,D,D,E,E,F生成出现频率信息A3,B3,C2,D。

33、2,E2,F1。出现频率信息表示A出现三次,B出现三次,C出现两次,D出现两次,E出现两次,并且F出现一次。另外,NGRAM分析部102根据排序后的双GRAM的组合AB,AB,AB,BA,BC,BC,CA,CD,DE,DE,ED,EF生成出现频率信息AB3,BA1,BC2,CA1,CD1,DE2,ED1,EF1。同样地,还根据MGRAM的组合生成出现频率信息。说明书CN102339278ACN102339291A7/17页100080然后,NGRAM分析部102将NGRAMN1至13的出现频率信息合并为一个并且按照出现频率对出现频率信息进行排序。例如,如果单GRAM出现频率信息A3,B3,C2。

34、,D2,E2,F1和双GRAM出现频率信息AB3,BA1,BC2,CA1,CD1,DE2,ED1,EF1是按照出现频率的降序来合并和排序的,则获得A3,B3,AB3,C2,D2,E2,BC2,DE2,F1,BA1,CA1,CD1,ED1,EF1。如果该处理被应用于图4中示出的符号串X,则如图5所示获得表示每个NGRAM出现频率的出现频率信息。0081如上所述,NGRAM分析部102生成的出现频率信息被输入到特征量函数生成部103。如上所述,来自数据输入部101的符号串以及来自NGRAM分析部102的出现频率信息被输入到特征量函数生成部103。如果输入了符号串,则特征量函数生成部103通过组合已。

35、在存储部104中准备好的基本函数来生成特征量函数FEF。基本函数是例如CUT、FIND、MEAN、VARIANCE、MEDIAN、LENGTH、VARIATION、APPERANCE、COOCCURANCE、POW等。0082这里,补充了上述基本函数的示例的描述。0083上述基本函数CUT是接收符号串并且输出符号串的函数。基本函数CUT被表示为CUT符号串X,开始位置S,长度L,并且是从指定符号串X的指定开始位置S提取具有指定长度L的符号串的函数。例如,如果符号串X是X“ABCDABABCA”,则CUTX,02,05“CDABA”。在该示例中,通过将符号串X的长度表示为10,从对应于02的位置。

36、提取具有长度为05的符号串。0084上述基本函数FIND是接收符号串并且输出向量的函数。基本函数FIND被表示为FIND符号串X,符号串X,并且是检测指定的符号串X在指定的符号串X中出现的位置并且输出表示该位置的向量的函数。例如,如果符号串X是X“CDABA”,则FINDX,“A”04,08。在该示例中,通过将符号串X的长度表示为10,在对应于04的位置和对应于08的位置检测到符号串“A”。0085上述基本函数MEAN、VARIANCE以及MEDIAN是接收向量并且输出标量的函数。基本函数MEAN是计算输入向量的所有元素的均值的函数。基本函数VARIANCE是计算输入向量的所有元素的方差的函数。

37、。基本函数MEDIAN是计算输入向量的所有元素的中心值的函数。例如,如果向量V04,08,则MEANV06。0086上述基本函数LENGTH、VARIATION、APPEARANCE以及COOCCURRENCE是接收符号串并且输出标量的函数。基本函数LENGTH是输出输入的符号串的长度的函数。基本函数VARIATION是对包括在输入符号串中的符号的类型进行计数并且输出类型数量的函数。基本函数APPEARANCE被表示为APPEARANCE符号串X,符号串X,并且是输出指定符号串X中的指定符号串X的出现次数的函数。此外,基本函数COOCCURRENCE被表示为COOCCURRENCE符号串X,符。

38、号串X1,符号串X2,并且是输出符号串X中的符号串X1和X2的共同出现次数的函数。0087上述基本函数POW是接收标量并且输出标量的函数。基本函数POW被表示为POW数字Q,数字N,并且是将指定数字Q升高至第N次幂的函数。例如,如果数字Q是Q06,则POWQ,2036。0088如上所述,特征量函数生成部103可以使用各种基本函数用于生成特征量函数FEF。0089特征量函数生成部103组合如上所述的基本函数并且生成多个特征量函数FEF。说明书CN102339278ACN102339291A8/17页11首先,特征量函数生成部103随机选择可以输入符号串的基本函数。如果存在要输入到随机选择的基本函。

39、数的参数,则特征量函数生成部103随机决定要输入的参数。0090此后,特征量函数生成部103检查随机选择的基本函数的输出是否是标量。特征量函数生成部103还检查是否满足了与基本函数选择有关的终止条件。作为与基本函数选择有关的终止条件,例如,考虑生成的随机数等于或小于预定值的情况下终止选择的条件。如果随机选择的基本函数的输出是标量并且满足了与基本函数选择有关的终止条件,则特征量函数生成部103终止基本函数选择。0091另一方面,如果随机选择的基本函数的输出不是标量,或者如果不满足与基本函数选择有关的终止条件,则特征量函数生成部103随机选择下一基本函数。此时,特征量函数生成部103从与之前选择的。

40、基本函数的输出类型例如,符号串、标量、向量等对应的基本函数当中随机选择基本函数。例如,如果之前选择的基本函数的输出是向量,则特征量函数生成部103从可以输入向量的基本函数当中随机选择下一基本函数。如果存在要输入到随机选择的基本函数的参数,则特征量函数生成部103随机决定要输入的参数。0092此后,特征量函数生成部103检查随机选择的下一基本函数的输出是否是标量。特征量函数生成部103还检查是否满足与基本函数选择有关的终止条件。如果随机选择的下一基本函数的输出是标量并且满足了与基本函数选择有关的终止条件,则特征量函数生成部103终止基本函数选择。另一方面,如果随机选择的基本函数的输出不是标量,或。

41、者如果不满足与基本函数选择有关的终止条件,则特征量函数生成部103随机选择下一基本函数。0093如上所述,特征量函数生成部103顺序地选择基本函数。如果最后选择的基本函数的输出是标量并且满足了与基本函数选择有关的终止条件,则特征量函数生成部103执行的基本函数选择终止。如果基本函数选择终止,则特征量函数生成部103通过按照选择顺序组合所选择的基本函数来生成特征量函数FEF。0094例如,如果已顺序选择了基本函数CUT、FIND、MEAN以及POW,则特征量函数生成部103生成可以输入符号串X的FEFXPOWMEANFINDCUTX,02,05,“A”,2。例如,如果符号串X“ABCDABABC。

42、A”被输入到特征量函数FEFX,则获得YFEFX036。基本函数CUT的参数“02”和“05”、基本函数FIND的参数“A”以及基本函数POW的参数“2”是特征量函数生成部103随机选择的参数。0095当决定了基本函数的符号串参数例如,上述基本函数FIND的参数“A”等时,特征量函数生成部103使用NGRAM分析部102输入的NGRAM出现频率信息。具体地,当特征量函数生成部103决定符号串参数时,基于NGRAM分析部102输入的出现频率信息,使用使得具有高出现频率的NGRAM的选择概率变得较高的随机数来决定符号串参数。特征量函数生成部103如上所述生成多个特征量函数FEF。特征量函数生成部1。

43、03生成的多个特征量函数FEF被输入到特征量计算部105和函数输出部107。0096如果输入了多个特征量函数FEF,则特征量计算部105接收针对每个输入的特征量函数FEF的、数据输入部101输入的符号串,并且计算该符号串的特征量。例如,如果输入了特征量函数FEFJJ1至N和符号串X,则如图6所示,特征量计算部105通过将符号串X输入到特征量函数FEFJ来计算特征量XJFEFJX。例如,如果特征量函数FEFJXAPPEARANCECUTX,00,03,“OO”,则X1FEF1“我们应该更早完成它”0。说明书CN102339278ACN102339291A9/17页12同样地,如果特征量函数FEF。

44、NXAPPEARANCEX,“”,则XNFEFN“今天天气很好。”1。0097如上所述由特征量计算部105算出的特征量被输入到估计函数生成部106。如果输入了特征量,则估计函数生成部106通过机器学习部1061的机器学习功能,生成用于根据输入特征量估计属性信息的估计函数。例如,如图7所示,与符号串X对应的属性信息T和特征量XJFEFJJ1至N被输入到机器学习部1061。机器学习部1061通过机器学习生成用于在输入了特征量向量XX1,XN的情况下输出属性信息T的估计函数FXWTX。即,机器学习部1061通过机器学习计算TWTX时的W线性组合权重。0098计算估计函数FX的方法不限于此,而是例如,。

45、可以使用在日本专利申请早期公开第2009048266号中公开的方法。另外,可以使用能够计算估计函数FX的任何方法作为通过机器学习部1061计算估计函数FX的方法,该估计函数FX用于根据多维从属变量对应于特征量向量X估计目标变量对应于属性信息T。此处,为了便于描述,假设使用计算上述线性组合权重W类型的方法。0099如上所述由机器学习部1061算出的估计函数F被输入到有效特征量选择部1062。如果输入了估计函数F,则有效特征量选择部1062参考构成输入的估计函数F的线性组合权重W,并且从特征量X1至XN当中选择有效特征量。这里,有效特征量是有助于计算估计函数F时的计算结果的特征量。例如,如果线性组。

46、合权重WW1,WN的元素WK是0,则获得相同的计算结果TWTX而与特征量XK的值无关。有效特征量选择部1062检测变为小于预定值的值或0的线性组合权重W的元素,并且选择与除检测到的元素之外的元素对应的特征量。0100有效特征量选择部1062选择的有效特征量的信息被报告给特征量函数生成部103,并且用于选择特征量函数。例如,如图8所示,如果特征量函数FEFJXAPPEARANCECUTX,00,03,“OO”算出的特征量XK有助于估计函数FX的计算结果,则特征量函数FEFK被选择作为有效特征量函数。同样地,如果特征量函数EFFQXPOWMEDIANFINDCUTX,01,03,“A”,2算出的特。

47、征量XQ无助于估计函数FX的计算结果,则特征量函数FEFQ不被选择作为有效特征量函数。0101如果报告了有效特征量,则特征量函数生成部103基于所报告的内容选择有效特征量函数,并且保持所选择的特征量函数作为下一代特征量函数。此外,特征量函数生成部103使用所选择的特征量函数下文中称为上一代特征量函数来生成下一代特征量函数。首先,特征量函数生成部103通过组合随机选择的基本函数来生成预定数量的特征量函数。此时,特征量函数生成部103根据需要随机决定基本函数的参数。0102然后,特征量函数生成部103通过改变上一代特征量函数的部分突变来生成下一代特征量函数。0103例如,特征量函数生成部103将基。

48、本函数CUT添加到上一代特征量函数FEFXPOWMEDIANFINDX,“B”,2,并且生成下一代特征量函数FEFXPOWMEDIANFINDCUTX,01,03,“B”,2基本函数添加。0104特征量函数生成部103通过针对上一代特征量函数FEFXPOWMEDIANFINDX,“B”,2将基本函数MEDIAN改变为基本函数VARIANCE,来生成下一代特征量函数FEFXPOWVARIANCEFINDX,“B”,2基本函数改变。说明书CN102339278ACN102339291A10/17页130105特征量函数生成部103删除包括在上一代特征量函数FEFXPOWMEDIANFINDX,“B。

49、”,2中的基本函数POW,并且生成下一代特征量函数FEFXMEDIANFINDX,“B”基本函数删除。0106特征量函数生成部103以预定概率随机改变包括在上一代特征量函数FEFXPOWMEDIANFINDX,“B”,2中的基本函数FIND的参数,并且生成下一代特征量函数FEFXPOWMEDIANFINDX,“BL”,2基本函数参数改变。在改变符号串参数时,可使用NGRAM分析部102的分析结果。例如,可改变符号串参数,以改变为包括当前符号串参数的符号串的NGRAM或包括符号串的部分的NGRAM。0107特征量函数生成部103可被配置成通过组合上述“基本函数添加”、“基本函数改变”、“基本函数删除”以及“基本函数参数改变”来生成下一代特征量函数FEF。0108然后,特征量函数生成部103通过交叉两个上一代特征量函数来生成下一代特征量函数交叉。0109首先,特征量函数生成部103选择两个上一代特征量函数并且检测具有共同输出类型符号串、向量或者标量的部分。例如,考虑从上一代特征量函数选择FEF1XPOWMEDIANFINDCUTX,01,03,“B”,2和FEF2XVARIANCEFINDX,“FOO”的情况。两个特征量函数。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1