信息处理装置和信息处理方法.pdf

上传人:Y948****062 文档编号:4256206 上传时间:2018-09-12 格式:PDF 页数:34 大小:4.93MB
返回 下载 相关 举报
摘要
申请专利号:

CN201210152699.4

申请日:

2012.05.16

公开号:

CN103425666A

公开日:

2013.12.04

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120516|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

富士通株式会社

发明人:

刘曦; 刘汝杰

地址:

日本神奈川县

优先权:

专利代理机构:

北京集佳知识产权代理有限公司 11227

代理人:

朱胜;陈炜

PDF下载: PDF下载
内容摘要

本发明公开了一种信息处理装置以及一种信息处理方法,用于对具有多维标签的多个原始数据进行特征变换。该信息处理方法包括:计算每个原始数据与每个其他原始数据标签相似度并基于此确定该其他原始数据是否是该原始数据的相关数据,选择该原始数据的多个近邻相关数据,形成近邻相关图,并且求解用于进行特征变换的目标变换矩阵,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关。根据本公开的技术方案,可以实现对具有多维标签的多个原始数据进行局部保持投影(LPP)特征变换,进而可以更好地对原始数据进行分类。

权利要求书

权利要求书
1.  一种信息处理装置,用于对具有多维标签的多个原始数据进行特征变换,所述信息处理装置包括:
原始特征向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;
标签向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;
标签相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度;
相关数据确定单元,其被配置为针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据;
特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;
近邻相关数据选择单元,其被配置为针对每个原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原始数据的多个近邻相关数据;
近邻相关图生成单元,其被配置为以每个原始数据和该原始数据的近邻相关数据作为节点,在对应于该原始数据和该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图;以及
特征变换单元,其被配置为求解目标变换矩阵并根据所述目标变换矩阵对所述多个原始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换,所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关。

2.  根据权利要求1所述的信息处理装置,其中
所述标签相似度确定单元被进一步配置为根据每个原始数据与每个其他原始数据在标签向量空间中的距离和标签相关性矩阵来计算所述标签相似度。

3.  根据权利要求1或2所述的信息处理装置,其中
所述近邻相关图生成单元被进一步配置为针对每条边,将该边的权重设定为与对应于该边所连接的两个节点的两个原始数据之间的特征相似度和标签相似度中的至少一项正相关。

4.  根据权利要求1或2所述的信息处理装置,其中
所述近邻相关图生成单元被进一步配置为针对每条边,如果与该边所连接的一个节点所对应的原始数据的特征相似度最大的所述第一预定数目的其他原始数据中包括与这条边所连接的另一个节点所对应的原始数据,则将该边的权重设定为1,否则将该边的权重设定为与对应于该边所连接的两个节点的两个原始数据之间的特征相似度和标签相似度中的至少一项正相关且小于等于1。

5.  根据权利要求1或2所述的信息处理装置,其还包括:
非相关数据确定单元,其被配置为针对每个原始数据,基于该原始数据与每个其他原始数据的标签相似度来确定每个其他原始数据是否是该原始数据的非相关数据;
近邻非相关数据选择单元,其被配置为针对每个原始数据,基于该原始数据的每个非相关数据与该原始数据的特征相似度,在该原始数据的非相关数据中选择该原始数据的多个近邻非相关数据;以及
近邻非相关图生成单元被配置为以每个原始数据和该原始数据的近邻非相关数据作为节点,在对应于该原始数据和该原始数据的每个近邻非相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图;并且其中
所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关,并且与所述近邻非相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和正相关。

6.  根据权利要求5所述的信息处理装置,其中
所述近邻非相关图生成单元被进一步配置为针对每条边,如果该边所连接的两个节点所对应的两个原始数据之间的特征相似度大于其中一个原始数据与该原始数据的所有相关数据的特征相似度中的最大值,则将该边的权重设定为与该边所连接的两个节点所对应的两个原始数据之间的特征相似度正相关,否则将该边的权重设定为0。

7.  根据权利要求1或2所述的信息处理装置,其通过进行所述特征 变换来对所述原始数据进行分类。

8.  根据权利要求7所述的信息处理装置,其中所述多个原始数据是多个图像数据或者多个文本数据。

9.  一种信息处理装置,用于对具有多维标签的多个原始数据进行特征变换,所述信息处理装置包括:
原始特征向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;
标签向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;
标签相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度,并且基于该标签相似度来确定该其他原始数据是否是该原始数据的非相关数据;
特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;
近邻非相关数据选择单元,其被配置为针对每个原始数据,在该原始数据的所有非相关数据中,基于与该原始数据的特征相似度来选择该原始数据的多个近邻非相关数据;
近邻非相关图生成单元,其被配置为以每个原始数据和该原始数据的近邻非相关数据作为节点,在对应于该原始数据与该原始数据的每个近邻非相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图;以及
特征变换单元,其被配置为求解目标变换矩阵并根据所述目标变换矩阵对所述多个原始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换,所述目标函数与所述近邻非相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和正相关。

10.  一种信息处理方法,其用于对具有多维标签的多个原始数据进行特征变换,所述信息处理方法包括:
针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;
针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;
针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度;
针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据;
针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;
针对每个原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原始数据的多个近邻相关数据;
以每个原始数据和该原始数据的近邻相关数据作为节点,在对应于该原始数据与该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图;并且
求解目标变换矩阵并根据所述目标变换矩阵对所述多个原始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换,所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关。

说明书

说明书信息处理装置和信息处理方法
技术领域
本公开涉及一种信息处理装置和信息处理方法,尤其涉及一种用于对具有多维标签的多个原始数据进行特征变换的信息处理装置和信息处理方法。
背景技术
在对数据进行分类过程中,往往需要先对数据进行特征变换,从而使得特征变换成为数据分类的关键技术。这是出于至少以下原因。一方面,在数据分类任务中,诸如图像或者文本的数据通常是在环绕欧式空间的子流形上采样得到的,也就是说,这些数据并不是分布在“平坦”的欧式空间上的,这些数据的原始特征并不适合在欧式空间上进行分析,因此需要对这些数据进行特征变换。另一方面,这些数据的原始特征经常具有较高的维度,直接这些数据进行分类将会遇到维数灾(参见R.Bellman和R.Kalab a的《On adaptive control processes》,IRE Trans actions onAutomatic Control,卷4,1959)。
当前,局部保持投影(Locality Preserving Projection,LPP)特征变换方法是一种非常常用的局部保持特征变换方法(参见X.F.He和P.Niyogi的《Locality preserving projections》,Advances in neuralinformation processing systems,卷16,2004)。在该方法中,首先根据数据的原始特征以及数据类别来针对所有数据构建一个相邻无向图,然后最小化该无向图的拉普拉斯项,以求得投影变换矩阵(线性变换矩阵)。由于LPP进行的是线性变换并且能够保留数据的局部结构,因此进行LPP特征变换所需的运算量相对较小,可以较快地执行并且适合用于处理在流形结构上采样得到的数据。
发明内容
但是LPP的缺点在于其仅仅保留了数据的局部近邻结构(即,数据 的原始特征中的局部近邻信息),却不能利用数据所具有的标签信息。另外,该方法无法处理具有多维标签的数据。
因此,本公开提出了一种用于对具有多维标签的多个原始数据进行特征变换的信息处理装置和信息处理方法,其能够在保留数据的原始特征中的局部近邻信息的同时,利用数据所具有的标签信息。此外,根据本公开的信息处理装置和信息处理方法还可选地能够考虑到数据所具有的多维标签中所存在的关联来进行特征变换。
根据本公开的实施例,提供了一种信息处理装置,用于对具有多维标签的多个原始数据进行特征变换。该信息处理装置包括:原始特征向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;标签向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;标签相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度;相关数据确定单元,其被配置为针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据;特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;近邻相关数据选择单元,其被配置为针对每个原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原始数据的多个近邻相关数据;近邻相关图生成单元,其被配置为以每个原始数据和该原始数据的近邻相关数据作为节点,在对应于该原始数据和该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图;以及特征变换单元,其被配置为求解目标变换矩阵并根据所述目标变换矩阵对所述多个原始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换,所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关。
根据本公开的实施例,还提供了一种信息处理装置,用于对具有多维标签的多个原始数据进行特征变换。该信息处理装置包括:原始特征向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;标签向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;标签相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据 在标签向量空间中的标签相似度;非相关数据确定单元,其被配置为针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的非相关数据;特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;近邻非相关数据选择单元,其被配置为针对每个原始数据,基于该原始数据的每个非相关数据与该原始数据的特征相似度,在该原始数据的非相关数据中选择该原始数据的多个近邻非相关数据;近邻非相关图生成单元,其被配置为以每个原始数据和该原始数据的近邻非相关数据作为节点,在对应于该原始数据与该原始数据的每个近邻非相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图;以及特征变换单元,其被配置为求解目标变换矩阵并根据该目标变换矩阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与所述近邻非相关图中的全部边在经过该线性变换的特征空间中的加权长度之和正相关。
根据本公开的实施例,还提供了一种信息处理方法,其用于对具有多维标签的多个原始数据进行特征变换。该信息处理方法包括:针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度;针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据;针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;针对每个原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原始数据的多个近邻相关数据;以每个原始数据和该原始数据的近邻相关数据作为节点,在对应于该原始数据与该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图;并且求解目标变换矩阵并根据该目标变换矩阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关。
根据本公开的实施例,还提供了一种程序,其用于使得计算机设备执行上述信息处理方法,用于对具有多维标签的多个原始数据进行特征变 换。
根据本公开的实施例,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的程序,所述程序在执行时能够使所述计算设备执行上述信息处理方法。
根据本公开所提出的信息处理装置和信息处理方法,能够在保留数据的原始特征中的局部近邻信息的同时,利用数据所具有的标签信息。此外,根据本公开的信息处理装置和信息处理方法还可选地能够考虑到数据所具有的多维标签中所存在的关联来进行特征变换。
在上文中给出了关于本公开的技术方案的简要概述,以便提供对本公开的技术方案的某些方面的基本理解。应当理解的是,以上概述并不是关于本公开的技术方案的穷举性概述。以上概述并不是意图确定本公开的技术方案的关键或重要部分,也不是意图限定本公开的技术方案的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
通过以下结合附图对本公开的优选实施例的详细说明,本公开的技术方案的这些以及其他优点将更加明显。
附图说明
本公开的技术方案可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。在附图中:
图1是示意性地示出了根据本公开的第一实施例的信息处理装置的结构的框图;
图2是示意性地示出了根据本公开的第一实施例的信息处理方法的流程图;
图3是示意性地示出了根据本公开的第二实施例的信息处理装置的结构的框图;
图4是示意性地示出了根据本公开的第二实施例的信息处理方法的流程图;
图5是示意性地示出了根据本公开的第三实施例的信息处理装置的结构的框图;
图6是示意性地示出了根据本公开的第三实施例的信息处理方法的流程图;
图7是示意性地示出了可用来实现根据本公开的实施例的信息处理方法和信息处理装置的一种可能的信息处理设备的硬件配置的结构简图。
本领域技术人员应当理解,附图中的各组成部件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些组成部件的尺寸可能相对于其他组成部件被放大了,以便有助于提高对本公开的实施例的理解。
具体实施方式
在下文中将结合附图对本公开的优选实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开的技术方案,在附图中仅仅示出了与根据本公开的技术方案密切相关的装置结构和/或处理步骤,而省略了与本公开的技术方案关系不大的其他细节。
根据本公开的第一方面,提供了一种信息处理装置,用于对具有多维标签的多个原始数据进行特征变换。该信息处理装置包括:原始特征向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;标签向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;标签相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度;相关数据确定单元,其被配置为针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据;特征相似度确定单元,其被 配置为针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;近邻相关数据选择单元,其被配置为针对每个原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原始数据的多个近邻相关数据;近邻相关图生成单元,其被配置为以每个原始数据作为节点,在该原始数据与该原始数据的每个近邻相关数据之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图;以及特征变换单元,其被配置为求解目标变换矩阵并根据该目标变换矩阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与所述近邻相关图中的全部边在经过该线性变换的特征空间中的加权长度之和负相关。
根据本公开的第一方面,还提供了一种信息处理方法,其用于对具有多维标签的多个原始数据进行特征变换。该信息处理方法包括:针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度;针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据;针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;针对每个原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原始数据的多个近邻相关数据;以每个原始数据和该原始数据的近邻相关数据作为节点,在对应于该原始数据与该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图;并且求解目标变换矩阵并根据该目标变换矩阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关。
根据本公开的第二方面,提供了一种信息处理装置,用于对具有多维标签的多个原始数据进行特征变换。该信息处理装置包括:原始特征向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;标签向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;标签相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据 在标签向量空间中的标签相似度;非相关数据确定单元,其被配置为针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的非相关数据;特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;近邻非相关数据选择单元,其被配置为针对每个原始数据,基于该原始数据的每个非相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原始数据的多个近邻非相关数据;近邻非相关图生成单元,其被配置为以每个原始数据作为节点,在该原始数据与该原始数据的每个近邻非相关数据之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图;以及特征变换单元,其被配置为求解目标变换矩阵并根据该目标变换矩阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与所述近邻相关图中的全部边在经过该线性变换的特征空间中的加权长度之和正相关。
根据本公开的第二方面,还提供了一种信息处理方法,其用于对具有多维标签的多个原始数据进行特征变换。该信息处理方法包括:针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度;针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的非相关数据;针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;针对每个原始数据,基于该原始数据的每个非相关数据与该原始数据的特征相似度,在该原始数据的非相关数据中选择该原始数据的多个近邻非相关数据;以每个原始数据和该原始数据的近邻非相关数据作为节点,在对应于该原始数据与该原始数据的每个近邻非相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图;并且求解目标变换矩阵并根据该目标变换矩阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与所述近邻非相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和正相关。
(第一实施例)
首先,将参照图1来描述根据本公开的第一实施例的信息处理装置 100,作为根据本公开的第一方面提供的信息处理装置的示例。
信息处理装置100包括原始特征向量生成单元101、标签向量生成单元102、标签相似度确定单元103、相关数据确定单元104、特征相似度确定单元105、近邻相关数据选择单元106、近邻相关图生成单元107、特征变换单元108、非相关数据确定单元114、近邻非相关数据选择单元116、以及近邻非相关图生成单元117。
原始特征向量生成单元101根据所接收的具有多维标签的原始数据,针对每个原始数据来生成代表该原始数据的原始特征的原始特征向量,并将其提供给特征相似度确定单元105。例如,原始特征向量生成单元101使得原始数据a1,a2,……,an分别具有x1,x2,……,xn作为其原始特征向量。其中,i为小于等于原始数据的总数n的自然数,ai表示第i个原始数据,xi表示ai的特征向量,例如,xi是ai在d维的原始特征向量空间中的一个d维向量。d维的原始特征向量空间是代表了原始数据的所有原始特征的向量空间,通常具有较高的维度。
标签向量生成单元102根据所接收的具有多维标签的原始数据,针对每个原始数据来生成代表该原始数据所具有的多维标签的标签向量,并将其提供给标签相似度确定单元103。例如,原始特征向量生成单元101使得原始数据a1,a2,……,an分别具有y1,y2,……,yn作为其标签向量。其中,yi表示ai的标签向量,例如,yi是ai在k维的标签向量空间中的一个k维向量,该k维向量可以是k维的0-1向量,其中,如果k维向量yi在第j维度中的值为0,则表示ai不具有k个标签中的第j个标签,如果k维向量yi在第j维度中的值为1,则表示ai具有k个标签中的第j个标签,其中j是小于等于k的自然数。当然,yi也可以是0-1向量之外的k维向量,例如,如果每个原始数据都是含有一个人物的照片,并且原始数据的一个标签是身高数值,另一个标签是体重数值,则每个原始数据的标签向量都是一个二维向量,这个向量在每一维中的值都是一个正数。
标签相似度确定单元103基于所接收的关于每个数据的标签向量,针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度,并将其提供给相关数据确定单元104、近邻相关图生成单元107、非相关数据确定单元114和近邻非相关图生成单元117。标签相似度可以根据两个原始数据在标签向量空间中的距离和标签相关性矩阵来计算。例如可以根据以下式(1)来计算原始数据ai和aj之间的标签相似度Sl,ij。
Sl,ij=y′iCyj  (1)
其中C是k乘k的标签相关性矩阵,它可以人为给定(如单位矩阵I,即标签之间没有关联),也可以利用如下式(2)来计算:
Ca,b=<Ya,Yb>||Ya||&CenterDot;||Yb||,]]>1≤a,b≤k
        (2)
其中Ya和Yb是n维向量,Ya和Yb与yi之间有如下式(3)、(4)所描述的关系:
Yai=yia(3)
Ybi=yib(4)
换言之,Ya在第i维上的值是yi在第a维上的值,Yb在第i维上的值是yi在第b维上的值。
以上仅仅示出了确定标签相似度的一种方式。本领域普通技术人员应该理解,可以利用其他方式来确定标签相似度,例如可以仅基于原始数据在标签空间中的距离来确定标签相似度,并且所使用的距离可以是余弦距离、欧几里得距离或者其他适当类型的距离。
相关数据确定单元104针对每个原始数据以及每个其他原始数据,基于所接收的标签相似度,确定该其他原始数据是否是该原始数据的相关数据,并将确定结果提供给近邻相关数据选择单元106。其中,可以按照多种方式来确定原始数据之间是否彼此为相关数据。
一种可行的方式是,如果ai与aj的标签相似度是ai与所有其他原始数据中标签相似度最高的m个之一,同时也是aj与所有其他原始数据中标签相似度最高的m个之一,则ai与aj彼此互为相关数据,其中m是小于原始数据的总数n的自然数,m可以是预先给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。
另一种可行的方式是,如果ai与aj的标签相似度高于或等于预定的第一标签阈值Thr,则ai与aj彼此互为相关数据。与上述的自然数m相似,第一标签阈值Thr可以是预先给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。
非相关数据确定单元114与相关数据确定单元104类似,区别在于,非相关数据确定单元114针对每个原始数据以及每个其他原始数据,基于 所接收的标签相似度,确定该其他原始数据是否是该原始数据的非相关数据,并将确定结果提供给近邻非相关数据选择单元116。同样地,可以按照多种方式来确定原始数据之间是否彼此为非相关数据。
一种可行的方式是,如果ai与aj的标签相似度是ai与所有其他原始数据中标签相似度最低的r个之一,同时也是aj与所有其他原始数据中标签相似度最低的r个之一,则ai与aj彼此互为非相关数据,其中r是小于原始数据的总数n的自然数,r可以是预先给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。
另一种可行的方式是,如果ai与aj的标签相似度低于预定的第二标签阈值Thir,则ai与aj彼此互为非相关数据。与上述的自然数n相似,第二标签阈值Thir可以是预先给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。
优选地,当在使用第一标签阈值Thr来确定相关数据关系的同时使用第二标签阈值Thir来确定非相关数据关系时,第一标签阈值Thr大于等于第二标签阈值Thir。因此,可以确保两个原始数据不能同时既是相关数据,又是非相关数据。
特征相似度确定单元105基于所接收的原始数据的原始特征向量,对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度,并将其提供给近邻相关数据选择单元106、近邻相关图生成单元107、近邻非相关数据选择单元116和近邻非相关图生成单元117。特征相似度可以根据两个原始数据在原始特征向量空间中的距离来计算。例如可以根据以下式(5)来计算原始数据ai和aj之间的特征相似度Sv,ij。
Sv,ij=exp(-||xi-xj||2σ2)---(5)]]>
其中σ=mean(||xi-xj||2,1≤i≠j≤n)是在所有原始数据两两之间在原始特征向量空间中的平均距离。
本领域普通技术人员应该理解,原始数据在原始特征向量空间中的距离可以是欧几里得距离、曼哈顿距离、卡方距离或者其他适当类型的距离。
近邻相关数据选择单元106基于所接收的关于原始数据之间的相关数据关系,以及所接收的特征相似度,针对每个原始数据,在该原始数据 的相关数据中选择该原始数据的多个近邻相关数据,并将其提供给近邻相关图生成单元107。可以按照多种方式来为每个原始数据选择近邻相关数据。
一种可行的方式是,针对每个原始数据,选择其相关数据中与该原始数据的特征相似度最大的q个相关数据作为该原始数据的近邻相关数据。其中q是小于原始数据的总数n的自然数,q可以是预先给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。
另一种可行的方式是,针对每个原始数据,将其相关数据中与该原始数据的特征相似度大于第一近邻阈值Th1,则该相关数据是该原始数据的近邻相关数据。与上述的自然数q相似,第一近邻阈值Th1可以是预先给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。
本领域普通技术人员应该认识到,还可以存在其他方式用来选择近邻相关数据,例如在根据第一种方式选择的近邻相关数据中,去除与所针对的原始数据的特征相似度小于第一近邻阈值Th1的相关数据。
近邻相关图生成单元107基于所接收的每个原始数据的近邻相关数据,以每个原始数据和该原始数据的近邻相关数据作为节点,在与该原始数据和该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图,并将其提供给特征变换单元108。在为每个边设定权重时,可以基于这条边所连接的两个节点所对应的两个原始数据之间的特征相似度和标签相似度中的至少一项来进行。例如,可以基于以下方式来为每个边设定权重。
如果近邻相关数据选择单元106针对每个原始数据,在该原始数据的所有相关数据中,选择与该原始数据的特征相似度最大的q个相关数据作为该原始数据的近邻相关数据,则近邻相关图生成单元107可以按照以下方式,针对每条边,基于所接收的、该边所连接的两个节点所对应的两个原始数据之间的特征相似度来进行区分不同情况设定权重。
如果与该边所连接的一个节点所对应的原始数据的特征相似度最大的q个其他原始数据中包括与这条边所连接的另一个节点所对应的原始数据,则将该边的权重设定为1,否则将该边的权重设定为与对应于该边所连接的两个节点的两个原始数据之间的特征相似度和标签相似度中的至少一项正相关且小于等于1,例如将该边的权重设定为对应于该边所连 接的两个节点的两个原始数据之间的特征相似度和标签相似度的线性组合,如以下式(6)所示:

其中,Wr,ij是在近邻相关图中连接对应于原始数据ai和aj的节点的边的权重,α是调节参数,是0到1之间的实数。
在式(6)中,对于每个原始数据ai,从它的相关数据组成的集合Nr(i)中找到前q个与原始数据ai的特征相似度最大的数据,定义Nrq(i)为这q个原始数据组成的集合;同时,对于每个原始数据ai,从不包括原始数据ai的所有原始数据中找到前q个与原始数据ai的特征相似度最大的原始数据,定义Nq(i)为这q个数据组成的集合。
根据式(6)中所示的权重设定方式:
对于同时属于集合Nrq(i)和Nq(i)的原始数据aj,将连接对应于原始数据ai和aj的节点的边的权重设为最大值1;
对于同时属于集合Nrq(j)和Nq(j)的原始数据ai,将连接对应于原始数据ai和aj的节点的边的权重也设为最大值1;
对于除此之外的、与其对应的节点之间存在边的原始数据ai和aj,将该边的权重设定为原始数据ai和aj之间的特征相似度和标签相似度的线性组合,其中通过调节参数α来调节特征相似度和标签相似度在权重中各自所占的比例;
对于与其对应的节点之间不存在边的原始数据ai和aj,将Wr,ij设定为0,这可以理解为,所有不存在的边的权重都必然是0。
要注意的是,由于此处的近邻相关图是无向图,因此图中的每个边都是没有方向的,因此Wr,ij必然等于Wr,ji。
以上仅仅示出了一种设定权重的方式,本领域普通技术人员可以想到,用其他方式来设定权重。例如,可以将每条边的权重Wr,ij设定为与对应于该边所连接的两个节点的两个原始数据ai和aj之间的特征相似度和标签相似度中的至少一项正相关。更具体地,例如可以将每条边的权重Wr,ij设定为对应于该边所连接的两个节点的两个原始数据Wr,ij之间的特 征相似度和标签相似度的线性组合。
当然,也可以将每条边的权重都设为1。就是说,使得每条边都具有相同的权重。
近邻非相关数据选择单元116与近邻相关数据选择单元106类似,区别在于,近邻非相关数据选择单元116基于所接收的关于原始数据之间的非相关数据关系,以及所接收的特征相似度,针对每个原始数据,在该原始数据的非相关数据中选择该原始数据的多个近邻非相关数据,并将其提供给近邻非相关图生成单元117。可以按照多种方式来为每个原始数据选择近邻非相关数据。
一种可行的方式是,针对每个原始数据,选择其非相关数据中与该原始数据的特征相似度最大的p个相关数据作为该原始数据的近邻非相关数据。其中p是小于原始数据的总数n的自然数,p可以是预先给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。
另一种可行的方式是,针对每个原始数据,将其非相关数据中与该原始数据的特征相似度大于第二近邻阈值Th2,则该非相关数据是该原始数据的近邻非相关数据。与上述的自然数p相似,第二近邻阈值Th2可以是预先给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。
本领域普通技术人员应该认识到,还可以存在其他方式用来选择近邻非相关数据,例如在根据第一种方式选择的近邻非相关数据中,去除与所针对的原始数据的特征相似度小于第二近邻阈值Th2的非相关数据。
近邻非相关图生成单元117与近邻相关图生成单元107类似,区别在于,近邻非相关图生成单元117基于所接收的每个原始数据的近邻非相关数据,以每个原始数据和该原始数据的近邻非相关数据作为节点,在与该原始数据和该原始数据的每个近邻非相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图,并将其提供给特征变换单元108。在为每个边设定权重时,可以基于这条边所连接的两个节点所对应的两个原始数据之间的特征相似度和标签相似度中的至少一项来进行。例如,可以基于以下方式来为每个边设定权重。
如果近邻非相关数据选择单元116针对每个原始数据,在该原始数据的所有非相关数据中,选择与该原始数据的特征相似度最大的p个相关数据作为该原始数据的近邻非相关数据,则近邻非相关图生成单元117可以 按照以下方式,针对每条边,基于所接收的、该边所连接的两个节点所对应的两个原始数据之间的标签相似度来设定权重。
如果该边所连接的两个节点所对应的两个原始数据之间的特征相似度大于其中一个原始数据与该原始数据的所有相关数据的特征相似度中的最大值,则将该边的权重设定为与该边所连接的两个节点所对应的两个原始数据之间的特征相似度正相关,例如设定为这两个原始数据之间的特征相似度,否则将该边的权重设定为0。
如果对于每个原始数据ai,从它的不相关数据组成的集合Nir(i)中找到前p个与数据ai的特征相似度最大的不相关数据,定义Nirk(i)为这p个不相关数据组成的集合,并且对于每个原始数据ai,计算出它与它的所有相关数据的特征相似度中最大的特征相似度并定义为MaxRS(i),则以上权重设定方法可以表达为:对于属于集合Nir(i)且与原始数据ai的特征相似度大于MaxRS(i)的原始数据aj,将它和原始数据ai所对应的两个节点之间的边的权重设定为原始数据ai和aj之间的特征相似度。以上设定方法也可以由下式(7)来表示:

其中,Wir,ij是在近邻非相关图中连接对应于原始数据ai和aj的节点的边的权重。
要注意的是,由于此处的近邻非相关图是无向图,因此图中的每个边都是没有方向的,因此Wir,ij必然等于Wir,ji。
本领域普通技术人员还应该理解,可以将每条边的权重设定为与对应于该边所连接的两个节点的两个原始数据之间的特征相似度和标签相似度中的至少一项正相关,例如设定为这两个原始数据之间的特征相似度和标签相似度的线性组合。
当然,也可以将每条边的权重都设为1。就是说,使得每条边都具有相同的权重。
特征变换单元108基于所接收的近邻相关图和近邻非相关图,求解目标变换矩阵并根据该目标变换矩阵对所述多个原始数据进行特征变换,并且输出进行特征变换后的原始数据。其中,该目标变换矩阵代表使得目标 函数得到最大值的线性变换,该目标函数与近邻相关图中的全部边在经过线性变换的特征空间中的加权长度之和负相关,并且与近邻非相关图中的全部边在经过线性变换的特征空间中的加权长度之和正相关。要注意的是,这里的所说的边的长度指的是边所连接的两个点在空间中的距离。本领域普通技术人员应该认识到,这里可以选择适当类型的距离作为边的长度。
特征变换单元108进行特征变换的目的是,使得特征变换后的近邻相关图中各个近邻相关数据之间的加权距离尽可能被拉近,同时特征变换后的近邻非相关图中的各个近邻非相关数据之间的加权距离尽可能被拉远,也就是实现式(8)和式(9)中的目标函数。
min∑i,j(aTxi-aTxj)2Wr,ij    (8)
max∑i,j(aTxi-aTxj)2Wir,ij  (9)
其中αT是对原始数据所进行的线性变换(即,特征变换)。
作为局部保留投影特征变换方法中的所常用方法,利用近邻相关图和近邻非相关图的拉普拉斯项,可以将实现式(8)和式(9)中的目标函数转化为如下式(10)所示的优化问题:
argmaxaaTX(βLir-(1-β)Lr)XTa---(10)]]>
s.t.aTXDrXTa=1
其中Dr=diag(sum(Wr)),Dir=diag(sum(Wir)),近邻相关图的拉普拉斯项Lr=Dr-Wr,近邻非相关图的拉普拉斯项Lir=Dir-Wir,而β是一个调节近邻相关图和近邻非相关图各自所占权重的比例参数,0≤β≤1。
因为Lr=Dr-Wr,因此可以将式(10)所示的优化问题等价于式(11)所示的优化问题,而由于边界条件aTXDrXTa=1,进而可以将式(11)所示的优化问题等价于式(12)所示的优化问题。
argmaxaaTX(βLir-(1-β)(Dr-Wr))XTa---(11)]]>
s.t.aTXDrXTa=1
argmaxaaTX(βLir+(1-β)Wr)XTa---(12)]]>
s.t.aTXDrXTa=1
对式(12)的求解相当于求解如式(13)所示的广义特征值问题:
X(βLir+(1-β)Wr)XTa=λXDrXTa  (13)
设α1,α2,……,αm是式(13)中按特征值λ1>λ2>·……>λm的顺序所分别对应的特征向量,则可以得到特征变换矩阵A=(a1,a2,...,am),其中yi=ATxi是变换后的特征。
要注意的是,此处的目标函数与近邻相关图中的全部边在经过线性变换的特征空间中的加权长度之和负相关,并且与近邻非相关图中的全部边在经过线性变换的特征空间中的加权长度之和正相关。
由此,信息处理装置100得到了使得特征变换后的近邻相关图中各个近邻相关数据之间的加权距离尽可能被拉近,同时特征变换后的近邻非相关图中的各个近邻非相关数据之间的加权距离尽可能被拉远的线性变换,并且可以进而得到经过该线性变换之后的原始数据。信息处理装置100还可以基于经过该线性变换之后的原始数据来进行分类。特别地,信息处理装置100可以对诸如图像或者文本的原始数据进行处理,以按照图像或者文本所具有的多维标签以及图像或者文本自身的原始特征来对其进行分类。
而与传统的局部保持投影特征变换方法相比,基于经过该线性变换之后的原始数据来进行分类,可以在实现了在保留数据的局部信息的同时,还能够利用数据所具有的标签信息。
而且,与现有的大多数特征变换方法相比,基于经过该线性变换之后的原始数据来进行分类,能够适用于具有多维标签的数据。
此外,由于基于经过该线性变换之后的原始数据来进行的分类即可以保留数据的局部近邻信息,又可以利用数据所具有的标签信息,因而更加适合于使用诸如K近邻(K-Nearest Neighbor,KNN)算法的近邻分类算法。
以下,将参照图2来描述根据本公开的第一实施例的、对具有多维标签的多个原始数据进行的信息处理120,作为根据本公开的第一方面提供的信息处理方法的示例。信息处理120例如可以由信息处理装置100来执行。
信息处理120开始后,首先进入步骤S101。在步骤S101中,根据具有多维标签的原始数据,针对每个原始数据来生成代表该原始数据的原始特征的原始特征向量,并且处理前进到步骤S102。步骤S101例如可以由原始特征向量生成单元101来执行,在此对其细节不再赘述。
在步骤S102中,根据具有多维标签的原始数据,针对每个原始数据 来生成代表该原始数据所具有的多维标签的标签向量,并且处理前进到步骤S103。步骤S102例如可以由标签向量生成单元102来执行,在此对其细节不再赘述。
在步骤S103中,基于关于每个数据的标签向量,针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度,并且处理前进到步骤S104。步骤S103例如可以由标签相似度确定单元103来执行,在此对其细节不再赘述。
在步骤S104中,针对每个原始数据以及每个其他原始数据,基于标签相似度,确定该其他原始数据是否是该原始数据的相关数据,并且处理前进到步骤S105。步骤S104例如可以由相关数据确定单元104来执行,在此对其细节不再赘述。
在步骤S105中,针对每个原始数据以及每个其他原始数据,基于标签相似度,确定该其他原始数据是否是该原始数据的非相关数据,并且处理前进到步骤S106。步骤S105例如可以由非相关数据确定单元114来执行,在此对其细节不再赘述。
在步骤S106中,基于原始数据的原始特征向量,对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度,并且处理前进到步骤S107。步骤S106例如可以由特征相似度确定单元105来执行,在此对其细节不再赘述。
在步骤S107中,基于关于原始数据之间的相关数据关系以及特征相似度,针对每个原始数据,在该原始数据的相关数据中选择该原始数据的多个近邻相关数据,并且处理前进到步骤S108。步骤S107例如可以由近邻相关数据选择单元106来执行,在此对其细节不再赘述。
在步骤S108中,基于每个原始数据的近邻相关数据,以每个原始数据和该原始数据的近邻相关数据作为节点,在与该原始数据和该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图,并且处理前进到步骤S109。步骤S108例如可以由近邻相关图生成单元107来执行,在此对其细节不再赘述。
在步骤S109中,基于关于原始数据之间的非相关数据关系以及特征相似度,针对每个原始数据,在该原始数据的非相关数据中选择该原始数据的多个近邻非相关数据,并且处理前进到步骤S110。步骤S109例如可以由近邻非相关数据选择单元116来执行,在此对其细节不再赘述。
在步骤S110中,基于每个原始数据的近邻非相关数据,以每个原始数据和该原始数据的近邻非相关数据作为节点,在与该原始数据和该原始数据的每个近邻非相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图,并且处理前进到步骤S111。步骤S110例如可以由近邻非相关图生成单元117来执行,在此对其细节不再赘述。
在步骤S111中,基于近邻相关图和近邻非相关图,求解目标变换矩阵并根据该目标变换矩阵对所述多个原始数据进行特征变换,并且结束处理。其中,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与近邻相关图中的全部边在经过线性变换的特征空间中的加权长度之和负相关,并且与近邻非相关图中的全部边在经过线性变换的特征空间中的加权长度之和正相关。步骤S111例如可以由特征变换单元108来执行,在此对其细节不再赘述。
由此,通过信息处理120得到了使得特征变换后的近邻相关图中各个近邻相关数据之间的加权距离尽可能被拉近,同时特征变换后的近邻非相关图中的各个近邻非相关数据之间的加权距离尽可能被拉远的线性变换,并且可以进而得到经过该线性变换之后的原始数据。
此外,还可以进一步基于经过该线性变换之后的原始数据来进行分类。特别地,可以对诸如图像或者文本的原始数据进行处理,以按照图像或者文本所具有的多维标签以及图像或者文本自身的原始特征来对其进行分类。
而与传统的局部保持投影特征变换方法相比,基于经过该线性变换之后的原始数据来进行分类,可以在实现了在保留数据的局部信息的同时,还能够利用数据所具有的标签信息。
而且,与现有的大多数特征变换方法相比,基于经过该线性变换之后的原始数据来进行分类,能够适用于具有多维标签的数据。
此外,由于基于经过该线性变换之后的原始数据来进行的分类即可以保留数据的局部近邻信息,又可以利用数据所具有的标签信息,因而更加适合于使用诸如K近邻算法的近邻分类算法。
(第二实施例)
首先,将参照图3来描述根据本公开的第二实施例的信息处理装置200,作为根据本公开的第一方面提供的信息处理装置的又一示例。
信息处理装置200包括原始特征向量生成单元201、标签向量生成单元202、标签相似度确定单元203、相关数据确定单元204、特征相似度确定单元205、近邻相关数据选择单元206、近邻相关图生成单元207和特征变换单元208。这些组成单元在功能上各自与信息处理装置100的原始特征向量生成单元101、标签向量生成单元102、标签相似度确定单元103、相关数据确定单元104、特征相似度确定单元105、近邻相关数据选择单元106、近邻相关图生成单元107和特征变换单元108相类似,因此以下对于信息处理装置200的各组成单元,对于与信息处理装置100的组成单元相似的功能和操作将不再赘述。
原始特征向量生成单元201根据所接收的具有多维标签的原始数据,针对每个原始数据来生成代表该原始数据的原始特征的原始特征向量,并将其提供给特征相似度确定单元205。
标签向量生成单元202根据所接收的具有多维标签的原始数据,针对每个原始数据来生成代表该原始数据所具有的多维标签的标签向量,并将其提供给标签相似度确定单元203。
标签相似度确定单元203基于所接收的关于每个数据的标签向量,针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度,并将其提供给相关数据确定单元204和近邻相关图生成单元207
相关数据确定单元204针对每个原始数据以及每个其他原始数据,基于所接收的标签相似度,确定该其他原始数据是否是该原始数据的相关数据,并将确定结果提供给近邻相关数据选择单元206。
特征相似度确定单元205基于所接收的原始数据的原始特征向量,对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度,并将其提供给近邻相关数据选择单元206和近邻相关图生成单元207。
近邻相关数据选择单元206基于所接收的关于原始数据之间的相关数据关系,以及所接收的特征相似度,针对每个原始数据,在该原始数据的相关数据中选择该原始数据的多个近邻相关数据,并将其提供给近邻相关图生成单元207。
近邻相关图生成单元207基于所接收的每个原始数据的近邻相关数据,以每个原始数据和该原始数据的近邻相关数据作为节点,在与该原始 数据和该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图,并将其提供给特征变换单元208。
特征变换单元208基于所接收的近邻相关图,求解目标变换矩阵并根据该目标变换矩阵对所述多个原始数据进行特征变换,并且输出进行特征变换后的原始数据。其中,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与近邻相关图中的全部边在经过线性变换的特征空间中的加权长度之和负相关。
特征变换单元208进行特征变换的目的是,使得特征变换后的近邻相关图中各个近邻相关数据之间的加权距离尽可能被拉近,也就是实现式(14)中的目标函数。
min∑i,j(aTxi-aTxj)2Wr,ij  (14)
其中αT是对原始数据所进行的线性变换(即,特征变换)。
作为局部保留投影特征变换方法中的所常用方法,利用近邻相关图的拉普拉斯项,可以将实现式(14)中的目标函数转化为如下式(15)所示的优化问题:
argminaaTXLrXTa---(15)]]>
s.t.aTXDrXTa=1
其中Dr=diag(sum(Wr)),近邻相关图的拉普拉斯项Lr=Dr-Wr。
对式(15)的求解相当于求解如式(16)所示的广义特征值问题:
XLrXTa=λXDrXTa    (16)
设α1,α2,……,αm是式(16)中按特征值0<λ1<λ2<·……<λm的顺序所分别对应的特征向量,则可以得到特征变换矩阵A=(a1,a2,...,am),其中yi=ATxi是变换后的特征。
要注意的是,此处的、需要使其得到最小值的目标函数与近邻相关图中的全部边在经过线性变换的特征空间中的加权长度之和正相关。换言之,如果需要使得目标函数得到最大值,则该目标函数与近邻相关图中的全部边在经过线性变换的特征空间中的加权长度之和负相关。
由此,信息处理装置200得到了使得特征变换后的近邻相关图中各个近邻相关数据之间的加权距离尽可能被拉近的线性变换,并且可以进而得 到经过该线性变换之后的原始数据。信息处理装置200还可以基于经过该线性变换之后的原始数据来进行分类。特别地,信息处理装置200可以对诸如图像或者文本的原始数据进行处理,以按照图像或者文本所具有的多维标签以及图像或者文本自身的原始特征来对其进行分类。
而与传统的局部保持投影特征变换方法相比,基于经过该线性变换之后的原始数据来进行分类,可以在实现了在保留数据的局部信息的同时,还能够利用数据所具有的标签信息。
而且,与现有的大多数特征变换方法相比,基于经过该线性变换之后的原始数据来进行分类,能够适用于具有多维标签的数据。
此外,由于基于经过该线性变换之后的原始数据来进行的分类即可以保留数据的局部近邻信息,又可以利用数据所具有的标签信息,因而更加适合于使用诸如K近邻算法的近邻分类算法。
以下,将参照图4来描述根据本公开的第二实施例的、对具有多维标签的多个原始数据进行的信息处理220,作为根据本公开的第一方面提供的信息处理方法的又一示例。信息处理220例如可以由信息处理装置200来执行。
信息处理220开始后,首先进入步骤S201。在步骤S201中,根据具有多维标签的原始数据,针对每个原始数据来生成代表该原始数据的原始特征的原始特征向量,并且处理前进到步骤S202。步骤S201例如可以由原始特征向量生成单元201来执行。
在步骤S202中,根据具有多维标签的原始数据,针对每个原始数据来生成代表该原始数据所具有的多维标签的标签向量,并且处理前进到步骤S203。步骤S202例如可以由标签向量生成单元202来执行。
在步骤S203中,基于关于每个数据的标签向量,针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度,并且处理前进到步骤S204。步骤S203例如可以由标签相似度确定单元203来执行。
在步骤S204中,针对每个原始数据以及每个其他原始数据,基于标签相似度,确定该其他原始数据是否是该原始数据的相关数据,并且处理前进到步骤S205。步骤S204例如可以由相关数据确定单元204来执行。
在步骤S205中,基于原始数据的原始特征向量,对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似 度,并且处理前进到步骤S206。步骤S205例如可以由特征相似度确定单元205来执行。
在步骤S206中,基于关于原始数据之间的相关数据关系以及特征相似度,针对每个原始数据,在该原始数据的相关数据中选择该原始数据的多个近邻相关数据,并且处理前进到步骤S207。步骤S206例如可以由近邻相关数据选择单元206来执行。
在步骤S207中,基于每个原始数据的近邻相关数据,以每个原始数据和该原始数据的近邻相关数据作为节点,在与该原始数据和该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图,并且处理前进到步骤S208。步骤S207例如可以由近邻相关图生成单元207来执行。
在步骤S208中,基于近邻相关图,求解目标变换矩阵并根据该目标变换矩阵对所述多个原始数据进行特征变换,并且结束处理。其中,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与近邻相关图中的全部边在经过线性变换的特征空间中的加权长度之和负相关。步骤S208例如可以由特征变换单元208来执行。
由此,通过信息处理220得到了使得特征变换后的近邻相关图中各个近邻相关数据之间的加权距离尽可能被拉近的线性变换,并且可以进而得到经过该线性变换之后的原始数据。
此外,还可以进一步基于经过该线性变换之后的原始数据来进行分类。特别地,可以对诸如图像或者文本的原始数据进行处理,以按照图像或者文本所具有的多维标签以及图像或者文本自身的原始特征来对其进行分类。
而与传统的局部保持投影特征变换方法相比,基于经过该线性变换之后的原始数据来进行分类,可以在实现了在保留数据的局部信息的同时,还能够利用数据所具有的标签信息。
而且,与现有的大多数特征变换方法相比,基于经过该线性变换之后的原始数据来进行分类,能够适用于具有多维标签的数据。
此外,由于基于经过该线性变换之后的原始数据来进行的分类即可以保留数据的局部近邻信息,又可以利用数据所具有的标签信息,因而更加适合于使用诸如K近邻(KNN)算法的近邻分类算法。
(第三实施例)
首先,将参照图5来描述根据本公开的第三实施例的信息处理装置200,作为根据本公开的第二方面提供的信息处理装置的又一示例。
信息处理装置300包括原始特征向量生成单元301、标签向量生成单元302、标签相似度确定单元303、非相关数据确定单元314、特征相似度确定单元305、近邻非相关数据选择单元316、近邻非相关图生成单元317和特征变换单元308。这些组成单元在功能上各自与信息处理装置100的原始特征向量生成单元101、标签向量生成单元102、标签相似度确定单元103、非相关数据确定单元114、特征相似度确定单元105、近邻非相关数据选择单元116、近邻非相关图生成单元117和特征变换单元108相类似,因此以下对于信息处理装置300的各组成单元,对于与信息处理装置100的组成单元相似的功能和操作将不再赘述。
原始特征向量生成单元301根据所接收的具有多维标签的原始数据,针对每个原始数据来生成代表该原始数据的原始特征的原始特征向量,并将其提供给特征相似度确定单元305。
标签向量生成单元302根据所接收的具有多维标签的原始数据,针对每个原始数据来生成代表该原始数据所具有的多维标签的标签向量,并将其提供给标签相似度确定单元303。
标签相似度确定单元303基于所接收的关于每个数据的标签向量,针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度,并将其提供给非相关数据确定单元314和近邻非相关图生成单元317
非相关数据确定单元314针对每个原始数据以及每个其他原始数据,基于所接收的标签相似度,确定该其他原始数据是否是该原始数据的非相关数据,并将确定结果提供给近邻非相关数据选择单元316。
特征相似度确定单元305基于所接收的原始数据的原始特征向量,对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度,并将其提供给近邻非相关数据选择单元316和近邻非相关图生成单元317。
近邻非相关数据选择单元316基于所接收的关于原始数据之间的非相关数据关系,以及所接收的特征相似度,针对每个原始数据,在该原始数据的非相关数据中选择该原始数据的多个近邻非相关数据,并将其提供给近邻非相关图生成单元317。
近邻非相关图生成单元317基于所接收的每个原始数据的近邻非相关数据,以每个原始数据和该原始数据的近邻非相关数据作为节点,在与该原始数据和该原始数据的每个近邻非相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图,并将其提供给特征变换单元308。
特征变换单元308基于所接收的近邻非相关图,求解目标变换矩阵并根据该目标变换矩阵对所述多个原始数据进行特征变换,并且输出进行特征变换后的原始数据。其中,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与近邻非相关图中的全部边在经过线性变换的特征空间中的加权长度之和正相关。
特征变换单元308进行特征变换的目的是,使得特征变换后的近邻非相关图中各个近邻非相关数据之间的加权距离尽可能被拉远,也就是实现式(19)中的目标函数。
max∑i,j(aTxi-aTxj)2Wir,ij   (17)
其中αT是对原始数据所进行的线性变换(即,特征变换)。
作为局部保留投影特征变换方法中的所常用方法,利用近邻非相关图的拉普拉斯项,可以将实现式(17)中的目标函数转化为如下式(18)所示的优化问题:
argmaxaaTXLirXTa---(18)]]>
s.t.aTXDirXTa=1
其中Dir=diag(sum(Wir)),近邻非相关图的拉普拉斯项Lir=Dir-Wir。
对式(18)的求解相当于求解如式(19)所示的广义特征值问题:
XWirXTa=λXDirXTa  (19)
设α1,α2,……,αm是式(19)中按特征值0<λ1<λ2<·……<λm的顺序所分别对应的特征向量,则可以得到特征变换矩阵A=(a1,a2,...,am),其中yi=ATxi是变换后的特征。
要注意的是,此处的目标函数与近邻非相关图中的全部边在经过线性变换的特征空间中的加权长度之和正相关。
由此,信息处理装置300得到了使得特征变换后的近邻相关图中各个近邻非相关数据之间的加权距离尽可能被拉远的线性变换,并且可以进而 得到经过该线性变换之后的原始数据。信息处理装置300还可以基于经过该线性变换之后的原始数据来进行分类。特别地,信息处理装置300可以对诸如图像或者文本的原始数据进行处理,以按照图像或者文本所具有的多维标签以及图像或者文本自身的原始特征来对其进行分类。
而与传统的局部保持投影特征变换方法相比,基于经过该线性变换之后的原始数据来进行分类,可以在实现了在保留数据的局部信息的同时,还能够利用数据所具有的标签信息。
而且,与现有的大多数特征变换方法相比,基于经过该线性变换之后的原始数据来进行分类,能够适用于具有多维标签的数据。
此外,由于基于经过该线性变换之后的原始数据来进行的分类即可以保留数据的局部近邻信息,又可以利用数据所具有的标签信息,因而更加适合于使用诸如K近邻(KNN)算法的近邻分类算法。
以下,将参照图6来描述根据本公开的第三实施例的、对具有多维标签的多个原始数据进行的信息处理320,作为根据本公开的第二方面提供的信息处理方法的示例。信息处理320例如可以由信息处理装置300来执行。
信息处理320开始后,首先进入步骤S301。在步骤S301中,根据具有多维标签的原始数据,针对每个原始数据来生成代表该原始数据的原始特征的原始特征向量,并且处理前进到步骤S302。步骤S301例如可以由原始特征向量生成单元301来执行。
在步骤S302中,根据具有多维标签的原始数据,针对每个原始数据来生成代表该原始数据所具有的多维标签的标签向量,并且处理前进到步骤S303。步骤S302例如可以由标签向量生成单元302来执行。
在步骤S303中,基于关于每个数据的标签向量,针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度,并且处理前进到步骤S304。步骤S303例如可以由标签相似度确定单元303来执行。
在步骤S304中,针对每个原始数据以及每个其他原始数据,基于标签相似度,确定该其他原始数据是否是该原始数据的非相关数据,并且处理前进到步骤S305。步骤S304例如可以由非相关数据确定单元314来执行。
在步骤S305中,基于原始数据的原始特征向量,对每个原始数据, 计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度,并且处理前进到步骤S306。步骤S305例如可以由特征相似度确定单元305来执行。
在步骤S306中,基于关于原始数据之间的非相关数据关系以及特征相似度,针对每个原始数据,在该原始数据的非相关数据中选择该原始数据的多个近邻非相关数据,并且处理前进到步骤S307。步骤S306例如可以由近邻非相关数据选择单元316来执行。
在步骤S307中,基于每个原始数据的近邻非相关数据,以每个原始数据和该原始数据的近邻非相关数据作为节点,在与该原始数据和该原始数据的每个近邻非相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图,并且处理前进到步骤S308。步骤S307例如可以由近邻非相关图生成单元317来执行。
在步骤S308中,基于近邻非相关图,求解目标变换矩阵并根据该目标变换矩阵对所述多个原始数据进行特征变换,并且结束处理。其中,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与近邻非相关图中的全部边在经过线性变换的特征空间中的加权长度之正负相关。步骤S308例如可以由特征变换单元308来执行。
由此,通过信息处理320得到了使得特征变换后的近邻非相关图中各个近邻非相关数据之间的加权距离尽可能被拉远的线性变换,并且可以进而得到经过该线性变换之后的原始数据。
此外,还可以进一步基于经过该线性变换之后的原始数据来进行分类。特别地,可以对诸如图像或者文本的原始数据进行处理,以按照图像或者文本所具有的多维标签以及图像或者文本自身的原始特征来对其进行分类。
而与传统的局部保持投影特征变换方法相比,基于经过该线性变换之后的原始数据来进行分类,可以在实现了在保留数据的局部信息的同时,还能够利用数据所具有的标签信息。
而且,与现有的大多数特征变换方法相比,基于经过该线性变换之后的原始数据来进行分类,能够适用于具有多维标签的数据。
此外,由于基于经过该线性变换之后的原始数据来进行的分类即可以保留数据的局部近邻信息,又可以利用数据所具有的标签信息,因而更加适合于使用诸如K近邻算法的近邻分类算法。
(硬件配置实施例)
上述根据本公开的实施例的信息处理装置中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器(例如图7所示的通用机器700)安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
图7是示意性地示出了可用来实现根据本公开的实施例的信息处理方法和信息处理装置的一种可能的信息处理设备的硬件配置的结构简图。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,还根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件也连接到输入/输出接口705:输入部分706(包括键盘、鼠标等)、输出部分707(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡例如局域网(LAN)卡、调制解调器等)。通信部分709经由网络例如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出接口705。可拆卸介质711例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上,使得从中读出的计算机程序可根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的 文档处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的技术方案中。
此外,显然,根据本公开的实施例的信息处理方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
要注意,根据本公开的实施例的信息处理装置的各组成单元可以是独立部件,也可以由一个的部件来实现若干个组成单元的功能。
此外,要注意,根据本公开的信息处理方法的各步骤,不必须按照本公开中所记载的顺序进行,而是可以并行执行或者按照调用来执行,例如,在信息处理120中,步骤S102不一定必须在步骤S101之后进行,步骤S103不一定必须在步骤S102之后进行,步骤S106不一定必须在步骤S101以及S103至S105中任一步骤之后进行,步骤S107和S108不一定必须在步骤S106之后进行,步骤S109和S110不一定必须在步骤S107或S108之后进行。在信息处理220和320中也是类似的。
尽管已示出和描述了本公开的优选实施例,可以设想,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改。
据以上描述可知,本公开的实施例公开了以下技术方案,但是不限于此:
技术方案1.一种信息处理装置,用于对具有多维标签的多个原始数据进行特征变换,所述信息处理装置包括:
原始特征向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;
标签向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;
标签相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度;
相关数据确定单元,其被配置为针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据;
特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;
近邻相关数据选择单元,其被配置为针对每个原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原始数据的多个近邻相关数据;
近邻相关图生成单元,其被配置为以每个原始数据和该原始数据的近邻相关数据作为节点,在对应于该原始数据和该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图;以及
特征变换单元,其被配置为求解目标变换矩阵并根据所述目标变换矩阵对所述多个原始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换,所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关。
技术方案2.根据技术方案1所述的信息处理装置,其中
所述标签相似度确定单元被进一步配置为根据每个原始数据与每个其他原始数据在标签向量空间中的距离和标签相关性矩阵来计算所述标签相似度。
技术方案3.根据技术方案2所述的信息处理装置,其中
每个原始数据与每个其他原始数据在标签向量空间中的距离是余弦距离或欧几里得距离。
技术方案4.根据技术方案1至3中任一项所述的信息处理装置,其中
所述相关数据确定单元被进一步配置为针对每个原始数据和每个其他原始数据,当该原始数据与该其他原始数据的标签相似度大于等于第一标签阈值时,确定该其他原始数据是该原始数据的相关数据。
技术方案5.根据技术方案1至3中任一项所述的信息处理装置,其中
所述特征相似度确定单元被进一步配置为根据每个原始数据与每个其他原始数据在原始特征向量空间中的距离来计算所述标签相似度。
技术方案6.根据技术方案5所述的信息处理装置,其中
每个原始数据与每个其他原始数据在特征向量空间中的距离是欧几里得距离、曼哈顿距离或者卡方距离。
技术方案7.根据技术方案1至6中任一项所述的信息处理装置,其中
所述近邻相关图生成单元被进一步配置为针对每条边,将该边的权重设定为与对应于该边所连接的两个节点的两个原始数据之间的特征相似度和标签相似度中的至少一项正相关。
技术方案8.根据技术方案1至7中任一项所述的信息处理装置,其中
所述近邻相关数据选择单元被进一步配置为针对每个原始数据,在该原始数据的所有相关数据中,选择与该原始数据的特征相似度最大的第一预定数目的相关数据作为该原始数据的近邻相关数据。
技术方案9.根据技术方案8所述的信息处理装置,其中
所述近邻相关图生成单元被进一步配置为针对每条边,如果与该边所连接的一个节点所对应的原始数据的特征相似度最大的所述第一预定数目的其他原始数据中包括与这条边所连接的另一个节点所对应的原始数据,则将该边的权重设定为1,否则将该边的权重设定为与对应于该边所连接的两个节点的两个原始数据之间的特征相似度和标签相似度中的至少一项正相关且小于等于1。
技术方案10.根据技术方案1至9中任一项所述的信息处理装置,其还包括:
非相关数据确定单元,其被配置为针对每个原始数据,基于该原始数据与每个其他原始数据的标签相似度来确定每个其他原始数据是否是该原始数据的非相关数据;
近邻非相关数据选择单元,其被配置为针对每个原始数据,基于该原始数据的每个非相关数据与该原始数据的特征相似度,在该原始数据的非相关数据中选择该原始数据的多个近邻非相关数据;以及
近邻非相关图生成单元被配置为以每个原始数据和该原始数据的近邻非相关数据作为节点,在对应于该原始数据和该原始数据的每个近邻非相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图;并且其中
所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关,并且与所述近邻非相关图中的全部边 在经过所述线性变换的特征空间中的加权长度之和正相关。
技术方案11.根据技术方案10所述的信息处理装置,其中
所述相关数据确定单元被进一步配置为针对每个原始数据和每个其他原始数据,当该原始数据与该其他原始数据的标签相似度大于等于第一标签阈值时,确定该其他原始数据是该原始数据的相关数据;
所述非相关数据确定单元被进一步配置为针对每个原始数据和每个其他原始数据,当该原始数据与该其他原始数据的标签相似度小于第二标签阈值时,确定该其他原始数据是该原始数据的非相关数据;并且
所述第一标签阈值大于等于所述第二标签阈值。
技术方案12.根据技术方案10或11所述的信息处理装置,其中
所述近邻非相关数据选择单元被进一步配置为针对每个原始数据,在该原始数据的非相关数据中,选择与该原始数据的特征相似度最大的第二预定数目的非相关数据作为该原始数据的近邻非相关数据。
技术方案13.根据技术方案10至12中任一项所述的信息处理装置,其中
所述近邻非相关图生成单元被进一步配置为针对每条边,将该边的权重设定为与对应于该边所连接的两个节点的两个原始数据之间的特征相似度和标签相似度中的至少一项正相关。
技术方案14.根据技术方案10至13中任一项所述的信息处理装置,其中
所述近邻非相关图生成单元被进一步配置为针对每条边,如果该边所连接的两个节点所对应的两个原始数据之间的特征相似度大于其中一个原始数据与该原始数据的所有相关数据的特征相似度中的最大值,则将该边的权重设定为与该边所连接的两个节点所对应的两个原始数据之间的特征相似度正相关,否则将该边的权重设定为0。
技术方案15.根据技术方案1至14中任一项所述的信息处理装置,其通过进行所述特征变换来对所述原始数据进行分类。
技术方案16.根据技术方案15所述的信息处理装置,其中所述多个原始数据是多个图像数据或者多个文本数据。
技术方案17.一种信息处理装置,用于对具有多维标签的多个原始数 据进行特征变换,所述信息处理装置包括:
原始特征向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;
标签向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;
标签相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度,并且基于该标签相似度来确定该其他原始数据是否是该原始数据的非相关数据;
特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;
近邻非相关数据选择单元,其被配置为针对每个原始数据,在该原始数据的所有非相关数据中,基于与该原始数据的特征相似度来选择该原始数据的多个近邻非相关数据;
近邻非相关图生成单元,其被配置为以每个原始数据和该原始数据的近邻非相关数据作为节点,在对应于该原始数据与该原始数据的每个近邻非相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图;以及
特征变换单元,其被配置为求解目标变换矩阵并根据所述目标变换矩阵对所述多个原始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换,所述目标函数与所述近邻非相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和正相关。
技术方案18.一种信息处理方法,其用于对具有多维标签的多个原始数据进行特征变换,所述信息处理方法包括:
针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;
针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;
针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度;
针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据;
针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;
针对每个原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原始数据的多个近邻相关数据;
以每个原始数据和该原始数据的近邻相关数据作为节点,在对应于该原始数据与该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图;并且
求解目标变换矩阵并根据所述目标变换矩阵对所述多个原始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换,所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关。
技术方案19.一种信息处理方法,其用于对具有多维标签的多个原始数据进行特征变换,所述信息处理方法包括:
针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;
针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;
针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度;
针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的非相关数据;
针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;
针对每个原始数据,基于该原始数据的每个非相关数据与该原始数据的特征相似度,在该原始数据的非相关数据中选择该原始数据的多个近邻非相关数据;
以每个原始数据和该原始数据的近邻非相关数据作为节点,在对应于该原始数据与该原始数据的每个近邻非相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图;并且
求解目标变换矩阵并根据所述目标变换矩阵对所述多个原始数据进 行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换,所述目标函数与所述近邻非相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和正相关。
技术方案20.一种能够由计算设备执行的计算机程序,所述计算机程序在执行时能够使所述计算设备执行用于对具有多维标签的多个原始数据进行特征变换的信息处理方法,所述信息处理方法包括:
针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量;
针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;
针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度;
针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据;
针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;
针对每个原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原始数据的多个近邻相关数据;
以每个原始数据和该原始数据的近邻相关数据作为节点,在对应于该原始数据与该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图;并且
求解目标变换矩阵并根据所述目标变换矩阵对所述多个原始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换,所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关。
技术方案21.一种计算机可读存储介质,其上存储有能够由计算设备执行的计算机程序,所述计算机程序在执行时能够使所述计算设备执行用于对具有多维标签的多个原始数据进行特征变换的信息处理方法,所述信息处理方法包括:
针对每个原始数据,生成代表该原始数据的原始特征的原始特征向 量;
针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;
针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相似度;
针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据;
针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度;
针对每个原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原始数据的多个近邻相关数据;
以每个原始数据和该原始数据的近邻相关数据作为节点,在对应于该原始数据与该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图;并且
求解目标变换矩阵并根据所述目标变换矩阵对所述多个原始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换,所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关。
虽然已经详细说明了本公开的技术方案及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本公开的范围不仅限于说明书所描述的过程、设备、制造、物质的结构、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此所述的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、制造、物质的结构、手段、方法或者步骤。因此,所附的权利要求旨在它们的范围内包括这样的过程、设备、制造、物质的结构、手段、方法或者步骤。
以上虽然结合附图详细描述了本公开的实施例,但是应当明白,上面所描述的实施方式只是用于说明本公开的技术方案,而并不构成对本公开的技术方案的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本公开的范围 仅由所附的权利要求及其等同含义来限定。

信息处理装置和信息处理方法.pdf_第1页
第1页 / 共34页
信息处理装置和信息处理方法.pdf_第2页
第2页 / 共34页
信息处理装置和信息处理方法.pdf_第3页
第3页 / 共34页
点击查看更多>>
资源描述

《信息处理装置和信息处理方法.pdf》由会员分享,可在线阅读,更多相关《信息处理装置和信息处理方法.pdf(34页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103425666 A (43)申请公布日 2013.12.04 C N 1 0 3 4 2 5 6 6 6 A *CN103425666A* (21)申请号 201210152699.4 (22)申请日 2012.05.16 G06F 17/30(2006.01) (71)申请人富士通株式会社 地址日本神奈川县 (72)发明人刘曦 刘汝杰 (74)专利代理机构北京集佳知识产权代理有限 公司 11227 代理人朱胜 陈炜 (54) 发明名称 信息处理装置和信息处理方法 (57) 摘要 本发明公开了一种信息处理装置以及一种信 息处理方法,用于对具有多维标签的多个原始数 。

2、据进行特征变换。该信息处理方法包括:计算每 个原始数据与每个其他原始数据标签相似度并基 于此确定该其他原始数据是否是该原始数据的相 关数据,选择该原始数据的多个近邻相关数据,形 成近邻相关图,并且求解用于进行特征变换的目 标变换矩阵,该目标变换矩阵代表使得目标函数 得到最大值的线性变换,该目标函数与近邻相关 图中的全部边在经过所述线性变换的特征空间中 的加权长度之和负相关。根据本公开的技术方案, 可以实现对具有多维标签的多个原始数据进行局 部保持投影(LPP)特征变换,进而可以更好地对 原始数据进行分类。 (51)Int.Cl. 权利要求书3页 说明书25页 附图5页 (19)中华人民共和国国。

3、家知识产权局 (12)发明专利申请 权利要求书3页 说明书25页 附图5页 (10)申请公布号 CN 103425666 A CN 103425666 A 1/3页 2 1.一种信息处理装置,用于对具有多维标签的多个原始数据进行特征变换,所述信息 处理装置包括: 原始特征向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据的原始 特征的原始特征向量; 标签向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据所具有的多 维标签的标签向量; 标签相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原 始数据在标签向量空间中的标签相似度; 相关数据确定单元,其被配置为。

4、针对每个原始数据,基于每个其他原始数据与该原始 数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据; 特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原 始数据在原始特征向量空间中的特征相似度; 近邻相关数据选择单元,其被配置为针对每个原始数据,基于该原始数据的每个相关 数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原始数据的多个近邻 相关数据; 近邻相关图生成单元,其被配置为以每个原始数据和该原始数据的近邻相关数据作为 节点,在对应于该原始数据和该原始数据的每个近邻相关数据的节点之间形成边,并且为 每个边设定大于等于零的权重,从而形成近邻相关。

5、图;以及 特征变换单元,其被配置为求解目标变换矩阵并根据所述目标变换矩阵对所述多个原 始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换, 所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长 度之和负相关。 2.根据权利要求1所述的信息处理装置,其中 所述标签相似度确定单元被进一步配置为根据每个原始数据与每个其他原始数据在 标签向量空间中的距离和标签相关性矩阵来计算所述标签相似度。 3.根据权利要求1或2所述的信息处理装置,其中 所述近邻相关图生成单元被进一步配置为针对每条边,将该边的权重设定为与对应于 该边所连接的两个节点的两个原始数据之。

6、间的特征相似度和标签相似度中的至少一项正 相关。 4.根据权利要求1或2所述的信息处理装置,其中 所述近邻相关图生成单元被进一步配置为针对每条边,如果与该边所连接的一个节点 所对应的原始数据的特征相似度最大的所述第一预定数目的其他原始数据中包括与这条 边所连接的另一个节点所对应的原始数据,则将该边的权重设定为1,否则将该边的权重设 定为与对应于该边所连接的两个节点的两个原始数据之间的特征相似度和标签相似度中 的至少一项正相关且小于等于1。 5.根据权利要求1或2所述的信息处理装置,其还包括: 非相关数据确定单元,其被配置为针对每个原始数据,基于该原始数据与每个其他原 始数据的标签相似度来确定每。

7、个其他原始数据是否是该原始数据的非相关数据; 近邻非相关数据选择单元,其被配置为针对每个原始数据,基于该原始数据的每个非 权 利 要 求 书CN 103425666 A 2/3页 3 相关数据与该原始数据的特征相似度,在该原始数据的非相关数据中选择该原始数据的多 个近邻非相关数据;以及 近邻非相关图生成单元被配置为以每个原始数据和该原始数据的近邻非相关数据作 为节点,在对应于该原始数据和该原始数据的每个近邻非相关数据的节点之间形成边,并 且为每个边设定大于等于零的权重,从而形成近邻非相关图;并且其中 所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加 权长度之和负相关,并。

8、且与所述近邻非相关图中的全部边在经过所述线性变换的特征空间 中的加权长度之和正相关。 6.根据权利要求5所述的信息处理装置,其中 所述近邻非相关图生成单元被进一步配置为针对每条边,如果该边所连接的两个节点 所对应的两个原始数据之间的特征相似度大于其中一个原始数据与该原始数据的所有相 关数据的特征相似度中的最大值,则将该边的权重设定为与该边所连接的两个节点所对应 的两个原始数据之间的特征相似度正相关,否则将该边的权重设定为0。 7.根据权利要求1或2所述的信息处理装置,其通过进行所述特征变换来对所述原始 数据进行分类。 8.根据权利要求7所述的信息处理装置,其中所述多个原始数据是多个图像数据或者。

9、 多个文本数据。 9.一种信息处理装置,用于对具有多维标签的多个原始数据进行特征变换,所述信息 处理装置包括: 原始特征向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据的原始 特征的原始特征向量; 标签向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据所具有的多 维标签的标签向量; 标签相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原 始数据在标签向量空间中的标签相似度,并且基于该标签相似度来确定该其他原始数据是 否是该原始数据的非相关数据; 特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原 始数据在原始特征向量空间中的特征。

10、相似度; 近邻非相关数据选择单元,其被配置为针对每个原始数据,在该原始数据的所有非相 关数据中,基于与该原始数据的特征相似度来选择该原始数据的多个近邻非相关数据; 近邻非相关图生成单元,其被配置为以每个原始数据和该原始数据的近邻非相关数据 作为节点,在对应于该原始数据与该原始数据的每个近邻非相关数据的节点之间形成边, 并且为每个边设定大于等于零的权重,从而形成近邻非相关图;以及 特征变换单元,其被配置为求解目标变换矩阵并根据所述目标变换矩阵对所述多个原 始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换, 所述目标函数与所述近邻非相关图中的全部边在经过所述线性变换的。

11、特征空间中的加权 长度之和正相关。 10.一种信息处理方法,其用于对具有多维标签的多个原始数据进行特征变换,所述信 息处理方法包括: 权 利 要 求 书CN 103425666 A 3/3页 4 针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量; 针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量; 针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相 似度; 针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他 原始数据是否是该原始数据的相关数据; 针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特 。

12、征相似度; 针对每个原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在 该原始数据的相关数据中选择该原始数据的多个近邻相关数据; 以每个原始数据和该原始数据的近邻相关数据作为节点,在对应于该原始数据与该原 始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从 而形成近邻相关图;并且 求解目标变换矩阵并根据所述目标变换矩阵对所述多个原始数据进行特征变换,其 中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换,所述目标函数与所述近 邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关。 权 利 要 求 书CN 103425666 A 。

13、1/25页 5 信息处理装置和信息处理方法 技术领域 0001 本公开涉及一种信息处理装置和信息处理方法,尤其涉及一种用于对具有多维标 签的多个原始数据进行特征变换的信息处理装置和信息处理方法。 背景技术 0002 在对数据进行分类过程中,往往需要先对数据进行特征变换,从而使得特征变换 成为数据分类的关键技术。这是出于至少以下原因。一方面,在数据分类任务中,诸如图像 或者文本的数据通常是在环绕欧式空间的子流形上采样得到的,也就是说,这些数据并不 是分布在“平坦”的欧式空间上的,这些数据的原始特征并不适合在欧式空间上进行分析, 因此需要对这些数据进行特征变换。另一方面,这些数据的原始特征经常具有。

14、较高的维度, 直接这些数据进行分类将会遇到维数灾(参见R.Bellman和R.Kalab a的On adaptive control processes,IRE Trans actions onAutomatic Control,卷4,1959)。 0003 当前,局部保持投影(Locality Preserving Projection,LPP)特征变换方法是一 种非常常用的局部保持特征变换方法(参见X.F.He和P.Niyogi的Locality preserving projections,Advances in neuralinformation processing systems,。

15、卷16,2004)。在 该方法中,首先根据数据的原始特征以及数据类别来针对所有数据构建一个相邻无向图, 然后最小化该无向图的拉普拉斯项,以求得投影变换矩阵(线性变换矩阵)。由于LPP进行 的是线性变换并且能够保留数据的局部结构,因此进行LPP特征变换所需的运算量相对较 小,可以较快地执行并且适合用于处理在流形结构上采样得到的数据。 发明内容 0004 但是LPP的缺点在于其仅仅保留了数据的局部近邻结构(即,数据的原始特征中 的局部近邻信息),却不能利用数据所具有的标签信息。另外,该方法无法处理具有多维标 签的数据。 0005 因此,本公开提出了一种用于对具有多维标签的多个原始数据进行特征变换的。

16、信 息处理装置和信息处理方法,其能够在保留数据的原始特征中的局部近邻信息的同时,利 用数据所具有的标签信息。此外,根据本公开的信息处理装置和信息处理方法还可选地能 够考虑到数据所具有的多维标签中所存在的关联来进行特征变换。 0006 根据本公开的实施例,提供了一种信息处理装置,用于对具有多维标签的多个原 始数据进行特征变换。该信息处理装置包括:原始特征向量生成单元,其被配置为针对每个 原始数据,生成代表该原始数据的原始特征的原始特征向量;标签向量生成单元,其被配置 为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;标签相似度确 定单元,其被配置为针对每个原始数据,计算该原始数据。

17、与每个其他原始数据在标签向量 空间中的标签相似度;相关数据确定单元,其被配置为针对每个原始数据,基于每个其他原 始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据; 特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数 说 明 书CN 103425666 A 2/25页 6 据在原始特征向量空间中的特征相似度;近邻相关数据选择单元,其被配置为针对每个原 始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相 关数据中选择该原始数据的多个近邻相关数据;近邻相关图生成单元,其被配置为以每个 原始数据和该原始数据的近邻相关数。

18、据作为节点,在对应于该原始数据和该原始数据的每 个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻 相关图;以及特征变换单元,其被配置为求解目标变换矩阵并根据所述目标变换矩阵对所 述多个原始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的 线性变换,所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中 的加权长度之和负相关。 0007 根据本公开的实施例,还提供了一种信息处理装置,用于对具有多维标签的多个 原始数据进行特征变换。该信息处理装置包括:原始特征向量生成单元,其被配置为针对每 个原始数据,生成代表该原始数据的原始特征的原。

19、始特征向量;标签向量生成单元,其被配 置为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;标签相似度 确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在标签向 量空间中的标签相似度;非相关数据确定单元,其被配置为针对每个原始数据,基于每个其 他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的非相 关数据;特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他 原始数据在原始特征向量空间中的特征相似度;近邻非相关数据选择单元,其被配置为针 对每个原始数据,基于该原始数据的每个非相关数据与该原始数据的特征相似度,在该原 。

20、始数据的非相关数据中选择该原始数据的多个近邻非相关数据;近邻非相关图生成单元, 其被配置为以每个原始数据和该原始数据的近邻非相关数据作为节点,在对应于该原始数 据与该原始数据的每个近邻非相关数据的节点之间形成边,并且为每个边设定大于等于零 的权重,从而形成近邻非相关图;以及特征变换单元,其被配置为求解目标变换矩阵并根据 该目标变换矩阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标函数 得到最大值的线性变换,该目标函数与所述近邻非相关图中的全部边在经过该线性变换的 特征空间中的加权长度之和正相关。 0008 根据本公开的实施例,还提供了一种信息处理方法,其用于对具有多维标签的多 个。

21、原始数据进行特征变换。该信息处理方法包括:针对每个原始数据,生成代表该原始数据 的原始特征的原始特征向量;针对每个原始数据,生成代表该原始数据所具有的多维标签 的标签向量;针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中 的标签相似度;针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来 确定该其他原始数据是否是该原始数据的相关数据;针对每个原始数据,计算该原始数据 与每个其他原始数据在原始特征向量空间中的特征相似度;针对每个原始数据,基于该原 始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原 始数据的多个近邻相关数据;以每个原始数据。

22、和该原始数据的近邻相关数据作为节点,在 对应于该原始数据与该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设 定大于等于零的权重,从而形成近邻相关图;并且求解目标变换矩阵并根据该目标变换矩 阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标函数得到最大值的 线性变换,该目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的 说 明 书CN 103425666 A 3/25页 7 加权长度之和负相关。 0009 根据本公开的实施例,还提供了一种程序,其用于使得计算机设备执行上述信息 处理方法,用于对具有多维标签的多个原始数据进行特征变换。 0010 根据本公开的。

23、实施例,还提供了相应的计算机可读存储介质,该计算机可读存储 介质上存储有能够由计算设备执行的程序,所述程序在执行时能够使所述计算设备执行上 述信息处理方法。 0011 根据本公开所提出的信息处理装置和信息处理方法,能够在保留数据的原始特征 中的局部近邻信息的同时,利用数据所具有的标签信息。此外,根据本公开的信息处理装置 和信息处理方法还可选地能够考虑到数据所具有的多维标签中所存在的关联来进行特征 变换。 0012 在上文中给出了关于本公开的技术方案的简要概述,以便提供对本公开的技术方 案的某些方面的基本理解。应当理解的是,以上概述并不是关于本公开的技术方案的穷举 性概述。以上概述并不是意图确定。

24、本公开的技术方案的关键或重要部分,也不是意图限定 本公开的技术方案的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述 的更详细描述的前序。 0013 通过以下结合附图对本公开的优选实施例的详细说明,本公开的技术方案的这些 以及其他优点将更加明显。 附图说明 0014 本公开的技术方案可以通过参考下文中结合附图所给出的描述而得到更好的理 解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附 图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一 步举例说明本公开的优选实施例和解释本公开的原理和优点。在附图中: 0015 图1是示意性地。

25、示出了根据本公开的第一实施例的信息处理装置的结构的框图; 0016 图2是示意性地示出了根据本公开的第一实施例的信息处理方法的流程图; 0017 图3是示意性地示出了根据本公开的第二实施例的信息处理装置的结构的框图; 0018 图4是示意性地示出了根据本公开的第二实施例的信息处理方法的流程图; 0019 图5是示意性地示出了根据本公开的第三实施例的信息处理装置的结构的框图; 0020 图6是示意性地示出了根据本公开的第三实施例的信息处理方法的流程图; 0021 图7是示意性地示出了可用来实现根据本公开的实施例的信息处理方法和信息 处理装置的一种可能的信息处理设备的硬件配置的结构简图。 0022。

26、 本领域技术人员应当理解,附图中的各组成部件仅仅是为了简单和清楚起见而示 出的,而且不一定是按比例绘制的。例如,附图中某些组成部件的尺寸可能相对于其他组成 部件被放大了,以便有助于提高对本公开的实施例的理解。 具体实施方式 0023 在下文中将结合附图对本公开的优选实施例进行描述。为了清楚和简明起见,在 说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例 的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合 说 明 书CN 103425666 A 4/25页 8 与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而。

27、有所 改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内 容的本领域技术人员来说,这种开发工作仅仅是例行的任务。 0024 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开的技术方 案,在附图中仅仅示出了与根据本公开的技术方案密切相关的装置结构和/或处理步骤, 而省略了与本公开的技术方案关系不大的其他细节。 0025 根据本公开的第一方面,提供了一种信息处理装置,用于对具有多维标签的多个 原始数据进行特征变换。该信息处理装置包括:原始特征向量生成单元,其被配置为针对每 个原始数据,生成代表该原始数据的原始特征的原始特征向量;标签向量生成单元,其被配 。

28、置为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;标签相似度 确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在标签向 量空间中的标签相似度;相关数据确定单元,其被配置为针对每个原始数据,基于每个其他 原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数 据;特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始 数据在原始特征向量空间中的特征相似度;近邻相关数据选择单元,其被配置为针对每个 原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的 相关数据中选择该原始数据的多个近邻相关。

29、数据;近邻相关图生成单元,其被配置为以每 个原始数据作为节点,在该原始数据与该原始数据的每个近邻相关数据之间形成边,并且 为每个边设定大于等于零的权重,从而形成近邻相关图;以及特征变换单元,其被配置为求 解目标变换矩阵并根据该目标变换矩阵对多个原始数据进行特征变换,其中,该目标变换 矩阵代表使得目标函数得到最大值的线性变换,该目标函数与所述近邻相关图中的全部边 在经过该线性变换的特征空间中的加权长度之和负相关。 0026 根据本公开的第一方面,还提供了一种信息处理方法,其用于对具有多维标签的 多个原始数据进行特征变换。该信息处理方法包括:针对每个原始数据,生成代表该原始数 据的原始特征的原始特。

30、征向量;针对每个原始数据,生成代表该原始数据所具有的多维标 签的标签向量;针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间 中的标签相似度;针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度 来确定该其他原始数据是否是该原始数据的相关数据;针对每个原始数据,计算该原始数 据与每个其他原始数据在原始特征向量空间中的特征相似度;针对每个原始数据,基于该 原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该 原始数据的多个近邻相关数据;以每个原始数据和该原始数据的近邻相关数据作为节点, 在对应于该原始数据与该原始数据的每个近邻相关数据的节点之间形。

31、成边,并且为每个边 设定大于等于零的权重,从而形成近邻相关图;并且求解目标变换矩阵并根据该目标变换 矩阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标函数得到最大值 的线性变换,该目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中 的加权长度之和负相关。 0027 根据本公开的第二方面,提供了一种信息处理装置,用于对具有多维标签的多个 原始数据进行特征变换。该信息处理装置包括:原始特征向量生成单元,其被配置为针对每 个原始数据,生成代表该原始数据的原始特征的原始特征向量;标签向量生成单元,其被配 说 明 书CN 103425666 A 5/25页 9 置为针对每个原。

32、始数据,生成代表该原始数据所具有的多维标签的标签向量;标签相似度 确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在标签向 量空间中的标签相似度;非相关数据确定单元,其被配置为针对每个原始数据,基于每个其 他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的非相 关数据;特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他 原始数据在原始特征向量空间中的特征相似度;近邻非相关数据选择单元,其被配置为针 对每个原始数据,基于该原始数据的每个非相关数据与该原始数据的特征相似度,在该原 始数据的相关数据中选择该原始数据的多个近邻非相关数据。

33、;近邻非相关图生成单元,其 被配置为以每个原始数据作为节点,在该原始数据与该原始数据的每个近邻非相关数据之 间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图;以及特征变换单 元,其被配置为求解目标变换矩阵并根据该目标变换矩阵对多个原始数据进行特征变换, 其中,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与所述近邻 相关图中的全部边在经过该线性变换的特征空间中的加权长度之和正相关。 0028 根据本公开的第二方面,还提供了一种信息处理方法,其用于对具有多维标签的 多个原始数据进行特征变换。该信息处理方法包括:针对每个原始数据,生成代表该原始数 据的原始特征的原始。

34、特征向量;针对每个原始数据,生成代表该原始数据所具有的多维标 签的标签向量;针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间 中的标签相似度;针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度 来确定该其他原始数据是否是该原始数据的非相关数据;针对每个原始数据,计算该原始 数据与每个其他原始数据在原始特征向量空间中的特征相似度;针对每个原始数据,基于 该原始数据的每个非相关数据与该原始数据的特征相似度,在该原始数据的非相关数据中 选择该原始数据的多个近邻非相关数据;以每个原始数据和该原始数据的近邻非相关数据 作为节点,在对应于该原始数据与该原始数据的每个近邻非相关数。

35、据的节点之间形成边, 并且为每个边设定大于等于零的权重,从而形成近邻非相关图;并且求解目标变换矩阵并 根据该目标变换矩阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标 函数得到最大值的线性变换,该目标函数与所述近邻非相关图中的全部边在经过所述线性 变换的特征空间中的加权长度之和正相关。 0029 (第一实施例) 0030 首先,将参照图1来描述根据本公开的第一实施例的信息处理装置100,作为根据 本公开的第一方面提供的信息处理装置的示例。 0031 信息处理装置100包括原始特征向量生成单元101、标签向量生成单元102、标签 相似度确定单元103、相关数据确定单元104、特征相。

36、似度确定单元105、近邻相关数据选择 单元106、近邻相关图生成单元107、特征变换单元108、非相关数据确定单元114、近邻非相 关数据选择单元116、以及近邻非相关图生成单元117。 0032 原始特征向量生成单元101根据所接收的具有多维标签的原始数据,针对每个原 始数据来生成代表该原始数据的原始特征的原始特征向量,并将其提供给特征相似度确定 单元105。例如,原始特征向量生成单元101使得原始数据a 1 ,a 2 ,a n 分别具有x 1 , x 2 ,x n 作为其原始特征向量。其中,i为小于等于原始数据的总数n的自然数,a i 表 示第i个原始数据,x i 表示a i 的特征向量,。

37、例如,x i 是a i 在d维的原始特征向量空间中的 说 明 书CN 103425666 A 6/25页 10 一个d维向量。d维的原始特征向量空间是代表了原始数据的所有原始特征的向量空间,通 常具有较高的维度。 0033 标签向量生成单元102根据所接收的具有多维标签的原始数据,针对每个原始数 据来生成代表该原始数据所具有的多维标签的标签向量,并将其提供给标签相似度确定 单元103。例如,原始特征向量生成单元101使得原始数据a 1 ,a 2 ,a n 分别具有y 1 , y 2 ,y n 作为其标签向量。其中,y i 表示a i 的标签向量,例如,y i 是a i 在k维的标签向 量空间中。

38、的一个k维向量,该k维向量可以是k维的0-1向量,其中,如果k维向量y i 在第 j维度中的值为0,则表示a i 不具有k个标签中的第j个标签,如果k维向量y i 在第j维 度中的值为1,则表示a i 具有k个标签中的第j个标签,其中j是小于等于k的自然数。当 然,y i 也可以是0-1向量之外的k维向量,例如,如果每个原始数据都是含有一个人物的照 片,并且原始数据的一个标签是身高数值,另一个标签是体重数值,则每个原始数据的标签 向量都是一个二维向量,这个向量在每一维中的值都是一个正数。 0034 标签相似度确定单元103基于所接收的关于每个数据的标签向量,针对每个原始 数据,计算该原始数据与。

39、每个其他原始数据在标签向量空间中的标签相似度,并将其提供 给相关数据确定单元104、近邻相关图生成单元107、非相关数据确定单元114和近邻非相 关图生成单元117。标签相似度可以根据两个原始数据在标签向量空间中的距离和标签相 关性矩阵来计算。例如可以根据以下式(1)来计算原始数据a i 和a j 之间的标签相似度S l, ij 。 0035 S l,ij y i Cy j (1) 0036 其中C是k乘k的标签相关性矩阵,它可以人为给定(如单位矩阵I,即标签之间没 有关联),也可以利用如下式(2)来计算: 0037 1a,bk 0038 (2) 0039 其中Y a 和Y b 是n维向量,Y。

40、 a 和Y b 与y i 之间有如下式(3)、(4)所描述的关系: 0040 Y ai =y ia (3) 0041 Y bi =y ib (4) 0042 换言之,Y a 在第i维上的值是y i 在第a维上的值,Y b 在第i维上的值是y i 在第b 维上的值。 0043 以上仅仅示出了确定标签相似度的一种方式。本领域普通技术人员应该理解,可 以利用其他方式来确定标签相似度,例如可以仅基于原始数据在标签空间中的距离来确定 标签相似度,并且所使用的距离可以是余弦距离、欧几里得距离或者其他适当类型的距离。 0044 相关数据确定单元104针对每个原始数据以及每个其他原始数据,基于所接收的 标签相。

41、似度,确定该其他原始数据是否是该原始数据的相关数据,并将确定结果提供给近 邻相关数据选择单元106。其中,可以按照多种方式来确定原始数据之间是否彼此为相关数 据。 0045 一种可行的方式是,如果a i 与a j 的标签相似度是a i 与所有其他原始数据中标签 相似度最高的m个之一,同时也是a j 与所有其他原始数据中标签相似度最高的m个之一, 则a i 与a j 彼此互为相关数据,其中m是小于原始数据的总数n的自然数,m可以是预先给 说 明 书CN 103425666 A 10 7/25页 11 定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。 0046 另一种可行的方式。

42、是,如果a i 与a j 的标签相似度高于或等于预定的第一标签阈值 Thr,则a i 与a j 彼此互为相关数据。与上述的自然数m相似,第一标签阈值Thr可以是预先 给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。 0047 非相关数据确定单元114与相关数据确定单元104类似,区别在于,非相关数据确 定单元114针对每个原始数据以及每个其他原始数据,基于所接收的标签相似度,确定该 其他原始数据是否是该原始数据的非相关数据,并将确定结果提供给近邻非相关数据选择 单元116。同样地,可以按照多种方式来确定原始数据之间是否彼此为非相关数据。 0048 一种可行的方式是,如果a。

43、 i 与a j 的标签相似度是a i 与所有其他原始数据中标签 相似度最低的r个之一,同时也是a j 与所有其他原始数据中标签相似度最低的r个之一, 则a i 与a j 彼此互为非相关数据,其中r是小于原始数据的总数n的自然数,r可以是预先 给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。 0049 另一种可行的方式是,如果a i 与a j 的标签相似度低于预定的第二标签阈值Thir, 则a i 与a j 彼此互为非相关数据。与上述的自然数n相似,第二标签阈值Thir可以是预先 给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。 0050 优选地,当在。

44、使用第一标签阈值Thr来确定相关数据关系的同时使用第二标签阈 值Thir来确定非相关数据关系时,第一标签阈值Thr大于等于第二标签阈值Thir。因此, 可以确保两个原始数据不能同时既是相关数据,又是非相关数据。 0051 特征相似度确定单元105基于所接收的原始数据的原始特征向量,对每个原始数 据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度,并将其提 供给近邻相关数据选择单元106、近邻相关图生成单元107、近邻非相关数据选择单元116 和近邻非相关图生成单元117。特征相似度可以根据两个原始数据在原始特征向量空间中 的距离来计算。例如可以根据以下式(5)来计算原始数据a。

45、 i 和a j 之间的特征相似度S v,ij 。 0052 0053 其中mean(|x i -x j | 2 ,1ijn)是在所有原始数据两两之间在原始 特征向量空间中的平均距离。 0054 本领域普通技术人员应该理解,原始数据在原始特征向量空间中的距离可以是欧 几里得距离、曼哈顿距离、卡方距离或者其他适当类型的距离。 0055 近邻相关数据选择单元106基于所接收的关于原始数据之间的相关数据关系,以 及所接收的特征相似度,针对每个原始数据,在该原始数据的相关数据中选择该原始数据 的多个近邻相关数据,并将其提供给近邻相关图生成单元107。可以按照多种方式来为每个 原始数据选择近邻相关数据。 。

46、0056 一种可行的方式是,针对每个原始数据,选择其相关数据中与该原始数据的特征 相似度最大的q个相关数据作为该原始数据的近邻相关数据。其中q是小于原始数据的总 数n的自然数,q可以是预先给定的,也可以是根据例如原始数据的分布特性或者其他适当 的因素来确定的。 0057 另一种可行的方式是,针对每个原始数据,将其相关数据中与该原始数据的特征 相似度大于第一近邻阈值Th1,则该相关数据是该原始数据的近邻相关数据。与上述的自然 说 明 书CN 103425666 A 11 8/25页 12 数q相似,第一近邻阈值Th1可以是预先给定的,也可以是根据例如原始数据的分布特性或 者其他适当的因素来确定的。

47、。 0058 本领域普通技术人员应该认识到,还可以存在其他方式用来选择近邻相关数据, 例如在根据第一种方式选择的近邻相关数据中,去除与所针对的原始数据的特征相似度小 于第一近邻阈值Th1的相关数据。 0059 近邻相关图生成单元107基于所接收的每个原始数据的近邻相关数据,以每个原 始数据和该原始数据的近邻相关数据作为节点,在与该原始数据和该原始数据的每个近邻 相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图, 并将其提供给特征变换单元108。在为每个边设定权重时,可以基于这条边所连接的两个节 点所对应的两个原始数据之间的特征相似度和标签相似度中的至少一项来进行。。

48、例如,可 以基于以下方式来为每个边设定权重。 0060 如果近邻相关数据选择单元106针对每个原始数据,在该原始数据的所有相关数 据中,选择与该原始数据的特征相似度最大的q个相关数据作为该原始数据的近邻相关数 据,则近邻相关图生成单元107可以按照以下方式,针对每条边,基于所接收的、该边所连 接的两个节点所对应的两个原始数据之间的特征相似度来进行区分不同情况设定权重。 0061 如果与该边所连接的一个节点所对应的原始数据的特征相似度最大的q个其他 原始数据中包括与这条边所连接的另一个节点所对应的原始数据,则将该边的权重设定为 1,否则将该边的权重设定为与对应于该边所连接的两个节点的两个原始数据。

49、之间的特征 相似度和标签相似度中的至少一项正相关且小于等于1,例如将该边的权重设定为对应于 该边所连接的两个节点的两个原始数据之间的特征相似度和标签相似度的线性组合,如以 下式(6)所示: 0062 0063 其中,W r,ij 是在近邻相关图中连接对应于原始数据a i 和a j 的节点的边的权重, 是调节参数,是0到1之间的实数。 0064 在式(6)中,对于每个原始数据a i ,从它的相关数据组成的集合N r (i)中找到前q 个与原始数据a i 的特征相似度最大的数据,定义N rq (i)为这q个原始数据组成的集合;同 时,对于每个原始数据a i ,从不包括原始数据a i 的所有原始数据中找到前q个与原始数据 a i 的特征相似度最大的原始数据,定义N q (i)为这q个数据组成的集合。 0065 根据式(6)中所示的权重设定方式: 0066 对于同时属于集合N rq (i)和N q (i)的原始数据a j ,将连接对应于原始数据a i 和a j 的节点。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1