《信息处理装置和信息处理方法.pdf》由会员分享,可在线阅读,更多相关《信息处理装置和信息处理方法.pdf(34页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103425666 A (43)申请公布日 2013.12.04 C N 1 0 3 4 2 5 6 6 6 A *CN103425666A* (21)申请号 201210152699.4 (22)申请日 2012.05.16 G06F 17/30(2006.01) (71)申请人富士通株式会社 地址日本神奈川县 (72)发明人刘曦 刘汝杰 (74)专利代理机构北京集佳知识产权代理有限 公司 11227 代理人朱胜 陈炜 (54) 发明名称 信息处理装置和信息处理方法 (57) 摘要 本发明公开了一种信息处理装置以及一种信 息处理方法,用于对具有多维标签的多个原始数 。
2、据进行特征变换。该信息处理方法包括:计算每 个原始数据与每个其他原始数据标签相似度并基 于此确定该其他原始数据是否是该原始数据的相 关数据,选择该原始数据的多个近邻相关数据,形 成近邻相关图,并且求解用于进行特征变换的目 标变换矩阵,该目标变换矩阵代表使得目标函数 得到最大值的线性变换,该目标函数与近邻相关 图中的全部边在经过所述线性变换的特征空间中 的加权长度之和负相关。根据本公开的技术方案, 可以实现对具有多维标签的多个原始数据进行局 部保持投影(LPP)特征变换,进而可以更好地对 原始数据进行分类。 (51)Int.Cl. 权利要求书3页 说明书25页 附图5页 (19)中华人民共和国国。
3、家知识产权局 (12)发明专利申请 权利要求书3页 说明书25页 附图5页 (10)申请公布号 CN 103425666 A CN 103425666 A 1/3页 2 1.一种信息处理装置,用于对具有多维标签的多个原始数据进行特征变换,所述信息 处理装置包括: 原始特征向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据的原始 特征的原始特征向量; 标签向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据所具有的多 维标签的标签向量; 标签相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原 始数据在标签向量空间中的标签相似度; 相关数据确定单元,其被配置为。
4、针对每个原始数据,基于每个其他原始数据与该原始 数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据; 特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原 始数据在原始特征向量空间中的特征相似度; 近邻相关数据选择单元,其被配置为针对每个原始数据,基于该原始数据的每个相关 数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原始数据的多个近邻 相关数据; 近邻相关图生成单元,其被配置为以每个原始数据和该原始数据的近邻相关数据作为 节点,在对应于该原始数据和该原始数据的每个近邻相关数据的节点之间形成边,并且为 每个边设定大于等于零的权重,从而形成近邻相关。
5、图;以及 特征变换单元,其被配置为求解目标变换矩阵并根据所述目标变换矩阵对所述多个原 始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换, 所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加权长 度之和负相关。 2.根据权利要求1所述的信息处理装置,其中 所述标签相似度确定单元被进一步配置为根据每个原始数据与每个其他原始数据在 标签向量空间中的距离和标签相关性矩阵来计算所述标签相似度。 3.根据权利要求1或2所述的信息处理装置,其中 所述近邻相关图生成单元被进一步配置为针对每条边,将该边的权重设定为与对应于 该边所连接的两个节点的两个原始数据之。
6、间的特征相似度和标签相似度中的至少一项正 相关。 4.根据权利要求1或2所述的信息处理装置,其中 所述近邻相关图生成单元被进一步配置为针对每条边,如果与该边所连接的一个节点 所对应的原始数据的特征相似度最大的所述第一预定数目的其他原始数据中包括与这条 边所连接的另一个节点所对应的原始数据,则将该边的权重设定为1,否则将该边的权重设 定为与对应于该边所连接的两个节点的两个原始数据之间的特征相似度和标签相似度中 的至少一项正相关且小于等于1。 5.根据权利要求1或2所述的信息处理装置,其还包括: 非相关数据确定单元,其被配置为针对每个原始数据,基于该原始数据与每个其他原 始数据的标签相似度来确定每。
7、个其他原始数据是否是该原始数据的非相关数据; 近邻非相关数据选择单元,其被配置为针对每个原始数据,基于该原始数据的每个非 权 利 要 求 书CN 103425666 A 2/3页 3 相关数据与该原始数据的特征相似度,在该原始数据的非相关数据中选择该原始数据的多 个近邻非相关数据;以及 近邻非相关图生成单元被配置为以每个原始数据和该原始数据的近邻非相关数据作 为节点,在对应于该原始数据和该原始数据的每个近邻非相关数据的节点之间形成边,并 且为每个边设定大于等于零的权重,从而形成近邻非相关图;并且其中 所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的加 权长度之和负相关,并。
8、且与所述近邻非相关图中的全部边在经过所述线性变换的特征空间 中的加权长度之和正相关。 6.根据权利要求5所述的信息处理装置,其中 所述近邻非相关图生成单元被进一步配置为针对每条边,如果该边所连接的两个节点 所对应的两个原始数据之间的特征相似度大于其中一个原始数据与该原始数据的所有相 关数据的特征相似度中的最大值,则将该边的权重设定为与该边所连接的两个节点所对应 的两个原始数据之间的特征相似度正相关,否则将该边的权重设定为0。 7.根据权利要求1或2所述的信息处理装置,其通过进行所述特征变换来对所述原始 数据进行分类。 8.根据权利要求7所述的信息处理装置,其中所述多个原始数据是多个图像数据或者。
9、 多个文本数据。 9.一种信息处理装置,用于对具有多维标签的多个原始数据进行特征变换,所述信息 处理装置包括: 原始特征向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据的原始 特征的原始特征向量; 标签向量生成单元,其被配置为针对每个原始数据,生成代表该原始数据所具有的多 维标签的标签向量; 标签相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原 始数据在标签向量空间中的标签相似度,并且基于该标签相似度来确定该其他原始数据是 否是该原始数据的非相关数据; 特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原 始数据在原始特征向量空间中的特征。
10、相似度; 近邻非相关数据选择单元,其被配置为针对每个原始数据,在该原始数据的所有非相 关数据中,基于与该原始数据的特征相似度来选择该原始数据的多个近邻非相关数据; 近邻非相关图生成单元,其被配置为以每个原始数据和该原始数据的近邻非相关数据 作为节点,在对应于该原始数据与该原始数据的每个近邻非相关数据的节点之间形成边, 并且为每个边设定大于等于零的权重,从而形成近邻非相关图;以及 特征变换单元,其被配置为求解目标变换矩阵并根据所述目标变换矩阵对所述多个原 始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换, 所述目标函数与所述近邻非相关图中的全部边在经过所述线性变换的。
11、特征空间中的加权 长度之和正相关。 10.一种信息处理方法,其用于对具有多维标签的多个原始数据进行特征变换,所述信 息处理方法包括: 权 利 要 求 书CN 103425666 A 3/3页 4 针对每个原始数据,生成代表该原始数据的原始特征的原始特征向量; 针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量; 针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中的标签相 似度; 针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来确定该其他 原始数据是否是该原始数据的相关数据; 针对每个原始数据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特 。
12、征相似度; 针对每个原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在 该原始数据的相关数据中选择该原始数据的多个近邻相关数据; 以每个原始数据和该原始数据的近邻相关数据作为节点,在对应于该原始数据与该原 始数据的每个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从 而形成近邻相关图;并且 求解目标变换矩阵并根据所述目标变换矩阵对所述多个原始数据进行特征变换,其 中,所述目标变换矩阵代表使得目标函数得到最大值的线性变换,所述目标函数与所述近 邻相关图中的全部边在经过所述线性变换的特征空间中的加权长度之和负相关。 权 利 要 求 书CN 103425666 A 。
13、1/25页 5 信息处理装置和信息处理方法 技术领域 0001 本公开涉及一种信息处理装置和信息处理方法,尤其涉及一种用于对具有多维标 签的多个原始数据进行特征变换的信息处理装置和信息处理方法。 背景技术 0002 在对数据进行分类过程中,往往需要先对数据进行特征变换,从而使得特征变换 成为数据分类的关键技术。这是出于至少以下原因。一方面,在数据分类任务中,诸如图像 或者文本的数据通常是在环绕欧式空间的子流形上采样得到的,也就是说,这些数据并不 是分布在“平坦”的欧式空间上的,这些数据的原始特征并不适合在欧式空间上进行分析, 因此需要对这些数据进行特征变换。另一方面,这些数据的原始特征经常具有。
14、较高的维度, 直接这些数据进行分类将会遇到维数灾(参见R.Bellman和R.Kalab a的On adaptive control processes,IRE Trans actions onAutomatic Control,卷4,1959)。 0003 当前,局部保持投影(Locality Preserving Projection,LPP)特征变换方法是一 种非常常用的局部保持特征变换方法(参见X.F.He和P.Niyogi的Locality preserving projections,Advances in neuralinformation processing systems,。
15、卷16,2004)。在 该方法中,首先根据数据的原始特征以及数据类别来针对所有数据构建一个相邻无向图, 然后最小化该无向图的拉普拉斯项,以求得投影变换矩阵(线性变换矩阵)。由于LPP进行 的是线性变换并且能够保留数据的局部结构,因此进行LPP特征变换所需的运算量相对较 小,可以较快地执行并且适合用于处理在流形结构上采样得到的数据。 发明内容 0004 但是LPP的缺点在于其仅仅保留了数据的局部近邻结构(即,数据的原始特征中 的局部近邻信息),却不能利用数据所具有的标签信息。另外,该方法无法处理具有多维标 签的数据。 0005 因此,本公开提出了一种用于对具有多维标签的多个原始数据进行特征变换的。
16、信 息处理装置和信息处理方法,其能够在保留数据的原始特征中的局部近邻信息的同时,利 用数据所具有的标签信息。此外,根据本公开的信息处理装置和信息处理方法还可选地能 够考虑到数据所具有的多维标签中所存在的关联来进行特征变换。 0006 根据本公开的实施例,提供了一种信息处理装置,用于对具有多维标签的多个原 始数据进行特征变换。该信息处理装置包括:原始特征向量生成单元,其被配置为针对每个 原始数据,生成代表该原始数据的原始特征的原始特征向量;标签向量生成单元,其被配置 为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;标签相似度确 定单元,其被配置为针对每个原始数据,计算该原始数据。
17、与每个其他原始数据在标签向量 空间中的标签相似度;相关数据确定单元,其被配置为针对每个原始数据,基于每个其他原 始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数据; 特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数 说 明 书CN 103425666 A 2/25页 6 据在原始特征向量空间中的特征相似度;近邻相关数据选择单元,其被配置为针对每个原 始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相 关数据中选择该原始数据的多个近邻相关数据;近邻相关图生成单元,其被配置为以每个 原始数据和该原始数据的近邻相关数。
18、据作为节点,在对应于该原始数据和该原始数据的每 个近邻相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻 相关图;以及特征变换单元,其被配置为求解目标变换矩阵并根据所述目标变换矩阵对所 述多个原始数据进行特征变换,其中,所述目标变换矩阵代表使得目标函数得到最大值的 线性变换,所述目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中 的加权长度之和负相关。 0007 根据本公开的实施例,还提供了一种信息处理装置,用于对具有多维标签的多个 原始数据进行特征变换。该信息处理装置包括:原始特征向量生成单元,其被配置为针对每 个原始数据,生成代表该原始数据的原始特征的原。
19、始特征向量;标签向量生成单元,其被配 置为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;标签相似度 确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在标签向 量空间中的标签相似度;非相关数据确定单元,其被配置为针对每个原始数据,基于每个其 他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的非相 关数据;特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他 原始数据在原始特征向量空间中的特征相似度;近邻非相关数据选择单元,其被配置为针 对每个原始数据,基于该原始数据的每个非相关数据与该原始数据的特征相似度,在该原 。
20、始数据的非相关数据中选择该原始数据的多个近邻非相关数据;近邻非相关图生成单元, 其被配置为以每个原始数据和该原始数据的近邻非相关数据作为节点,在对应于该原始数 据与该原始数据的每个近邻非相关数据的节点之间形成边,并且为每个边设定大于等于零 的权重,从而形成近邻非相关图;以及特征变换单元,其被配置为求解目标变换矩阵并根据 该目标变换矩阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标函数 得到最大值的线性变换,该目标函数与所述近邻非相关图中的全部边在经过该线性变换的 特征空间中的加权长度之和正相关。 0008 根据本公开的实施例,还提供了一种信息处理方法,其用于对具有多维标签的多 个。
21、原始数据进行特征变换。该信息处理方法包括:针对每个原始数据,生成代表该原始数据 的原始特征的原始特征向量;针对每个原始数据,生成代表该原始数据所具有的多维标签 的标签向量;针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间中 的标签相似度;针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度来 确定该其他原始数据是否是该原始数据的相关数据;针对每个原始数据,计算该原始数据 与每个其他原始数据在原始特征向量空间中的特征相似度;针对每个原始数据,基于该原 始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该原 始数据的多个近邻相关数据;以每个原始数据。
22、和该原始数据的近邻相关数据作为节点,在 对应于该原始数据与该原始数据的每个近邻相关数据的节点之间形成边,并且为每个边设 定大于等于零的权重,从而形成近邻相关图;并且求解目标变换矩阵并根据该目标变换矩 阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标函数得到最大值的 线性变换,该目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中的 说 明 书CN 103425666 A 3/25页 7 加权长度之和负相关。 0009 根据本公开的实施例,还提供了一种程序,其用于使得计算机设备执行上述信息 处理方法,用于对具有多维标签的多个原始数据进行特征变换。 0010 根据本公开的。
23、实施例,还提供了相应的计算机可读存储介质,该计算机可读存储 介质上存储有能够由计算设备执行的程序,所述程序在执行时能够使所述计算设备执行上 述信息处理方法。 0011 根据本公开所提出的信息处理装置和信息处理方法,能够在保留数据的原始特征 中的局部近邻信息的同时,利用数据所具有的标签信息。此外,根据本公开的信息处理装置 和信息处理方法还可选地能够考虑到数据所具有的多维标签中所存在的关联来进行特征 变换。 0012 在上文中给出了关于本公开的技术方案的简要概述,以便提供对本公开的技术方 案的某些方面的基本理解。应当理解的是,以上概述并不是关于本公开的技术方案的穷举 性概述。以上概述并不是意图确定。
24、本公开的技术方案的关键或重要部分,也不是意图限定 本公开的技术方案的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述 的更详细描述的前序。 0013 通过以下结合附图对本公开的优选实施例的详细说明,本公开的技术方案的这些 以及其他优点将更加明显。 附图说明 0014 本公开的技术方案可以通过参考下文中结合附图所给出的描述而得到更好的理 解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附 图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一 步举例说明本公开的优选实施例和解释本公开的原理和优点。在附图中: 0015 图1是示意性地。
25、示出了根据本公开的第一实施例的信息处理装置的结构的框图; 0016 图2是示意性地示出了根据本公开的第一实施例的信息处理方法的流程图; 0017 图3是示意性地示出了根据本公开的第二实施例的信息处理装置的结构的框图; 0018 图4是示意性地示出了根据本公开的第二实施例的信息处理方法的流程图; 0019 图5是示意性地示出了根据本公开的第三实施例的信息处理装置的结构的框图; 0020 图6是示意性地示出了根据本公开的第三实施例的信息处理方法的流程图; 0021 图7是示意性地示出了可用来实现根据本公开的实施例的信息处理方法和信息 处理装置的一种可能的信息处理设备的硬件配置的结构简图。 0022。
26、 本领域技术人员应当理解,附图中的各组成部件仅仅是为了简单和清楚起见而示 出的,而且不一定是按比例绘制的。例如,附图中某些组成部件的尺寸可能相对于其他组成 部件被放大了,以便有助于提高对本公开的实施例的理解。 具体实施方式 0023 在下文中将结合附图对本公开的优选实施例进行描述。为了清楚和简明起见,在 说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例 的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合 说 明 书CN 103425666 A 4/25页 8 与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而。
27、有所 改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内 容的本领域技术人员来说,这种开发工作仅仅是例行的任务。 0024 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开的技术方 案,在附图中仅仅示出了与根据本公开的技术方案密切相关的装置结构和/或处理步骤, 而省略了与本公开的技术方案关系不大的其他细节。 0025 根据本公开的第一方面,提供了一种信息处理装置,用于对具有多维标签的多个 原始数据进行特征变换。该信息处理装置包括:原始特征向量生成单元,其被配置为针对每 个原始数据,生成代表该原始数据的原始特征的原始特征向量;标签向量生成单元,其被配 。
28、置为针对每个原始数据,生成代表该原始数据所具有的多维标签的标签向量;标签相似度 确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在标签向 量空间中的标签相似度;相关数据确定单元,其被配置为针对每个原始数据,基于每个其他 原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的相关数 据;特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始 数据在原始特征向量空间中的特征相似度;近邻相关数据选择单元,其被配置为针对每个 原始数据,基于该原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的 相关数据中选择该原始数据的多个近邻相关。
29、数据;近邻相关图生成单元,其被配置为以每 个原始数据作为节点,在该原始数据与该原始数据的每个近邻相关数据之间形成边,并且 为每个边设定大于等于零的权重,从而形成近邻相关图;以及特征变换单元,其被配置为求 解目标变换矩阵并根据该目标变换矩阵对多个原始数据进行特征变换,其中,该目标变换 矩阵代表使得目标函数得到最大值的线性变换,该目标函数与所述近邻相关图中的全部边 在经过该线性变换的特征空间中的加权长度之和负相关。 0026 根据本公开的第一方面,还提供了一种信息处理方法,其用于对具有多维标签的 多个原始数据进行特征变换。该信息处理方法包括:针对每个原始数据,生成代表该原始数 据的原始特征的原始特。
30、征向量;针对每个原始数据,生成代表该原始数据所具有的多维标 签的标签向量;针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间 中的标签相似度;针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度 来确定该其他原始数据是否是该原始数据的相关数据;针对每个原始数据,计算该原始数 据与每个其他原始数据在原始特征向量空间中的特征相似度;针对每个原始数据,基于该 原始数据的每个相关数据与该原始数据的特征相似度,在该原始数据的相关数据中选择该 原始数据的多个近邻相关数据;以每个原始数据和该原始数据的近邻相关数据作为节点, 在对应于该原始数据与该原始数据的每个近邻相关数据的节点之间形。
31、成边,并且为每个边 设定大于等于零的权重,从而形成近邻相关图;并且求解目标变换矩阵并根据该目标变换 矩阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标函数得到最大值 的线性变换,该目标函数与所述近邻相关图中的全部边在经过所述线性变换的特征空间中 的加权长度之和负相关。 0027 根据本公开的第二方面,提供了一种信息处理装置,用于对具有多维标签的多个 原始数据进行特征变换。该信息处理装置包括:原始特征向量生成单元,其被配置为针对每 个原始数据,生成代表该原始数据的原始特征的原始特征向量;标签向量生成单元,其被配 说 明 书CN 103425666 A 5/25页 9 置为针对每个原。
32、始数据,生成代表该原始数据所具有的多维标签的标签向量;标签相似度 确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他原始数据在标签向 量空间中的标签相似度;非相关数据确定单元,其被配置为针对每个原始数据,基于每个其 他原始数据与该原始数据的标签相似度来确定该其他原始数据是否是该原始数据的非相 关数据;特征相似度确定单元,其被配置为针对每个原始数据,计算该原始数据与每个其他 原始数据在原始特征向量空间中的特征相似度;近邻非相关数据选择单元,其被配置为针 对每个原始数据,基于该原始数据的每个非相关数据与该原始数据的特征相似度,在该原 始数据的相关数据中选择该原始数据的多个近邻非相关数据。
33、;近邻非相关图生成单元,其 被配置为以每个原始数据作为节点,在该原始数据与该原始数据的每个近邻非相关数据之 间形成边,并且为每个边设定大于等于零的权重,从而形成近邻非相关图;以及特征变换单 元,其被配置为求解目标变换矩阵并根据该目标变换矩阵对多个原始数据进行特征变换, 其中,该目标变换矩阵代表使得目标函数得到最大值的线性变换,该目标函数与所述近邻 相关图中的全部边在经过该线性变换的特征空间中的加权长度之和正相关。 0028 根据本公开的第二方面,还提供了一种信息处理方法,其用于对具有多维标签的 多个原始数据进行特征变换。该信息处理方法包括:针对每个原始数据,生成代表该原始数 据的原始特征的原始。
34、特征向量;针对每个原始数据,生成代表该原始数据所具有的多维标 签的标签向量;针对每个原始数据,计算该原始数据与每个其他原始数据在标签向量空间 中的标签相似度;针对每个原始数据,基于每个其他原始数据与该原始数据的标签相似度 来确定该其他原始数据是否是该原始数据的非相关数据;针对每个原始数据,计算该原始 数据与每个其他原始数据在原始特征向量空间中的特征相似度;针对每个原始数据,基于 该原始数据的每个非相关数据与该原始数据的特征相似度,在该原始数据的非相关数据中 选择该原始数据的多个近邻非相关数据;以每个原始数据和该原始数据的近邻非相关数据 作为节点,在对应于该原始数据与该原始数据的每个近邻非相关数。
35、据的节点之间形成边, 并且为每个边设定大于等于零的权重,从而形成近邻非相关图;并且求解目标变换矩阵并 根据该目标变换矩阵对多个原始数据进行特征变换,其中,该目标变换矩阵代表使得目标 函数得到最大值的线性变换,该目标函数与所述近邻非相关图中的全部边在经过所述线性 变换的特征空间中的加权长度之和正相关。 0029 (第一实施例) 0030 首先,将参照图1来描述根据本公开的第一实施例的信息处理装置100,作为根据 本公开的第一方面提供的信息处理装置的示例。 0031 信息处理装置100包括原始特征向量生成单元101、标签向量生成单元102、标签 相似度确定单元103、相关数据确定单元104、特征相。
36、似度确定单元105、近邻相关数据选择 单元106、近邻相关图生成单元107、特征变换单元108、非相关数据确定单元114、近邻非相 关数据选择单元116、以及近邻非相关图生成单元117。 0032 原始特征向量生成单元101根据所接收的具有多维标签的原始数据,针对每个原 始数据来生成代表该原始数据的原始特征的原始特征向量,并将其提供给特征相似度确定 单元105。例如,原始特征向量生成单元101使得原始数据a 1 ,a 2 ,a n 分别具有x 1 , x 2 ,x n 作为其原始特征向量。其中,i为小于等于原始数据的总数n的自然数,a i 表 示第i个原始数据,x i 表示a i 的特征向量,。
37、例如,x i 是a i 在d维的原始特征向量空间中的 说 明 书CN 103425666 A 6/25页 10 一个d维向量。d维的原始特征向量空间是代表了原始数据的所有原始特征的向量空间,通 常具有较高的维度。 0033 标签向量生成单元102根据所接收的具有多维标签的原始数据,针对每个原始数 据来生成代表该原始数据所具有的多维标签的标签向量,并将其提供给标签相似度确定 单元103。例如,原始特征向量生成单元101使得原始数据a 1 ,a 2 ,a n 分别具有y 1 , y 2 ,y n 作为其标签向量。其中,y i 表示a i 的标签向量,例如,y i 是a i 在k维的标签向 量空间中。
38、的一个k维向量,该k维向量可以是k维的0-1向量,其中,如果k维向量y i 在第 j维度中的值为0,则表示a i 不具有k个标签中的第j个标签,如果k维向量y i 在第j维 度中的值为1,则表示a i 具有k个标签中的第j个标签,其中j是小于等于k的自然数。当 然,y i 也可以是0-1向量之外的k维向量,例如,如果每个原始数据都是含有一个人物的照 片,并且原始数据的一个标签是身高数值,另一个标签是体重数值,则每个原始数据的标签 向量都是一个二维向量,这个向量在每一维中的值都是一个正数。 0034 标签相似度确定单元103基于所接收的关于每个数据的标签向量,针对每个原始 数据,计算该原始数据与。
39、每个其他原始数据在标签向量空间中的标签相似度,并将其提供 给相关数据确定单元104、近邻相关图生成单元107、非相关数据确定单元114和近邻非相 关图生成单元117。标签相似度可以根据两个原始数据在标签向量空间中的距离和标签相 关性矩阵来计算。例如可以根据以下式(1)来计算原始数据a i 和a j 之间的标签相似度S l, ij 。 0035 S l,ij y i Cy j (1) 0036 其中C是k乘k的标签相关性矩阵,它可以人为给定(如单位矩阵I,即标签之间没 有关联),也可以利用如下式(2)来计算: 0037 1a,bk 0038 (2) 0039 其中Y a 和Y b 是n维向量,Y。
40、 a 和Y b 与y i 之间有如下式(3)、(4)所描述的关系: 0040 Y ai =y ia (3) 0041 Y bi =y ib (4) 0042 换言之,Y a 在第i维上的值是y i 在第a维上的值,Y b 在第i维上的值是y i 在第b 维上的值。 0043 以上仅仅示出了确定标签相似度的一种方式。本领域普通技术人员应该理解,可 以利用其他方式来确定标签相似度,例如可以仅基于原始数据在标签空间中的距离来确定 标签相似度,并且所使用的距离可以是余弦距离、欧几里得距离或者其他适当类型的距离。 0044 相关数据确定单元104针对每个原始数据以及每个其他原始数据,基于所接收的 标签相。
41、似度,确定该其他原始数据是否是该原始数据的相关数据,并将确定结果提供给近 邻相关数据选择单元106。其中,可以按照多种方式来确定原始数据之间是否彼此为相关数 据。 0045 一种可行的方式是,如果a i 与a j 的标签相似度是a i 与所有其他原始数据中标签 相似度最高的m个之一,同时也是a j 与所有其他原始数据中标签相似度最高的m个之一, 则a i 与a j 彼此互为相关数据,其中m是小于原始数据的总数n的自然数,m可以是预先给 说 明 书CN 103425666 A 10 7/25页 11 定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。 0046 另一种可行的方式。
42、是,如果a i 与a j 的标签相似度高于或等于预定的第一标签阈值 Thr,则a i 与a j 彼此互为相关数据。与上述的自然数m相似,第一标签阈值Thr可以是预先 给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。 0047 非相关数据确定单元114与相关数据确定单元104类似,区别在于,非相关数据确 定单元114针对每个原始数据以及每个其他原始数据,基于所接收的标签相似度,确定该 其他原始数据是否是该原始数据的非相关数据,并将确定结果提供给近邻非相关数据选择 单元116。同样地,可以按照多种方式来确定原始数据之间是否彼此为非相关数据。 0048 一种可行的方式是,如果a。
43、 i 与a j 的标签相似度是a i 与所有其他原始数据中标签 相似度最低的r个之一,同时也是a j 与所有其他原始数据中标签相似度最低的r个之一, 则a i 与a j 彼此互为非相关数据,其中r是小于原始数据的总数n的自然数,r可以是预先 给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。 0049 另一种可行的方式是,如果a i 与a j 的标签相似度低于预定的第二标签阈值Thir, 则a i 与a j 彼此互为非相关数据。与上述的自然数n相似,第二标签阈值Thir可以是预先 给定的,也可以是根据例如原始数据的分布特性或者其他适当的因素来确定的。 0050 优选地,当在。
44、使用第一标签阈值Thr来确定相关数据关系的同时使用第二标签阈 值Thir来确定非相关数据关系时,第一标签阈值Thr大于等于第二标签阈值Thir。因此, 可以确保两个原始数据不能同时既是相关数据,又是非相关数据。 0051 特征相似度确定单元105基于所接收的原始数据的原始特征向量,对每个原始数 据,计算该原始数据与每个其他原始数据在原始特征向量空间中的特征相似度,并将其提 供给近邻相关数据选择单元106、近邻相关图生成单元107、近邻非相关数据选择单元116 和近邻非相关图生成单元117。特征相似度可以根据两个原始数据在原始特征向量空间中 的距离来计算。例如可以根据以下式(5)来计算原始数据a。
45、 i 和a j 之间的特征相似度S v,ij 。 0052 0053 其中mean(|x i -x j | 2 ,1ijn)是在所有原始数据两两之间在原始 特征向量空间中的平均距离。 0054 本领域普通技术人员应该理解,原始数据在原始特征向量空间中的距离可以是欧 几里得距离、曼哈顿距离、卡方距离或者其他适当类型的距离。 0055 近邻相关数据选择单元106基于所接收的关于原始数据之间的相关数据关系,以 及所接收的特征相似度,针对每个原始数据,在该原始数据的相关数据中选择该原始数据 的多个近邻相关数据,并将其提供给近邻相关图生成单元107。可以按照多种方式来为每个 原始数据选择近邻相关数据。 。
46、0056 一种可行的方式是,针对每个原始数据,选择其相关数据中与该原始数据的特征 相似度最大的q个相关数据作为该原始数据的近邻相关数据。其中q是小于原始数据的总 数n的自然数,q可以是预先给定的,也可以是根据例如原始数据的分布特性或者其他适当 的因素来确定的。 0057 另一种可行的方式是,针对每个原始数据,将其相关数据中与该原始数据的特征 相似度大于第一近邻阈值Th1,则该相关数据是该原始数据的近邻相关数据。与上述的自然 说 明 书CN 103425666 A 11 8/25页 12 数q相似,第一近邻阈值Th1可以是预先给定的,也可以是根据例如原始数据的分布特性或 者其他适当的因素来确定的。
47、。 0058 本领域普通技术人员应该认识到,还可以存在其他方式用来选择近邻相关数据, 例如在根据第一种方式选择的近邻相关数据中,去除与所针对的原始数据的特征相似度小 于第一近邻阈值Th1的相关数据。 0059 近邻相关图生成单元107基于所接收的每个原始数据的近邻相关数据,以每个原 始数据和该原始数据的近邻相关数据作为节点,在与该原始数据和该原始数据的每个近邻 相关数据的节点之间形成边,并且为每个边设定大于等于零的权重,从而形成近邻相关图, 并将其提供给特征变换单元108。在为每个边设定权重时,可以基于这条边所连接的两个节 点所对应的两个原始数据之间的特征相似度和标签相似度中的至少一项来进行。。
48、例如,可 以基于以下方式来为每个边设定权重。 0060 如果近邻相关数据选择单元106针对每个原始数据,在该原始数据的所有相关数 据中,选择与该原始数据的特征相似度最大的q个相关数据作为该原始数据的近邻相关数 据,则近邻相关图生成单元107可以按照以下方式,针对每条边,基于所接收的、该边所连 接的两个节点所对应的两个原始数据之间的特征相似度来进行区分不同情况设定权重。 0061 如果与该边所连接的一个节点所对应的原始数据的特征相似度最大的q个其他 原始数据中包括与这条边所连接的另一个节点所对应的原始数据,则将该边的权重设定为 1,否则将该边的权重设定为与对应于该边所连接的两个节点的两个原始数据。
49、之间的特征 相似度和标签相似度中的至少一项正相关且小于等于1,例如将该边的权重设定为对应于 该边所连接的两个节点的两个原始数据之间的特征相似度和标签相似度的线性组合,如以 下式(6)所示: 0062 0063 其中,W r,ij 是在近邻相关图中连接对应于原始数据a i 和a j 的节点的边的权重, 是调节参数,是0到1之间的实数。 0064 在式(6)中,对于每个原始数据a i ,从它的相关数据组成的集合N r (i)中找到前q 个与原始数据a i 的特征相似度最大的数据,定义N rq (i)为这q个原始数据组成的集合;同 时,对于每个原始数据a i ,从不包括原始数据a i 的所有原始数据中找到前q个与原始数据 a i 的特征相似度最大的原始数据,定义N q (i)为这q个数据组成的集合。 0065 根据式(6)中所示的权重设定方式: 0066 对于同时属于集合N rq (i)和N q (i)的原始数据a j ,将连接对应于原始数据a i 和a j 的节点。