基于比特向量的多媒体信息检索方法和系统.pdf

上传人:大师****2 文档编号:1492429 上传时间:2018-06-18 格式:PDF 页数:25 大小:1.15MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310359716.6

申请日:

2013.08.16

公开号:

CN103440292A

公开日:

2013.12.11

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20130816|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

新浪网技术(中国)有限公司

发明人:

刘洁

地址:

100080 北京市海淀区北四环西路58号理想国际大厦20层

优先权:

专利代理机构:

北京市京大律师事务所 11321

代理人:

张璐;方晓明

PDF下载: PDF下载
内容摘要

本发明公开了一种基于比特向量的多媒体信息检索方法和系统,所述方法包括:提取当前多媒体信息的特征数据后,得到当前多媒体信息的n维的高维特征向量;将n维的高维特征向量通过投影矩阵变换后得到m维的中间向量;将m维的阈值向量的各元素分别与中间向量的相应元素进行比较,根据比较结果对中间向量进行二值化,得到当前多媒体信息的m维的比特向量;其中,m小于n;根据得到的比特向量,在多媒体特征数据库中查找出与该比特向量相似的比特向量,将查找出的比特向量所对应的多媒体信息作为检索结果输出。该方法保证了原有向量识别能力,将多媒体信息的高维特征向量映射为低维的比特向量后,使得基于比特向量的检索效率更高、检索消耗更小。

权利要求书

权利要求书
1.  一种基于比特向量的多媒体信息检索方法,其特征在于,包括:
提取当前多媒体信息的特征数据后,得到所述当前多媒体信息的n维的高维特征向量,记为X(x1,x2,...,xn);
将高维特征向量X(x1,x2,...,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,...,wm);
将m维的阈值向量的各元素分别与所述中间向量的相应元素进行比较,根据比较结果对所述中间向量进行二值化,得到所述当前多媒体信息的m维的比特向量;其中,m小于n;
根据得到的比特向量,在多媒体特征数据库中查找出与该比特向量相似的比特向量,将查找出的比特向量所对应的多媒体信息作为检索结果输出;
其中,所述投影矩阵P为m×n的矩阵,并满足以下条件:对于资料库中存储的各已分类的多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换后的向量间距离期望值,与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小;
所述阈值向量满足以下条件:对于所述资料库中存储的各多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值,与不同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值的差值最小。

2.  如权利要求1所述的方法,其特征在于,在所述提取当前多媒体信息的特征数据之前,还包括:
通过所述资料库中存储的多媒体信息训练出所述投影矩阵P:
对于所述资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并
将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中;
构建出使得如下公式1中最小的投影矩阵P:
L^=αE{||PX-PX'||2|Q}-E{||PX-PX'||2|R}]]>          (公式1)
其中,Q为所述同类样本集合;R为所述非同类样本集合;E{PX-PX'2Q}表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值;E{PX-PX'2R}表示所述R中不同类的高维特征向量经过P变换后的向量间距 离期望值;α为设定的权值。

3.  如权利要求2所述的方法,其特征在于,所述构建出使得如下公式1中最小的投影矩阵P,具体包括:
求取矩阵∑G的m个最小的n维矩阵特征向量;其中,所述∑Q如公式2所示、所述∑R如公式3所示:
∑Q=E{(X-X')(X-X')T|Q}        (公式2)
所述公式2中,E{(X-X')(X-X')T|Q}表示所述Q中同类的高维特征向量间的协方差矩阵的均值;
∑R=E{(X-X')(X-X')T|R}         (公式3)
所述公式3中,E{(X-X')(X-X')T|R}表示所述R中不同类的高维特征向量间的协方差矩阵的均值;
由求取的m个n维矩阵特征向量,构成m×n的投影矩阵P。

4.  如权利要求2所述的方法,其特征在于,在所述通过所述资料库中存储的多媒体信息训练出所述投影矩阵P后,还包括:
计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,...,um),并作为所述阈值向量:
L=E{sign(PX+U)Tsign(PX'+U)|R}-αE{sign(PX+U)Tsign(PX'+U)|Q}  (公式4)
其中,E{sign(PX+U)Tsign(PX'+U)|Q}表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;E{sign(PX+U)Tsign(PX'+U)|R}表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值。

5.  如权利要求2所述的方法,其特征在于,在所述通过所述资料库中存储的多媒体信息训练出所述投影矩阵P后,还包括:
计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,...,um):
L=E{sign(PX+U)Tsign(PX'+U)|R}-αE{sign(PX+U)Tsign(PX'+U)|Q}  (公式4)
其中,E{sign(PX+U)Tsign(PX'+U)|Q}表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;E{sign(PX+U)Tsign(PX'+U)|R}表示所述R中不同类的高维特征向量经 过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;
之后,对U(u1,u2,...,um)进行优化后,得到所述阈值向量:
对于所述阈值向量U的元素ui,利用如下公式5和公式6,求取使得FN(ui)+α×FP(ui)最小的ui值,作为优化后的ui值;
FN(ui)=Pr(min{z,z'}≥ui or≤max{z,z'}<ui|Q)     (公式5)
FP(ui)=Pr(min{z,z'}<ui≤max{z,z'}|R)       (公式6)
所述公式5中,(min{z,z'}≥ui or≤max{z,z'}<ui|Q)中的z和z'表示所述Q中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(min{z,z'}≥ui or≤max{z,z'}<ui|Q)表示对于所述Q中的集合元素,ui满足如下条件:min{z,z'}≥ui or≤max{z,z'}<ui的概率;
所述公式6中,(min{z,z'}<ui≤max{z,z'}R)中的z和z'表示所述R中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(min{z,z'}<ui≤max{z,z'}|R)表示对于所述R中的集合元素,ui满足如下条件:min{z,z'}≥ui or≤max{z,z'}<ui的概率。

6.  如权利要求4或5所述的方法,其特征在于,所述计算出使得如下L最小的m维向量,具体包括:
求取使得如下表达式7最小的ui值;其中,i为1~m的自然数;
E{sign((PiTX+ui)(PiTX'+ui))|R}-αE{sign((PiTX+ui)T(PiTX'+ui))|Q}   (表达式7)
其中,PiT为所述投影矩阵P的第i行向量;ui为U(u1,u2,...,um)的第i个元素;
并将得到的u1~um组成所述m维向量。

7.  一种基于比特向量的多媒体信息检索系统,其特征在于,包括:
比特向量转换模块,用于提取当前多媒体信息的特征数据后,得到所述当前多媒体信息的n维的高维特征向量,记为X(x1,x2,...,xn);将高维特征向量X(x1,x2,...,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,...,wm)后,将m维的阈值向量的各元素分别与所述中间向量的相应元素进行比较,根据比较结果对所述中间向量进行二值化,得到所述当前多媒体信息的m维的比特向量;其中,m小于n;
检索模块,用于根据所述比特向量转换模块得到的当前多媒体信息的比特向量,在多媒体特征数据库中查找出与该比特向量相似的比特向量,将查 找出的比特向量所对应的多媒体信息作为检索结果输出;
其中,所述投影矩阵P为m×n的矩阵,并满足以下条件:对于资料库中存储的各已分类的多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换后的向量间距离期望值,与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小;
所述阈值向量满足以下条件:对于所述资料库中存储的各多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值,与不同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值的差值最小。

8.  如权利要求7所述的系统,其特征在于,所述比特向量转换模块具体包括:
高维特征向量确定单元,用于提取当前多媒体信息的特征数据后,得到所述当前多媒体信息的n维的高维特征向量,记为X(x1,x2,...,xn);
中间向量计算单元,用于将所述高维特征向量确定单元得到的高维特征向量X(x1,x2,...,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,...,wm);
阈值比较单元,用于将m维的阈值向量的各元素分别与所述中间向量计算单元得到的中间向量的相应元素进行比较,根据比较结果对所述中间向量进行二值化,得到所述当前多媒体信息的m维的比特向量;其中,m小于n。

9.  如权利要求8所述的系统,其特征在于,还包括:
投影矩阵构建模块,用于通过所述资料库中存储的多媒体信息训练出所述投影矩阵P:对于所述资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中;构建出使得如下公式1中最小的投影矩阵P:
L^=αE{||PX-PX'||2|Q}-E{||PX-PX'||2|R}]]>         (公式1)
其中,Q为所述同类样本集合;R为所述非同类样本集合;E{||PX-PX'||2|Q}表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值;E{||PX-PX'||2|R}表示所述R中不同类的高维特征向量经过P变换后的向量间距离期望值;α为设定的权值;
第一阈值向量确定模块,用于计算出使得如下公式4中L最小的m维向量, 记为U(u1,u2,...,um),并作为所述阈值向量:
L=E{sign(PX+U)Tsign(PX'+U)|R}-αE{sign(PX+U)Tsign(PX'+U)|Q}  (公式4)
其中,E{sign(PX+U)Tsign(PX'+U)|Q}表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;E{sign(PX+U)Tsign(PX'+U)|R}表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值。

10.  如权利要求9所述的系统,其特征在于,所述第一阈值向量确定模块具体包括:
最小值计算单元,用于求取使得如下表达式7最小的ui值;其中,i为1~m的自然数;
E{sign((PiTX+ui)(PiTX'+ui))|R}-αE{sign((PiTX+ui)T(PiTX'+ui))|Q}  (表达式7)
其中,PiT为所述投影矩阵P的第i行向量;ui为U(u1,u2,...,um)的第i个元素;
向量组成单元,用于将所述最小值计算单元得到的u1~um组成所述m维向量U(u1,u2,...,um),作为所述阈值向量。

11.  如权利要求8所述的系统,其特征在于,还包括:
投影矩阵构建模块,用于通过所述资料库中存储的多媒体信息训练出所述投影矩阵P:对于所述资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中;构建出使得如下公式1中最小的投影矩阵P:
L^=αE{||PX-PX'||2|Q}-E{||PX-PX'||2|R}]]>           (公式1)
其中,Q为所述同类样本集合;R为所述非同类样本集合;E{||PX-PX'||2|Q}表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值;E{||PX-PX'||2|R}表示所述R中不同类的高维特征向量经过P变换后的向量间距离期望值;α为设定的权值;
第二阈值向量确定模块,用于计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,...,um):
L=E{sign(PX+U)Tsign(PX'+U)|R}-αE{sign(PX+U)Tsign(PX'+U)|Q}  (公式4)
其中,E{sign(PX+U)Tsign(PX'+U)|Q}表示所述Q中同类的高维特征向量经过 P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;E{sign(PX+U)Tsign(PX'+U)|R}表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;
第二阈值向量确定模块对U(u1,u2,...,um)进行优化后,得到所述阈值向量。

12.  如权利要求11所述的系统,其特征在于,所述第二阈值向量确定模块具体包括:
最小值计算单元,用于求取使得如下表达式7最小的ui值;其中,i为1~m的自然数;
E{sign((PiTX+ui)(PiTX'+ui))|R}-αE{sign((PiTX+ui)T(PiTX'+ui))|Q}  (表达式7)
其中,PiT为所述投影矩阵P的第i行向量;ui为U(u1,u2,...,um)的第i个元素;
向量优化单元,用于对U(u1,u2,...,um)的元素ui进行优化:对于所述阈值向量U的元素ui,利用如下公式5和公式6,求取使得FN(ui)+α×FP(ui)最小的ui值,作为优化后的ui值;
FN(ui)=Pr(min{z,z'}≥ui or≤max{z,z'}<ui|Q)     (公式5)
FP(ui)=Pr(min{z,z'}<ui≤max{z,z'}|R)       (公式6)
所述公式5中,(min{z,z'}≥ui or≤max{z,z'}<ui|Q)中的z和z'表示所述Q中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(min{z,z'}≥ui or≤max{z,z'}<ui|Q)表示对于所述Q中的集合元素,ui满足如下条件:min{z,z'}≥ui or≤max{z,z'}<ui的概率;
所述公式6中,(min{z,z'}<ui≤max{z,z'}|R)中的z和z'表示所述R中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(min{z,z'}<ui≤max{z,z'}|R)表示对于所述R中的集合元素,ui满足如下条件:min{z,z'}≥ui or≤max{z,z'}<ui的概率;
向量组成单元,用于将所述向量优化单元优化后的u1~um组成所述阈值向量。

13.  如权利要求7-12任一所述的系统,其特征在于,所述投影矩阵构建模块具体包括:
最小矩阵特征向量计算单元,用于求取矩阵∑G的m个最小的n维矩阵特征向量;其中,所述∑Q如公式2所示、所述∑R如公式3所 示:
∑Q=E{(X-X')(X-X')T|Q}         (公式2)
所述公式2中,E{(X-X')(X-X')T|Q}表示所述Q中同类的高维特征向量间的协方差矩阵的均值;
∑R=E{(X-X')(X-X')T|R}         (公式3)
所述公式3中,E{(X-X')(X-X')T|R}表示所述R中不同类的高维特征向量间的协方差矩阵的均值;
投影矩阵确定单元,用于由求取的m个n维矩阵特征向量,构成m×n的投影矩阵P。

说明书

说明书基于比特向量的多媒体信息检索方法和系统
技术领域
本发明涉及计算机领域,尤其涉及一种基于比特向量的多媒体信息检索方法和系统。
背景技术
近年来,随着多媒体技术和计算机技术的飞速发展、大规模的多媒体信息越来越多地出现在众多的研究和应用领域。为了使这些庞杂的数据中所包含的信息能够得到有效地访问和利用,传统的基于文本的检索技术已经无法满足用户日益增长的需求,基于内容的检索技术便应运而生。
基于内容的检索方法需要先提取出多媒体的特征数据建立特征数据库,然后将对多媒体信息的检索转换为对特征数据的近邻检索。对于大规模多媒体信息而言,其特征数据也是大规模的。这就需要有与特征数据相对应的合适的索引方法来组织特征数据,加快检索的速度。
然而,多媒体信息的特征数据往往是高维的向量数据(简称高维特征向量),传统的适应于低维数据的索引机制难以适应于基于内容检索的要求,这也就是通常所说的高维数据的索引维数灾难现象。也就是说,基于高维特征向量实现多媒体信息的检索将耗费巨大的检索资源、消耗很大,效率低下。
为解决上述问题,现有技术的方法,如相似敏感哈希(Similarity Sensitive Hash,SSH)、局部敏感哈希(Locality Sensitive Hash,LSH)方法,通过将高维特征向量映射为低维的比特向量,从而利用基于比特向量的相似度量方法和高效索引方法来加快高维特征向量的检索速度,从而提高多媒体信息的检索效率。然而,现有技术的方法易造成相似的高维特征向量(即同类的高维特征向量)被映射为不相似的比特向量,不相似的高维特征向量(即非同类的高维特征向量)被映射为相似的比特向量,导致进行多媒体信息检索时,多媒体信息的高维特征向量映射为比特向量后,具有较大的错误匹配率,使得原有向量的识别能力下降。
因此,有必要提供一种基于比特向量的多媒体信息检索方法,在保证原有向量识别能力的情况下,将多媒体信息的高维特征向量映射为低维的比特向量,以使得基于比特向量的多媒体信息的检索效率相比于基于高维特征向量的多媒体信息的检索效率更高,减小检索消耗,并降低基于比特向量的多媒体信息的 检索的错误匹配率。
发明内容
针对上述现有技术存在的缺陷,本发明提供了一种基于比特向量的多媒体信息检索方法和系统,用以在保证原有向量识别能力的情况下,将多媒体信息的高维特征向量映射为低维的比特向量后,使得基于比特向量的检索效率更高、检索消耗更小。
根据本发明的一个方面,提供了一种基于比特向量的多媒体信息检索方法,包括:
提取当前多媒体信息的特征数据后,得到所述当前多媒体信息的n维的高维特征向量,记为X(x1,x2,...,xn);
将高维特征向量X(x1,x2,...,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,...,wm);
将m维的阈值向量的各元素分别与所述中间向量的相应元素进行比较,根据比较结果对所述中间向量进行二值化,得到所述当前多媒体信息的m维的比特向量;其中,m小于n;
根据得到的比特向量,在多媒体特征数据库中查找出与该比特向量相似的比特向量,将查找出的比特向量所对应的多媒体信息作为检索结果输出;
其中,所述投影矩阵P为m×n的矩阵,并满足以下条件:对于资料库中存储的各已分类的多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换后的向量间距离期望值,与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小;
所述阈值向量满足以下条件:对于所述资料库中存储的各多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值,与不同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值的差值最小。
较佳地,在所述提取当前多媒体信息的特征数据之前,还包括:
通过所述资料库中存储的多媒体信息训练出所述投影矩阵P:
对于所述资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并
将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中;
构建出使得如下公式1中最小的投影矩阵P:
L^=αE{||PX-PX'||2|Q}-E{||PX-PX'||2|R}]]>           (公式1)
其中,Q为所述同类样本集合;R为所述非同类样本集合;E{||PX-PX'||2|Q}表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值;E{||PX-PX'||2|R}表示所述R中不同类的高维特征向量经过P变换后的向量间距离期望值;α为设定的权值。
较佳地,所述构建出使得如下公式1中最小的投影矩阵P,具体包括:
求取矩阵∑G的m个最小的n维矩阵特征向量;其中,所述∑Q如公式2所示、所述∑R如公式3所示:
∑Q=E{(X-X')(X-X')T|Q}           (公式2)
所述公式2中,E{(X-X')(X-X')T|Q}表示所述Q中同类的高维特征向量间的协方差矩阵的均值;
∑R=E{(X-X')(X-X')T|R}          (公式3)
所述公式3中,E{(X-X')(X-X')T|R}表示所述R中不同类的高维特征向量间的协方差矩阵的均值;
由求取的m个n维矩阵特征向量,构成m×n的投影矩阵P。
较佳地,在所述通过所述资料库中存储的多媒体信息训练出所述投影矩阵P后,还包括:
计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,...,um),并作为所述阈值向量:
L=E{sign(PX+U)Tsign(PX'+U)|R}-αE{sign(PX+U)Tsign(PX'+U)|Q}  (公式4)
其中,E{sign(PX+U)Tsign(PX'+U)|Q}表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;E{sign(PX+U)Tsign(PX'+U)|R}表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值。
或者,在所述通过所述资料库中存储的多媒体信息训练出所述投影矩阵P后,还包括:
计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,...,um):
L=E{sign(PX+U)Tsign(PX'+U)|R}-αE{sign(PX+U)Tsign(PX'+U)|Q}  (公式4)
其中,E{sign(PX+U)Tsign(PX'+U)|Q}表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;E{sign(PX+U)Tsign(PX'+U)|R}表示所述R中不同类的高维特征向量经 过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;
之后,对U(u1,u2,...,um)进行优化后,得到所述阈值向量:
对于所述阈值向量U的元素ui,利用如下公式5和公式6,求取使得FN(ui)+α×FP(ui)最小的ui值,作为优化后的ui值;
FN(ui)=Pr(min{z,z'}≥ui or≤max{z,z'}<ui|Q)     (公式5)
FP(ui)=Pr(min{z,z'}<ui≤max{z,z'}|R)       (公式6)
所述公式5中,(min{z,z'}≥ui or≤max{z,z'}<ui|Q)中的z和z'表示所述Q中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(min{z,z'}≥ui or≤max{z,z'}<ui|Q)表示对于所述Q中的集合元素,ui满足如下条件:min{z,z'}≥ui or≤max{z,z'}<ui的概率;
所述公式6中,(min{z,z'}<ui≤max{z,z'}|R)中的z和z'表示所述R中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(min{z,z'}<ui≤max{z,z'}|R)表示对于所述R中的集合元素,ui满足如下条件:min{z,z'}≥ui or≤max{z,z'}<ui的概率。
较佳地,所述计算出使得如下L最小的m维向量,具体包括:
求取使得如下表达式7最小的ui值;其中,i为1~m的自然数;
E{sign((PiTX+ui)(PiTX'+ui))|R}-αE{sign((PiTX+ui)T(PiTX'+ui))|Q} (表达式7)
其中,PiT为所述投影矩阵P的第i行向量;ui为U(u1,u2,...,um)的第i个元素;
并将得到的u1~um组成所述m维向量。
根据本发明的另一个方面,还提供了一种基于比特向量的多媒体信息检索系统,包括:
比特向量转换模块,用于提取当前多媒体信息的特征数据后,得到所述当前多媒体信息的n维的高维特征向量,记为X(x1,x2,...,xn);将高维特征向量X(x1,x2,...,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,...,wm)后,将m维的阈值向量的各元素分别与所述中间向量的相应元素进行比较,根据比较结果对所述中间向量进行二值化,得到所述当前多媒体信息的m维的比特向量;其中,m小于n;
检索模块,用于根据所述比特向量转换模块得到的当前多媒体信息的比特向量,在多媒体特征数据库中查找出与该比特向量相似的比特向量,将查找出的比特向量所对应的多媒体信息作为检索结果输出;
其中,所述投影矩阵P为m×n的矩阵,并满足以下条件:对于资料库中存 储的各多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换后的向量间距离期望值,与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小;
所述阈值向量满足以下条件:对于所述资料库中存储的各已分类的多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值,与不同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值的差值最小。
较佳地,所述比特向量转换模块具体包括:
高维特征向量确定单元,用于提取当前多媒体信息的特征数据后,得到所述当前多媒体信息的n维的高维特征向量,记为X(x1,x2,...,xn);
中间向量计算单元,用于将所述高维特征向量确定单元得到的高维特征向量X(x1,x2,...,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,...,wm);
阈值比较单元,用于将m维的阈值向量的各元素分别与所述中间向量计算单元得到的中间向量的相应元素进行比较,根据比较结果对所述中间向量进行二值化,得到所述当前多媒体信息的m维的比特向量;其中,m小于n。
进一步,所述基于比特向量的多媒体信息检索系统,还包括:
投影矩阵构建模块,用于通过所述资料库中存储的多媒体信息训练出所述投影矩阵P:对于所述资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中;构建出使得如下公式1中最小的投影矩阵P:
L^=αE{||PX-PX'||2|Q}-E{||PX-PX'||2|R}]]>            (公式1)
其中,Q为所述同类样本集合;R为所述非同类样本集合;E{||PX-PX'||2|Q}表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值;E{||PX-PX'||2|R}表示所述R中不同类的高维特征向量经过P变换后的向量间距离期望值;α为设定的权值;
第一阈值向量确定模块,用于计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,...,um),并作为所述阈值向量:
L=E{sign(PX+U)Tsign(PX'+U)|R}-αE{sign(PX+U)Tsign(PX'+U)|Q}  (公式4)
其中,E{sign(PX+U)Tsign(PX'+U)|Q}表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距 离的均值;E{sign(PX+U)Tsign(PX'+U)|R}表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值。
较佳地,所述第一阈值向量确定模块具体包括:
最小值计算单元,用于求取使得如下表达式7最小的ui值;其中,i为1~m的自然数;
E{sign((PiTX+ui)(PiTX'+ui))|R}-αE{sign((PiTX+ui)T(PiTX'+ui))|Q}    (表达式7)
其中,PiT为所述投影矩阵P的第i行向量;ui为U(u1,u2,...,um)的第i个元素;
向量组成单元,用于将所述最小值计算单元得到的u1~um组成所述m维向量U(u1,u2,...,um),作为所述阈值向量。
进一步,所述基于比特向量的多媒体信息检索系统,还包括:
投影矩阵构建模块,用于通过所述资料库中存储的多媒体信息训练出所述投影矩阵P:对于所述资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中;构建出使得如下公式1中最小的投影矩阵P:
L^=αE{||PX-PX'||2|Q}-E{||PX-PX'||2|R}]]>             (公式1)
其中,Q为所述同类样本集合;R为所述非同类样本集合;E{||PX-PX'||2|Q}表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值;E{||PX-PX'||2|R}表示所述R中不同类的高维特征向量经过P变换后的向量间距离期望值;α为设定的权值;
第二阈值向量确定模块,用于计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,...,um):
L=E{sign(PX+U)Tsign(PX'+U)|R}-αE{sign(PX+U)Tsign(PX'+U)|Q}  (公式4)
其中,E{sign(PX+U)Tsign(PX'+U)|Q}表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;E{sign(PX+U)Tsign(PX'+U)|R}表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;
第二阈值向量确定模块对U(u1,u2,...,um)进行优化后,得到所述阈值向量。
较佳地,所述第二阈值向量确定模块具体包括:
最小值计算单元,用于求取使得如下表达式7最小的ui值;其中,i为1~m 的自然数;
E{sign((PiTX+ui)(PiTX'+ui))|R}-αE{sign((PiTX+ui)T(PiTX'+ui))|Q}  (表达式7)
其中,PiT为所述投影矩阵P的第i行向量;ui为U(u1,u2,...,um)的第i个元素;
向量优化单元,用于对U(u1,u2,...,um)的元素ui进行优化:对于所述阈值向量U的元素ui,利用如下公式5和公式6,求取使得FN(ui)+α×FP(ui)最小的ui值,作为优化后的ui值;
FN(ui)=Pr(min{z,z'}≥ui or≤max{z,z'}<ui|Q)     (公式5)
FP(ui)=Pr(min{z,z'}<ui≤max{z,z'}|R)     (公式6)
所述公式5中,(min{z,z'}≥ui or≤max{z,z'}<ui|Q)中的z和z'表示所述Q中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(min{z,z'}≥ui or≤max{z,z'}<ui|Q)表示对于所述Q中的集合元素,ui满足如下条件:min{z,z'}≥ui or≤max{z,z'}<ui的概率;
所述公式6中,(min{z,z'}<ui≤max{z,z'}|R)中的z和z'表示所述R中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(min{z,z'}<ui≤max{z,z'}|R)表示对于所述R中的集合元素,ui满足如下条件:min{z,z'}≥ui or≤max{z,z'}<ui的概率;
向量组成单元,用于将所述向量优化单元优化后的u1~um组成所述阈值向量。
较佳地,所述投影矩阵构建模块具体包括:
最小矩阵特征向量计算单元,用于求取矩阵∑G的m个最小的n维矩阵特征向量;其中,所述∑Q如公式2所示、所述∑R如公式3所示:
∑Q=E{(X-X')(X-X')T|Q}          (公式2)
所述公式2中,E{(X-X')(X-X')T|Q}表示所述Q中同类的高维特征向量间的协方差矩阵的均值;
∑R=E{(X-X')(X-X')T|R}         (公式3)
所述公式3中,E{(X-X')(X-X')T|R}表示所述R中不同类的高维特征向量间的协方差矩阵的均值;
投影矩阵确定单元,用于由求取的m个n维矩阵特征向量,构成m×n的投影矩阵P。
本发明的技术方案中,由于当前多媒体信息的高维特征向量转换成比特向量后具有类内聚集、类间离散的效果,从而保证了原有向量识别能力;这 样,应用成熟的基于低维的比特向量的检索技术,可以实现相比于基于高维特征向量的检索技术更高的检索效率,和更小的检索消耗,而且使得基于比特向量的多媒体信息的检索得出的检索结果更为准确,降低了检索的错误匹配率。
附图说明
图1a为本发明实施例的根据资料库中存储的多媒体信息训练出投影矩阵的方法的流程图;
图1b为本发明实施例的根据∑G构建出投影矩阵的具体方法的流程图;
图2为本发明实施例的基于比特向量的多媒体信息检索方法的流程图;
图3a为本发明实施例的基于比特向量的多媒体信息检索系统的一种内部结构框图;
图3b为本发明实施例的基于比特向量的多媒体信息检索系统的另一种内部结构框图;
图4为本发明实施例的根据比特向量进行多媒体信息检索的方法流程图。
具体实施方式
以下将结合附图对本发明的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。
本发明的技术方案中,构造了一个映射函数,使用该映射函数可以将高维特征向量映射为低维的比特向量,并且该映射函数还可以保证:原有相似的高维特征向量,经过映射后得到的比特向量更加相似;原有高维特征向量不相似,经过映射后得到的比特向量更加不相似;也就是说,经过该映射函数的映射,将原有高维特征向量转换成比特向量后具有类内聚集、类间离散的效果,从而保证原有向量识别能力;之后,应用成熟的基于低维的比特向量的检索技术,实现相比于基于高维特征向量的检索技术更高的检索效率,和更小的检索消耗。
下面结合附图详细说明本发明的技术方案。本发明实施例在提取当前多媒体信息的特征数据,进行当前多媒体信息的特征数据的检索之前,需要先构造出可以将当前多媒体信息的n维的高维特征向量映射为低维的二值化向量的映射函数,记为:
Y=sign(PX+U),
其中,P为m×n的投影矩阵;U为m维的阈值向量,记为U(u1,u2,...,um);X为n维的高维特征向量,记为X(x1,x2,...,xn),且X中的各元素为实数值;sign(PX+U)表示取向量PX+U的符号(正负号),得到二值化的符号向量(符号向量的元素为-1或+1),即若PX+U的元素的符号为负号,则符号向量中的相应元素为-1,若PX+U的元素的符号为正号,则符号向量中的相应元素为+1;Y为取向量PX+U的符号后得到的m维的二值化的符号向量,记为Y(y1,y2,...,ym);事实上,符号向量中的每个元素可以比特表示,例如,符号为负号的元素可以比特0表示,符号为正号的元素可以比特1表示,从而得到相应的比特向量。
本文后续中,以n维的高维特征向量X(x1,x2,...,xn)为列向量来构造映射函数,并根据构造的映射函数映射得到m维的列向量,即m维的比特向量;本领域技术人员可以根据本发明实施例中公开的技术方案,轻而易举实现以n维的高维特征向量X(x1,x2,...,xn)为行向量来构造映射函数,进而映射得到m维的行向量的比特向量的技术方案;因此,不论以行向量还是列向量的高维特征向量X(x1,x2,...,xn)构造映射函数、进而映射得到m维的比特向量的方法或构思都应在本发明的保护范围之内。
具体地,可以根据资料库中存储的已分类的多媒体信息训练出投影矩阵P,且训练出的m×n的投影矩阵P满足以下条件:对于资料库中存储的各已分类的多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换后的向量间距离期望值,与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小。如图1a所示,根据资料库中存储的多媒体信息训练出投影矩阵P的方法,包括如下步骤:
S101:对于资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中。
具体地,对于资料库中存储的多媒体信息,根据多媒体信息的高维特征向 量间的相似性,预先建立了包含同类的高维特征向量的同类样本集合,记为Q,以及包含不同类的高维特征向量的非同类样本集合,记为R。
S102:构建出使得如下公式1中最小的投影矩阵P:
L^=αE{||PX-PX'||2|Q}-E{||PX-PX'||2|R}]]>           (公式1)
上述的公式1为预先定义的目标函数;其中,Q为同类样本集合;R为非同类样本集合;{||PX-PX'||2|Q}中的X和X'表示Q中任意一个集合元素中的一对同类的高维特征向量;{||PX-PX'||2|R}中的X和X'表示R中任意一个集合元素中的一对不同类的高维特征向量;PX-PX'表示高维特征向量X和X'经过P变换后得到的向量之间的距离;||PX-PX'||2表示高维特征向量X和X'经过P变换后得到的向量之间的距离的协方差;
E{||PX-PX'||2|Q}表示Q中同类的高维特征向量经过P变换后的向量间距离期望值,即表示Q中同类的高维特征向量经过P变换后的向量间距离的协方差的均值;E{||PX-PX'||2|R}表示R中不同类的高维特征向量经过P变换后的向量间距离期望值,即表示R中不同类的高维特征向量经过P变换后的向量间距离的协方差的均值;α为设定的权值,取值为1~0.5;α具体为同类高维特征向量间距离和非同类高维特征向量间距离的度量比例的权值,权值越大,同类高维特征向量距离度量权重越大,同类高维特征向量经过投影矩阵P变换后类内聚集程度越高,换言之,不同类高维特征向量距离度量权重越小,不同类高维特征向量经过投影矩阵P变换后类间离散程度越高。
具体地,根据线性代数的知识,可以得出:
E{||PX-PX'||2|Q}=tr{P∑QPT}            (公式8)
E{||PX-PX'||2|R}=tr{P∑RPT}      (公式9)
其中,PT表示求P的转置矩阵;tr{P∑QPT}表示求矩阵P∑QPT的迹,tr{P∑RPT}表示求矩阵P∑RPT的迹;∑Q如公式2所示,∑R如公式3所示:
∑Q=E{(X-X')(X-X')T|Q}            (公式2)
公式2中,{(X-X')(X-X')T|Q}中的X和X'表示Q中任意一个集合元素中的一对同类的高维特征向量,其中,(X-X')T表示求取(X-X')的转置向量;E{(X-X')(X-X')T|Q}表示Q中同类的高维特征向量间的协方差矩阵的均值,具体表示对Q中同类的高维特征向量间的协方差矩阵的各元素求均值;
∑R=E{(X-X')(X-X')T|R}        (公式3)
公式3中,E{(X-X')(X-X')T|R}中的X和X'表示R中任意一个集合元素中的一对同类的高维特征向量,E{(X-X')(X-X')T|R}表示R中同类的高维特征向量间 的协方差矩阵的均值,具体表示对R中同类的高维特征向量间的协方差矩阵的各元素求均值。
这样,根据公式8和公式9,上述的公式1可以转化为公式10:
L^=αtr{PΣQPT}-tr{PΣRPT}]]>         (公式10)
进一步,用(表示求取∑R的逆矩阵后,对开方)乘以公式10的右边的表达式后,将得到的表达式再乘以(表示求取的转置矩阵)后,使tr{R∑RRT}转化为常数,使tr{P∑QPT}转换为如公式11中右边的表达式:
L^&Proportional;tr{PΣR-1/2ΣQΣR-T/2PT}]]>         (公式11)
公式11表示正比于tr{PΣR-1/2ΣQΣR-T/2PT};]]>
而且,
tr{PΣR-1/2ΣQΣR-T/2PT}]]>
=tr{PΣQΣR-1PT}]]>
=tr{PΣGPT}]]>
其中,ΣG=ΣQΣR-1.]]>
这样,可以根据∑G,构建出使得公式1中最小的投影矩阵P,其具体方法的流程图如图1b所示,包括如下步骤:
S111:求取∑G的m个最小的n维矩阵特征向量。
具体地,∑G是一个半正定对称矩阵,可以根据线性代数知识,求取矩阵∑G的m个最小特征向量,即得到m个最小的n维矩阵特征向量。
S112:由求取的m个n维矩阵特征向量,构成m×n的投影矩阵P。
具体地,由求取的m个n维矩阵特征向量,构成m×n的正交矩阵,即投影矩阵P;该投影矩阵P可以使得公式1中的取得最小值。
在通过资料库中存储的多媒体信息训练出投影矩阵P后,可以计算出阈值向量U,且阈值向量U满足以下条件:对于资料库中存储的各多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换、并经过阈值向量比较、二值化后的向量间距离期望值,与不同类的高维特征向量经过P变换、并经过阈值向量比较、二值化后的向量间距离期望值的差值最小。
其中,计算出阈值向量U,具体为计算出使得如下公式4中的L最小的m维向量,作为阈值向量U:
L=E{sign(PX+U)Tsign(PX'+U)|R}-αE{sign(PX+U)Tsign(PX'+U)|Q}  (公式4)
其中,E{sign(PX+U)Tsign(PX'+U)|Q}表示Q中同类的高维特征向量经过P变 换、并经过阈值向量U比较确定正负符号后,得到的符号向量之间的距离的均值;E{sign(PX+U)Tsign(PX'+U)|R}表示R中不同类的高维特征向量经过P变换、并经过阈值向量U比较确定正负符号后,得到的符号向量之间的距离的均值;其中,符号向量之间的距离反映了该符号向量进行二值化后的比特向量之间的距离。
进一步,对公式4进行转化:
L=E{sign(PX+U)Tsign(PX'+U)|R}-αE{sign(PX+U)Tsign(PX'+U)|Q}]]>
=Σi=1m{E{sign(PiTX+ui)sign(PiTX'+ui)|R}-αE{sign(PiTX+ui)sign(PiTX'+ui)|Q}}]]>
=Σi=1m{E{sign((PiTX+ui)(PiTX+ui))|R}-αE{sign((PiTX+ui)(PiTX+ui))|Q}}]]>
其中,PiT表示投影矩阵P的第i行向量;ui为U(u1,u2,...,um)的第i个元素;i为1~m的自然数。
这样,可以将求取使得L最小的m维阈值向量,转化为m个独立的求取使得如下表达式7最小的ui值:
E{sign((PiTX+ui)(PiTX'+ui))|R}-αE{sign((PiTX+ui)T(PiTX'+ui))|Q}  (表达式7)
在计算出使得表达式7最小的ui值后,将得到的u1~um组成m维向量,可以将得到的m维向量作为阈值向量U;作为一种更优的实施方式,还可继续对得到的由u1~um组成m维向量进行优化,将优化后的m维向量作为最终的阈值向量U:
具体地,对于计算出的元素ui,利用如下公式5和公式6,求取使得FN(ui)+α×FP(ui)最小的ui值,作为优化后的ui值:
FN(ui)=Pr(min{z,z'}≥ui or≤max{z,z'}<ui|Q)     (公式5)
FP(ui)=Pr(min{z,z'}<ui≤max{z,z'}|R)         (公式6)
其中,z=PiTX和z'=PiTX';min{z,z'}表示求取两个元素z和z'中的最小值,max{z,z'}表示求取两个元素z和z'中的最大值;
公式5中,(min{z,z'}≥ui or≤max{z,z'}<ui|Q)中的z和z'表示Q中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过投影矩阵P变换后得到的向量的第i个元素,Pr(min{z,z'}≥ui or≤max{z,z'}<ui|Q)表示对于Q中的集合元素,ui满足如下条件:min{z,z'}≥ui or≤max{z,z'}<ui的概率;
公式6中,(min{z,z'}<ui≤max{z,z'}|R)中的z和z'表示R中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过投影矩阵P变换后得到的向量的第i个元素,Pr(min{z,z'}<ui≤max{z,z'}|R)表示对于R中的集合元素,ui满足如 下条件:min{z,z'}≥ui or≤max{z,z'}<ui的概率;
将优化后的u1~um组成m维向量作为最终的阈值向量U。
由于表达式7中的第一项E{sign((PiTX+ui)(PiTX'+ui))|R}的值正比于FP(ui),第二项E{sign((PiTX+ui)T(PiTX'+ui))|Q}的值正比于FN(ui),且根据数理统计知识,可以很容易的根据已分类的多媒体信息估算出来,因此,可以通过求取使得FN(ui)+α×FP(ui)最小的ui值,快速、准确地确定出优化后的最终的阈值向量U。
根据上述的方法,构建出投影矩阵P和阈值向量U后,可以构造出将当前多媒体信息的n维的高维特征向量映射为低维的二值化向量的映射函数Y=sign(PX+U)。而且,经过该映射函数的映射,将原有高维特征向量转换成比特向量后具有类内聚集、类间离散的效果,从而保证了原有向量的识别能力。
使用上述构造的映射函数可以将高维特征向量映射为低维的二值化向量,进而进行基于比特向量的多媒体信息检索,其方法的流程图如图2所示,包括如下步骤:
S201:提取当前多媒体信息的特征数据后,得到当前多媒体信息的n维的高维特征向量X(x1,x2,...,xn)。
S202:将X(x1,x2,...,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,...,wm)。
具体地,可以根据构造映射函数时,所构建出的投影矩阵P对n维的高维特征向量X(x1,x2,...,xn)进行变换,得到m维的中间向量PX,记为W(w1,w2,...,wm)。
S203:将m维的阈值向量的各元素分别与中间向量的相应元素进行比较,根据比较结果对中间向量进行二值化,得到当前多媒体信息的m维的比特向量;其中,m小于n。
具体地,可以根据构造映射函数时,所计算出的m维的阈值向量U,将U(u1,u2,...,um)的各元素分别与中间向量W(w1,w2,...,wm)的相应元素进行比较,根据比较结果对中间向量进行二值化,得到当前多媒体信息的m维的比特向量。
其中,可以根据映射函数对中间向量进行二值化:求取W+U,即PX+U后,求取sign(PX+U)并得到符号向量后,将符号向量的每个元素以比特(1或1)表示,得到相应的比特向量。这样,由于m小于n,对中间向量进行二值化后,实现了将当前多媒体信息的n维的高维特征向量映射为低维(m维)的比特向量。
S204:根据得到的比特向量,在多媒体特征数据库中查找出与该比特向 量相似的比特向量,将查找出的比特向量所对应的多媒体信息作为检索结果输出。
具体地,可以根据现有的基于比特向量的多媒体信息检索方法(如以下图4所示的方法),进行基于比特向量的多媒体信息的检索,以得到检索结果。
本发明实施例还提供了一种基于比特向量的多媒体信息检索系统,其内部结构框图如图3a或3b所示,具体包括:比特向量转换模块301和检索模块302。
比特向量转换模块301用于提取当前多媒体信息的特征数据后,得到当前多媒体信息的n维的高维特征向量,记为X(x1,x2,...,xn);将高维特征向量X(x1,x2,...,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,...,wm)后,将m维的阈值向量的各元素分别与中间向量的相应元素进行比较,根据比较结果对中间向量进行二值化,得到当前多媒体信息的m维的比特向量;其中,m小于n。
检索模块302用于根据比特向量转换模块301得到的当前多媒体信息的比特向量,在多媒体特征数据库中查找出与该比特向量相似的比特向量,将查找出的比特向量所对应的多媒体信息作为检索结果输出。
其中,投影矩阵P为m×n的矩阵,并满足以下条件:对于资料库中存储的各已分类的多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换后的向量间距离期望值,与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小。
阈值向量满足以下条件:对于资料库中存储的各多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值,与不同类的高维特征向量经过P变换、并经过阈值向量比较、二值化后的向量间距离期望值的差值最小。
上述的比特向量转换模块301具体包括:高维特征向量确定单元311、中间向量计算单元312和阈值比较单元313。
高维特征向量确定单元311用于提取当前多媒体信息的特征数据后,得到当前多媒体信息的n维的高维特征向量,记为X(x1,x2,...,xn)。
中间向量计算单元312用于将高维特征向量确定单元311得到的高维特征向量X(x1,x2,...,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,...,wm)。
阈值比较单元313用于将m维的阈值向量的各元素分别与中间向量计算单元312得到的中间向量的相应元素进行比较,根据比较结果对中间向量进 行二值化,得到当前多媒体信息的m维的比特向量;其中,m小于n。
进一步,基于比特向量的多媒体信息检索系统,还包括:投影矩阵构建模块303。
投影矩阵构建模块303用于通过资料库中存储的多媒体信息训练出投影矩阵P:对于资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中;构建出使得如下公式1中最小的投影矩阵P:
L^=αE{||PX-PX'||2|Q}-E{||PX-PX'||2|R}]]>            (公式1)
其中,Q为所述同类样本集合;R为所述非同类样本集合;E{||PX-PX'||2|Q}表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值;E{||PX-PX'||2|R}表示所述R中不同类的高维特征向量经过P变换后的向量间距离期望值;α为设定的权值。
上述的影矩阵构建模块303具体包括:最小矩阵特征向量计算单元331和投影矩阵确定单元332。
最小矩阵特征向量计算单元331用于求取矩阵∑G的m个最小的n维矩阵特征向量;其中,所述∑Q如公式2所示、所述∑R如公式3所示:
∑Q=E{(X-X')(X-X')T|Q}           (公式2)
所述公式2中,E{(X-X')(X-X')T|Q}表示所述Q中同类的高维特征向量间的协方差矩阵的均值;
∑R=E{(X-X')(X-X')T|R}          (公式3)
所述公式3中,E{(X-X')(X-X')T|R}表示所述R中不同类的高维特征向量间的协方差矩阵的均值。
投影矩阵确定单元332用于由最小矩阵特征向量计算单元331求取的m个n维的高维特征向量,构成m×n的投影矩阵P。
进一步,基于比特向量的多媒体信息检索系统,还包括:第一阈值向量确定模块304(如图3a所示),或者第二阈值向量确定模块305(如图3b所示)。
第一阈值向量确定模块304用于计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,...,um),并作为所述阈值向量:
L=E{sign(PX+U)Tsign(PX'+U)|R}-αE{sign(PX+U)Tsign(PX'+U)|Q}  (公式4)
其中,E{sign(PX+U)Tsign(PX'+U)|Q}表示所述Q中同类的高维特征向量经过 P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;E{sign(PX+U)Tsign(PX'+U)|R}表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值。
上述的第一阈值向量确定模块304具体包括:最小值计算单元341和向量组成单元342。
最小值计算单元341用于求取使得如下表达式7最小的ui值;其中,i为1~m的自然数;
E{sign((PiTX+ui)(PiTX'+ui))|R}-αE{sign((PiTX+ui)T(PiTX'+ui))|Q}  (表达式7)
其中,PiT为所述投影矩阵P的第i行向量;ui为U(u1,u2,...,um)的第i个元素。
向量组成单元342用于将最小值计算单元341得到的u1~um组成m维向量U(u1,u2,...,um),作为阈值向量。
第二阈值向量确定模块305用于计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,...,um):
L=E{sign(PX+U)Tsign(PX'+U)|R}-αE{sign(PX+U)Tsign(PX'+U)|Q}  (公式4)
其中,E{sign(PX+U)Tsign(PX'+U)|Q}表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;E{sign(PX+U)Tsign(PX'+U)|R}表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;
第二阈值向量确定模块305对U(u1,u2,...,um)进行优化后,得到所述阈值向量。
上述的第二阈值向量确定模块305具体包括:最小值计算单元351、向量优化单元352和向量组成单元353。
最小值计算单元351与上述的最小值计算单元341的功能相同,此处不再赘述。
向量优化单元352用于对最小值计算单元351求取的U(u1,u2,...,um)的元素ui值进行优化:对于所述阈值向量U的元素ui,利用如下公式5和公式6,求取使得FN(ui)+α×FP(ui)最小的ui值,作为优化后的ui值;
FN(ui)=Pr(min{z,z'}≥ui or≤max{z,z'}<ui|Q)    (公式5)
FP(ui)=Pr(min{z,z'}<ui≤max{z,z'}|R)      (公式6)
所述公式5中,(min{z,z'}≥ui or≤max{z,z'}<ui|Q)中的z和z'表示所述Q中任 意一个集合元素中的一对同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(min{z,z'}≥ui or≤max{z,z'}<ui|Q)表示对于所述Q中的集合元素,ui满足如下条件:min{z,z'}≥ui or≤max{z,z'}<ui的概率;
所述公式6中,(min{z,z'}<ui≤max{z,z'}|R)中的z和z'表示所述R中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(min{z,z'}<ui≤max{z,z'}|R)表示对于所述R中的集合元素,ui满足如下条件:min{z,z'}≥ui or≤max{z,z'}<ui的概率。
向量组成单元353用于将向量优化单元352优化后的u1~um组成所述阈值向量。
如图4所示,可以根据现有的基于分段索引思想设计的多媒体信息检索方法,进行基于比特向量的多媒体信息的检索,以得到检索结果,具体包括如下步骤:
S401:提取出当前多媒体信息的特征数据,将当前多媒体信息的n维的高维特征向量映射为m维的比特向量,得到当前多媒体信息的比特向量。
具体地,提取出当前多媒体信息的特征数据后,采用上述本发明的方法,将当前多媒体信息的n维的高维特征向量映射为m维的比特向量,得到当前多媒体信息的比特向量。
S402:将当前多媒体信息的比特向量进行均匀分割,得到当前多媒体信息的k个子向量。
具体地,当前多媒体信息的第j个子向量由当前多媒体信息的比特向量均匀分割后的第j组元素组成,其中第j组元素具体包括当前多媒体信息的比特向量中的第(j-1)×v+1个元素~第j×l个元素;其中j为1~k的自然数,v为每个子向量(或每组元素)中的向量元素个数。
S403:针对当前多媒体信息的每个子向量,分别确定对应该子向量的候选集合。
具体地,针对当前多媒体信息的各子向量,分别确定出对应的候选集合,从而确定出k个候选集合;其中,在确定对应当前多媒体信息的第j个子向量的候选集合的过程中,对于所述当前多媒体信息的第j个子向量,其对应的候选集合根据如下方法确定:在第j个索引结构的索引集中查找出与该待检索多媒体信息的第j个子向量相同的索引,并将查找出的索引所对应的向量标识集合作为对应当前多媒体信息的第j个子向量的候选集合。
其中,每个待检索多媒体信息的比特向量及其向量标识预先存储于多 媒体特征数据库中,并针对每个待检索多媒体信息,预先将该待检索多媒体信息的特征比特向量进行均匀分割,建立分段索引,得到k个索引结构。
S404:对于得到的候选集合中的各向量标识,分别在多媒体特征数据库中查找出对应的比特向量。
具体地,对于上述步骤S403中得到的对应当前多媒体信息的各子向量的候选集合,即k个候选集合,在多媒体特征数据库中查找出对应候选集合中的各向量标识的比特向量。
S405:计算当前多媒体信息的比特向量与查找到的比特向量之间的汉明距离。
S406:将汉明距离符合设定条件的比特向量所对应的多媒体信息作为检索结果输出。
具体地,符合设定条件的比特向量具体可以是:与当前多媒体信息的比特向量的汉明距离小于等于d的比特向量;较优地,上述的k大于d,即d小于等于k,这样可以保证不会出现漏检,即符合设定条件的比特向量的向量标识都包括在候选集合中。通常,为满足检索要求,本领域技术人员将汉明距离d值设置为一个较小的数,比如小于3或4的数;因此,通常v至少为两位数,甚至更大。
综上所述,本发明技术方案中,由于当前多媒体信息的高维特征向量转换成比特向量后具有类内聚集、类间离散的效果,从而保证了原有向量识别能力;这样,应用成熟的基于低维的比特向量的检索技术,可以实现相比于基于高维特征向量的检索技术更高的检索效率,和更小的检索消耗,而且使得基于比特向量的多媒体信息的检索得出的检索结果更为准确,降低了检索的错误匹配率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

基于比特向量的多媒体信息检索方法和系统.pdf_第1页
第1页 / 共25页
基于比特向量的多媒体信息检索方法和系统.pdf_第2页
第2页 / 共25页
基于比特向量的多媒体信息检索方法和系统.pdf_第3页
第3页 / 共25页
点击查看更多>>
资源描述

《基于比特向量的多媒体信息检索方法和系统.pdf》由会员分享,可在线阅读,更多相关《基于比特向量的多媒体信息检索方法和系统.pdf(25页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103440292 A(43)申请公布日 2013.12.11CN103440292A*CN103440292A*(21)申请号 201310359716.6(22)申请日 2013.08.16G06F 17/30(2006.01)(71)申请人新浪网技术(中国)有限公司地址 100080 北京市海淀区北四环西路58号理想国际大厦20层(72)发明人刘洁(74)专利代理机构北京市京大律师事务所 11321代理人张璐 方晓明(54) 发明名称基于比特向量的多媒体信息检索方法和系统(57) 摘要本发明公开了一种基于比特向量的多媒体信息检索方法和系统,所述方法包括:提取当前。

2、多媒体信息的特征数据后,得到当前多媒体信息的n维的高维特征向量;将n维的高维特征向量通过投影矩阵变换后得到m维的中间向量;将m维的阈值向量的各元素分别与中间向量的相应元素进行比较,根据比较结果对中间向量进行二值化,得到当前多媒体信息的m维的比特向量;其中,m小于n;根据得到的比特向量,在多媒体特征数据库中查找出与该比特向量相似的比特向量,将查找出的比特向量所对应的多媒体信息作为检索结果输出。该方法保证了原有向量识别能力,将多媒体信息的高维特征向量映射为低维的比特向量后,使得基于比特向量的检索效率更高、检索消耗更小。(51)Int.Cl.权利要求书5页 说明书14页 附图5页(19)中华人民共和。

3、国国家知识产权局(12)发明专利申请权利要求书5页 说明书14页 附图5页(10)申请公布号 CN 103440292 ACN 103440292 A1/5页21.一种基于比特向量的多媒体信息检索方法,其特征在于,包括:提取当前多媒体信息的特征数据后,得到所述当前多媒体信息的n维的高维特征向量,记为X(x1,x2,.,xn);将高维特征向量X(x1,x2,.,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,.,wm);将m维的阈值向量的各元素分别与所述中间向量的相应元素进行比较,根据比较结果对所述中间向量进行二值化,得到所述当前多媒体信息的m维的比特向量;其中,m小于n;根据得到的。

4、比特向量,在多媒体特征数据库中查找出与该比特向量相似的比特向量,将查找出的比特向量所对应的多媒体信息作为检索结果输出;其中,所述投影矩阵P为mn的矩阵,并满足以下条件:对于资料库中存储的各已分类的多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换后的向量间距离期望值,与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小;所述阈值向量满足以下条件:对于所述资料库中存储的各多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值,与不同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值的差值最小。2。

5、.如权利要求1所述的方法,其特征在于,在所述提取当前多媒体信息的特征数据之前,还包括:通过所述资料库中存储的多媒体信息训练出所述投影矩阵P:对于所述资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中;构建出使得如下公式1中最小的投影矩阵P:(公式1)其中,Q为所述同类样本集合;R为所述非同类样本集合;EPX-PX2Q表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值;EPX-PX2R表示所述R中不同类的高维特征向量经过P变换后的向量间距离。

6、期望值;为设定的权值。3.如权利要求2所述的方法,其特征在于,所述构建出使得如下公式1中最小的投影矩阵P,具体包括:求取矩阵G的m个最小的n维矩阵特征向量;其中,所述Q如公式2所示、所述R如公式3所示:Q=E(X-X)(X-X)T|Q (公式2)所述公式2中,E(X-X)(X-X)T|Q表示所述Q中同类的高维特征向量间的协方差矩阵的均值;R=E(X-X)(X-X)T|R (公式3)所述公式3中,E(X-X)(X-X)T|R表示所述R中不同类的高维特征向量间的协方差权 利 要 求 书CN 103440292 A2/5页3矩阵的均值;由求取的m个n维矩阵特征向量,构成mn的投影矩阵P。4.如权利要。

7、求2所述的方法,其特征在于,在所述通过所述资料库中存储的多媒体信息训练出所述投影矩阵P后,还包括:计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,.,um),并作为所述阈值向量:L=Esign(PX+U)Tsign(PX+U)|R-Esign(PX+U)Tsign(PX+U)|Q (公式4)其中,Esign(PX+U)Tsign(PX+U)|Q表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;Esign(PX+U)Tsign(PX+U)|R表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,。

8、得到的符号向量之间的距离的均值。5.如权利要求2所述的方法,其特征在于,在所述通过所述资料库中存储的多媒体信息训练出所述投影矩阵P后,还包括:计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,.,um):L=Esign(PX+U)Tsign(PX+U)|R-Esign(PX+U)Tsign(PX+U)|Q (公式4)其中,Esign(PX+U)Tsign(PX+U)|Q表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;Esign(PX+U)Tsign(PX+U)|R表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值。

9、向量比较确定正负符号后,得到的符号向量之间的距离的均值;之后,对U(u1,u2,.,um)进行优化后,得到所述阈值向量:对于所述阈值向量U的元素ui,利用如下公式5和公式6,求取使得FN(ui)+FP(ui)最小的ui值,作为优化后的ui值;FN(ui)=Pr(minz,zuiormaxz,zui|Q) (公式5)FP(ui)=Pr(minz,zuimaxz,z|R) (公式6)所述公式5中,(minz,zuiormaxz,zui|Q)中的z和z表示所述Q中任意一个集合元素中的一对同类的高维特征向量X和X分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(minz,zuiormaxz,z。

10、ui|Q)表示对于所述Q中的集合元素,ui满足如下条件:minz,zuiormaxz,zui的概率;所述公式6中,(minz,zuimaxz,zR)中的z和z表示所述R中任意一个集合元素中的一对同类的高维特征向量X和X分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(minz,zuimaxz,z|R)表示对于所述R中的集合元素,ui满足如下条件:minz,zuiormaxz,zui的概率。6.如权利要求4或5所述的方法,其特征在于,所述计算出使得如下L最小的m维向量,具体包括:求取使得如下表达式7最小的ui值;其中,i为1m的自然数;Esign(PiTX+ui)(PiTX+ui)|R-。

11、Esign(PiTX+ui)T(PiTX+ui)|Q (表达式7)其中,PiT为所述投影矩阵P的第i行向量;ui为U(u1,u2,.,um)的第i个元素;并将得到的u1um组成所述m维向量。7.一种基于比特向量的多媒体信息检索系统,其特征在于,包括:权 利 要 求 书CN 103440292 A3/5页4比特向量转换模块,用于提取当前多媒体信息的特征数据后,得到所述当前多媒体信息的n维的高维特征向量,记为X(x1,x2,.,xn);将高维特征向量X(x1,x2,.,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,.,wm)后,将m维的阈值向量的各元素分别与所述中间向量的相应元素进行。

12、比较,根据比较结果对所述中间向量进行二值化,得到所述当前多媒体信息的m维的比特向量;其中,m小于n;检索模块,用于根据所述比特向量转换模块得到的当前多媒体信息的比特向量,在多媒体特征数据库中查找出与该比特向量相似的比特向量,将查找出的比特向量所对应的多媒体信息作为检索结果输出;其中,所述投影矩阵P为mn的矩阵,并满足以下条件:对于资料库中存储的各已分类的多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换后的向量间距离期望值,与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小;所述阈值向量满足以下条件:对于所述资料库中存储的各多媒体信息的高维特征向量,其中同类的高维特征向量经。

13、过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值,与不同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值的差值最小。8.如权利要求7所述的系统,其特征在于,所述比特向量转换模块具体包括:高维特征向量确定单元,用于提取当前多媒体信息的特征数据后,得到所述当前多媒体信息的n维的高维特征向量,记为X(x1,x2,.,xn);中间向量计算单元,用于将所述高维特征向量确定单元得到的高维特征向量X(x1,x2,.,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,.,wm);阈值比较单元,用于将m维的阈值向量的各元素分别与所述中间向量计算单元得到的中间向。

14、量的相应元素进行比较,根据比较结果对所述中间向量进行二值化,得到所述当前多媒体信息的m维的比特向量;其中,m小于n。9.如权利要求8所述的系统,其特征在于,还包括:投影矩阵构建模块,用于通过所述资料库中存储的多媒体信息训练出所述投影矩阵P:对于所述资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中;构建出使得如下公式1中最小的投影矩阵P:(公式1)其中,Q为所述同类样本集合;R为所述非同类样本集合;E|PX-PX|2|Q表示所述Q中同类的高维特征向。

15、量经过P变换后的向量间距离期望值;E|PX-PX|2|R表示所述R中不同类的高维特征向量经过P变换后的向量间距离期望值;为设定的权值;第一阈值向量确定模块,用于计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,.,um),并作为所述阈值向量:L=Esign(PX+U)Tsign(PX+U)|R-Esign(PX+U)Tsign(PX+U)|Q (公式4)其中,Esign(PX+U)Tsign(PX+U)|Q表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;权 利 要 求 书CN 103440292 A4/5页5Esign(。

16、PX+U)Tsign(PX+U)|R表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值。10.如权利要求9所述的系统,其特征在于,所述第一阈值向量确定模块具体包括:最小值计算单元,用于求取使得如下表达式7最小的ui值;其中,i为1m的自然数;Esign(PiTX+ui)(PiTX+ui)|R-Esign(PiTX+ui)T(PiTX+ui)|Q (表达式7)其中,PiT为所述投影矩阵P的第i行向量;ui为U(u1,u2,.,um)的第i个元素;向量组成单元,用于将所述最小值计算单元得到的u1um组成所述m维向量U(u1,u2,.,u。

17、m),作为所述阈值向量。11.如权利要求8所述的系统,其特征在于,还包括:投影矩阵构建模块,用于通过所述资料库中存储的多媒体信息训练出所述投影矩阵P:对于所述资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中;构建出使得如下公式1中最小的投影矩阵P:(公式1)其中,Q为所述同类样本集合;R为所述非同类样本集合;E|PX-PX|2|Q表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值;E|PX-PX|2|R表示所述R中不同类的高维特征向量经。

18、过P变换后的向量间距离期望值;为设定的权值;第二阈值向量确定模块,用于计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,.,um):L=Esign(PX+U)Tsign(PX+U)|R-Esign(PX+U)Tsign(PX+U)|Q (公式4)其中,Esign(PX+U)Tsign(PX+U)|Q表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;Esign(PX+U)Tsign(PX+U)|R表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;第二阈值向量确定。

19、模块对U(u1,u2,.,um)进行优化后,得到所述阈值向量。12.如权利要求11所述的系统,其特征在于,所述第二阈值向量确定模块具体包括:最小值计算单元,用于求取使得如下表达式7最小的ui值;其中,i为1m的自然数;Esign(PiTX+ui)(PiTX+ui)|R-Esign(PiTX+ui)T(PiTX+ui)|Q (表达式7)其中,PiT为所述投影矩阵P的第i行向量;ui为U(u1,u2,.,um)的第i个元素;向量优化单元,用于对U(u1,u2,.,um)的元素ui进行优化:对于所述阈值向量U的元素ui,利用如下公式5和公式6,求取使得FN(ui)+FP(ui)最小的ui值,作为优化。

20、后的ui值;FN(ui)=Pr(minz,zuiormaxz,zui|Q) (公式5)FP(ui)=Pr(minz,zuimaxz,z|R) (公式6)所述公式5中,(minz,zuiormaxz,zui|Q)中的z和z表示所述Q中任意一个集合元素中的一对同类的高维特征向量X和X分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(minz,zuiormaxz,zui|Q)表示对于所述Q中的权 利 要 求 书CN 103440292 A5/5页6集合元素,ui满足如下条件:minz,zuiormaxz,zui的概率;所述公式6中,(minz,zuimaxz,z|R)中的z和z表示所述R中任。

21、意一个集合元素中的一对同类的高维特征向量X和X分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(minz,zuimaxz,z|R)表示对于所述R中的集合元素,ui满足如下条件:minz,zuiormaxz,zui的概率;向量组成单元,用于将所述向量优化单元优化后的u1um组成所述阈值向量。13.如权利要求7-12任一所述的系统,其特征在于,所述投影矩阵构建模块具体包括:最小矩阵特征向量计算单元,用于求取矩阵G的m个最小的n维矩阵特征向量;其中,所述Q如公式2所示、所述R如公式3所示:Q=E(X-X)(X-X)T|Q (公式2)所述公式2中,E(X-X)(X-X)T|Q表示所述Q中同类的。

22、高维特征向量间的协方差矩阵的均值;R=E(X-X)(X-X)T|R (公式3)所述公式3中,E(X-X)(X-X)T|R表示所述R中不同类的高维特征向量间的协方差矩阵的均值;投影矩阵确定单元,用于由求取的m个n维矩阵特征向量,构成mn的投影矩阵P。权 利 要 求 书CN 103440292 A1/14页7基于比特向量的多媒体信息检索方法和系统技术领域0001 本发明涉及计算机领域,尤其涉及一种基于比特向量的多媒体信息检索方法和系统。背景技术0002 近年来,随着多媒体技术和计算机技术的飞速发展、大规模的多媒体信息越来越多地出现在众多的研究和应用领域。为了使这些庞杂的数据中所包含的信息能够得到有。

23、效地访问和利用,传统的基于文本的检索技术已经无法满足用户日益增长的需求,基于内容的检索技术便应运而生。0003 基于内容的检索方法需要先提取出多媒体的特征数据建立特征数据库,然后将对多媒体信息的检索转换为对特征数据的近邻检索。对于大规模多媒体信息而言,其特征数据也是大规模的。这就需要有与特征数据相对应的合适的索引方法来组织特征数据,加快检索的速度。0004 然而,多媒体信息的特征数据往往是高维的向量数据(简称高维特征向量),传统的适应于低维数据的索引机制难以适应于基于内容检索的要求,这也就是通常所说的高维数据的索引维数灾难现象。也就是说,基于高维特征向量实现多媒体信息的检索将耗费巨大的检索资源。

24、、消耗很大,效率低下。0005 为解决上述问题,现有技术的方法,如相似敏感哈希(Similarity Sensitive Hash,SSH)、局部敏感哈希(Locality Sensitive Hash,LSH)方法,通过将高维特征向量映射为低维的比特向量,从而利用基于比特向量的相似度量方法和高效索引方法来加快高维特征向量的检索速度,从而提高多媒体信息的检索效率。然而,现有技术的方法易造成相似的高维特征向量(即同类的高维特征向量)被映射为不相似的比特向量,不相似的高维特征向量(即非同类的高维特征向量)被映射为相似的比特向量,导致进行多媒体信息检索时,多媒体信息的高维特征向量映射为比特向量后,具。

25、有较大的错误匹配率,使得原有向量的识别能力下降。0006 因此,有必要提供一种基于比特向量的多媒体信息检索方法,在保证原有向量识别能力的情况下,将多媒体信息的高维特征向量映射为低维的比特向量,以使得基于比特向量的多媒体信息的检索效率相比于基于高维特征向量的多媒体信息的检索效率更高,减小检索消耗,并降低基于比特向量的多媒体信息的检索的错误匹配率。发明内容0007 针对上述现有技术存在的缺陷,本发明提供了一种基于比特向量的多媒体信息检索方法和系统,用以在保证原有向量识别能力的情况下,将多媒体信息的高维特征向量映射为低维的比特向量后,使得基于比特向量的检索效率更高、检索消耗更小。0008 根据本发明。

26、的一个方面,提供了一种基于比特向量的多媒体信息检索方法,包括:说 明 书CN 103440292 A2/14页80009 提取当前多媒体信息的特征数据后,得到所述当前多媒体信息的n维的高维特征向量,记为X(x1,x2,.,xn);0010 将高维特征向量X(x1,x2,.,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,.,wm);0011 将m维的阈值向量的各元素分别与所述中间向量的相应元素进行比较,根据比较结果对所述中间向量进行二值化,得到所述当前多媒体信息的m维的比特向量;其中,m小于n;0012 根据得到的比特向量,在多媒体特征数据库中查找出与该比特向量相似的比特向量,将查。

27、找出的比特向量所对应的多媒体信息作为检索结果输出;0013 其中,所述投影矩阵P为mn的矩阵,并满足以下条件:对于资料库中存储的各已分类的多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换后的向量间距离期望值,与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小;0014 所述阈值向量满足以下条件:对于所述资料库中存储的各多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值,与不同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值的差值最小。0015 较佳地,在所述提取当前多媒体信息的特征数。

28、据之前,还包括:0016 通过所述资料库中存储的多媒体信息训练出所述投影矩阵P:0017 对于所述资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并0018 将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中;0019 构建出使得如下公式1中最小的投影矩阵P:0020 (公式1)0021 其中,Q为所述同类样本集合;R为所述非同类样本集合;E|PX-PX|2|Q表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值;E|PX-PX|2|R表示所述R中不同类的高维特征向量经过P变换后的向量间距。

29、离期望值;为设定的权值。0022 较佳地,所述构建出使得如下公式1中最小的投影矩阵P,具体包括:0023 求取矩阵G的m个最小的n维矩阵特征向量;其中,所述Q如公式2所示、所述R如公式3所示:0024 Q=E(X-X)(X-X)T|Q (公式2)0025 所述公式2中,E(X-X)(X-X)T|Q表示所述Q中同类的高维特征向量间的协方差矩阵的均值;0026 R=E(X-X)(X-X)T|R (公式3)0027 所述公式3中,E(X-X)(X-X)T|R表示所述R中不同类的高维特征向量间的协方差矩阵的均值;0028 由求取的m个n维矩阵特征向量,构成mn的投影矩阵P。说 明 书CN 103440。

30、292 A3/14页90029 较佳地,在所述通过所述资料库中存储的多媒体信息训练出所述投影矩阵P后,还包括:0030 计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,.,um),并作为所述阈值向量:0031 L=Esign(PX+U)Tsign(PX+U)|R-Esign(PX+U)Tsign(PX+U)|Q (公式4)0032 其中,Esign(PX+U)Tsign(PX+U)|Q表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;Esign(PX+U)Tsign(PX+U)|R表示所述R中不同类的高维特征向量经过P变。

31、换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值。0033 或者,在所述通过所述资料库中存储的多媒体信息训练出所述投影矩阵P后,还包括:0034 计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,.,um):0035 L=Esign(PX+U)Tsign(PX+U)|R-Esign(PX+U)Tsign(PX+U)|Q (公式4)0036 其中,Esign(PX+U)Tsign(PX+U)|Q表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;Esign(PX+U)Tsign(PX+U)|R表示所述R。

32、中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;0037 之后,对U(u1,u2,.,um)进行优化后,得到所述阈值向量:0038 对于所述阈值向量U的元素ui,利用如下公式5和公式6,求取使得FN(ui)+FP(ui)最小的ui值,作为优化后的ui值;0039 FN(ui)=Pr(minz,zuiormaxz,zui|Q) (公式5)0040 FP(ui)=Pr(minz,zuimaxz,z|R) (公式6)0041 所述公式5中,(minz,zuiormaxz,zui|Q)中的z和z表示所述Q中任意一个集合元素中的一对同类的高维特征向。

33、量X和X分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(minz,zuiormaxz,zui|Q)表示对于所述Q中的集合元素,ui满足如下条件:minz,zuiormaxz,zui的概率;0042 所述公式6中,(minz,zuimaxz,z|R)中的z和z表示所述R中任意一个集合元素中的一对同类的高维特征向量X和X分别经过所述投影矩阵P变换后得到的向量的第i个元素,Pr(minz,zuimaxz,z|R)表示对于所述R中的集合元素,ui满足如下条件:minz,zuiormaxz,zui的概率。0043 较佳地,所述计算出使得如下L最小的m维向量,具体包括:0044 求取使得如下表达。

34、式7最小的ui值;其中,i为1m的自然数;0045 Esign(PiTX+ui)(PiTX+ui)|R-Esign(PiTX+ui)T(PiTX+ui)|Q (表达式7)0046 其中,PiT为所述投影矩阵P的第i行向量;ui为U(u1,u2,.,um)的第i个元素;0047 并将得到的u1um组成所述m维向量。0048 根据本发明的另一个方面,还提供了一种基于比特向量的多媒体信息检索系统,包括:0049 比特向量转换模块,用于提取当前多媒体信息的特征数据后,得到所述当前多媒体信息的n维的高维特征向量,记为X(x1,x2,.,xn);将高维特征向量X(x1,x2,.,xn)通说 明 书CN 1。

35、03440292 A4/14页10过投影矩阵P变换后得到m维的中间向量W(w1,w2,.,wm)后,将m维的阈值向量的各元素分别与所述中间向量的相应元素进行比较,根据比较结果对所述中间向量进行二值化,得到所述当前多媒体信息的m维的比特向量;其中,m小于n;0050 检索模块,用于根据所述比特向量转换模块得到的当前多媒体信息的比特向量,在多媒体特征数据库中查找出与该比特向量相似的比特向量,将查找出的比特向量所对应的多媒体信息作为检索结果输出;0051 其中,所述投影矩阵P为mn的矩阵,并满足以下条件:对于资料库中存储的各多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换后的向量间距离期望。

36、值,与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小;0052 所述阈值向量满足以下条件:对于所述资料库中存储的各已分类的多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值,与不同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值的差值最小。0053 较佳地,所述比特向量转换模块具体包括:0054 高维特征向量确定单元,用于提取当前多媒体信息的特征数据后,得到所述当前多媒体信息的n维的高维特征向量,记为X(x1,x2,.,xn);0055 中间向量计算单元,用于将所述高维特征向量确定单元得到的。

37、高维特征向量X(x1,x2,.,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,.,wm);0056 阈值比较单元,用于将m维的阈值向量的各元素分别与所述中间向量计算单元得到的中间向量的相应元素进行比较,根据比较结果对所述中间向量进行二值化,得到所述当前多媒体信息的m维的比特向量;其中,m小于n。0057 进一步,所述基于比特向量的多媒体信息检索系统,还包括:0058 投影矩阵构建模块,用于通过所述资料库中存储的多媒体信息训练出所述投影矩阵P:对于所述资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并将其中任意一对不同类。

38、的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中;构建出使得如下公式1中最小的投影矩阵P:0059 (公式1)0060 其中,Q为所述同类样本集合;R为所述非同类样本集合;E|PX-PX|2|Q表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值;E|PX-PX|2|R表示所述R中不同类的高维特征向量经过P变换后的向量间距离期望值;为设定的权值;0061 第一阈值向量确定模块,用于计算出使得如下公式4中L最小的m维向量,记为U(u1,u2,.,um),并作为所述阈值向量:0062 L=Esign(PX+U)Tsign(PX+U)|R-Esign(PX+U)Tsign(PX+U)|Q (公式4)0063 其中,Esign(PX+U)Tsign(PX+U)|Q表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值;Esign(PX+U)Tsign(PX+U)|R表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后,得到的符号向量之间的距离的均值。说 明 书CN 103440292 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1