《一种适用于移动终端的视觉搜索方法.pdf》由会员分享,可在线阅读,更多相关《一种适用于移动终端的视觉搜索方法.pdf(11页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN103530649A43申请公布日20140122CN103530649A21申请号201310483155022申请日20131016G06K9/62200601G06F17/3020060171申请人北京理工大学地址100081北京市海淀区中关村南大街5号72发明人桂振文刘越王涌天74专利代理机构北京理工大学专利中心11120代理人仇蕾安李爱英54发明名称一种适用于移动终端的视觉搜索方法57摘要本发明提供一种适用于移动终端的视觉搜索方法,该方法的具体过程为步骤1利用移动终端采集当前场景的待识别图像,并获取采集图像时移动终端的重力方向和当前场景的GPS信息;步骤2获得待识别。
2、图像的二进制局部特征向量;步骤3将所述GPS信息和二进制局部特征向量打包成一描述符文件,并将其发送出去;步骤4从样本图像库中查找与所提取的GPS信息相距最近的GPS信息所对应的图像,并将其定义为查询图像;步骤5将待识别图像与查询图像的二进制局部特征向量进行一一匹配,寻找与待识别图像最相近的查询图像,并将其对应的信息传输至移动终端,实现视觉搜索。该方法可为移动终端的使用者获取当前场景的相关信息提供一种更为便利的手段。51INTCL权利要求书1页说明书6页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书6页附图3页10申请公布号CN103530649ACN1035306。
3、49A1/1页21一种适用于移动终端的视觉搜索方法,适用于该方法的样本图像库满足两个条件样本图像库中的每一样本图像带有GPS信息,样本图像库中的每一样本图像采用二进制局部特征向量表示;其特征在于,该方法的具体过程为步骤1利用移动终端采集当前场景的待识别图像,并获取采集图像时移动终端的重力方向和当前场景的GPS信息;步骤2采用二进制局部特征检测算法BRISK对待识别图像进行特征点检测,得到待识别图像的特征点;根据所述重力方向,用特征描述符FREAK对所述特征点进行描述,获得待识别图像的二进制局部特征向量;步骤3将所述GPS信息和二进制局部特征向量打包成一描述符文件,并将其发送给服务器;步骤4服务。
4、器接收到描述符文件后,从该描述符文件中提取GPS信息,从样本图像库中查找与所提取的GPS信息相距最近的GPS信息所对应的图像,并将其定义为查询图像;步骤5将待识别图像与查询图像的二进制局部特征向量进行一一匹配,寻找与待识别图像最相近的查询图像,并将其对应的信息传输至移动终端,实现视觉搜索。2根据权利要求1所述适用于移动终端的视觉搜索方法,其特征在于,在对待识别图像特征点检测之前,对待识别图像进行降采样处理。3根据权利要求1所述适用于移动终端的视觉搜索方法,其特征在于,在步骤3生成的描述符文件还进一步包括二进制局部特征向量个数,且GPS信息和二进制局部特征向量个数放在描述符文件的开头。4根据权利。
5、要求1所述适用于移动终端的视觉搜索方法,其特征在于,所述匹配为通过计算待识别图像和查询图像的二进制特征向量的汉明距离,基于汉明距离寻找与待识别图像最相近的查询图像。5根据权利要求1所述适用于移动终端的视觉搜索方法,其特征在于,当步骤4查找到的最近的GPS信息与待识别图像对应的GPS信息相距超过设定阈值时,此时服务器生成无法查询到相关信息的反馈信号回传给移动终端。6根据权利要求1至5中的任一个所述适用于移动终端的视觉搜索方法,其特征在于,该视觉搜索方法适用的样本图像数据库采用以下步骤建立适用于该方法的样本图像库采用以下步骤建立S01、获取带GPS信息的样本图像,其中所述GPS信息为样本图像所显示。
6、的场景的GPS信息;S02、提取每一幅样本图像的二进制局部特征向量,并生成倒排文件索引表;S03、建立以样本图像的GPS信息为聚类中心的更高层的索引,将属于同一聚类中心的样本图像对应的倒排文件索引表存储到一个链表中。权利要求书CN103530649A1/6页3一种适用于移动终端的视觉搜索方法技术领域0001本发明属于移动增强现实技术领域,具体涉及一种适用于移动终端的视觉搜索方法。背景技术0002视觉搜索的研究目标在于利用计算机代替人自动去处理海量的物理信息,识别各种不同模式的目标和对象,从部分上代替人的脑力劳动,也可拓展人类生理器官所不能胜任的领域,在遥感图像处理、医学图像处理和增强现实等领域。
7、有着广泛的应用。0003目前,随着互联网的发展,人类正在步入一个信息化的社会,互联网已经成为人类发布、获取、交换信息的重要平台。互联网上信息量的指数级增长,使得如何让用户能够快速准确地在海量的数据中找到其所需信息成为了一个重要的课题。近些年来,照相机,智能手机,PAD,摄像机等电子产品的普及,我们可以随时随处,拍下我们喜欢的景色,动物,食品等等各种各样的图片。截止到2010年1月,FACEBOOK声称其网站上的图片数量已经超过250亿张。面对如此海量的图片资源,如何快速准确的找到我们感兴趣的图片是必须要解决的问题,是商业界和学术界的一个重要研究方向。然而,随着图片规模的极大增长,要保证图像搜索。
8、的实时性,相应的图像编码、图像检索技术和数据库索引技术也必须做相应的调整或加速。0004同时计算机软、硬件技术的迅猛发展,为增强现实技术走出室内应用进而支持复杂的分析、决策和管理打下了坚实的基础。一些移动终端设备(像PDA、智能手机等)的功能也越来越丰富,并且拥有了嵌入式操作系统、触摸屏、GPS定位、视频摄像头等功能,同时也具备了较强的计算和处理能力。这些功能的集成为开发基于移动终端的增强现实系统奠定了基础。据有关资料,截止到2010年我国移动电话用户可达74亿,其中拥有智能手机的用户占了相当的比重,智能手机作为增强现实的应用平台将具有很大的应用潜力。3G网的逐步开通、运行,意味着移动增值业务。
9、全新时代的开始,增强现实技术和LBS相结合可以实现信息的实时交互、三维动态显示,可使人机界面更加友好和具有智能性。0005基于上述分析,结合具有摄像头,GPS传感器和无线网络传感器的终端以及服务器端的图像识别和匹配技术,可以将场景之类的大规模物体的在线识别变为可能。0006然而以前的许多图像识别的研究工作都是在样本规模不是非常大的情况下考虑图像检索问题,许多方法也不能推广到更大规模的图像识别问题,系统性能和能够处理的数据规模存在局限性。当城市级规模的数据,以百万为单位时,图像识别系统需要海量的存储空间和海量数据的快速计算能力。因为图像本身需要很大的空间存储,从图像提取的各种特征描述向量也需要大。
10、量的空间存储。同时,在图像识别和匹配过程中对描述符索引、匹配也需要强大计算能力。发明内容0007有鉴于此,本发明提供了一种适用于移动终端的视觉搜索方法,利用该方法能够说明书CN103530649A2/6页4实现在线海量图像的识别,从而达到在线视觉搜索的目的,同时该方法大大减少了数据存储量,提高了图像识别率和视觉搜索的速度。0008实现本发明的技术方案如下0009一种适用于移动终端的视觉搜索方法,适用于该方法的样本图像库满足两个条件样本图像库中的每一样本图像带有GPS信息,样本图像库中的每一样本图像采用二进制局部特征向量表示;该方法的具体过程为0010步骤1利用移动终端采集当前场景的待识别图像,。
11、并获取采集图像时移动终端的重力方向和当前场景的GPS信息;0011步骤2采用二进制局部特征检测算法BRISK对待识别图像进行特征点检测,得到待识别图像的特征点;根据所述重力方向,用特征描述符FREAK对所述特征点进行描述,获得待识别图像的二进制局部特征向量;0012步骤3将所述GPS信息和二进制局部特征向量打包成一描述符文件,并将其发送出去;0013步骤4服务器接收到描述符文件后,从该描述符文件中提取GPS信息,从样本图像库中查找与所提取的GPS信息相距最近的GPS信息所对应的图像,并将其定义为查询图像;0014步骤5将待识别图像与查询图像的二进制局部特征向量进行一一匹配,寻找与待识别图像最相。
12、近的查询图像,并将其对应的信息传输至移动终端,实现视觉搜索。0015进一步地,本发明在对待识别图像特征点检测之前,还包括对图像进行降采样处理。0016进一步地,本发明在步骤3生成的描述符文件还进一步包括二进制局部特征向量个数,且GPS信息和二进制局部特征向量个数放在描述符文件的开头。0017进一步地,本发明所述匹配为通过计算待识别图像和查询图像的二进制特征向量的汉明距离,基于汉明距离寻找与待识别图像最相近的图像。0018进一步地,本发明当步骤4查找到的最近的GPS信息与待识别图像对应的GPS信息相距超过设定阈值时,此时服务器生成无法查询到相关信息的反馈信号回传给移动终端。0019进一步地,本发。
13、明适用于该方法的样本图像库采用以下步骤建立0020S01、获取带GPS信息的样本图像,其中所述GPS信息为样本图像所显示的场景的GPS信息;0021S02、提取每一幅样本图像的二进制局部特征向量,并生成倒排文件索引表;0022S03、建立以样本图像的GPS信息为聚类中心的更高层的索引,将属于同一聚类中心的样本图像对应的倒排文件索引表存储到一个链表中。0023有益效果0024第一、本发明使用移动终端采集当前场景的待识别图像,并在服务器上利用图像匹配的方法,对被采集室外场景进行识别,提供待识别图像对应的各种信息,从而为移动终端的使用者获取当前场景的相关信息提供一种更为便利的手段。0025第二、本发。
14、明采用二进制局部特征向量来描述图像特征,只需要几个字节就代表高维的描述向量,节省了存储空间,为移动终端大规模的存储数据提供了可行性。说明书CN103530649A3/6页50026第三,本发明在查找待识别图像的相似图像时,首先根据GPS信息判断是否存在位置较近的样本图像,如果有,进行后续的二进制特征局部特征的相似性比较,如果没有,则直接通知移动端找不到类似的样本图像;因此本发明通过GPS传感器的位置信息,缩小匹配样本的范围,节省了匹配的时间。0027第四、本发明利用二进制的汉明距离比较算法进行匹配,仅用一条计算机指令就能进行描述匹配计算,提高了海量描述符的快速匹配能力,为室外海量图片的更快速的。
15、识别提供了更加有利的条件。0028第五、本发明在记载样本二进制特征码时,将GPS值进行聚类,选取聚类中心代表这一类的位置,并将这类的样本特征向量,放在一个大链表里,方便进行查找。0029第六、本发明可以扩展智能终端的交互式应用,满足了旅游、导航、交通、酒店服务等在智能终端上的扩展应用,使网络运营商和内容提供商能够利用其丰富的服务器资源和优越的服务器性能发展其业务。附图说明0030图1融合传感器信息的室外海量物体系统架构图;0031图2识别算法流程图;0032图3AGAST_916模板;0033图4FREAK描述子受人类视网膜结构启发;0034A为视杆细胞在视网膜上的密度分布B为视网膜的三个分区。
16、;0035图5FREAK描述子用于确定特征方向的采样点对;0036图6室外场景训练样本二进制特征向量的倒排索引结构;具体实施方式0037下面将结合附图和具体事例对本发明进行详细描述。0038本发明适用于移动终端的视觉搜索方法,该方法适用的样本图像库满足两个条件样本图像库中的每一样本图像带有GPS信息,样本图像库中的每一样本图像采用二进制局部特征向量表示;如图1所示,该方法具体过程为0039步骤1用户打开移动终端的拍摄设备,采集当前场景的待识别图像;再调用终端的GPS传感器接口和重力传感器接口,并获取采集图像时移动终端的重力方向和当前场景的GPS信息。0040步骤2为了降低运算量,终端对采集到的。
17、待识别图像进行降采样处理(即降低图像分辨率),将图像分辨率统一降为320240;然后采用二进制局部特征检测算法BRISK(BINARYROBUSTINVARIANTSCALABLEKEYPOINTS)对待识别图像进行特征点检测,得到待识别图像的特征点;根据所述重力方向,用特征描述符FREAK(FASTRETINAKEYPOINT)对所述特征点进行描述,从而将待识别图像所包含的信息转化为二进制局部特征向量进行表示。由于一幅图像可能包含有大量的信息,因此一幅图像可能有上百个二进制局部特征向量。0041下面对本步骤的具体过程进行说明0042(1)离散尺度空间中的角点(特征点)探测;说明书CN1035。
18、30649A4/6页60043二进制局部特征检测算法BRISK,其使用角点作为特征点,首先需要搜寻图像中满足在邻域中具有突出性的点角点作为预备特征点,得到预备特征点集合;其次对于预备特征点集合中的每一点,以其尺度空间相邻的上下两层的邻域来实行非极大值抑制NONMAXIMUMSUPPRESSIONNPS,剔除一些突出性非极大的点,此时剩下的点就是在尺度空间的邻域中具有独特性的唯一的特征点。具体过程为0044使用AGAST算法在图像离散尺度空间中的每一层搜寻角点,使用像素亮度作为比较指标,衡量待测点的突出性。突出性的度量为FAST得分,计算公式为00450046其中V为FAST响应得分,SBRIG。
19、HTNESS为邻域点的亮度集合;I为灰度值;为衡量显著与否的灰度差阈值,如果中心点P与邻域点的亮度差小于,便认为中心点与邻域亮度相近,即不满足显著亮或暗的条件。而邻域的选择则要根据应用平台以及需求来定,常用的有58、812、916的模板。如图3所示,在AGAST_916的模板下,在待测点同层的16个点组成的邻域中,当FAST响应得分不小于9即至少有9个邻域点的灰度全大于或者全小于待测的中心点的亮度时,便认为中心点在邻域中具有突出性,将纳入预备特征点中。0047寻找完了尺度空间中所有角点作为预备特征点之后,对所有预备特征点的在尺度邻层实施非极大值抑制。最后被确认为特征点的像素点PD,它在尺度空间。
20、的上下邻层中对应的点PD1和PD1在其各自的尺度层上也应该具有突出性,而且PD的FAST响应得分应该比PD1和PD1都要高。如此一来,便确保了特征点在尺度空间中的独特性。0048(2)特征点描述0049FREAK描述子的采样模式模拟视网膜的视神经细胞分布特点,解剖学证据表明,对光强敏感的视杆状细胞自视黄斑到边缘,尺寸逐渐变大,密度也相应减少。如图4所示,杆细胞在视网膜上的密度分布由中心向边缘呈指数关系减少。在靠近视黄斑的区域,较小的细胞感光面积和较大细胞密度使得这一区域对光强的感受更加精细,即信息量也更大。这与我们的日常生活经验相符,因为平日若是想要看清一个物体,会调整眼球,使得物体出在视野正。
21、中,如此物像会落在中心的黄斑附近。0050如图4A,FREAK的采样模式在以特征点为中心模拟了视黄斑的位置的较近邻域内放置的采样点密度较大,而且每个采样点的高斯核参数在图中直观体现为以采样点为圆心的红色圆圈半径,模拟了视神经细胞的感光区域半径,半径约大,精度越低较小,而在离特征点比较远的模式边缘区域,采样点的密度小而且高斯核参数较大。0051FREAK使用的采样模式包括43个采样点,如此会生成4342/21118比特的描述符,但最终的FREAK只有512比特的长度,所以其中涉及了采样点对的筛选。不同采样点对于描述符的独特性贡献不同,筛选的目的是使得特征描述具有更多独特性,所以标准就是选用使得结。
22、果具有更多变化总方差大的比采样点对。0052(3)特征主方向确定,并构建特征描述符0053与BRISK类似,FREAK中使用局部梯度来表示特征主方向,但不同之处在于用于计算梯度的采样点对的选取,前者使用长距离的采样点对,FREAK则选用如图5所示简单的相对于中心点对称的几组采样点对。0054用于表示特征主方向的局部梯度O的计算公式如下说明书CN103530649A5/6页700550056求出主方向后,把采样点集绕特征点K旋转ARCTAN2GY,GX,其中GX,GY,GZ为移动终端中重力加速度感应器获得的三个坐标方向的加速度矢量,即步骤1获得的重力方向,而后开始构建描述符F00570058其中。
23、,PA为一对采样点,N是描述子长度。而TPA满足00590060其中,和分别代表平滑后的这一对采样点的亮度;G是用来计算梯度的采样点对总集;M为G中采样点对数;1和为一对采样点的空间坐标矢量。0061步骤3将所述GPS信息和二进制局部特征向量打包成一描述符文件,并将其发送出去;0062为了便于接收端可以在接收过程中快速判断出一个描述符文件是否接收完毕,本步骤中进一步将二进制局部特征向量个数作为特征描述符的一部分,且将GPS信息和二进制局部特征向量个数放在描述符文件的开头,然后将描述符文件发送出去。0063步骤4服务器接收到描述符文件后,从该描述符文件中提取GPS信息,从样本图像库中查找与所述G。
24、PS信息相距最近的GPS信息所对应的图像,并将此时查找得到的图像定义为查询图像。0064当步骤4查找到的最近的GPS信息与待识别图像对应的GPS信息相距超过设定阈值时,此时表示样本图像库中没有与其相匹配的样本图像,服务器生成无法查询到相关信息的反馈信号回传给移动终端。0065步骤5将待识别图像与查询图像的二进制局部特征向量进行一一匹配,寻找与待识别图像最相近的查询图像,并将其对应的信息传输至移动终端,实现移动视觉搜索。0066在图像处理技术领域,图像匹配的方法很多,本实施例较佳采用以下方法寻找最相近的查询图像0067步骤501、服务器从接收到的描述符文件中,提取待识别图像的二进制特征向量。00。
25、68步骤502、将待识别图像的二进制特征向量,逐个与每一查询图像的二进制特征向量进行汉明距离计算,对于汉明距离大于设定阈值的判定为不匹配的二进制特征向量,对于汉明距离小于等于阈值的判定为相匹配的二进制特征向量;本实施例中所述阈值一般为30。0069下面列举一实例对汉明距离的计算进行详细说明0070对于两个特征点产生的各512比特的特征描述符(其用二进制特征向量表示),计算二者的汉明距离,当汉明距离小于一个阈值RTH时认为两点匹配。说明书CN103530649A6/6页80071设两幅图像A,B中的描述符集合为DA1,DA2DAM和DB1,DB2DBN,对于图像A中的DAI,I1,M,在DB1,。
26、DB2DBN中寻找与它汉明距离最小的最近邻DBJ,得到最小距离RMIN。如果RMINRTH,则认为DAI与DBJ匹配,即DAI与DBJ形成匹配点对;否则就判定DAI在B图中没有匹配点。0072步骤503、统计待识别图像的二进制特征向量与查询图像的二进制特征向量匹配数量最多的,将该查询图像作为结果图像,返回事先存储的、与所述结果图像对应的图像ID和相关信息(例如该相关信息可以是关于该场景周边的酒店、商场、车站等信息)到移动终端。终端可以显示上述识别结果,用户可以点击上述分类结果,查看详细信息。0073至此,本流程结束。0074本发明视觉搜索方法适用的样本图像库可以采用以下步骤建立0075S01、。
27、获取带GPS信息的样本图像,其中所述GPS信息为样本图像所显示的场景的GPS信息。0076一般来说可以按场景获取样本图像,例如从网络下载或实地拍摄,每个场景从不同角度获取几幅样本图像,场景的GPS信息就是样本图像的GPS信息。0077S02、提取每一幅样本图像的二进制局部特征向量,并生成倒排文件索引表;0078S03、建立以样本图像的GPS信息为聚类中心的更高层的索引,将属于同一聚类中心的样本图像对应的倒排文件索引表存储到一个链表中,所建立的样本图像库如图6所示。在图6的链表中,每一INDEXNOTE1对应一个样本图像,其第一列表格存储样本图像描述符特征向量,第二列用于存储样本图像的ID以及G。
28、PS信息,第三列可以用于存储样本图像相关的场景信息等等。0079在图像处理领域中,图像的二进制局部特征向量的提取方法很多,本实施例较佳采用提取待识别图像二进制局部特征向量的方法,即利用二进制局部特征检测算法BRISK(BINARYROBUSTINVARIANTSCALABLEKEYPOINTS)对样本图像进行特征点检测,得到待识别图像的特征点;然后用特征描述符FREAK(FASTRETINAKEYPOINT)对特征点进行描述,从而将待识别图像所包含的信息转化为二进制特征局部向量进行表示。0080当本发明在上述建立的样本图像库中进行图像匹配时,此时步骤4中直接从样本图像库中查找与所述GPS信息相距最近的GPS信息所对应的中心链表,这样可以快速从样本图像库中查找到查询图像。0081综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。说明书CN103530649A1/3页9图1说明书附图CN103530649A2/3页10图2图3说明书附图CN103530649A103/3页11图4图5图6说明书附图CN103530649A11。