用从另一图像提取的至少一个属性修改图像的至少一个属性.pdf

上传人:狗** 文档编号:5996032 上传时间:2019-04-02 格式:PDF 页数:23 大小:1.60MB
返回 下载 相关 举报
摘要
申请专利号:

CN201610819456.X

申请日:

2016.09.12

公开号:

CN106560809A

公开日:

2017.04.12

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20160912|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

奥多比公司

发明人:

B·J·科尔; 林哲; P·雷诺兹; B·费塔

地址:

美国加利福尼亚州

优先权:

2015.10.02 US 62/236,648; 2016.01.20 US 15/002,172

专利代理机构:

北京市金杜律师事务所 11256

代理人:

酆迅

PDF下载: PDF下载
内容摘要

本发明的各实施例总体上涉及用从另一图像提取的至少一个属性修改图像的至少一个属性。具体地,在各实施例中,图像中找到的一个或多个特定属性可以利用另一图像中找到的一个或多个特定属性进行修改。机器学习、深度神经网络和其他计算机视觉技术可以被用于提取图像的属性,诸如来自一个或多个图像的颜色、组分、字体、风格和纹理。用户可以基于另一图像的属性来修改第一图像中这些属性中的至少一个属性,并且使用修改后的图像发起基于视觉的搜索。

权利要求书

1.一种存储有计算机可用指令的非瞬态计算机存储介质,当所述指令由计算设备使用
时,使得所述计算设备执行以下操作包括:
经由用户设备接收用户对图像的选择,所述图像包括属性;
接收针对模型图像的至少一个模型属性的选择,所述模型图像包括模型属性;以及
根据所述选择修改所述图像的至少一个属性。
2.根据权利要求1所述的介质,其中所述属性包括组分、颜色、风格、纹理或字体中的一
个或多个。
3.根据权利要求1所述的介质,进一步包括接收对由所述用户选择的每个模型属性的
权重的选择。
4.根据权利要求1所述的介质,进一步包括经由所述用户设备接收所述用户对所述图
像的至少一个负面属性的选择,所述至少一个负面属性是所述用户不期望所修改的图像包
括的模型属性。
5.根据权利要求1所述的介质,进一步包括提供包括结果图像集的搜索预览,所述结果
图像集视觉上与所述图像相似并且包括被修改的所述至少一个属性。
6.根据权利要求5所述的介质,进一步包括接收对所述结果图像集中的图像的选择。
7.根据权利要求6所述的介质,进一步包括基于所述选择来发起搜索查询。
8.根据权利要求1所述的介质,进一步包括利用神经网络从所述图像提取所述属性以
及从所述模型图像提取所述模型属性。
9.一种用于促进使用图像中找到的特定属性进行搜索的计算机实现的方法,所述方法
包括:
训练神经网络从图像集提取特定属性,其中所述神经网络的不同层对应于不同特定属
性;
在所述神经网络接收图像;
由所述神经网络从所述图像提取属性;以及
提供包括结果图像集的搜索预览,所述结果图像集视觉上与所述图像相似并且包括不
同于从所述图像提取的所述属性的至少一个结果属性。
10.根据权利要求9所述的方法,其中所述属性和所述至少一个结果属性包括组分、颜
色、风格、纹理或字体中的一个或多个。
11.根据权利要求9所述的方法,进一步包括在所述神经网络接收其他图像。
12.根据权利要求9所述的方法,进一步包括由所述神经网络从所述其他图像提取其他
属性。
13.根据权利要求12所述的方法,进一步包括利用从所述其他图像提取的所述其他属
性来修改所述图像的至少一个属性。
14.根据权利要求9所述的方法,进一步包括接收对所述结果图像集中的结果图像的选
择。
15.根据权利要求14所述的方法,进一步包括基于所述选择来发起搜索查询。
16.根据权利要求14所述的方法,进一步包括基于所述选择提供细化搜索结果。
17.根据权利要求9所述的方法,进一步包括根据其他图像的基于文本的属性修改所述
图像的属性。
18.根据权利要求9所述的方法,进一步包括根据用户提供的草图修改所述图像的属
性。
19.一种计算机化的系统,包括:
处理器;以及
存储有计算机可用指令的计算机存储介质,所述指令在由所述处理器使用时,使得一
个或多个所述处理器:
针对特定属性训练神经网络,其中所述神经网络的不同层对应于不同特定属性;
由所述神经网络从用户提供的图像和图像集中提取属性;
接收对所述图像集中图像的属性的选择;以及
根据对所述图像集中所述图像的所述属性的所述选择,修改所述用户提供的图像的属
性。
20.根据权利要求19所述的系统,其中所述计算机存储介质存储计算机可用指令,所述
指令在由所述处理器使用时,进一步使得所述处理器:
基于用户提供的图像和被修改的所述属性来发起搜索查询。

说明书

用从另一图像提取的至少一个属性修改图像的至少一个属性

相关申请的交叉引用

本申请要求2015年10月2日提交的、名称为“Searching Using One or More
Specific Attributes Found In One Or More Images”的第62/236,648号美国临时申请
的权益,其优先权在本文中被要求,并且其全部内容通过引用并入于此。

技术领域

本申请的各实施例总体上涉及用从另一图像提取的至少一个属性修改图像的至
少一个属性。

背景技术

基于因特网的搜索引擎传统上采用共同图像搜索技术用于定位万维网上的数字
图像内容。这些已知图像搜索引擎可以被分类成“基于文本”的图像搜索和“基于视觉”的图
像搜索。

传统基于文本的图像搜索可以接收用于搜索具有关键字标签图像的数据库的基
于文本的查询,用于生成各自具有匹配基于文本的查询的一个或多个关键字标签的图像的
结果集。这些基于文本的搜索主要依赖与图像相关联的关键字标签的质量,而忽视图像的
视觉信息。另一方面,传统基于视觉的图像搜索可以接收图像作为用于搜索图像数据库的
基于视觉的查询,而不考虑各图像具有与其相关联的关键字标签,用于生成各自具有视觉
上与基于视觉的查询图像相似的特性的图像的结果集。

虽然传统图像搜索技术可以生成可容忍的结果,但是基于文本的图像搜索中质量
结果的生成可以取决于其上进行搜索的图像数据库中关键字标签的细节的水平。例如,如
果其上执行搜索的数据库包括关键字标签图像,则基于文本的图像搜索可以只产生期望的
结果。在这方面,如果图像数据库除了许多其他图像外还包括成千上万日落时海滩上情侣
的图像,其中都不具有与关键字“情侣”、“日落”或“海滩”相关联的关键字标签,则通过“情
侣海滩日落”的基于文本的查询(例如,描述性的关键字)进行的基于文本的图像搜索将不
会生成任何期望的结果。

具体针对基于视觉的图像搜索,质量结果的生成可以取决于基于视觉的搜索查询
本身的质量甚至其存在。例如,如果提供了在所有属性都与期望图像相似的基于视觉的查
询(例如,示例性图像),则基于视觉的图像搜索可以只生成期望的结果。在这方面,如果用
户期望搜索图像数据库以定位与日落时海滩上情侣的图像相似的图像,则用户需要具有在
视觉上与图像数据库中的图像具有相似特性的至少一个图像以构造搜索查询。然而,这种
搜索可能具有意外后果。例如,基于视觉的图像搜索可以基于整体相似度而不是对用户最
重要的特定属性来标识包括与搜索查询的某些相似属性的图像。继续上文示例,假设用户
期望通过颜色(或某些其他属性,诸如组分、风格、纹理、字体等)找到与日落时海滩上情侣
的图像相似的图像,但不在意图像中的内容。当前基于视觉的图像搜索可以返回包括不期
望的属性以及相似内容的许多图像。此外,这些搜索可能忽视或错过包括期望属性的许多
图像。如此,传统图像搜索技术可能在范围方面相当受限。

发明内容

提供本发明内容以按简化形式介绍概念的选择,这些概念在下面的具体实施方式
中进一步进行描述。本发明内容不旨在于标识要求保护的主题的关键特征或必要特征,其
也不旨在于用来限制要求保护的主题的范围。

本发明的各实施例涉及修改图像中找到的一个或多个特定属性。具体地,在本发
明的各实施例中,机器学习、深度神经网络和其他计算机视觉技术可以被用于提取图像的
属性,诸如来自一个或多个图像的颜色、组分、字体、风格和纹理。用户可以基于另一图像的
属性来修改第一图像中这些属性中的至少一个属性,并且使用修改后的图像发起基于视觉
的搜索。通过此方式,用户能够修改图像以包括不是该图像固有的期望属性,而不需要执行
对包括所有期望属性的图像的搜索。

附图说明

下面参考附图对本发明进行详细描述,其中:

图1是根据本公开的实现方式图示了示例性系统的示图;

图2和图3图示了根据本公开的实现方式用于使用一个或多个图像中找到的一个
或多个特定属性进行搜索的示例性图形用户接口;

图4和图5是根据本公开的实现方式示出了用于使用一个或多个图像中找到的一
个或多个特定属性进行搜索的方法的流程图;

图6和图7是根据本公开的实现方式示出了用于修改可以用于搜索的图像的至少
一个属性的方法的流程图;以及

图8是适于在本公开的实现方式中使用的示例性计算环境的框图。

具体实施方式

在本文中以某种特殊性描述本发明的主题以满足法定要求。然而,描述本身不旨
在限制本专利的范围。相反,发明人已经预见到要求保护的主题还可以按其他方式来体现,
以包括结合其他现有的或将来的技术的与在本文档中描述的步骤不同的步骤或步骤的组
合。此外,尽管术语“步骤”和/或“框”可以在本文中用于意指采用的方法的不同的元素,但
是这些术语不应当被解读为暗指在所公开的本文中的各个步骤之中或之间的任何特定顺
序,除非并且除了当各个步骤的顺序被明确描述时。

包括万维网的本地或联网环境中采用的传统图像搜索引擎可以基于文本查询或
视觉查询之一生成图像搜索结果。基于文本的图像搜索通常接收用于查询标签图像数据库
的基于文本的查询(即,“红色球”、“足球比赛”、“笼中老虎”),其中数据库中的每个图像标
签有描述与图像相关联的特性的至少一个关键字(例如,“红色”、“球”、“足球”、“比赛”、“老
虎”、“笼”)。通常图像预先标签有描述图像的视觉特性的关键字。如果一个或多个标签图像
被确定具有与其相关联的、对应于基于文本的查询的至少一个关键字,则响应于基于文本
的查询返回图像作为搜索结果。如本文所使用的,术语“标签”用于指代图像中包括的或与
之相关联的以及描述或指示图像的某些属性的元数据。例如,标签可以包括图像中描绘的
主题的描述、图像的作者、图像的编辑、与图像相关联的时期或者与图像相关联或其中描绘
的位置等。自然语言处理也可以用于基于文本的图像搜索。

另一方面,基于视觉的图像搜索通常接收用于查询图像数据库的基于视觉的查询
(即,红色球的图像、足球比赛的图像、笼中老虎的图像),而不考虑各图像具有与其相关联
的关键字标签。换言之,数据库中的图像可以是被标签的、未被标签的或者两者。通过采用
图像分析算法,可以生成具有实质上与基于视觉查询相似的视觉特性的搜索结果,其中该
图像分析算法被配置为将(1)与基于视觉的查询相关联的视觉信息与(2)与数据库中每个
图像相关联的视觉信息进行比较。当前基于视觉的图像搜索不允许用户从特定图像中选择
该用户在其他图像中寻找时实际上感兴趣的特定低水平属性。因此,虽然当前基于视觉的
图像搜索可以基于整体相似度标识包括与搜索查询的某些相似属性的图像,但是可能忽视
了对用户最重要的特定属性。因此,当前基于视觉的图像搜索可能返回包括相似内容的、以
及不期望的附加属性的许多图像。更简单地,这些搜索可能忽视或错过许多包括期望属性
的图像。

如此,本发明的各实施例用于使用基于视觉的搜索中一个或多个图像中找到的一
个或多个特定属性。如本文更详细所述,用户可以采用用于基于用户选定的一个或多个图
像的视觉性质(即,特定属性)搜索图像的搜索系统。这使得用户能够将搜索关注于找到包
括用户期望的特定属性的图像。虽然针对图像搜索描述,但是可以理解本公开的实现方式
中使用的技术也可以用于音乐和视频搜索。例如,给定一个或多个歌曲(或视频),用户能够
选择已经针对每个歌曲(或视频)选择的属性(例如,节拍、语音、风格、类型、表演者等)来搜
索具有选定属性的其他歌曲(或视频)。

为了这么做,机器学习、深度神经网络和其他计算机视觉技术被用于提取图像属
性例如作为特征向量。在各实施例中,属性包括颜色、组分、字体、风格和纹理。属性还可以
包括线宽或线型。训练图像可以被用于最初实现总体上标识视觉相似度的通用系统,而对
特定属性没有任何了解。通用系统继而利用针对特定属性的新的训练数据集进行训练。通
过此方式,系统可以在不同输出层进行微调以利用从通用系统独立演化的每个层来检测不
同属性。换言之,用于在系统的特定层提取特定特征向量的转换需求基于针对每个特定属
性的训练数据集来学习。

数据库可以包括被标签数据、未被标签数据或者被标签数据和未被标签数据的组
合。图像标签可以包括用于描述与图像相关联的视觉特性的任意关键字。例如,巴士底日埃
菲尔铁塔后面烟花的图像可以具有与其相关联的图像标签,“埃菲尔”、“铁塔”、“烟花”、“巴
黎”和/或“巴士底日”等。不考虑数据库中的图像具有与其相关联的任意标签,基于视觉的
查询可以被接收用于搜索数据库中的图像。如本文所使用的,术语“数据库”不必限于存储
数据库,还可以涉及集合、目录、文件夹、存储位置、网络位置、库等。

基于视觉的搜索可以针对本地操作(例如,个人资产管理应用或本地操作系统的
一部分)、远程访问(例如,基于云的资产管理应用的一部分)或通过因特网的公共可访问
(例如,web图像搜索引擎的一部分)进行配置。应当理解,对前述任一项的访问可以被基于
用户的访问约束限制。例如,本地或远程访问配置可以被限制为具有对特定图像集的访问
(例如,被限于用户账户的本地访问或者被限于用户的云存储空间的远程访问)的用户。还
应当理解,本地、远程或基于因特网的配置的任意组合可以被采用以处理基于视觉的查询。

在训练系统从图像提取属性之后,用户可以提交包括至少一个期望属性的采样图
像。用户继而可以选择采样图像的特定属性以关注于采样图像的特定属性。在一个示例中,
用户可以搜索具有与采样图像相似纹理但对采样图像的其他方面(诸如颜色或组分)不感
兴趣的图像。搜索继而可以关注于找到具有相似纹理的图像而不是搜索具有相似颜色或组
分的图像。在某些实施例中,搜索包括不止一个图像的特定属性。通过此方式,搜索能够关
注于第一图像的一个特定属性(诸如颜色)以及第二图像的不同特定属性(诸如组分)。

本发明的某些实施例用于修改图像中找到的一个或多个特定属性。为了这么做,
用户可以提交包括若干属性的第一采样图像。用户可以提交包括至少一个与第一采样图像
的属性不同的属性的第二采样图像。在从第二图像选择一个或多个属性之后,用户可以基
于选择来修改从第一采样图像提取的至少一个属性。这使得用户能够修改图像以包括不是
图像固有的期望属性而不需要对包括所有期望属性的图像执行搜索。在某些实施例中,用
户可以基于经修改的图像来提交搜索查询。

如本文所使用的,视觉相似度指的是两个或更多个图像的纯视觉特性之间的相似
度。两个或更多个图像之间的视觉相似度可以通过采用由一个或多个处理设备执行的直接
图像比较算法来确定。图像比较算法标识两个或更多个图像的视觉特性之间的一个或多个
图形相似度。例如,通过比较图像颜色数据、图像像素数据的布置、图像大小和/或与图像相
关联的其他视觉图像数据特性,直接图像比较算法可以确定两个或更多个图像之间的视觉
相似度得分等。本质上,图像比较算法可以分析与两个或更多个单独图像相关联的图像数
据以确定图像是视觉上相似的。例如,直接图像比较算法可以确定两个单独图像具有高概
率的视觉相似度,其中各图像将埃菲尔铁塔处于首要和中心位置。然而,直接图像比较算法
也可以将两个单独图像看作不具有高概率的视觉相似度,其中一个图像将埃菲尔铁塔处于
首要和中心位置,而另一个图像将狗的图像处于首要和中心位置埃菲尔铁塔作为并处于背
景中。

视觉相似度还可以通过语义相似度分析确定。如本文所使用的,术语“语义相似
度”指的是用户可见的图像内容的各方面之间的相似度。在某些实施例中,语义相似度包括
第一图像中形状和空间关系的第一集与第二图像中形状和空间关系的第二集之间的相似
度。在一个示例中,人脸的图像具有与另一人的图像的较高语义相似度,而具有与建筑物的
图像的较低语义相似度。在另一示例中,靠近站立在一起的两个人的图像具有与一群人的
图像的较高语义相似度,而具有与单个人的图像的较低语义相似度。在附加或备选实施例
中,语义相似度包括第一图像中第一图像风格与第二图像中第二图像风格之间的相似度。
例如,表示颜色或对比信息的向量可以针对两个图像进行计算。风格相似度可以通过计算
这些向量之间的距离来确定。较大经计算的距离指示较低风格相似度,而较小经计算的距
离指示较高风格相似度。

语义相似度可以在两个或更多个图像之间通过采用神经网络或一个或多个处理
设备执行的其他特征提取算法来确定。网络或算法可以标识图像的语义内容与一类语义相
似图像之间的一个或多个关联。例如,神经网络或其他特征提取算法可以通过某些循环的
对象、颜色方案或其他语义内容来分析训练图像,并确定所述对象、颜色方案或其他语义内
容指示某类内容(例如,“狗”、“交通工具”、“树”等)。神经网络或其他特征提取算法可以在
语义内容的不同分类和不同类型之间应用所学习的关联以将随后接收的图像分类。分类器
算法的示例是使用神经网络模型标识某些语义特征与某些语义内容的分类之间关联的算
法。如此,使用上文埃菲尔铁塔示例,神经网络或分类器算法可以将两个单独图像看作具有
至少某些语义相似度(即,都具有图像内描绘的埃菲尔铁塔),其中一个图像将埃菲尔铁塔
处于首要和中心位置,而另一个图像将狗的图像处于首要和中心位置埃菲尔铁塔作为并处
于背景中。

现在返回图1,提供了根据本公开的实现方式图示示例性系统的示图。应该理解的
是,本文中所描述的这一和其它布置仅作为示例进行阐述。除了或代替示出的那些,可以使
用其它布置和元件(例如,机器、接口、功能、顺序、以及功能组等),并且一些元件可以完全
省略。进一步地,本文中所描述的元件中的许多元件是可以实现为分立或分布式部件或者
与其它部件结合、并且以任何适合组合和位置的功能实体。如由一个或多个实体执行的本
文中所描述的各种功能可以通过硬件、固件和/或软件来执行。例如,各种功能可以由执行
存储器中存储的指令的处理器来执行。

系统100可以是仅客户端系统或客户端服务器系统,其可以用于促进未被标签的
图像的基于文本的图像搜索。除了未示出的其他部件,系统100可以包括一个或多个用户设
备102、网络106、一个或多个视觉相似度引擎108和一个或多个图像数据库104。虽然图示为
包括视觉相似度引擎108和图像数据库104,但是实施例可以包括两者、一个或另一个、或者
两者都没有。应当理解,在本公开的范围内,系统100内可以采用任意数目的服务器和客户
端设备。各自可以包括单个设备或者分布式环境中协作的多个设备。在某些实施例中,系统
100可以本地驻留在单个设备上。另外,未示出的其他部件也可以包括在分布式环境内。

还应当理解,图1中所示的系统100是一个适当计算系统架构的示例。图1中所示的
每个服务器和客户端设备可以经由计算设备(诸如计算设备800)实现,例如稍后参考图8进
行描述。各部件可以经由网络106彼此通信。

网络106可以是有线、无线或两者。网络106可以包括多个网络或网络的网络,但被
以简单形式示出以便不混淆本公开的各方面。通过示例的方式,网络106可以包括一个或多
个广域网(WAN)、一个或多个局域网(LAN)、一个或多个公共网络(诸如因特网)和/或一个或
多个私有网络。在网络106包括无线电信网络的情况下,部件(诸如基站、通信塔甚至接入
点)(以及其他部件)可以提供无线连接。联网环境在办公室、企业范围的计算机网络、内联
网和因特网中很平常。因此,网络106没有更详细地描述。

在各种实现方式中,用户设备102可以是能够访问因特网(诸如万维网)的计算设
备。用户设备102可以采取各种形式,诸如个人计算机(PC)、膝上型计算机、移动电话、平板
计算机、可穿戴计算机、个人数字助理(PDA)、MP3播放器、全球定位系统(GPS)设备、视频播
放器、数字视频记录器(DVR)、电缆盒、机顶盒、手持通信设备、智能电话、智能手表、工作站、
这些所述设备的任意组合或者任意其他适当设备。

用户设备102可以包括一个或多个处理器以及一个或多个计算机可读介质。计算
机可读介质可以包括由一个或多个处理器可执行的计算机可读指令。指令可以对应于一个
或多个应用,诸如web浏览器或能够发起基于视觉搜索的其他应用。用户设备102可以被配
置为存储诸如图像的内容等。例如,图像可以被存储在一个或多个计算机可读介质上。

在各种实现方式中,图像内容可以位于用户设备102、视觉相似度引擎108、图像数
据库104或其任意组合上。此外,没有具体示出的系统100的其他部件可以包括图像内容的
各部分和/或各段。例如,系统100可以包括各种形式的高速缓存、存储设备和/或数据库,其
可以辅助用户设备102存储图像内容以及向用户设备102提供图像内容。

视觉相似度引擎108通常被配置为提供公共可访问图像搜索服务(例如,
Images,Images,
Image Search)用于托管并提供图像搜索引擎以搜索内容,诸如针对用户设备
(诸如用户设备102)的图像数据库104。作为具体示例,视觉相似度引擎108可以从用户设备
102接收基于视觉的查询。视觉相似度引擎继而可以处理基于视觉的查询以通过搜索与视
觉相似度引擎108相关联托管的一个或多个图像数据库或者通过搜索万维网来定位图像,
此外该图像具有包括至少一个特定属性的图像。视觉相似度引擎108继而可以将结果图像
集的至少一部分返回用户设备102作为图像结果集。

根据本文所述的实施例,视觉相似度引擎108可以包括选择部件110、分类器部件
112和结果部件114。应该理解的是,本文中所描述的这一和其它布置仅作为示例进行阐述。
除了或代替示出的那些,可以使用其它布置和元件(例如,机器、接口、功能、顺序、以及功能
组等),并且一些元件可以完全省略。进一步地,本文中所描述的元件中的许多元件是可以
实现为分立或分布式部件或者与其它部件结合、并且以任何适合组合和位置的功能实体。
如由一个或多个实体执行的本文中所描述的各种功能可以通过硬件、固件和/或软件来执
行。例如,各种功能可以由执行存储器中存储的指令的处理器来执行。

在某些实施例中,图示部件和/或模块的一个或多个可以被实现为单独应用。在其
他实施例中,图示部件和/或模块的一个或多个可以被直接集成至视觉相似度引擎108的操
作系统。图1中图示的部件/模块本质上及数目上是示例不应当构成限制。任何数目的部件/
模块可以被采用以实现其实施例范围内期望的功能。此外,部件/模块可以位于任意数目的
服务器、计算设备等上。仅通过示例的方式,视觉相似度引擎108可以驻留在服务器、服务器
集群或者远离一个或多个剩余部件或与其集成的计算设备上。

视觉相似度引擎108可以是任意类型的计算设备,或者并入可以访问网络(例如,
网络106)的计算设备。例如,视觉相似度引擎108可以是具有网络访问的台式计算机、膝上
型计算机、平板计算机、移动设备、服务器或任意其他设备或者其中的一部分。通常,用户可
以经由用户设备102采用视觉相似度引擎108来利用来自一个或多个图像的一个或多个属
性以标识包括该一个或多个属性的视觉相似图像和/或用第二图像的属性来修改第一图像
等。

在某些实施例中,用于可以经由用户设备102采用视觉相似度引擎108来提取图像
的属性、选择感兴趣的属性、以及基于选定的属性搜索图像集。例如,用户可以在背景中具
有日落时海滩上行走的两个人的图像。图像可以具有非常鲜亮的颜色并且可以具有颗粒状
纹理。用户可以最初利用视觉相似度引擎108来从图像提取这些属性。用户接口可以示出图
像的这些属性中的每个属性连同具有相似属性的图像的采样或预览。用户可以选择感兴趣
的属性,例如,组分(即,背景中日落时海滩上行走的两个人)和颜色(即,鲜亮的颜色)。在此
示例中,用户可能不喜欢图像的纹理(即,颗粒状)并且期望找到具有相似组分和颜色但不
同纹理的图像。在选择感兴趣的属性之后,视觉相似度引擎108经由用户设备102向用户提
供图像结果集。图像结果集包括图像数据库104中包括与选定感兴趣属性相似属性的一个
或多个结果图像。

如先前提到的,在各实施例中,视觉相似度引擎108包括选择部件110、分类器部件
112和结果部件114以利用来自一个或多个图像的一个或多个属性来促进搜索。通常,为了
利用来自一个或多个图像的一个或多个属性来进行搜索,若干预备步骤在图像集上执行。
首先,分类器部件112通常被配置为实现通用神经网络或其他特征提取算法以标识相似图
像。接下来,分类器部件利用新的训练数据集在每层微调神经网络或其他特征提取算法以
标识特定属性。每层从通用神经网络或其他特征提取算法独立演化。

在某些实施例中,图像数据库104中的每个图像在神经网络或其他特征提取算法
的每个微调层分类使得每个图像与针对每个属性的特征向量相关联。在某些实施例中,图
像根据个体属性被集群或分组以提供更有效的搜索。在某些实施例中,神经网络或其他特
征提取算法彼此独立并且离线训练(即,针对每个属性训练其自己的特征提取器)。当用户
期望利用视觉相似度引擎108执行搜索时,用户可以选择或提供一个或多个图像给视觉相
似度引擎108。分类器部件112从图像提取属性并且标识具有相似属性的一个或多个图像。
在某些实施例中,最接近的邻居分类器被用于针对每个单独属性确定最相似的图像。

在某些实施例中,视觉相似度引擎108包括具有对图像数据库104中图像参考的描
述符的数据库或者具有对其的访问。通过此方式,仅在图像被需用时(诸如,在其响应于用
户搜索并需要经由用户设备102呈现给用户时),该图像可以经由网络106从数据库104获
取。

在实现方式中,用户最初经由用户设备102向视觉相似度引擎108提交图像。该图
像可以本地存储在用户设备102上,远程存储在图像数据库104或者驻留在某些其他远程位
置。在某些实施例中,用户设备可以包括捕获了图像的相机。图像被提供给神经网络或其他
特征提取算法以标识与图像相关联的属性。在某些实施例中,搜索预览被提供给用户,该搜
索预览包括包含图像包括的每个单独属性的图像。例如,搜索预览可以包括具有相似组分、
相似纹理、相似字体、相似颜色和/或相似风格的图像。搜索预览可以包括从图像数据库的
全面搜索导出的图像,可以仅包括具有与图像最相似的属性(诸如可以由最接近的邻居分
类器算法针对每个特定属性标识)或者来自采样图像的较小子集的图像。

在某些实施例中,不止一个图像可以被提交给视觉相似度引擎108。针对每个图像
的属性由神经网络或其他特征提取算法标识。通过此方式,搜索预览可以包括具有针对每
个提交图像的相似组分、相似纹理、相似字体、相似颜色和/或相似风格的图像。

选择部件110通常被配置为接收对感兴趣的一个或多个属性的选择以包括在图像
搜索中。通过此方式,用户可以搜索用户针对特定图像感兴趣的每个低水平属性以作为基
于图像的搜索查询进行提交。在某些实施例中,用户可以从单个提交的图像选择一个或多
个属性。在某些实施例中,用户可以从多个提交的图像选择一个或多个属性。在某些实施例
中,用户可以选择搜索预览中提供的一个或多个图像以作为搜索查询进行提交。在某些实
施例中,用户可以修剪图像以将查询关注于图像的特定部分。在某些实施例中,用户可以克
隆或拷贝图像的一部分使得搜索标识具有这些部分中的两个而不是一个的图像。例如,如
果图像具有一只猫,但用户期望标识具有两只猫的图像,则用户可以克隆图像中的一只猫
并且应用搜索以查找具有两只猫的图像。类似地,在某些实施例中,用户可以拷贝并粘贴元
素(例如,将帆船粘贴值海滩的图像)至图像或者从图像移除元素(例如,从森林场景移除
人)并且利用经编辑的图像进行搜索。这种编辑可以利用使用可以嵌入系统100的工具来实
现。

在某些实施例中,选择部件110还被配置为从模型图像(即,搜索预览中提供的图
像或由用户提交的另一图像)接收对一个或多个属性的选择。例如,用户可以提交包括用户
期望使用另一图像(诸如,搜索预览中提供的图像或用户提交的另一图像)的属性替代的一
个或多个属性的图像。用户可以从搜索预览或其他图像选择属性并且图像可以根据选定的
属性进行修改。

在某些实施例中,选择部件110还可以被配置为接收基于文本的查询以补充基于
视觉的搜索查询。基于文本的查询可以包括字符的任意组合,其可以标识描绘结果图像或
与之相关联的期望特性。例如,基于文本的查询可以包括关键字(即,图像中出现的主颜色、
图像中描绘的对象或人、与图像相关联的作者/日期/位置等)。作为一个示例,如果用户提
供了搜索参数“埃菲尔铁塔和烟花”,文本查询可以精确地包括术语“埃菲尔铁塔和烟花”。
在某些实施例中,基于文本的查询可以重新格式化文本查询的术语以符合与搜索算法相关
联的操作数。例如,如果基于文本的搜索算法支持的是布尔操作数,则基于文本的查询可以
被重新格式化为“埃菲尔”或“铁塔”与“烟花”。在某些实施例中,基于文本的查询利用自然
语言。例如,查询“猫的黑白照片”可以标识“猫”作为关键字,以及“黑白”和“照片”作为图像
的属性。各种这样操作数在本领域是已知的并且在本发明的范围内被考虑。

如上文所述,分类器部件112通常被配置为对用户提交的图像的属性分类或提取。
为了这么做,分类器部件112可以实现机器学习、深度神经网络和其他计算机视觉技术。分
类器部件112还被配置为从选择部件110接收搜索查询并且执行图像搜索。分类器部件112
可以通过实现相同机器学习、深度神经网络和其他计算机视觉技术(诸如上文所述神经网
络或其他特征提取算法)以从图像集(诸如图像数据库104)提取属性来执行搜索。在某些实
施例中,图像集可以包括视觉相似度引擎108存储的图像、用户设备102本地的图像或者视
觉相似度引擎108或用户设备102经由网络106可访问的远程存储的任意图像。

结果部件114通常被配置为经由用户设备102向用户提供搜索结果。搜索结果可以
是搜索结果预览。搜索结果预览包括响应于基于视觉查询的一个或多个图像(例如,对应于
从提交图像提取的一个或多个属性中的每个属性的图像)。在某些实施例中,用户可以选择
所提交图像或来自搜索预览的图像的属性来发起全面搜索查询。通过提供搜索预览,视觉
相似度引擎108可以保存视觉相似度引擎108和用户设备102的资源(例如,存储器、处理时
间等)。一旦用户做出附加选择,就可以执行全面搜索并且结果部件114可以根据选择提供
结果的全集。

分类器部件112可以基于由选择部件110接收的每个单独选择来分类图像。结果部
件114继而可以基于所有选择的平均得分在结果集中标识图像。在某些实施例中,选择部件
110可以接收由用户选择的指示一个属性比另一个属性重要的权重。因此,结果部件114可
以基于选择的权重对结果集中的图像排名。在某些实施例中,分类器部件112可以首先基于
第一选择的属性对搜索结果排名,继而基于另一选择的属性对搜索结果重新排名。这可以
使得用户能够标识最重要的属性,其中每个附加选择的属性使得搜索结果基于附加选择的
属性重新排名(但仍维持相同图像结果集而不需要标识没有基于针对最重要属性的搜索标
识的新的图像)。虽然本文进行了特殊描述,但是所述实施例仅是示例性的并不旨在限制,
如基于视觉搜索查询的聚集和排名可以通过各种配置执行。

在某些实施例中,结果部件114被配置为向提交图像应用从图像选择的属性。如上
文所述,用户可以向视觉相似度引擎108提交图像。假设该图像具有用户期望替代的属性,
用户可以从随后可以由选择部件110接收的另一图像(诸如另一提交图像或者搜索预览或
搜索结果中的图像)选择属性。结果部件114可以向产生修改图像的图像应用所选择的属
性。在某些实施例中,用户继而可以使用该修改的图像通过向视觉相似度引擎108提交该修
改的图像来执行附加搜索。

在一个示例中,可以标识移动设备相机胶卷上照片中出现的朋友的所有实例。当
该朋友的新的照片被捕获(诸如由移动设备上的相机捕获),该新的照片可以被用作查询以
标识该朋友的所有其他照片(无论该人是否用文本标签标识)。通过此方式,脸部识别可以
被用作搜索查询的属性。

参考图2,根据本公开的实现方式图示了用于使用图像中找到的一个或多个特定
属性进行搜索的示例性图形用户接口200。如接口200中所示,源图像210已经由用户提交。
图像210的属性212、214、216和218连同针对每个属性212、214、216和218的搜索结果预览
222、224、226和228提供。如本文所述,搜索结果预览可以是基于没有针对整个图像集执行
的搜索的有限结果采样(以保存资源并最大化计算设备的效率)。在某些实施例中,搜索结
果预览是基于针对整个图像集执行的搜索的结果集(例如,图像数据库)。用户可以选择源
图像的特定属性来发起全面图像搜索或者可以从搜索结果预览选择一个或多个图像来发
起全面图像搜索。一旦用户做出期望的选择,搜索结果的全集可以由接口200提供给用户。
在某些实施例中,没有提供搜索结果预览,用户可以基于源图像210的各属性进行选择并对
应地发起搜索。如图所示,用户已经选择了属性212、216和218但没有选择属性214。通过此
方式,将发起标识具有与源图像210的相同属性相似的属性212、216和218的结果图像211的
搜索。

现在返回图3,根据本公开的实现方式图示了用于使用一个或多个图像中找到的
一个或多个特定属性进行搜索的示例性图形用户接口300。如接口300中所示,用户可以提
交两个或更多个源图像310。与图2中所示接口相似,属性312、332、314和334连同针对每个
图像310和330的每个属性312、332、314和334的搜索结果预览322、342、324和344提供。这允
许用户从每个源图像选择特定属性来发起图像搜索。在某些实施例中,用户可以从搜索结
果预览选择一个或多个图像来发起图像搜索。一旦用户做出了期望选择,搜索结果的全集
可以由接口300提供给用户。如图所示,用户已经从源图像310选择了属性312和335。用户还
从源图像330选择了属性334。然而,用户没有从源图像330选择属性332或者从源图像310选
择属性314。通过此方式,将发起标识具有与源图像310的相同属性相似的属性312和335以
及与源图像330的相同属性相似的属性334的结果图像320的搜索。

在图4中,提供了示出根据本公开的实现方式用于使用一个或多个图像中找到的
一个或多个特定属性进行搜索的方法400的流程图。方法400和本文所述其他方法的每个步
骤包括可以使用硬件、固件和/或软件的任何组合执行的计算处理。例如,各种功能可以由
执行存储在存储器中的指令的处理器来执行。方法还可以体现为存储在计算机存储介质上
的计算机可用指令。仅举几例,方法可以由独立应用、服务或托管服务(独立或与另一托管
服务组合)、或者到另一产品的插件来提供。

在步骤410,经由用户设备接收用户对一个或多个图像的选择。在各实施例中,一
个或多个图像的每个图像包括可以由神经网络或其他特征提取算法标识的一个或多个属
性。神经网络或其他特征提取算法可以将对应于基于视觉的查询的特征向量与图像集中的
特征向量进行比较以基于视觉相似度标识图像结果。在某些实施例中,属性包括组分、颜
色、风格、纹理或字体中的一个或多个。在步骤412,经由用户设备接收用户针对每个图像的
至少一个属性的选择。每个选择可以附加地包括由用户选择的可以指示每个属性对用户重
要程度的权重。在某些实施例中,针对一个或多个图像可以选择指示用户不期望结果图像
包括的属性的负面属性。例如,用户可能期望找到不包括所接收图像中标识的特定颜色、组
分、或风格的图像。用户可以选择这些不期望项(例如,负面属性)中的每一个,并且查询将
从结果中排除包括负面属性的项。每个选择包括基于视觉查询的至少一部分以在图像集上
执行。

在步骤414,经由用户设备向用户提供图像结果集。图像结果集包括图像集中响应
于基于视觉的查询的一个或多个结果图像。在各实施例中,经由用户设备接收用户对结果
图像的选择。另外,可以经由用户设备接收用户对至少一个细化属性的选择。细化属性是选
定结果图像的属性。通过此方式,用户可以根据细化属性来对搜索查询进行细化,并且图像
结果集可以经由用户设备针对用户进行更新。更新的图像结果集包括图像集中响应于细化
的基于视觉的查询的一个或多个结果图像。

现在转向图5,提供了示出根据本公开的实现方式用于使用一个或多个图像中找
到的一个或多个特定属性进行搜索的方法500的流程图。最初,在步骤510,神经网络或其他
特征提取算法被实现用于标识相似图像。在步骤512,神经网络或其他特征提取算法针对特
定属性进行训练。在某些实施例中,属性包括组分、颜色、类型、纹理或字体中的一个或多
个。在某些实施例中,神经网络或其他特征提取算法的不同层对应于不同的特定属性。通过
此方式,相同神经网络或其他特征提取算法可以被用于提取每类属性。

在步骤514,图像在神经网络或其他特征提取算法被接收。在步骤516,神经网络或
其他特征提取算法从图像提取一个或多个属性。在步骤518,提供包括一个或多个图像集的
搜索结果。搜索结果对应于包括用户进行的选择的搜索查询。在某些实施例中,选择包括图
像的一个或多个属性中的至少一个。在某些实施例中,选择包括图像和基于文本的查询的
一个或多个属性中的至少一个。在某些实施例中,选择包括图像和用户提供的草图的一个
或多个属性中的至少一个。通过此方式,用户可以通过直接在图像上画草图来修改图像的
属性。在某些实施例中,可以向用户提供允许用户修改图像的属性的附加工具。在某些实施
例中,选择包括已经被存储在图像数据库中的其他图像属性(例如,大小、定向、颜色、向量、
日期、位置、说明等)。可以用于分类图像的任意数目的图像属性可以被存储在图像数据库
并用于搜索查询。

在某些实施例中,第二图像在神经网络或其他特征提取算法被接收。神经网络或
其他特征提取算法可以从第二图像提取一个或多个属性。在某些实施例中,选择包括来自
每个图像(第一图像和第二图像)的一个或多个属性的至少一个属性。应当理解,任意数目
的图像可以被提交并且任意数目的属性可以从每个所提交的图像中选择。在某些实施例
中,接收由神经网络或其他特征提取算法提取的至少一个属性和搜索结果的选择。细化搜
索结果可以基于选择被提供给用户。

参考图6,提供了示出根据本公开的实现方式用于修改图像中可以用于搜索的至
少一个属性的方法600的流程图。最初,在步骤610,经由用户设备接收用户对图像的选择。
该图像包括可以利用神经网络或其他特征提取算法提取的一个或多个属性。在某些实施例
中,属性包括组分、颜色、风格、纹理或字体中的一个或多个。在步骤612,接收针对一个或多
个模型图像的至少一个属性的选择。在一个实施例中,接收用户针对每个属性的权重的选
择。在某些实施例中,接收用户对至少一个负面属性的选择。负面属性是用户不期望修改图
像包括的属性。模型图像可以在如本文所述的搜索结果预览中提供、如本文所述的搜索结
果集中提供或者可以由用户提交。在步骤614,根据选择修改图像的至少一个属性。

在某些实施例中,提供了包括一个或多个图像的集合的搜索预览。该一个或多个
图像的集合由神经网络或其他特征提取算法确定为视觉上与所述图像相似,并且包括被修
改的至少一个属性。可以接收一个或多个图像的集合中图像的选择,并且可以基于该选择
发起搜索查询。

在图7中,提供了示出根据本公开的实现方式用于修改图像中可以用于搜索的至
少一个属性的方法700的流程图。最初,在步骤710,神经网络或其他特征提取算法针对特定
属性进行训练。在某些实施例中,属性包括组分、颜色、类型、纹理或字体中的一个或多个。
在步骤712,图像被接收并且由神经网络或其他特征提取算法来处理。在步骤714,一个或多
个属性由神经网络或其他特征提取算法从图像中提取。

在某些实施例中,其他图像在神经网络或其他特征提取算法被接收。来自所述其
他图像的一个或多个属性可以由神经网络或其他特征提取算法提取。从其他图像提取的一
个或多个属性可以用于修改图像的至少一个属性。在某些实施例中,图像的属性可以根据
其他图像基于文本的属性进行修改。在某些实施例中,图像的属性可以根据用户提供的草
图进行修改。

在步骤716,提供包括一个或多个图像的集合的搜索预览。该一个或多个图像的集
合由神经网络或其他特征提取算法确定为视觉上与所述图像相似,并且包括被修改的至少
一个属性。在某些实施例中,可以接收一个或多个图像的集合中图像的选择。搜索查询可以
基于该选择发起。细化搜索结果可以基于该选择被提供。

已经对本公开的实现方式进行了描述,下文描述其中可以实现本发明的实施例的
示例性操作环境,以便为本公开的各方面提供一般上下文。首先参照图8,特别地,用于实现
本发明的实施例的示例性操作环境被示出并通常被指定为计算设备800。计算设备800只是
合适的计算环境的一个示例,并不旨在暗示对本发明的用途或功能的范围的任何限制。也
不应该将计算设备800解释为具有与所图示的部件的任何一个或组合相关的任何依赖性或
要求。

本发明可以在由计算机或其它机器(诸如个人数据助理或其它手持式设备)执行
的包括计算机可执行指令(诸如程序模块)在内的计算机代码或机器可使用指令的一般上
下文中进行描述。通常,包括例程、程序、对象、部件、数据结构等在内的程序模块是指执行
特定任务或实现特定抽象数据类型的代码。本发明可以在包括手持式设备、消费电子产品、
通用计算机、更专用计算设备等在内的多种系统配置中实施。本发明还可以在分布式计算
环境中实施,其中,任务由通过通信网络链接的远程处理设备执行。

参照图8,计算设备800包括直接或间接耦合以下设备的总线810:存储器812、一个
或多个处理器814、一个或多个呈现部件816、输入/输出(I/O)端口818、输入/输出部件820
和说明性电源822。总线810表示可以是一条或多条总线(诸如地址总线、数据总线或其组
合)的东西。尽管为了清楚起见,图8的各种框用线条示出,但是在现实中,各部件的轮廓并
不是那样清楚,并且比喻性地来说,线条更精确地是灰色的和模糊的。例如,我们可以将呈
现部件(诸如显示设备)视为I/O部件。还有,处理器具有存储器。本发明人认识到这是本领
域的性质,并且重申图8的示图仅仅例示可以与本发明的一个或多个实施例结合使用的示
例性计算设备。当所有涵盖在图8的范围内时并且参照“计算设备”,没有在诸如“工作站”、
“服务器”、“膝上型计算机”、“手持式设备”、“智能电话”等之类的类别之间做出区分。

计算设备800典型地包括多种计算机可读介质。计算机可读存储介质可以是能够
由计算设备800访问的任何可用介质并且包括易失性和非易失性介质、可移除和不可移除
介质。作为示例而非限制,计算机可读存储介质可以包括计算机存储介质和通信介质。计算
机存储介质包括在用于存储诸如计算机可读指令、数据结构、程序模块或其它数据之类的
信息的任何方法或技术中实现的易失性和非易失性介质、可移除和不可移除介质。计算机
存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘
(DVD)或其它光学存储装置、盒式磁带、磁带、磁盘存储装置或其它磁性存储设备、或可以用
来存储所期望的信息并且可以由计算设备800访问的任何其它介质。计算机存储介质不包
括信号本身。通信介质典型地体现计算机可读指令、数据结构、程序模块或诸如载波或其它
传送机制之类的已调制的数据信号中的其它数据,并且包括任何信息递送介质。术语“已调
制的数据信号”意味着具有以对信号中的信息进行编码这样的方式设定或更改的其特点中
的一个或多个的信号。作为示例而非限制,通信介质包括有线介质(诸如有线网络或直接接
线连接)和无线介质(诸如声学、RF、红外和其它无线介质)。上述的任何组合还应当包括在
计算机可读介质的范围内。

存储器812包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以
是可移除的、不可移除的、或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱
动器等。计算设备800包括从各种实体(诸如存储器812或I/O部件820)中读取数据的一个或
多个处理器。(多个)呈现部件816向用户或其它设备呈现数据指示。示例性呈现部件包括显
示设备、扬声器、打印部件、振动部件等。

I/O端口818允许计算设备800逻辑耦合到包括I/O部件820在内的其它设备,其中
的一些可以是内置的。说明性部件包括麦克风、操纵杆、游戏垫、卫星天线、扫描仪、打印机、
无线设备等。I/O部件820可以提供处理由用户生成的空中手势(air gesture)、话音、或其
它生理输入的自然用户界面(NUI)。在一些情形下,输入可以被传送到合适的网络元素用于
进一步处理。NUI可以实现以下各项中的任意组合:语音识别、触摸和手写笔识别、面部识
别、生物特征识别、屏幕上和邻近屏幕处的手势标识、空中手势、头部和眼部跟踪、以及与计
算设备800上的显示相关联的触摸标识。计算设备800可以配备有深度照相机(诸如立体照
相机系统、红外照相机系统、RGB照相机系统、以及这些的组合)用于手势检测与识别。附加
地,计算设备800可以配备有使得能够检测运动的加速计或陀螺仪。加速度计或陀螺仪的输
出可以被提供给计算设备800的显示器来渲染浸入式增强现实或虚拟现实。

如上文所描述的,本公开的实现方式促进使用一个或多个图像中找到的一个或多
个特定属性进行搜索。本发明已经关于特定实施例进行了描述,其在所有方面旨在是说明
性的而非限制性的。对于本领域普通技术人员而言,在没有背离本发明的范围的情况下,本
发明所涉及的备选实施例将是显而易见的。

从前述内容看出,本发明很好地适用于实现上文所陈述的所有目的和目标,以及
本系统和方法的明显的和固有的其它优点。应当理解的是,某些特征和子组合具有效用并
且可以在不参照其它特征和子组合的情况下采用。这些都是能够预见的并且包括在权利要
求的范围内。

用从另一图像提取的至少一个属性修改图像的至少一个属性.pdf_第1页
第1页 / 共23页
用从另一图像提取的至少一个属性修改图像的至少一个属性.pdf_第2页
第2页 / 共23页
用从另一图像提取的至少一个属性修改图像的至少一个属性.pdf_第3页
第3页 / 共23页
点击查看更多>>
资源描述

《用从另一图像提取的至少一个属性修改图像的至少一个属性.pdf》由会员分享,可在线阅读,更多相关《用从另一图像提取的至少一个属性修改图像的至少一个属性.pdf(23页珍藏版)》请在专利查询网上搜索。

本发明的各实施例总体上涉及用从另一图像提取的至少一个属性修改图像的至少一个属性。具体地,在各实施例中,图像中找到的一个或多个特定属性可以利用另一图像中找到的一个或多个特定属性进行修改。机器学习、深度神经网络和其他计算机视觉技术可以被用于提取图像的属性,诸如来自一个或多个图像的颜色、组分、字体、风格和纹理。用户可以基于另一图像的属性来修改第一图像中这些属性中的至少一个属性,并且使用修改后的图像发起基。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1