从多个图像生成组合图像.pdf

上传人:a**** 文档编号:5871927 上传时间:2019-03-27 格式:PDF 页数:22 大小:616.47KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110118042.1

申请日:

2011.04.29

公开号:

CN102236890A

公开日:

2011.11.09

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||专利申请权的转移IPC(主分类):G06T 5/50变更事项:申请人变更前权利人:微软公司变更后权利人:微软技术许可有限责任公司变更事项:地址变更前权利人:美国华盛顿州变更后权利人:美国华盛顿州登记生效日:20150730|||实质审查的生效IPC(主分类):G06T 5/50申请日:20110429|||公开

IPC分类号:

G06T5/50

主分类号:

G06T5/50

申请人:

微软公司

发明人:

E·J·理查兹; R·A·比肖夫; T·R·奥康纳; T·S·M·卡斯佩基维茨

地址:

美国华盛顿州

优先权:

2010.05.03 US 12/772,772

专利代理机构:

上海专利商标事务所有限公司 31100

代理人:

潘明婳

PDF下载: PDF下载
内容摘要

公开了从多个图像生成组合图像的系统和方法。对于多个图像中的多个区域中的每一个区域,就该区域被感觉起来如何作出判断。标识基础图像,如果多个图像中的另一图像的对应的区域被判断为比基础图像的每一个区域更佳,则自动地将基础图像的区域替换为对应的区域,由此,从多个图像生成组合图像。生成组合图像可包括自动地从多个图像中的一个中选择一个区域,在该区域不存在在其他图像的一个或多个对应的区域中存在的对象。另外,对于基础图像的一个特定区域,可以显示其他图像的对应的区域,将该特定区域替换为其他图像的对应的区域中的用户选定的那一个区域。

权利要求书

1.一种方法,包括:
访问(602)多个图像,每一个图像都包括多个对象;
对于所述多个图像中的多个区域中的每一个区域,就所述区域被所述设
备感觉起来如何作出判断(606);以及
基于对所述多个图像中的所述多个区域的对应区域被感觉起来如何作出
的判断,从所述多个图像生成(610)组合图像,所述生成包括自动地从所述
多个图像中的一个中选择区域以包括在所述组合图像中,在所述区域不存在在
所述多个图像中的其他图像的一个或多个对应区域中存在的对象。
2.如权利要求1所述的方法,其特征在于,对于所述多个区域中的每一个区
域,就所述区域被感觉起来如何作出判断包括,对于所述多个区域中的每一个
区域,基于所述区域的一个或多个特征,确定与所述区域相关联的分数或排序。
3.如权利要求1所述的方法,还包括:
对于所述组合图像的第一区域,显示所述多个图像中的一个或多个其他
图像的对应区域;
接收用户对于所述一个或多个其他图像的所述对应区域中的一个的选
择;以及
将所述组合图像的所述第一区域替换为所述一个或多个其他图像的所述
对应区域中的所述用户选定的那一个。
4.如权利要求3所述的方法,其特征在于,显示所述对应区域包括在所述第
一区域附近的窗口中显示所述对应的区域。
5.如权利要求1所述的方法,其特征在于,所述多个对象中的每一个都包括
面部。
6.如权利要求1所述的方法,其特征在于,还包括如果存在于其他图像的所
述一个或多个对应区域中的所述对象,基于对象数据库中的信息,没有被标识
为已知对象,则自动地选择其中不存在所述对象的区域。
7.如权利要求1所述的方法,其特征在于,作出所述区域感觉起来如何的判
断包括判断由用户所标识的对象是否包括在所述区域中,以及基于由所述用户
所标识的对象是否包括在所述区域中来对于所述区域进行所述判断。
8.如权利要求1所述的方法,其特征在于,所述多个对象包括多个面部,并
且,其中作出所述区域感觉起来如何的判断包括判断眼睛在所述区域中的面部
中是否被检测为睁开的,以及基于眼睛是否被检测为睁开的和/或是否在所述区
域中的面部中包括反光,来对于所述区域进行所述判断。
9.如权利要求1所述的方法,其特征在于,所述多个对象包括多个面部,并
且,其中作出所述区域感觉起来如何的判断包括判断在所述区域的面部中是否
检测到微笑存在,以及基于在区域的所述的面部中是否检测到微笑存在,对于
所述区域进行所述判断。
10.如权利要求1所述的方法,其特征在于,生成所述组合图像包括:
将所述多个图像中的第一图像标识为基础图像;以及
如果所述多个图像中的第二图像的对应区域被感觉为比所述第一图像的
每一个区域好,则自动地将所述基础图像的所述区域替换为所述第二图像的所
述对应的区域,来从所述多个图像生成组合图像。
11.如权利要求10所述的方法,其特征在于,如果所述第二图像的所述对应
的区域没有所述对象,则所述第二图像的所述对应区域被感觉起来比所述第一
图像的所述区域好。
12.如权利要求10所述的方法,其特征在于,将所述第一图像标识为所述基
础图像包括:
对于所述多个图像中的每一个图像,判断所述图像中有多少区域被判断
为所述最佳;以及
选择所述多个图像中具有最大数量的被判断为最佳的区域的图像作为所
述基础图像。
13.如权利要求1所述的方法,其特征在于,所述设备包括捕捉所述多个图像
的数码相机,所述方法还包括持续捕捉图像以包括在所述多个图像中,直到,
对于图像中的所述多个区域中的每一个区域,所述区域或所述多个图像中的另
一图像的对应区域具有超出阈值的分数。
14.一种计算设备,包括:
处理器(802);以及
在其上存储了多个指令的一个或多个计算机可读介质(804),当由所述
处理器执行时,所述指令使所述处理器:
访问(602)多个图像,每一个图像都包括多个对象;
对于所述多个图像中的多个区域中的每一个区域,就所述区域被
所述计算设备感觉起来如何作出判断(606);
标识(608)所述多个图像的基础图像;
如果所述多个图像中的另一图像的对应区域被判断为比所述基础
图像的每一个区域好,则自动地将所述基础图像的所述区域替换为所述
对应区域,来从所述多个图像生成(610)组合图像;
显示(702)所述多个图像中的其他图像中的每一个图像的各区域,
每一个所述区域都对应于所述基础图像的特定区域;
接收(704)用户对于所述多个图像中的所述其他图像的所述对应
区域中的一个的选择;以及
将所述基础图像的所述特定区域替换(706)为所述其他图像的所
述对应区域中的所述用户选定的那一个。
15.如权利要求14所述的计算设备,其特征在于,显示其他图像中的每一个
图像的所述区域是在所述特定区域附近的窗口中显示所述其他图像中的每一
个图像的所述区域。

说明书

从多个图像生成组合图像

技术领域

本发明涉及图像处理,尤其涉及从多个图像中生成组合图像。

背景技术

用户频繁地对对象组拍摄照片,如人员组(例如,家庭成员或朋友),动
物组(例如,宠物)等等。令人遗憾的是,在拍摄照片时,时常难以按照可以
接受的位置或姿势拍摄到所有对象。例如,对于一组人,当拍摄照片时,一个
或多个人可能会眨眼,皱眉头,目光不看着照像机等等。也难以使所有对象出
现在照片上而不使其他外来的对象出现在照片上,如避免额外的人走过。这些
困难会导致用户不能获得他们需要的照片的情况,并会导致用户在试图照相时
产生挫败感。

发明内容

提供本发明内容是为了以精简的形式介绍将在以下具体实施方式中进一
步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必
要特征,也不旨在用于限定所要求保护的主题的范围。

根据一个或多个方面,访问各自都包括多个对象的多个图像。对于多个图
像中的多个区域中的每一个区域,就该区域被感觉起来如何作出判断。基于对
多个图像中的多个区域的对应的区域被感觉起来如何作出的判断,从多个图像
生成组合图像。组合图像的生成包括自动地从多个图像中的一个中选择一个区
域(在该区域不存在在多个图像中的其他图像的一个或多个对应的区域中存在
的对象),以使其包括在组合图像中。

根据一个或多个方面,访问各自都包括多个对象的多个图像。对于多个图
像中的多个区域中的每一个区域,就该区域被感觉起来如何作出判断。标识多
个图像的基础图像,该基础图像可以是具有最多被判断为感觉为“最佳”区域
的区域的图像。如果多个图像中的另一图像的对应的区域被判断为比基础图像
的该区域更佳,则自动地将基础图像的每一个区用该另一图像的对应的区域替
换,由此,从多个图像生成组合图像。另外,显示多个图像中的每一个其他图
像的区域,每一个区域都对应于基础图像的特定区域。接收用户对于多个图像
中的其他图像的对应的区域中的一个的选择,将基础图像的特定区域替换为其
他图像的对应的区域中的用户选定的那一个。

附图说明

在各附图中,使用相同的标号来指示相同的特征。

图1示出了根据一个或多个实施例的实现从多个图像生成组合图像的示例
系统。

图2示出了根据一个或多个实施例的同一个场景的多个图像的示例。

图3示出了根据一个或多个实施例的自动地将一个图像中的区域替换为来
自其他图像的对应的区域以生成组合图像的示例。

图4示出了根据一个或多个实施例的组合图像的示例。

图5示出了根据一个或多个实施例的用户界面的示例,通过该用户界面,
用户可以提供关于要选择多个对应的区域中的哪一个的输入。

图6是示出了根据一个或多个实施例的用于从多个图像生成组合图像的示
例过程的流程图。

图7是示出了根据一个或多个实施例的用于基于用户输入选择要包括在组
合图像中的区域的示例过程的流程图。

图8示出了根据一个或多个实施例的可以被配置成从多个图像生成组合图
像的示例计算设备。

具体实施方式

此处讨论了从多个图像生成组合图像。捕捉同一个场景的多个图像,虽然
图像是同一个场景的,但是,在多个图像之间可能会有差异。标识那些图像内
的不同的区域,对于不同的区域中的每一个区域,就该区域感觉起来如何作出
判断(例如,如果该区域表示脸,则判断人们是否正在微笑,人们是否张开他
们的眼睛等等)。可以由评价模块基于区域的各种特征,进行关于区域感觉起
来如何的判断。通常通过选择具有将不会被替换为来自多个区域中的其它区域
的最多区域的图像,来选择多个图像中的基础图像。当多个区域中的另一图像
的一个区域被判断为感觉起来比基础图像的对应的区域更佳时,则可以将基础
图像中的该区域自动地替换为来自多个区域中的另一图像的对应的区域。

用户界面也可向用户显示基础图像中的特定区域,向用户显示多个图像中
的其他图像的对应的区域,并允许用户选择将替换基础图像中的区域那些对应
的区域中的一个。另外,还可以标识一个对象存在于基础图像中的一个区域中,
但不存在于多个图像中的一个或多个其他图像中的对应的区域中的情况(如当
一个人走过场景背景时)。在这样的情况下,可以可任选地自动地将没有该对
象存在的区域选为替换基础图像中的对应区域的区域。

图1示出了根据一个或多个实施例的实现从多个图像生成组合图像的示例
系统100。系统100可被实现为各种不同类型的设备中的一个或多个的一部分,
如台式计算机、移动站、自助服务终端、娱乐设备、可通信地耦合到显示设备
的机顶盒、电视机、蜂窝式或其他无线电话、照像机、便携式摄像机、音频/
视频回放设备、游戏控制台、车载计算机等等。可另选地,系统100可以跨相
同或不同类型的多个设备地实现。这样的多个设备可以以各种不同的方式彼此
耦合,如经由有线或无线连接(例如,通用串行总线(USB)连接、无线USB
连接、根据IEEE 1394标准的连接等等),或经由网络(例如,因特网、局域
网(LAN)、蜂窝式或其他电话网络等等),等等。

系统100包括图像生成模块102、对象数据库104,以及用户界面模块106。
模块102、数据库104,以及模块106可被实现为相同,或者可另选地不同的
设备的一部分。图像生成模块102接收多个图像110,并通过从多个图像110
中的不同的图像选择不同的区域,来生成组合图像112。对象数据库104是被
系统100识别或以其他方式为系统100所知的对象的记录。对象数据库104可
以是,例如,为系统100所知的不同的面部以及相关联的名称的记录。对象数
据库104可包括多个图像,其中对象在这些多个图像中的每一个图像以及数据
库104中标识。例如,对象数据库104可以是数字相册(例如,由在线服务维
护),其中包括多个不同的图像,图像中标识了人(在这些图像中的不同的图
像中标识了相同人和/或不同的人)。这种对象记录可以使用各种不同的数据结
构或存储技术来维护。用户界面(UI)模块106管理信息向系统100的用户的
呈现以及从系统100的用户对请求的接收。

图像110可以由图像生成模块102以各种不同的方式来获取。图像110可
以由包括模块102的设备捕捉,可以被提供到模块102,可以存储在向模块102
标识的、模块102从中检索图像110的位置等等。例如,图像生成模块102可
被实现为因特网服务的一部分,用户上传或以其他方式传输图像110。作为另
一示例,图像生成模块102可被实现为捕捉图像110的数码相机的一部分。作
为再一个示例,图像生成模块102可被实现为商店内的自助服务终端,该自助
服务终端从与其耦合的存储器设备检索图像。

图像生成模块102包括对象检测模块122、评价模块124、图像组合模块
126,以及图像注册模块128。这里一般性地讨论了模块122、124、126,以及
128的操作,下面将更详细地讨论。一般而言,对象检测模块122检测图像110
内的区域。评价模块124对于这些区域中的每一个区域,就该区域被感觉起来
如何作出判断。这些判断可以以各种不同的方式进行,如下面比较详细地讨论
的。基于这些判断,图像组合模块126选择多个图像110中的一个图像作为基
础图像,然后,自动地选择多个图像110中的其他图像的不同的区域来替换基
础图像的对应的区域,以便生成组合图像112。对于给定区域,通常,被判断
为感觉起来“最佳”区域的对应的区域是将包括在组合图像112中的区域。图
像注册模块128可任选地被包括在图像生成模块102中,当被包括时,确定图
像如何彼此映射。这种映射表示图像的哪些部分是彼此对应的区域。

区域,通常,但不总是包括对象。图像组合模块126可以自动地选择不包
括对象的另一图像的对应的区域,尽管基础图像可能包括对象。如此,可以从
场景中删除基础图像中的对象,并使其不被包括在组合图像112中。另外,用
户界面模块106可以允许用户覆盖图像组合模块126作出的自动选择,如下面
比较详细地讨论的。

对象检测模块122可以被配置成检测图像110的区域内的各种不同类型的
对象。这些类型的对象可以是,例如,人(或人的面部)和/或动物(例如,宠
物)。可另选地,可以检测其他对象,如建筑物、风景或其他地理特征、小汽
车或其他车辆,物品或人的器官(例如,在X射线图像上)等等。对象检测模
块122通常被配置成检测一种类型的对象,虽然可另选地可以被配置成检测任
意数量的不同类型的对象。

由图像生成模块102接收到的多个图像110通常是相同场景的,如一组人
在婚礼或家庭团聚中的多个图像。在一个或多个实施例中,对象检测模块122
可以检测多个图像110中的一个或多个是否不是来自相同的场景。自动地删除
被检测不是来自相同场景的图像,图像生成模块102不考虑将它们包括在多个
图像110中。可以以各种不同的方式判断图像是否来自相同场景。例如,可以
将具有至少阈值数量的相同对象的两个图像判断为来自相同场景。此阈值数字
可以是固定数量(例如,5个或更多相同的对象)或相对数(例如,图像中的
60%或更多的对象位于两个图像中)。作为另一示例,系统100的用户可以提
供表示哪些图像是来自相同场景的输入。如此,尽管两个图像可能来自相同场
景,两个图像不必相同(通常不同)。

在一个或多个实施例中,图像注册模块128判断哪些图像来自相同场景。
图像注册模块128使用注册技术来判断图像彼此在空间上映射得怎么样。如果
两个图像彼此映射得足够好(例如,至少阈值数量的匹配特征被包括在每一个
图像中),那么,判断两个图像来自相同场景。可以使用各种不同的传统技术,
如使用尺度不变特征变换(SIFT)算法,来标识匹配特征。

尽管图像110来自相同场景,但是,场景内的对象可以不同。例如,一个
不认识人的可能从一组人背后走过,如此,出现在不同图像110中的不同位置。
作为另一示例,该组人中的一个人可能移动,如此,可能在不同图像110中位
于不同位置。作为再一个示例,人们可能移动他们的脑袋、谈话、眨眼等等,
如此,可能在不同图像110中位于不同位置或处于不同姿势。

对象检测模块122还对齐多个图像110。对齐多个图像110是指标识图像
110中的彼此相对应的不同区域(例如,包括相同对象)。作为此对齐过程的
一部分,对于多个图像110中的每一个图像,对象检测模块122标识该图像内
的对象,标识该图像中包括该对象的区域,还对于一个图像中的被标识的一个
区域来标识不同图像110中的对应的区域。不同图像110中的这些对应的区域
通常位于场景的大致相同的位置。因此,当对象检测模块122标识一个图像中
的一个区域时,模块122还标识其他图像中的该场景的相同位置处的对应的区
域。这些对应的区域可以,但是未必包括相同对象。例如,如下面比较详细地
讨论的,一个区域可包括在另一图像的对应的区域中不存在的对象(例如,从
一组人背后走过的一个人)。

可以以不同的方式确定不同图像110中的对应的区域。例如,图像注册模
块128可以使用注册技术来判断图像彼此在空间上映射得怎么样。标识图像
110中的匹配特征,并标识图像110中的那些特征的位置。标识那些匹配特征
内的特定对象(例如,面部),并标识那些特定对象周围的区域。

在一个或多个实施例中,图像110中的区域的标识至少部分地基于对象识
别。对象数据库104是被系统100识别或以其他方式为系统100所知的对象的
记录。可以以各种不同的方式生成对象数据库104,如基于来自系统100的用
户的标识特定对象的输入(例如,标记他们的数字相册中的对象),从其他组
件或设备中获取的标识特定对象的信息,等等。对象检测模块122使用对象数
据库104中的信息来自动地检测图像110中的已知对象(为系统100所知的对
象)。然后,可以使用这些已知对象在图像110中的特定位置的存在来标识检
测到的对象周围的区域。

在替换实施例中,对象检测模块122可以无需对象数据库104即可操作。
在这样的实施例中,对象检测模块122检测图像110内的特定对象,还检测一
个图像110中的一个对象与图像110中的另一图像中的一个对象相同的情况。
虽然在这样的实施例中对象检测模块122可能不标识已知对象,但是,对象检
测模块122仍可以检测多个图像中的对象相同的情况。

可以以各种不同的常规方式执行对图像中的对象的检测。可以理解,检测
图像中的对象的方式可以基于正在检测的特定对象而变化。例如,对于检测检
测动物面部或其他对象的技术,可以使用不同的技术来检测人的面部。

可以以各种不同的常规方式执行多个图像的对齐和对象周围的区域的标
识(包括标识缝,沿着该缝可以从一个图像中“剪切”区域供删除或复制,并
将一个区域接合或粘贴到另一图像中)。在一个或多个实施例中,使用在A.
Agarwala等人所著的“Interactive Digital Photomontage(交互式数码蒙太奇照
片)”,ACM SIGGRAPH 2004中更详细地讨论的用于将图像的区域拼接在一
起的蒙太奇照片技术来执行多个图像的对齐和对象周围的区域的标识。在一个
或多个实施例中,使用自动选择和混合技术来执行将一个图像中的一个区域拼
接到另一图像。在C.Rother等人所著的“GrabCut:Interactive Foreground 
Extraction Using Iterated Graph Cuts(抓取剪切:使用迭代图形剪切的交互式前
景提取)”(ACM SIGGRAPH 2004)更详细地讨论了自动选择技术的示例,
而在A.Criminisi等人所著的“Region Filling and Object Removal by 
Exemplar-Based Inpainting(基于样本的内绘制进行的区域填充和对象移除)”
(IEEE图像处理学报,第13卷,第9期,第1200-1212页,2004年1月)中更
详细地讨论了混合技术的示例。

图2示出了根据一个或多个实施例的同一个场景的多个图像的示例。图2
示出了同一个场景的三个图像202、204以及206,它们是,例如图1的多个图
像110。虽然在图2的示例中只示出了三个图像,但是,可以理解,任意数量
的图像可以适用于此处所讨论的技术。

图像202、204,以及206中的每一个都包括被示为椭圆形的多个区域,虽
然可以理解区域可以是任何形状的。这些区域中的每一个区域被示为大小相
同,虽然可以理解区域的大小可以不同。这些区域中的每一个区域可包括对象,
如上文所讨论的。每一个图像202、204,以及206被示为包括五个区域,虽然
可以理解一个图像中可以包括任意数量的区域。

图像202包括区域210、212、214、216,以及218。图像204包括区域220、
222、224、226,以及228。图像206包括区域230、232、234、236,以及238。
不同图像中的位于大致相同位置的不同区域是对应的区域。例如,区域210、
220,以及230是对应的区域。作为另一示例,区域214和224是对应的区域。

返回到图1,评价模块124分析图像110,就图像110的每一个区域被评
价模块124感觉起来如何作出判断。基于这些判断,多个对应的区域中的一个
可以被轻松地判断为多个对应的区域中的“最佳”区域。评价模块124可以使
用各种不同的规则或准则就图像的区域感觉起来如何作出判断,并可以生成反
映此判断的值。由评价模块124所生成的值可以是,例如,表示模块124感觉
一个区域与其他区域相比如何的该区域的分数,表示模块124感觉一个区域与
其他区域相比如何的该区域的排序等等。在多个对应的区域中,可以选择具有
“最佳”(例如,最高)值的区域作为多个对应的区域中的“最佳”区域。

在其中评价模块124生成表示一个区域感觉起来如何的该区域的分数的各
实施例中,通常,带有较高分数(例如,较大的数值)的区域感觉起来比带有
较低的分数(例如,较小的数值)的区域好。可以以各种不同的方式确定分数。
在一个或多个实施例中,通过评估区域的各种特征中的一个或多个来确定分
数。评价模块124被配置有与影响区域的分数的各种特征相关联的权重,或以
其他方式具有对这些权重的访问权,一些特征与其他特征相比与较高的权重相
关联。一个区域中的不同的特征可以增加该区域的分数或降低该区域的分数
(例如,取决于特定特征的权重)。在其他实施例中,基于学习过程来确定分
数,在该学习过程中,组件或模块(如评价模块124)自动地学习要给区域的
哪些属性给予更高的分数。例如,可以使用神经网络、决策树或其他学习机,
以基于对于区域的、被用户标识为好或坏的用户反馈,来了解区域中被用户标
识为好的特征,以及区域中被用户标识为坏的特征。然后,可以使用此神经网
络、决策树或其他学习机来为图像中的不同的区域分配分数。

可另选地,可以通过比较(如通过使用神经网络、决策树,或其他学习机)
多个对应的区域,判断一个区域被评价模块124感觉起来如何。此比较可以基
于评估一个区域的各种不同的特征中的一个或多个。基于此比较,选择多个对
应的区域中的一个作为被感觉为多个对应的区域中的“最佳”区域。可以可任
选地使用神经网络、决策树,或其他学习机,自动地确定多个对应的区域中被
感觉为多个对应的区域中的“最佳”区域的一个。可以向这些区域分配排序(例
如,按从被感觉为“最佳”的区域到被感觉为“最差”的区域的顺序,对区域
进行排序)。可另选地,可以向这些区域分配分数(例如,“最佳”或“非最
佳”值),或可以标记或以其他方式将多个区域中的一个标识为被感觉为多个
区域中的“最佳”区域。

在其中通过评估区域的一个或多个特征来作出对区域感觉起来如何的判
定的各实施例中,这些特征可包括该区域内的对象的特征和/或该区域的其他特
征。下面是评价模块124在判断一个区域感觉起来如何时可以使用的多个不同
的特征的列表。这些特征是:对象被用通常所使用的标记进行了标记,对象被
添加了标记,用户画了或确认了对象矩形或区域,对象识别具有高置信度建议,
对象检测器发现了存在的对象,眼睛数据被感觉为好的,微笑数据感觉为好的,
图像曝光不足,图像曝光过度,对象模糊。可以理解,这些特征只是示例,可
以可另选地使用其他特征。

对象用通常所使用的标记进行了标记。该区域包括被标识为已知对象的对
象(基于对象数据库104),该对象是常用标记对象。标记的对象是其身份已
由系统100的用户标识了的对象。对象的身份可以作为包括该区域的图像的一
部分来维护(例如,在与图像相关联的元数据中)或者可另选地单独地维护(例
如,在单独的记录或数据库中)。常用标记对象是其身份频繁地在相同或不同
图像中由系统100的用户标识了的对象。可以基于固定值(例如,对象在五个
不同的图像中由用户标识五次,或者,对象是前五个最频繁地标识的对象中的
一个)或者基于相对值(例如,对象比对象数据库104中的90%的其他对象更
经常地由用户标识),确定此频率。例如,如果对象数据库104包括人们的多
个图像,那么,系统100的用户可以通过标识(例如,按名字)那些人来标记
那些图像中的人。对象数据库104中的图像中比图像中的其他人更频繁地标记
的人是常用标记对象。

对象被标记。该区域包括作为标记对象的对象。标记对象是其身份已由系
统100的用户标识的对象。标记对象类似于蝉蛹标记对象,只是该对象没有被
系统100的用户频繁地标识。

用户画了或确认了对象矩形或区域。该区域包括对象周围的矩形或其他几
何形状。可以由系统100的用户在对象周围画矩形或其他形状。可以以不同的
方式绘制这样的矩形或其他形状,如系统100显示包括对象的图像110,并经
由用户界面接收矩形或其他形状的指示(例如,经由指针、经由触摸屏上的手
指或指示笔等等)。可另选地,可以由另一组件或模块在对象周围自动画矩形
或其他形状,并由系统100的用户确认该矩形或其他形状的位置。在对象周围
绘制的矩形或其他形状表示在该矩形或其他形状内存在对象,虽然该对象的身
份还没有被系统100的用户标识。

对象识别具有高置信度建议。该区域包括已经被以高准确性概率自动标识
的对象。这样的对象由特定组件或模块标识而不是由系统100的用户标识。对
象可以由对象检测模块122或者可另选地由另一组件或模块标识。可以以不同
的方式,如基于固定值(例如,至少95%准确性概率)或相对值(例如,比由
组件模块检测到的80%的其他对象高的概率),来标识高准确性概率。

对象检测器发现对象存在。该区域包括已经由特定组件或模块而不是由系
统100的用户自动标识的对象。对象可被对象检测模块122或者可另选地另一
组件或模块标识。

眼睛数据被感觉为好的。在其中对象包括面部的各实施例中,可以生成表
示每一张脸上的眼睛被感觉起来如何的值。此值可以例如反映,是否检测到在
每一张脸上存在眼睛(例如,而不是由于转头或一只手盖住了眼睛而从视图上
遮蔽),是否检测到眼睛是睁开的(例如,而不是由于眨眼而闭上),眼睛中
是否有明显的反光,等等。可以使用各种不同的传统技术来检测脸上的眼睛,
判断眼睛是否是睁开的,标识眼睛中的反光等等。可以,例如,通过如果在脸
上检测到没有反光的睁开的眼睛,则分配较大的数值,如果在脸上检测到有反
光的睁开的眼睛,则分配较小的值,而如果在脸上检测到闭着的眼睛,则分配
更小的值,等等,来生成该值。或者,如果在脸上检测到增强图像的反光(例
如,基于眼睛中的反光的方向是否匹配图像中的(其他区域中的)其他脸中的
眼睛中的反光的方向),则可以分配较大的数值,而如果在脸上检测到不增强
图像的反光,则分配较小的数值。可另选地,可以通过学习过程(如神经网络、
决策树或其他学习机)来确定表示脸上的眼睛被感觉起来如何的排序或值,该
学习过程自动学习脸的哪些属性表示眼睛有多好(例如,基于关于什么是好的
用户反馈)。

微笑数据被感觉为好的。在其中对象包括面部的各实施例中,可以生成表
示每一张脸上的微笑被感觉起来如何的值。可以生成此以例如表示,是否检测
到在每一张脸上存在嘴(例如,而不是由于转头或手盖住了嘴而从视图中遮
蔽),是否检测到存在微笑(例如,而不是存在皱眉头或吐舌头)等等。可以
使用各种不同的传统技术来检测脸上是否存在嘴,脸上是否有微笑等等。可以
例如通过如果在脸上检测到微笑,则分配较大的数值,如果在脸上检测到闭着
嘴,则分配较小的值,而如果在脸上没有检测到嘴,则分配更小的值,以此类
推,来生成该值。可另选地,可以通过学习过程(如神经网络、决策树或其他
学习机)来确定表示脸上的微笑被感觉起来如何的排序或值,该学习过程自动
学习脸的哪些属性表示微笑有多好(例如,基于关于什么是好的用户反馈)。

图像曝光不足。图像被判断为曝光不足。可以基于整个图像、基于图像中
的所有区域,或在逐区域的基础上,进行此判断。可以以不同的方式,如基于
从图像的或图像的一个或多个区域的直方图导出的曝光值,来确定图像是否曝
光不足。也可以至少部分地基于为多个图像110中的其他图像确定的曝光值,
来确定图像是否曝光不足。例如,可以将具有至少比其他多个图像的曝光值小
阈值量的曝光值的图像判断为曝光不足。此阈值量可以是固定量(例如,图像
的直方图的特定部分小于其他图像的直方图的相同部分)或者相对量(例如,
图像的直方图的特定部分至少比其他图像的直方图的相同部分小10%)。

图像曝光过度。图像被判断为曝光过度。可以基于整个图像、基于图像中
的所有区域,或在逐区域的基础上,进行此判断。可以以不同的方式,如基于
从图像的或图像的一个或多个区域的直方图导出的曝光值,来确定图像是否曝
光过度。也可以至少部分地基于为多个图像110中的其他图像确定的曝光值,
来确定图像是否曝光过度。例如,可以将具有至少比其他多个图像的曝光值大
阈值量的曝光值的图像判断为曝光过度。此阈值量可以是固定量(例如,图像
的直方图的特定部分大于其他图像的直方图的相同部分)或者相对量(例如,
图像的直方图的特定部分至少比其他图像的直方图的相同部分大10%)。

对象是模糊的。检测到区域中的对象是模糊的。可以以各种不同的常规方
式标识对象是否模糊的、对象的模糊程度或模糊类型(例如,景深模糊、运动
模糊、相机抖动模糊等等)。

由评价模块124所使用的每一特征(如上文所讨论的那些)都具有相关联
的权重,并且不同的特征可以具有不同的相关联的权重。例如,关于图像是否
曝光过度,图像是否曝光不足,以及对象是否模糊的特征与其他特征相比可具
有较低的相关联的权重。特征的权重可以是,例如,特定值(如数值)或一组
值(例如,多个数值的集合)。

在一个或多个实施例中,使用这些权重中的一个或多个来为区域生成分
数。使用该分数来标识哪一个区域被感觉起来“最佳”(例如,具有最高分数
的区域被感觉起来“最佳”)。可以以各种不同的方式生成一个区域的分数。
在一个或多个实施例中,评价模块124为由模块124评估的区域的每一个特征
生成特征分数或值(例如,表示区域是否包括被标识为已知对象并且是常用标
记对象的对象的特征分数、作为表示每一张脸上的眼睛被感觉起来如何的值的
特征分数等等)。将这些特征分数标准化,以便由评价模块124评估的各种特
征的特征分数具有相同范围。对于由评价模块124评估的每一个特征,模块124
确定特征分数和权重的乘积,并将一起评估的各种特征的这些乘积相加,以获
得该区域的分数。在其他实施例中,将评估的各种特征的特征分数组合起来(例
如,相加、平均等等),而不标准化和/或乘以权重,来确定区域的分数。在其
他实施例中,可以选择这些特征分数中的一个(例如,具有最大的值的特征分
数)作为该区域的分数。在其他实施例中,可以按优先次序来分析特征(例如,
通过神经网络、决策树,或其他学习机),并基于特征,分配该区域的分数。

图像组合模块126使用对区域感觉起来如何的判定,选择多个图像110中
的一个作为基础图像。此基础图像充当正在生成的组合图像112的起始点,并
可以将区域替换为来自其他图像的对应的区域,以生成组合图像112。在一个
或多个实施例中,通过组合图像各区域的分数(例如,相加、平均等等)来计
算图像分数。基础图像被选为具有最大的图像分数的图像。可另选地,可以以
不同的方式标识基础图像,如选择具有带有最高分数的区域的图像作为基础图
像,选择具有最大数量的被判断为相对于其他图像的对应的区域是“最佳”区
域的区域的图像,随机地或根据某种其他规则或准则来选择基础图像,等等。

对于基础图像中的每一个区域,图像组合模块126判断是保留该区域还是
将该区域替换为多个图像中的另一图像中的对应的区域。图像组合模块126通
过自动选择对应的区域中被判断为“最佳”区域的那一个区域(如如上文所讨
论的评价模块124所判断的),来进行此判断。例如,参考图2,假设图像204
是基础图像。图像组合模块126判断对应的区域212、222,以及232中的哪一
个区域被判断为“最佳”区域。如果区域222被判断为“最佳”区域,那么,
图像组合模块126将区域222保留在图像204中,以生成组合图像。然而,如
果区域212或232被判断为“最佳”区域,那么,图像组合模块126自动将图
像204中的区域222替换为区域212和232中被判断为“最佳”区域的那一个
区域。

应该注意,基础图像中包括对象的特定区域可以被图像组合模块126自动
替换为另一图像中不存在该对象的对应区域。例如,参考图2,假设图像204
是基础图像。进一步假设,区域218和区域228两者都包括不被认为是认识的
人的面部,且因此区域218和区域228两者都被评价模块124分配了低(可能
是负的)分数。进一步假设,在捕捉图像时该人从场景中走过,且因此该人不
被包括在对应区域238中。评价模块124可以向区域238分配比区域218和228
高的分数,因为区域238不包括不被认为是认识的人的脸。如此,区域238被
判断为对应区域218、238,以及238中的“最佳”区域。因此,图像组合模块
126自动将图像204中的区域228替换为区域238,以生成组合图像。通过将
区域228替换为区域238,自动将其中存在一对象的区域(区域228)替换为
其中不存在该对象的区域(区域238)。

图3示出了根据一个或多个实施例的自动地将一个图像中的区域替换为来
自其他图像的对应区域以生成组合图像的示例。图3示出了相同的场景的三个
图像302、304,以及306,它们分别是,例如图2的图像202、204,以及206。
虽然在图3的示例中只示出了三个图像,但是,可以理解,任意数量的图像可
以适用于此处所讨论的技术。

图像302包括区域310、312、314、316,以及318。图像304包括区域320、
322、324、326,以及328。图像306包括区域330、332、334、336,以及338。
在图3中利用阴影线示出了被判断为“最佳”区域的对应区域。因此,区域320
被判断为对应区域310、320以及330的集合中的“最佳”区域。类似地,区
域332被判断为对应区域312、322以及332的集合中的“最佳”区域,区域
314被判断为对应区域314、324以及334的集合中的“最佳”区域,区域336
被判断为对应区域316、326以及336的集合中的“最佳”区域,而区域338
被判断为对应区域318、328以及338的集合中的“最佳”区域。在一个或多
个实施例中,图像306具有最大数量的被判断为“最佳”区域的区域,因此,
图像306被评价模块124选为基础图像。

区域320被判断为区域310、320以及330中的“最佳”区域,如此,图
像组合模块126在组合图像中自动地将区域330替换为区域320。类似地,区
域314被判断为区域314、324以及334中的“最佳”区域,如此,图像组合
模块126自动地将区域334替换为区域314。区域332被判断为区域312、322
以及332中的“最佳”区域,所以区域332被保留在组合图像中。类似地,区
域336和338被保留在组合图像中,因为它们被判断为相对于其他图像的它们
的对应区域是“最佳”区域。

应该注意,一个图像可包括没有被标识为区域的区块或部分。例如,图像
306包括不是区域330、332、334、336以及338的一部分的区块。对于这样的
没有被标识为区域的区块,图像组合模块126保留来自基础图像的那些区块,
不将那些区块替换为来自另一图像的区块。可另选地,这样的区块可以被视为
额外的一个或多个区域,评价模块124判断这样的区块感觉起来如何,图像组
合模块126基于这些判断,自动地将基础图像中的这些区块替换为另一图像的
对应区块。

图4示出了根据一个或多个实施例的组合图像的示例。图4示出了图像
400,该图像400是从图3的图像302、304,以及306生成的组合图像(例如,
通过图1的图像组合模块126)。图像400包括来自基础图像的区域,以及来
自其他图像的替换了基础图像中的区域的对应的区域。接在对图3的讨论后面,
图像400包括区域320、332、314、336以及338。

返回到图1,图像组合模块126基于作出的区域被评价模块124感觉起来
如何的判定,选择要包括在组合图像中的区域,如上文所讨论的。另外,在一
个或多个实施例中,图像组合模块126和UI模块106可允许用户提供关于将
选择多个对应的区域中的哪一个区域包括在组合图像112中的输入。此用户输
入可以覆盖由图像组合模块126作出的自动选择,或者也可以在不同的时间输
入(例如,在由图像组合模块126作出自动选择之前)。

UI模块106生成、管理和/或输出供显示的用户界面。此用户界面可允许
用户提供关于要选择多个对应的区域中的哪一个区域的输入。用户界面可以显
示在实现用户界面模块106的设备的屏幕上,或者也可以生成一个或多个信号,
供输出到一个或多个其他显示设备,显示设备包括可以在其上面显示用户界面
的屏幕。可以以各种不同的方式实现屏幕,如使用液晶显示器(LCD)技术、
等离子屏幕技术、图像投影技术等等。

UI模块106还接收来自用户(例如,实现UI模块106的设备的用户)的
用户输入。可以以各种不同的方式提供用户输入,如通过按下触摸板或触摸屏
的特定部分,或者通过按下小键盘或键盘的一个或多个键。可以使用各种不同
的技术来提供触摸屏功能。还可以以其他方式提供用户输入,如通过可听的输
入,对设备的其他物理反馈输入(例如,敲击设备的任何部分,或者可以被设
备的运动检测组件识别的另一动作,如摇动设备,旋转设备等等),等等。

在一个或多个实施例中,UI模块106生成用户界面,对于一个图像的特
定区域,该用户界面显示多个图像中的每一个其他图像的对应区域。这些对应
区域可以按照不同的方式显示,如在该特定区域附近的菜单或窗口中,在窗口
的条带或其他部分等等。用户可以通过UI模块106提供输入以选择其他图像
中的一个图像,响应于此,图像组合模块126将组合图像中的区域替换为用户
选择的图像。

图5示出了根据一个或多个实施例的用户界面的示例,通过该用户界面,
用户可以提供关于要选择多个对应区域中的哪一个的输入。图5示出了图像
400,该图像与如图4所示的图像400相同。另外,图5示出了区域338附近
的窗口500。用户可以通过提供各种不同的用户输入(例如,当光标显示在区
域338的顶部时点击鼠标的特定按钮,选定一个菜单选项等等),请求显示窗
口500。

窗口500显示来自其他图像的对应于特定区域的区域。在图5中所示出的
示例中,窗口500包括区域318,以及328,它们是对应于区域338的区域。
用户可以选择(通过经由图1的UI模块106提供输入)区域318和328中的
一个,响应于该选择,图1的图像组合模块126将区域338替换为区域318和
328中的用户选定的那一个区域。如此,可以看到,可以向用户显示可以替换
自动地选择的区域338的其他区域,而用户可以选择这些其他区域中的一个以
替换自动地选择的区域338。如此,用户可以轻松地替换特定区域,如果他或
她更偏爱一不同的区域的话。

图6是示出了根据一个或多个实施例的用于从多个图像生成组合图像的示
例过程600的流程图。过程600通过诸如实现图1的图像生成模块102的设备
之类的设备来执行,并可以以软件、固件、硬件,或其组合来实现。过程600
被示为一组动作,不仅限于所示出的用于执行各种动作的操作的顺序。过程600
是用于从多个图像生成组合图像的示例过程;此处参考不同的图包括了关于从
多个图像生成组合图像的额外的讨论。

在过程600中,访问多个图像(动作602)。可以以如上文所讨论的各种
不同的方式接收或获取这多个图像。

将多个图像对齐(动作604)。作为此对齐的一部分,如上文所讨论的,
标识多个图像的对应区域。另外,如果多个图像中的一个或多个无法对齐(例
如,由于它们是不同的场景的图像),那么,从多个图像中删除这一个或多个
图像。

对于多个图像的每一个图像中的多个区域中的每一个区域,就该区域被感
觉起来如何作出判断(动作606)。此判断可以以各种不同的方式进行,诸如
通过评估区域的各种特征中的一个或多个,和/或基于学习过程,如上文所讨论
的。

基于动作606中进行的判断,标识基础图像(动作608)。可以以不同的
方式标识基础图像,诸如选择具有最大的图像分数的图像,选定具有最大的数
量被感觉为“最佳”的区域的图像等等,如上文所讨论的。

通过自动地将基础图像中的一个或多个区域替换为被感觉为更佳的其他
图像中的对应区域来生成组合图像(动作610)。被感觉起来更佳的这些区域
是具有更高的分数、具有更高的排序、被学习过程确定为“最佳”的对应的区
域等等。如上文所讨论的,所产生的组合图像包括,对于基础图像中的每一个
区域,对应区域中被感觉起来“最佳”的区域那一个区域。对应区域中被感觉
起来“最佳”的区域的那一个区域可以是其中不存在存在于多个图像中的其他
图像的一个或多个对应区域中的对象的区域,如上文所讨论的。

输出在动作610中所生成的组合图像(动作612)。可以以各种不同的方
式输出组合图像,如显示组合图像,将组合图像存储在特定位置(例如,存储
在非易失性存储器中的文件中),将组合图像传递到实现过程600的设备(或
者另一设备)的另一组件或模块等等。

图7是示出了根据一个或多个实施例的用于基于用户输入选择要包括在组
合图像中的区域的示例过程700的流程图。过程700通过诸如实现图1的图像
生成模块102的设备之类的设备来执行,并可以以软件、固件、硬件,或其组
合来实现。过程700被示为一组动作,不仅限于所示出的用于执行各种动作的
操作的顺序。过程700是用于基于用户输入选择要包括在组合图像中的区域的
示例过程;此处参考不同的附图给出了关于基于用户输入选择要包括在组合图
像中的区域的额外的讨论。

在过程700中,对于图像的特定区域,显示来自其他图像的对应区域(动
作702)。可以以不同的方式显示这些对应图像,如在该特定区域附近的窗口
或菜单中。包括特定区域的图像可以不同图像,如用来生成组合图像的基础图
像,在来自不同图像的区域被自动选择以包括在组合图像中之后的组合图像等
等。

接收用户对于对应区域中的一个区域的选择(动作704)。可以响应于各
种不同的用户输入,接收此用户选择,如上文所讨论的。

响应于动作704中的用户选择,图像的特定区域被替换为用户选定的区域
(动作706)。如此,例如,自动选择的区域可以被用户覆盖,在组合图像中
包括用户选择的区域,而不是自动选择的区域。

可以对于图像的多个不同区域重复过程700。

另外,在一个或多个实施例中,在图像捕捉过程中,可以使用此处所讨论
的从多个图像生成组合图像的技术。在这样的实施例中,除生成组合图像之外,
还进行检查,以确保对应区域中的至少一个被感觉起来足够好。可以以不同的
方式执行此检查。例如,对于图像中的每一个区域,可以进行检查,弄清该区
域或另一图像中的对应区域是否具有超出阈值的分数。可以以各种方式,如凭
经验,基于管理员或设计人员的偏好等等,来确定此阈值。持续捕捉图像,直
到对应区域中的至少一个被感觉起来足够好。

例如,数码相机可以具有可以通过按下特定按钮、选择特定菜单选项等等
来激活的“群摄”特征。响应于在激活了群摄特征的情况下拍摄照片的用户请
求(例如,按下快门按钮),数码相机开始捕捉和分析图像。数码相机包括图
像生成模块(例如,图1的模块102),该模块标识多个图像中的区域,并如
上文所讨论的,判断那些区域感觉起来如何。数码相机持续捕捉图像,直到对
于不同的图像中的每一组对应的区域,不同的图像中的对应的区域中的至少一
个被感觉起来足够好(例如,超出阈值)。然后,数码相机可以停止捕捉图像,
因为可以生成其中每一个自动选择的区域被感觉起来足够好(例如,超出阈值)
的组合图像。数码相机可以可任选地提供诸如闪光或可听音之类的反馈,表示
数码相机已经停止捕捉图像。

可另选地,数码相机可以响应于其他事件,如已经捕捉了阈值数量的图像,
已经对图像捕捉了特定时间量,正在被检测的一个或多个用户在被捕捉的场景
不再被检测到等等,停止捕捉图像。

图8示出了根据一个或多个实施例的可以被配置成从多个图像生成组合图
像的示例计算设备800。可以使用一个或多个计算设备800来实现,例如,图
1的服务100。

计算设备800包括一个或多个处理器或处理单元802,一个或多个计算机
可读介质804(可包括一个或多个存储器和/或存储组件806),一个或多个输
入/输出(I/O)设备808,以及可使各种组件和设备彼此进行通信的总线810。
计算机可读介质804和/或一个或多个I/O设备808可以作为计算设备800的一
部分被包括,或者可另选地可以耦合到计算设备800。总线810表示若干类型
的总线结构中的任何一种总线结构的一个或多个,包括存储器总线或存储器控
制器、外围总线、加速图形端口,以及使用各种不同的总线体系结构中的处理
器或局部总线。总线810可包括有线和/或无线总线。

存储器/存储组件806表示一个或多个计算机存储介质。组件806可包括易
失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存
储器(ROM)、闪存、光盘、磁盘等等)。组件806可包括固定介质(例如,
RAM、ROM、固定硬盘驱动器等等)以及可移动介质(例如,闪存驱动器、
可移动硬盘驱动器、光盘等等)。

此处所讨论的技术可以以软件实现,指令由一个或多个处理单元802。可
以理解,不同的指令可以存储在计算设备800的不同的组件中,诸如存储在处
理单元802中,存储在处理单元802的各种缓存存储器中,存储在设备800(未
示出)的其他缓存存储器中,存储在其他计算机可读介质上等等。另外,可以
理解,指令存储在计算设备800中的位置可以随着时间而变化。

一个或多个输入/输出设备808可使用户向计算设备800输入命令和信息,
以及可使信息被呈现给用户和/或其他组件或设备。输入设备的示例包括键盘、
光标控制设备(例如,鼠标)、麦克风、扫描仪等等。输出设备的示例包括显
示设备(例如,监视器或投影仪)、扬声器、打印机、网卡等等。

此处可以在软件或程序模块的一般上下文中描述各种技术。一般而言,软
件包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数
据结构等等。这些模块和技术的实现可以存储在某种形式的计算机可读介质上
或通过某种形式的计算机可读介质传输。计算机可读介质可以是可以被计算设
备访问的任何可用的介质。作为示例,而不是限制,计算机可读介质可以包括
“计算机存储介质”和“通信介质”。

“计算机存储介质”包括以用于存储诸如计算机可读指令、数据结构、程
序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可
移动和不可移动介质。计算机存储介质包括,但不仅限于,RAM、ROM、
EEPROM、闪存或其他存储技术,CD-ROM、数字多功能盘(DVD)或其他光存
储器、磁带盒、磁带、磁盘存储器或其他磁存储设备,或可以用来存储所需要
的信息并可以被计算机访问的任何其他介质。

“通信介质”通常用诸如载波或其它传输机制等已调制数据信号来体现计
算机可读指令、数据结构、程序模块或其他数据。通信介质还包括任何信息传
送介质。术语“已调制数据信号”是指其一个或多个特征以这样的方式设置或
改变以便在信号中对信息进行编码的信号。作为示例而非限制,通信介质可包
括有线介质,如有线网络或直接线连接,以及诸如声学、射频(RF)、红外线
及其他无线介质之类的无线介质。上面各项中的任何组合也包括在计算机可读
介质的范围内。

一般而言,此处所描述的任何功能或技术都可使用软件、固件、硬件(例
如,固定逻辑电路)、手动处理或这些实现的组合来实现。如此处所使用的术
语“模块”和“组件”一般代表软件、固件、硬件或其组合。在软件实现的情
况下,模块或组件表示当在处理器(例如,一个或多个CPU)上执行时执行指
定任务的程序代码。程序代码可以存储在一个或多个计算机可读的存储器设备
中,可以参考图8发现关于其进一步的描述。此处所描述的从多个图像生成组
合图像的技术的特征是平台无关的,意味着本发明的技术可以在具有各种处理
器的各种商业计算平台上实现。

尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,
所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体
特征和动作是作为实现权利要求的示例形式公开的。

从多个图像生成组合图像.pdf_第1页
第1页 / 共22页
从多个图像生成组合图像.pdf_第2页
第2页 / 共22页
从多个图像生成组合图像.pdf_第3页
第3页 / 共22页
点击查看更多>>
资源描述

《从多个图像生成组合图像.pdf》由会员分享,可在线阅读,更多相关《从多个图像生成组合图像.pdf(22页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102236890 A (43)申请公布日 2011.11.09 CN 102236890 A *CN102236890A* (21)申请号 201110118042.1 (22)申请日 2011.04.29 12/772,772 2010.05.03 US G06T 5/50(2006.01) (71)申请人 微软公司 地址 美国华盛顿州 (72)发明人 EJ理查兹 RA比肖夫 TR奥康纳 TSM卡斯佩基维茨 (74)专利代理机构 上海专利商标事务所有限公 司 31100 代理人 潘明婳 (54) 发明名称 从多个图像生成组合图像 (57) 摘要 公开了从多个图像生。

2、成组合图像的系统和方 法。 对于多个图像中的多个区域中的每一个区域, 就该区域被感觉起来如何作出判断。标识基础图 像, 如果多个图像中的另一图像的对应的区域被 判断为比基础图像的每一个区域更佳, 则自动地 将基础图像的区域替换为对应的区域, 由此, 从多 个图像生成组合图像。生成组合图像可包括自动 地从多个图像中的一个中选择一个区域, 在该区 域不存在在其他图像的一个或多个对应的区域中 存在的对象。另外, 对于基础图像的一个特定区 域, 可以显示其他图像的对应的区域, 将该特定区 域替换为其他图像的对应的区域中的用户选定的 那一个区域。 (30)优先权数据 (51)Int.Cl. (19)中华。

3、人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 13 页 附图 6 页 CN 102236894 A1/2 页 2 1. 一种方法, 包括 : 访问 (602) 多个图像, 每一个图像都包括多个对象 ; 对于所述多个图像中的多个区域中的每一个区域, 就所述区域被所述设备感觉起来如 何作出判断 (606) ; 以及 基于对所述多个图像中的所述多个区域的对应区域被感觉起来如何作出的判断, 从所 述多个图像生成 (610) 组合图像, 所述生成包括自动地从所述多个图像中的一个中选择区 域以包括在所述组合图像中, 在所述区域不存在在所述多个图像中的其他图像的一个或多 个对应。

4、区域中存在的对象。 2. 如权利要求 1 所述的方法, 其特征在于, 对于所述多个区域中的每一个区域, 就所述 区域被感觉起来如何作出判断包括, 对于所述多个区域中的每一个区域, 基于所述区域的 一个或多个特征, 确定与所述区域相关联的分数或排序。 3. 如权利要求 1 所述的方法, 还包括 : 对于所述组合图像的第一区域, 显示所述多个图像中的一个或多个其他图像的对应区 域 ; 接收用户对于所述一个或多个其他图像的所述对应区域中的一个的选择 ; 以及 将所述组合图像的所述第一区域替换为所述一个或多个其他图像的所述对应区域中 的所述用户选定的那一个。 4. 如权利要求 3 所述的方法, 其特征。

5、在于, 显示所述对应区域包括在所述第一区域附 近的窗口中显示所述对应的区域。 5. 如权利要求 1 所述的方法, 其特征在于, 所述多个对象中的每一个都包括面部。 6. 如权利要求 1 所述的方法, 其特征在于, 还包括如果存在于其他图像的所述一个或 多个对应区域中的所述对象, 基于对象数据库中的信息, 没有被标识为已知对象, 则自动地 选择其中不存在所述对象的区域。 7. 如权利要求 1 所述的方法, 其特征在于, 作出所述区域感觉起来如何的判断包括判 断由用户所标识的对象是否包括在所述区域中, 以及基于由所述用户所标识的对象是否包 括在所述区域中来对于所述区域进行所述判断。 8. 如权利要。

6、求 1 所述的方法, 其特征在于, 所述多个对象包括多个面部, 并且, 其中作 出所述区域感觉起来如何的判断包括判断眼睛在所述区域中的面部中是否被检测为睁开 的, 以及基于眼睛是否被检测为睁开的和 / 或是否在所述区域中的面部中包括反光, 来对 于所述区域进行所述判断。 9. 如权利要求 1 所述的方法, 其特征在于, 所述多个对象包括多个面部, 并且, 其中作 出所述区域感觉起来如何的判断包括判断在所述区域的面部中是否检测到微笑存在, 以及 基于在区域的所述的面部中是否检测到微笑存在, 对于所述区域进行所述判断。 10. 如权利要求 1 所述的方法, 其特征在于, 生成所述组合图像包括 : 。

7、将所述多个图像中的第一图像标识为基础图像 ; 以及 如果所述多个图像中的第二图像的对应区域被感觉为比所述第一图像的每一个区域 好, 则自动地将所述基础图像的所述区域替换为所述第二图像的所述对应的区域, 来从所 述多个图像生成组合图像。 11. 如权利要求 10 所述的方法, 其特征在于, 如果所述第二图像的所述对应的区域没 权 利 要 求 书 CN 102236890 A CN 102236894 A2/2 页 3 有所述对象, 则所述第二图像的所述对应区域被感觉起来比所述第一图像的所述区域好。 12. 如权利要求 10 所述的方法, 其特征在于, 将所述第一图像标识为所述基础图像包 括 : 。

8、对于所述多个图像中的每一个图像, 判断所述图像中有多少区域被判断为所述最佳 ; 以及 选择所述多个图像中具有最大数量的被判断为最佳的区域的图像作为所述基础图像。 13. 如权利要求 1 所述的方法, 其特征在于, 所述设备包括捕捉所述多个图像的数码相 机, 所述方法还包括持续捕捉图像以包括在所述多个图像中, 直到, 对于图像中的所述多个 区域中的每一个区域, 所述区域或所述多个图像中的另一图像的对应区域具有超出阈值的 分数。 14. 一种计算设备, 包括 : 处理器 (802) ; 以及 在其上存储了多个指令的一个或多个计算机可读介质 (804), 当由所述处理器执行时, 所述指令使所述处理器。

9、 : 访问 (602) 多个图像, 每一个图像都包括多个对象 ; 对于所述多个图像中的多个区域中的每一个区域, 就所述区域被所述计算设备感觉起 来如何作出判断 (606) ; 标识 (608) 所述多个图像的基础图像 ; 如果所述多个图像中的另一图像的对应区域被判断为比所述基础图像的每一个区 域好, 则自动地将所述基础图像的所述区域替换为所述对应区域, 来从所述多个图像生成 (610) 组合图像 ; 显示 (702) 所述多个图像中的其他图像中的每一个图像的各区域, 每一个所述区域都 对应于所述基础图像的特定区域 ; 接收 (704) 用户对于所述多个图像中的所述其他图像的所述对应区域中的一个。

10、的选 择 ; 以及 将所述基础图像的所述特定区域替换 (706) 为所述其他图像的所述对应区域中的所 述用户选定的那一个。 15. 如权利要求 14 所述的计算设备, 其特征在于, 显示其他图像中的每一个图像的所 述区域是在所述特定区域附近的窗口中显示所述其他图像中的每一个图像的所述区域。 权 利 要 求 书 CN 102236890 A CN 102236894 A1/13 页 4 从多个图像生成组合图像 技术领域 0001 本发明涉及图像处理, 尤其涉及从多个图像中生成组合图像。 背景技术 0002 用户频繁地对对象组拍摄照片, 如人员组 ( 例如, 家庭成员或朋友 ), 动物组 ( 例 。

11、如, 宠物 ) 等等。令人遗憾的是, 在拍摄照片时, 时常难以按照可以接受的位置或姿势拍摄 到所有对象。例如, 对于一组人, 当拍摄照片时, 一个或多个人可能会眨眼, 皱眉头, 目光不 看着照像机等等。也难以使所有对象出现在照片上而不使其他外来的对象出现在照片上, 如避免额外的人走过。这些困难会导致用户不能获得他们需要的照片的情况, 并会导致用 户在试图照相时产生挫败感。 发明内容 0003 提供本发明内容是为了以精简的形式介绍将在以下具体实施方式中进一步描述 的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征, 也不旨在 用于限定所要求保护的主题的范围。 0004 根据一个。

12、或多个方面, 访问各自都包括多个对象的多个图像。对于多个图像中的 多个区域中的每一个区域, 就该区域被感觉起来如何作出判断。基于对多个图像中的多个 区域的对应的区域被感觉起来如何作出的判断, 从多个图像生成组合图像。组合图像的生 成包括自动地从多个图像中的一个中选择一个区域 ( 在该区域不存在在多个图像中的其 他图像的一个或多个对应的区域中存在的对象 ), 以使其包括在组合图像中。 0005 根据一个或多个方面, 访问各自都包括多个对象的多个图像。对于多个图像中的 多个区域中的每一个区域, 就该区域被感觉起来如何作出判断。 标识多个图像的基础图像, 该基础图像可以是具有最多被判断为感觉为 “最。

13、佳” 区域的区域的图像。如果多个图像中 的另一图像的对应的区域被判断为比基础图像的该区域更佳, 则自动地将基础图像的每一 个区用该另一图像的对应的区域替换, 由此, 从多个图像生成组合图像。另外, 显示多个图 像中的每一个其他图像的区域, 每一个区域都对应于基础图像的特定区域。接收用户对于 多个图像中的其他图像的对应的区域中的一个的选择, 将基础图像的特定区域替换为其他 图像的对应的区域中的用户选定的那一个。 附图说明 0006 在各附图中, 使用相同的标号来指示相同的特征。 0007 图 1 示出了根据一个或多个实施例的实现从多个图像生成组合图像的示例系统。 0008 图 2 示出了根据一个。

14、或多个实施例的同一个场景的多个图像的示例。 0009 图 3 示出了根据一个或多个实施例的自动地将一个图像中的区域替换为来自其 他图像的对应的区域以生成组合图像的示例。 0010 图 4 示出了根据一个或多个实施例的组合图像的示例。 说 明 书 CN 102236890 A CN 102236894 A2/13 页 5 0011 图 5 示出了根据一个或多个实施例的用户界面的示例, 通过该用户界面, 用户可 以提供关于要选择多个对应的区域中的哪一个的输入。 0012 图 6 是示出了根据一个或多个实施例的用于从多个图像生成组合图像的示例过 程的流程图。 0013 图 7 是示出了根据一个或多个。

15、实施例的用于基于用户输入选择要包括在组合图 像中的区域的示例过程的流程图。 0014 图 8 示出了根据一个或多个实施例的可以被配置成从多个图像生成组合图像的 示例计算设备。 具体实施方式 0015 此处讨论了从多个图像生成组合图像。捕捉同一个场景的多个图像, 虽然图像是 同一个场景的, 但是, 在多个图像之间可能会有差异。标识那些图像内的不同的区域, 对于 不同的区域中的每一个区域, 就该区域感觉起来如何作出判断 ( 例如, 如果该区域表示脸, 则判断人们是否正在微笑, 人们是否张开他们的眼睛等等)。 可以由评价模块基于区域的各 种特征, 进行关于区域感觉起来如何的判断。通常通过选择具有将不。

16、会被替换为来自多个 区域中的其它区域的最多区域的图像, 来选择多个图像中的基础图像。当多个区域中的另 一图像的一个区域被判断为感觉起来比基础图像的对应的区域更佳时, 则可以将基础图像 中的该区域自动地替换为来自多个区域中的另一图像的对应的区域。 0016 用户界面也可向用户显示基础图像中的特定区域, 向用户显示多个图像中的其他 图像的对应的区域, 并允许用户选择将替换基础图像中的区域那些对应的区域中的一个。 另外, 还可以标识一个对象存在于基础图像中的一个区域中, 但不存在于多个图像中的一 个或多个其他图像中的对应的区域中的情况 ( 如当一个人走过场景背景时 )。在这样的情 况下, 可以可任选。

17、地自动地将没有该对象存在的区域选为替换基础图像中的对应区域的区 域。 0017 图 1 示出了根据一个或多个实施例的实现从多个图像生成组合图像的示例系统 100。系统 100 可被实现为各种不同类型的设备中的一个或多个的一部分, 如台式计算机、 移动站、 自助服务终端、 娱乐设备、 可通信地耦合到显示设备的机顶盒、 电视机、 蜂窝式或其 他无线电话、 照像机、 便携式摄像机、 音频 / 视频回放设备、 游戏控制台、 车载计算机等等。 可另选地, 系统 100 可以跨相同或不同类型的多个设备地实现。这样的多个设备可以以各 种不同的方式彼此耦合, 如经由有线或无线连接(例如, 通用串行总线(USB。

18、)连接、 无线USB 连接、 根据 IEEE 1394 标准的连接等等 ), 或经由网络 ( 例如, 因特网、 局域网 (LAN)、 蜂窝式 或其他电话网络等等 ), 等等。 0018 系统 100 包括图像生成模块 102、 对象数据库 104, 以及用户界面模块 106。模块 102、 数据库 104, 以及模块 106 可被实现为相同, 或者可另选地不同的设备的一部分。图像 生成模块 102 接收多个图像 110, 并通过从多个图像 110 中的不同的图像选择不同的区域, 来生成组合图像 112。对象数据库 104 是被系统 100 识别或以其他方式为系统 100 所知的 对象的记录。对。

19、象数据库 104 可以是, 例如, 为系统 100 所知的不同的面部以及相关联的名 称的记录。对象数据库 104 可包括多个图像, 其中对象在这些多个图像中的每一个图像以 及数据库 104 中标识。例如, 对象数据库 104 可以是数字相册 ( 例如, 由在线服务维护 ), 其 说 明 书 CN 102236890 A CN 102236894 A3/13 页 6 中包括多个不同的图像, 图像中标识了人 ( 在这些图像中的不同的图像中标识了相同人和 / 或不同的人 )。这种对象记录可以使用各种不同的数据结构或存储技术来维护。用户界 面 (UI) 模块 106 管理信息向系统 100 的用户的呈。

20、现以及从系统 100 的用户对请求的接收。 0019 图像 110 可以由图像生成模块 102 以各种不同的方式来获取。图像 110 可以由包 括模块102的设备捕捉, 可以被提供到模块102, 可以存储在向模块102标识的、 模块102从 中检索图像 110 的位置等等。例如, 图像生成模块 102 可被实现为因特网服务的一部分, 用 户上传或以其他方式传输图像 110。作为另一示例, 图像生成模块 102 可被实现为捕捉图 像 110 的数码相机的一部分。作为再一个示例, 图像生成模块 102 可被实现为商店内的自 助服务终端, 该自助服务终端从与其耦合的存储器设备检索图像。 0020 图。

21、像生成模块 102 包括对象检测模块 122、 评价模块 124、 图像组合模块 126, 以及 图像注册模块 128。这里一般性地讨论了模块 122、 124、 126, 以及 128 的操作, 下面将更详 细地讨论。一般而言, 对象检测模块 122 检测图像 110 内的区域。评价模块 124 对于这些 区域中的每一个区域, 就该区域被感觉起来如何作出判断。这些判断可以以各种不同的方 式进行, 如下面比较详细地讨论的。基于这些判断, 图像组合模块 126 选择多个图像 110 中 的一个图像作为基础图像, 然后, 自动地选择多个图像 110 中的其他图像的不同的区域来 替换基础图像的对应的。

22、区域, 以便生成组合图像112。 对于给定区域, 通常, 被判断为感觉起 来 “最佳” 区域的对应的区域是将包括在组合图像 112 中的区域。图像注册模块 128 可任 选地被包括在图像生成模块 102 中, 当被包括时, 确定图像如何彼此映射。这种映射表示图 像的哪些部分是彼此对应的区域。 0021 区域, 通常, 但不总是包括对象。图像组合模块 126 可以自动地选择不包括对象的 另一图像的对应的区域, 尽管基础图像可能包括对象。 如此, 可以从场景中删除基础图像中 的对象, 并使其不被包括在组合图像 112 中。另外, 用户界面模块 106 可以允许用户覆盖图 像组合模块 126 作出的。

23、自动选择, 如下面比较详细地讨论的。 0022 对象检测模块 122 可以被配置成检测图像 110 的区域内的各种不同类型的对象。 这些类型的对象可以是, 例如, 人(或人的面部)和/或动物(例如, 宠物)。 可另选地, 可以 检测其他对象, 如建筑物、 风景或其他地理特征、 小汽车或其他车辆, 物品或人的器官 ( 例 如, 在 X 射线图像上 ) 等等。对象检测模块 122 通常被配置成检测一种类型的对象, 虽然可 另选地可以被配置成检测任意数量的不同类型的对象。 0023 由图像生成模块 102 接收到的多个图像 110 通常是相同场景的, 如一组人在婚礼 或家庭团聚中的多个图像。在一个或。

24、多个实施例中, 对象检测模块 122 可以检测多个图像 110 中的一个或多个是否不是来自相同的场景。自动地删除被检测不是来自相同场景的图 像, 图像生成模块 102 不考虑将它们包括在多个图像 110 中。可以以各种不同的方式判断 图像是否来自相同场景。例如, 可以将具有至少阈值数量的相同对象的两个图像判断为来 自相同场景。此阈值数字可以是固定数量 ( 例如, 5 个或更多相同的对象 ) 或相对数 ( 例 如, 图像中的 60或更多的对象位于两个图像中 )。作为另一示例, 系统 100 的用户可以提 供表示哪些图像是来自相同场景的输入。 如此, 尽管两个图像可能来自相同场景, 两个图像 不必。

25、相同 ( 通常不同 )。 0024 在一个或多个实施例中, 图像注册模块 128 判断哪些图像来自相同场景。图像注 册模块 128 使用注册技术来判断图像彼此在空间上映射得怎么样。如果两个图像彼此映射 说 明 书 CN 102236890 A CN 102236894 A4/13 页 7 得足够好 ( 例如, 至少阈值数量的匹配特征被包括在每一个图像中 ), 那么, 判断两个图像 来自相同场景。可以使用各种不同的传统技术, 如使用尺度不变特征变换 (SIFT) 算法, 来 标识匹配特征。 0025 尽管图像 110 来自相同场景, 但是, 场景内的对象可以不同。例如, 一个不认识人 的可能从一。

26、组人背后走过, 如此, 出现在不同图像 110 中的不同位置。作为另一示例, 该组 人中的一个人可能移动, 如此, 可能在不同图像 110 中位于不同位置。作为再一个示例, 人 们可能移动他们的脑袋、 谈话、 眨眼等等, 如此, 可能在不同图像 110 中位于不同位置或处 于不同姿势。 0026 对象检测模块 122 还对齐多个图像 110。对齐多个图像 110 是指标识图像 110 中 的彼此相对应的不同区域 ( 例如, 包括相同对象 )。作为此对齐过程的一部分, 对于多个图 像110中的每一个图像, 对象检测模块122标识该图像内的对象, 标识该图像中包括该对象 的区域, 还对于一个图像中。

27、的被标识的一个区域来标识不同图像 110 中的对应的区域。不 同图像 110 中的这些对应的区域通常位于场景的大致相同的位置。因此, 当对象检测模块 122 标识一个图像中的一个区域时, 模块 122 还标识其他图像中的该场景的相同位置处的 对应的区域。这些对应的区域可以, 但是未必包括相同对象。例如, 如下面比较详细地讨论 的, 一个区域可包括在另一图像的对应的区域中不存在的对象 ( 例如, 从一组人背后走过 的一个人 )。 0027 可以以不同的方式确定不同图像 110 中的对应的区域。例如, 图像注册模块 128 可以使用注册技术来判断图像彼此在空间上映射得怎么样。标识图像 110 中的。

28、匹配特征, 并标识图像 110 中的那些特征的位置。标识那些匹配特征内的特定对象 ( 例如, 面部 ), 并 标识那些特定对象周围的区域。 0028 在一个或多个实施例中, 图像 110 中的区域的标识至少部分地基于对象识别。对 象数据库 104 是被系统 100 识别或以其他方式为系统 100 所知的对象的记录。可以以各种 不同的方式生成对象数据库 104, 如基于来自系统 100 的用户的标识特定对象的输入 ( 例 如, 标记他们的数字相册中的对象 ), 从其他组件或设备中获取的标识特定对象的信息, 等 等。对象检测模块 122 使用对象数据库 104 中的信息来自动地检测图像 110 中。

29、的已知对象 ( 为系统 100 所知的对象 )。然后, 可以使用这些已知对象在图像 110 中的特定位置的存在 来标识检测到的对象周围的区域。 0029 在替换实施例中, 对象检测模块 122 可以无需对象数据库 104 即可操作。在这样 的实施例中, 对象检测模块 122 检测图像 110 内的特定对象, 还检测一个图像 110 中的一个 对象与图像 110 中的另一图像中的一个对象相同的情况。虽然在这样的实施例中对象检测 模块122可能不标识已知对象, 但是, 对象检测模块122仍可以检测多个图像中的对象相同 的情况。 0030 可以以各种不同的常规方式执行对图像中的对象的检测。可以理解,。

30、 检测图像中 的对象的方式可以基于正在检测的特定对象而变化。例如, 对于检测检测动物面部或其他 对象的技术, 可以使用不同的技术来检测人的面部。 0031 可以以各种不同的常规方式执行多个图像的对齐和对象周围的区域的标识 ( 包 括标识缝, 沿着该缝可以从一个图像中 “剪切” 区域供删除或复制, 并将一个区域接合或粘 贴到另一图像中 )。在一个或多个实施例中, 使用在 A.Agarwala 等人所著的 “Interactive 说 明 书 CN 102236890 A CN 102236894 A5/13 页 8 Digital Photomontage( 交互式数码蒙太奇照片 )” , AC。

31、M SIGGRAPH 2004 中更详细地讨论 的用于将图像的区域拼接在一起的蒙太奇照片技术来执行多个图像的对齐和对象周围的 区域的标识。在一个或多个实施例中, 使用自动选择和混合技术来执行将一个图像中的 一个区域拼接到另一图像。在 C.Rother 等人所著的 “GrabCut : Interactive Foreground Extraction Using Iterated Graph Cuts( 抓取剪切 : 使用迭代图形剪切的交互式前景提 取 )” (ACM SIGGRAPH 2004) 更详细地讨论了自动选择技术的示例, 而在 A.Criminisi 等 人所著的 “Region 。

32、Filling and Object Removal by Exemplar-Based Inpainting( 基 于样本的内绘制进行的区域填充和对象移除 )” (IEEE 图像处理学报, 第 13 卷, 第 9 期, 第 1200-1212 页, 2004 年 1 月 ) 中更详细地讨论了混合技术的示例。 0032 图 2 示出了根据一个或多个实施例的同一个场景的多个图像的示例。图 2 示出了 同一个场景的三个图像 202、 204 以及 206, 它们是, 例如图 1 的多个图像 110。虽然在图 2 的示例中只示出了三个图像, 但是, 可以理解, 任意数量的图像可以适用于此处所讨论的技。

33、 术。 0033 图像 202、 204, 以及 206 中的每一个都包括被示为椭圆形的多个区域, 虽然可以理 解区域可以是任何形状的。这些区域中的每一个区域被示为大小相同, 虽然可以理解区域 的大小可以不同。 这些区域中的每一个区域可包括对象, 如上文所讨论的。 每一个图像202、 204, 以及 206 被示为包括五个区域, 虽然可以理解一个图像中可以包括任意数量的区域。 0034 图像 202 包括区域 210、 212、 214、 216, 以及 218。图像 204 包括区域 220、 222、 224、 226, 以及 228。图像 206 包括区域 230、 232、 234、 。

34、236, 以及 238。不同图像中的位于大致相 同位置的不同区域是对应的区域。例如, 区域 210、 220, 以及 230 是对应的区域。作为另一 示例, 区域 214 和 224 是对应的区域。 0035 返回到图1, 评价模块124分析图像110, 就图像110的每一个区域被评价模块124 感觉起来如何作出判断。基于这些判断, 多个对应的区域中的一个可以被轻松地判断为多 个对应的区域中的 “最佳” 区域。评价模块 124 可以使用各种不同的规则或准则就图像的区 域感觉起来如何作出判断, 并可以生成反映此判断的值。由评价模块 124 所生成的值可以 是, 例如, 表示模块 124 感觉一个。

35、区域与其他区域相比如何的该区域的分数, 表示模块 124 感觉一个区域与其他区域相比如何的该区域的排序等等。在多个对应的区域中, 可以选择 具有 “最佳” ( 例如, 最高 ) 值的区域作为多个对应的区域中的 “最佳” 区域。 0036 在其中评价模块 124 生成表示一个区域感觉起来如何的该区域的分数的各实施 例中, 通常, 带有较高分数 ( 例如, 较大的数值 ) 的区域感觉起来比带有较低的分数 ( 例如, 较小的数值)的区域好。 可以以各种不同的方式确定分数。 在一个或多个实施例中, 通过评 估区域的各种特征中的一个或多个来确定分数。评价模块 124 被配置有与影响区域的分数 的各种特征。

36、相关联的权重, 或以其他方式具有对这些权重的访问权, 一些特征与其他特征 相比与较高的权重相关联。 一个区域中的不同的特征可以增加该区域的分数或降低该区域 的分数(例如, 取决于特定特征的权重)。 在其他实施例中, 基于学习过程来确定分数, 在该 学习过程中, 组件或模块(如评价模块124)自动地学习要给区域的哪些属性给予更高的分 数。 例如, 可以使用神经网络、 决策树或其他学习机, 以基于对于区域的、 被用户标识为好或 坏的用户反馈, 来了解区域中被用户标识为好的特征, 以及区域中被用户标识为坏的特征。 然后, 可以使用此神经网络、 决策树或其他学习机来为图像中的不同的区域分配分数。 说 。

37、明 书 CN 102236890 A CN 102236894 A6/13 页 9 0037 可另选地, 可以通过比较 ( 如通过使用神经网络、 决策树, 或其他学习机 ) 多个对 应的区域, 判断一个区域被评价模块 124 感觉起来如何。此比较可以基于评估一个区域的 各种不同的特征中的一个或多个。基于此比较, 选择多个对应的区域中的一个作为被感觉 为多个对应的区域中的 “最佳” 区域。可以可任选地使用神经网络、 决策树, 或其他学习机, 自动地确定多个对应的区域中被感觉为多个对应的区域中的 “最佳” 区域的一个。可以向 这些区域分配排序 ( 例如, 按从被感觉为 “最佳” 的区域到被感觉为 。

38、“最差” 的区域的顺序, 对区域进行排序 )。可另选地, 可以向这些区域分配分数 ( 例如,“最佳” 或 “非最佳” 值 ), 或可以标记或以其他方式将多个区域中的一个标识为被感觉为多个区域中的 “最佳” 区域。 0038 在其中通过评估区域的一个或多个特征来作出对区域感觉起来如何的判定的各 实施例中, 这些特征可包括该区域内的对象的特征和 / 或该区域的其他特征。下面是评价 模块 124 在判断一个区域感觉起来如何时可以使用的多个不同的特征的列表。这些特征 是 : 对象被用通常所使用的标记进行了标记, 对象被添加了标记, 用户画了或确认了对象矩 形或区域, 对象识别具有高置信度建议, 对象检。

39、测器发现了存在的对象, 眼睛数据被感觉为 好的, 微笑数据感觉为好的, 图像曝光不足, 图像曝光过度, 对象模糊。可以理解, 这些特征 只是示例, 可以可另选地使用其他特征。 0039 对象用通常所使用的标记进行了标记。该区域包括被标识为已知对象的对象 ( 基 于对象数据库 104), 该对象是常用标记对象。标记的对象是其身份已由系统 100 的用户标 识了的对象。对象的身份可以作为包括该区域的图像的一部分来维护 ( 例如, 在与图像相 关联的元数据中)或者可另选地单独地维护(例如, 在单独的记录或数据库中)。 常用标记 对象是其身份频繁地在相同或不同图像中由系统 100 的用户标识了的对象。。

40、可以基于固定 值 ( 例如, 对象在五个不同的图像中由用户标识五次, 或者, 对象是前五个最频繁地标识的 对象中的一个 ) 或者基于相对值 ( 例如, 对象比对象数据库 104 中的 90的其他对象更经 常地由用户标识 ), 确定此频率。例如, 如果对象数据库 104 包括人们的多个图像, 那么, 系 统 100 的用户可以通过标识 ( 例如, 按名字 ) 那些人来标记那些图像中的人。对象数据库 104 中的图像中比图像中的其他人更频繁地标记的人是常用标记对象。 0040 对象被标记。该区域包括作为标记对象的对象。标记对象是其身份已由系统 100 的用户标识的对象。标记对象类似于蝉蛹标记对象,。

41、 只是该对象没有被系统 100 的用户频 繁地标识。 0041 用户画了或确认了对象矩形或区域。该区域包括对象周围的矩形或其他几何形 状。可以由系统 100 的用户在对象周围画矩形或其他形状。可以以不同的方式绘制这样的 矩形或其他形状, 如系统 100 显示包括对象的图像 110, 并经由用户界面接收矩形或其他形 状的指示(例如, 经由指针、 经由触摸屏上的手指或指示笔等等)。 可另选地, 可以由另一组 件或模块在对象周围自动画矩形或其他形状, 并由系统 100 的用户确认该矩形或其他形状 的位置。在对象周围绘制的矩形或其他形状表示在该矩形或其他形状内存在对象, 虽然该 对象的身份还没有被系统。

42、 100 的用户标识。 0042 对象识别具有高置信度建议。该区域包括已经被以高准确性概率自动标识的对 象。这样的对象由特定组件或模块标识而不是由系统 100 的用户标识。对象可以由对象检 测模块 122 或者可另选地由另一组件或模块标识。可以以不同的方式, 如基于固定值 ( 例 如, 至少 95准确性概率 ) 或相对值 ( 例如, 比由组件模块检测到的 80的其他对象高的 说 明 书 CN 102236890 A CN 102236894 A7/13 页 10 概率 ), 来标识高准确性概率。 0043 对象检测器发现对象存在。该区域包括已经由特定组件或模块而不是由系统 100 的用户自动标。

43、识的对象。对象可被对象检测模块 122 或者可另选地另一组件或模块标识。 0044 眼睛数据被感觉为好的。在其中对象包括面部的各实施例中, 可以生成表示每一 张脸上的眼睛被感觉起来如何的值。此值可以例如反映, 是否检测到在每一张脸上存在眼 睛 ( 例如, 而不是由于转头或一只手盖住了眼睛而从视图上遮蔽 ), 是否检测到眼睛是睁开 的(例如, 而不是由于眨眼而闭上), 眼睛中是否有明显的反光, 等等。 可以使用各种不同的 传统技术来检测脸上的眼睛, 判断眼睛是否是睁开的, 标识眼睛中的反光等等。 可以, 例如, 通过如果在脸上检测到没有反光的睁开的眼睛, 则分配较大的数值, 如果在脸上检测到有 。

44、反光的睁开的眼睛, 则分配较小的值, 而如果在脸上检测到闭着的眼睛, 则分配更小的值, 等等, 来生成该值。或者, 如果在脸上检测到增强图像的反光 ( 例如, 基于眼睛中的反光的 方向是否匹配图像中的(其他区域中的)其他脸中的眼睛中的反光的方向), 则可以分配较 大的数值, 而如果在脸上检测到不增强图像的反光, 则分配较小的数值。可另选地, 可以通 过学习过程 ( 如神经网络、 决策树或其他学习机 ) 来确定表示脸上的眼睛被感觉起来如何 的排序或值, 该学习过程自动学习脸的哪些属性表示眼睛有多好 ( 例如, 基于关于什么是 好的用户反馈 )。 0045 微笑数据被感觉为好的。在其中对象包括面部。

45、的各实施例中, 可以生成表示每一 张脸上的微笑被感觉起来如何的值。可以生成此以例如表示, 是否检测到在每一张脸上存 在嘴(例如, 而不是由于转头或手盖住了嘴而从视图中遮蔽), 是否检测到存在微笑(例如, 而不是存在皱眉头或吐舌头 ) 等等。可以使用各种不同的传统技术来检测脸上是否存在 嘴, 脸上是否有微笑等等。可以例如通过如果在脸上检测到微笑, 则分配较大的数值, 如果 在脸上检测到闭着嘴, 则分配较小的值, 而如果在脸上没有检测到嘴, 则分配更小的值, 以 此类推, 来生成该值。可另选地, 可以通过学习过程 ( 如神经网络、 决策树或其他学习机 ) 来确定表示脸上的微笑被感觉起来如何的排序或。

46、值, 该学习过程自动学习脸的哪些属性表 示微笑有多好 ( 例如, 基于关于什么是好的用户反馈 )。 0046 图像曝光不足。图像被判断为曝光不足。可以基于整个图像、 基于图像中的所有 区域, 或在逐区域的基础上, 进行此判断。可以以不同的方式, 如基于从图像的或图像的一 个或多个区域的直方图导出的曝光值, 来确定图像是否曝光不足。也可以至少部分地基于 为多个图像 110 中的其他图像确定的曝光值, 来确定图像是否曝光不足。例如, 可以将具有 至少比其他多个图像的曝光值小阈值量的曝光值的图像判断为曝光不足。 此阈值量可以是 固定量 ( 例如, 图像的直方图的特定部分小于其他图像的直方图的相同部分。

47、 ) 或者相对量 ( 例如, 图像的直方图的特定部分至少比其他图像的直方图的相同部分小 10 )。 0047 图像曝光过度。图像被判断为曝光过度。可以基于整个图像、 基于图像中的所有 区域, 或在逐区域的基础上, 进行此判断。可以以不同的方式, 如基于从图像的或图像的一 个或多个区域的直方图导出的曝光值, 来确定图像是否曝光过度。也可以至少部分地基于 为多个图像 110 中的其他图像确定的曝光值, 来确定图像是否曝光过度。例如, 可以将具有 至少比其他多个图像的曝光值大阈值量的曝光值的图像判断为曝光过度。 此阈值量可以是 固定量 ( 例如, 图像的直方图的特定部分大于其他图像的直方图的相同部分。

48、 ) 或者相对量 ( 例如, 图像的直方图的特定部分至少比其他图像的直方图的相同部分大 10 )。 说 明 书 CN 102236890 A CN 102236894 A8/13 页 11 0048 对象是模糊的。检测到区域中的对象是模糊的。可以以各种不同的常规方式标识 对象是否模糊的、 对象的模糊程度或模糊类型 ( 例如, 景深模糊、 运动模糊、 相机抖动模糊 等等 )。 0049 由评价模块 124 所使用的每一特征 ( 如上文所讨论的那些 ) 都具有相关联的权 重, 并且不同的特征可以具有不同的相关联的权重。例如, 关于图像是否曝光过度, 图像是 否曝光不足, 以及对象是否模糊的特征与其。

49、他特征相比可具有较低的相关联的权重。特征 的权重可以是, 例如, 特定值 ( 如数值 ) 或一组值 ( 例如, 多个数值的集合 )。 0050 在一个或多个实施例中, 使用这些权重中的一个或多个来为区域生成分数。使用 该分数来标识哪一个区域被感觉起来 “最佳” ( 例如, 具有最高分数的区域被感觉起来 “最 佳” )。 可以以各种不同的方式生成一个区域的分数。 在一个或多个实施例中, 评价模块124 为由模块 124 评估的区域的每一个特征生成特征分数或值 ( 例如, 表示区域是否包括被标 识为已知对象并且是常用标记对象的对象的特征分数、 作为表示每一张脸上的眼睛被感觉 起来如何的值的特征分数等等)。 将这些特征分数标准化, 以便由评价模块124评估的各种 特征的特征分数具有相同范围。对于由评价模块 124 评估的每一个特征, 模块 124 确定特 征分数和权重的乘积, 并将一起评估的各种特征的这些乘积相加, 以获得该区域的分数。 在 其他实施例中, 将评估的各种特征的特征分数组合起来 ( 例如, 相加、 平均等等 ), 而不标准 化和 / 或乘以权重, 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1