三维(3D)呈现中的字幕相关申请的交叉引用
本专利申请要求2010年4月1日递交的美国临时专利申请序号No.
61/319948“三维(3D)呈现中的字幕(Subtitles in Three-Dimensional
(3D)Presentation)”的优先权权益,将其全部结合在此作为参考。
技术领域
本发明涉及准备供立体呈现使用的字幕。
背景技术
在三维(3D)数字电影剧场呈现中,屏幕上的遮挡(masking)
可能模糊或侵占在已经显示了字幕或解说词,因此必然要对字幕进行
修改,例如字幕在屏幕上的位置和/或尺寸。同样的情形会出现在3D
视频显示中,如果内容或原始字幕的全光栅占用比监视器的显示区域
大的区域。在这种情形下,在3D中,不仅必须调整字幕或解说词的大
小或尺寸和/或针对每只眼睛的图像以协同的方式重新放置字幕或解
说词,而且必须存在针对解说词所覆盖的3D内容的处所,使得解说词
不会干扰内容中元素的视深度,也不会不适合地一直显示到相对于下
层内容的前景中。术语“视深度(apparent depth)”是观看者相对于屏
幕的感知,这由左眼与右眼图像之间的视差引起。3D呈现通常受限于
提供视深度,这是因为对于图像中的相同元素不同位置处的观看者会
感知到不同的视深度。
在3D呈现中,解说词的“覆盖”或“合成”提供了解说词与关联的图
像或内容的组合,以在图像空间内可读地向观看者呈现。这必然模糊
一部分图像,其中手动地选择(例如,通过美工或字幕技师)或者在
一些情况下自动选择被模糊的图像部分。解说词整体上或部分可以是
半透明的。
在3D的情况下,字幕通常具有通常以像素度量的指定视差(即,
右眼字幕与左眼字幕之间的偏移),使得负责呈现文本的系统可以与
3D图像内容一起呈现文本,并且具有在右眼字幕与左眼字幕之间应用
的适当偏移,使得正确放置文本和3D图像内容。当右眼和左眼之间的
位置偏移为零时,字幕看起来在屏幕的表面。当位置偏移将针对右眼
的字幕置于针对左眼的字幕的右侧时,字幕看起来在屏幕的后面。如
果针对右眼的字幕在针对左眼的字幕的左侧,则字幕看起来在屏幕的
前面。
其他人在共同转让的专利申请(例如,Redmann在题为“Method
and Apparatus for Preparing Subtitles for Display”的公开PCT专利申请
WO2010/096030中,以及Izzat等人在题为“System and Method for
Combining Text with Three-Dimensional Content”的PCT公开专利申请
WO2008/115222中)中已经描述了用于字幕显示的各种方法和系统。
两个PCT申请中的教导的全部内容通过引用合并于此。
通常,剧场呈现中的解说词和字幕具有不同意义。例如,解说词
是指主音频语言的注释,而字幕通常是除主音频以外的语言。然而,
这二者是在主图像上应用文本的实例。由于本发明实施例等同地应用
于解说词和字幕,因此这些术语在本讨论中是可互换使用的。
解说词和字幕也经常会面对被‘开启’或‘关闭’。开启的解说词或字
幕对于所有观看者可见,并且被‘叠印(burned)’,即成为主图像(例
如,用于呈现或显示的图像或内容)的不可分元素。然而,关闭的解
说词或字幕不作为主图像的一部分提供。取而代之,结合主图像或内
容的显示,通过监视器或投影仪或驱动监视器的机顶盒或服务器的动
作来显示关闭的解说词或字幕。
在一些情况下,例如,在数字电影呈现中,向字幕或解说词提供
针对它们在主图像中的布置的元数据。在其他情况(例如,电视)下,
提供不具有布置信息的关闭的解说词,并且布置留给呈现系统负责。
大多数电视系统提供关闭的解说词作为由显示设备呈现的文本
流。在数字电影系统中,可以提供解说词或字幕作为定时文本,其中
可以缺省或明确知道和提供的字体来呈现文本串,或者解说词或字幕
可以作为文本的静止帧图像提供。
发明内容
本发明原理的实施例提供一种准备用于立体呈现的字幕或解说
词的方法和系统。可以按照不同方式调整字幕,使得字幕可以在给定
图像显示区域内显示,而不会被删节或模糊。这样的调整包括通过应
用缩放因子来改变字幕的尺寸、在图像空间中平移字幕,改变字幕的
视差或视深度或其组合。由于可以通过考虑下层图中图其他对象或元
素的视差来进行对字幕的视差调整,因此可以使深度提示冲突(depth
cur conflict)最小化,获得改善的立体观看体验。
一个实施例提供了一种准备用于立体呈现的字幕的方法,包括:
根据调整信息来处理字幕,并且将处理后的字幕合成到至少一个立体
图像中,以产生用于立体呈现的至少一个变换的立体图像。
另一实施例提供了一种准备用于立体呈现的字幕的系统,包括:
第一处理器,被配置用于根据以下至少一个的调整信息来自动处理字
幕:缩放因子、平移量和视差变化,并且将处理后的字幕合成到立体
图像中,以产生用于立体呈现的变换的立体图像。
附图说明
通过考虑结合附图的以下详细描述,可以更加易于理解本发明的
教导,在附图中:
图1示出了呈现中屏幕的示例;
图2示出了图1场景中3D镜头或合成的左眼视图;
图3示出了图1场景中3D镜头或合成的右眼视图;
图4示出了通过重叠图2-3的左眼图像和右眼图像而形成的立体视
图;
图5示出了具有解说词的立体图像,示出了解说词和各种对象的
视差;
图6示出了从立体图像感知到的3D虚拟视图;
图7A示出了解说词被裁剪的立体视图;
图7B示出了具有缩小的解说词的图7A立体视图;
图8示出了被调整以免裁剪的解说词;
图9示出了立体图像,其中解说词位置相对于3D图像中的对象被
调整以免裁剪和与深度提示冲突;
图10A示出了图7B的图像的虚拟视图;
图10B是示出了图8和9中两个显示的虚拟视图;
图11示出了场景中另一解说词布置;
图12示出了解说词被裁剪的图11中的显示;
图13示出了被向上平移以免裁剪的图11中的解说词;
图14示出了具有调整视差以提供相对于3D图像或内容中对象的
视差的特定关系的解说词;
图15是示出了图13和14的两个显示的虚拟视图;
图16示出了调整用于具有3D内容呈现的显示的字幕的方法;
图17A示出了字幕调整过程的第一实施例;
图17B示出了字幕调整过程的第二实施例;
图17C示出了字幕调整过程的第三实施例;
图17D示出了字幕调整过程的第四实施例;
图18示出了两个覆盖区的空白区和参数;
图19示出了用于实现本发明原理的实施例的系统。
为了便于理解,在可能的情况下将相同的参考数字用于指示附图
中公共的相同元件。
具体实施方式
本发明的实施例提供了一种准备用于在立体呈现中显示的字幕
或解说词的方法和系统,包括:调整与字幕相关联至少一个参数,使
得可以通过显示系统的部件或配置来在给定显示区域中呈现调整的字
幕,而不会被模糊或删节。可调整参数可以包括字幕在显示平面中的
位置、尺寸或大小,以及相对于显示平面的水平视差或视深度。通过
基于字幕下层内容(即,占用相同显示图像区域)中其他对象的视差
来调整字幕的水平视差,可以向观看者显示字幕和对象,而不会与深
度提示冲突。
本发明原理可以使用在数字电影影院设备和视频设备中,例如前
端广播或流传输系统以及消费者侧设备,包括电视监视器、机顶盒、
DVD播放器、视频录像机、个人计算机、手持显示器(例如视频播放
器或智能电话上的手持显示器)、以及其他移动或便携式设备。本发明
原理适用于还没有被叠印到主画面或图像内容中的关闭的解说词或字
幕(不管是否提供布置信息作为元数据),并且用于连同形成呈现一部
分的图像或内容一起显示这些字幕或解说词。
在以下讨论中,术语‘字幕’和‘解说词’互换使用,以指代没有按照
分布叠印到主图像中的文本或图形。此外,字幕和解说词可以包括无
论由终端设备产生还是作为内容流的一部分提供的图形覆盖元素。由
终端设备提供的图形覆盖元素的示例包括机顶盒(例如,有线或卫星
盒)的菜单、来自DVD播放器的屏幕上显示器、或包括针对回放速度、
音量设置或当前频道的指示器的电视控制器。作为内容流的一部分提
供的图形覆盖元素的一些示例可以是体育比分、新闻爬行字幕、嵌入
式广告、“下时段呈现”通知、广播网络图标等。类似地,可以以如本
文描述的相同方式来处理画中画显示元素的布置和视差,并且可以理
解为通过参考字幕或解说词包括画中画显示元素的布置和视差。
根据本发明原理,根据需要利用尺寸调整实时地定位或重新定位
用于3D呈现的字幕或解说词(包括字幕、图形覆盖、画中画元素等),
无论在数字电影还是视频中,来适应遮挡或图像大小调整,并且避免
对立体图像中的内容(即,对象)的尺寸元素的侵占。备选地,可以
在实际内容呈现之前进行对字幕或解说词的调整,并且存储调整后的
字幕以供某些未来呈现使用。
因此,对于给定图像显示区域或系统配置(例如,如遮挡、图像
大小调整或系统相关布置所限定),本方法允许自动调整解说词的位
置、比例和/或立体视差(或其组合),以提供具有美感和清晰度改善
的解说词和内容显示。
存在会干扰适当字幕显示的许多可能的侵扰源或系统配置。例
如,在影院中,投影仪可以由于屏幕弯曲、投影角度、不理想镜头大
小或调整而超出屏幕的边界,使得显著地缩减了图像空间。屏幕遮挡
或幕帘可以侵占投影屏幕的可用区域,或者可以将梯形失真图像修剪
成更具美感的矩形。
在另一示例中,家庭监视器(例如,大屏幕电视机)可能对图像
进行过扫描(以在全屏幕上显示图像的子集),例如,以免显示内容的
边缘或者呈现高分辨率内容而无需重新缩放)。在一些模式中,单独监
视器可以扩大纵横比与监视器本身不同的画面,例如,如果纵横比16∶9
的HD(高清)监视器接收纵横比4∶3的SD(标清)节目,因此图像的
特定部分被裁剪掉。根据本发明的实施例可以通过调整字幕来避免对
正确字幕显示的这种干扰或模糊。
与2D和3D字幕或解说词的布置有关的一些背景有助于理解本发
明原理的各个方面。存在指定2D解说词的布置的不同方式。在一个示
例中,可以指定边界框(例如,根据显示轴取向的最小尺寸矩形,用
于包围感兴趣的对象或项目),如解说词的总体高度和宽度以及位置
(例如,边界框的左上角)所限定。如果没有指定边界框,则可以呈
现解说词的文本,并且确定边界框。如果没有指定位置,则位置缺省
为预定值(例如,屏幕底部的10%并且以左到右的中心)。这样的布置
惯例是公知的并在标准中公开,例如,SMPTE 429-5-2009 D-Cinema
Packaging-Timed Text Track File以及由the Society of Motion Picture
and Television Engineers,White Plains,NY公开的现有技术;MPEG-4
Part 17 text based subtitle format for MPEG-4,2006年公开为ISO/IEC
14496-17;以及the Synchronized Multimedia Integration Language
(SMIL)produced by the international community of the World Wide Web
Consortium(W3C),with offices in Cambridge,MA,提供的最新文本是
version 2.0;或在文件格式Substation Alpha(.SAS files)由同名旧产品
使用,CL Low创建;以及Advanced Substation Alpha格式(从.SAS
格式导出的.ASS文件)as used by the Aegisub subtitle editor(among
others)promoted by a development community at the Aegisub website
(www.aegisub.org)。
代替边界框,更精确的描述是2D解说词的“最小覆盖区”,是包括
光栅化解说词所有像素的集合的区域(在光栅化解说词空间中,不在
显示空间中),光栅化解说词具有对完全显示图像的非零贡献(即,既
不完全透明也不被遮挡,或者离开屏幕)。
对于本发明而言,可以提供2D解说词的“覆盖区”作为边界框(即,
完全封闭解说词所有像素的矩形)、上述最小覆盖区区域、或者实质上
包括最小覆盖区区域的其他几何图形。
3D解说词的布置类似于2D解说词的布置,除了与解说词的右眼
呈现与左眼呈现之间的水平偏移或水平视差或距离(例如,可以由像
素数目、屏幕宽度百分比或距离单位等表示)相对应的附加参数以外。
这可以作为单个值提供,单个值表示右眼解说词与用于对应2D解说词
的布置位置或参考位置的偏移,其中左眼解说词取符号相反的偏移
(即,自2D布置位置沿着与右眼解说词方向相反方向放置)。备选地,
单个值可以表示右眼解说词与左眼解说词之间的距离,其中根据2D解
说词布置信息放置左眼解说词。在本讨论中,使用后一种呈现,尽管
两种呈现同样有效,并且可以使用简单算术从一个呈现转换到另一个
呈现,以调整水平布置值。
为了设置后续附图的上下文,图1示出了来自呈现的代表场景,
例如,以下进行讨论的后续镜头的花园中的场景。花园场景100示出了
在前景中站在一组花园大小的国际象棋棋子102(包括一个特定国际象
棋棋子,车)中间的演员103。在演员103后面是树104。大约相同距离
但后退到右侧是灯105,并且还有建筑物106。图2-15中所示的花园场
景100的镜头拍摄自图1中呈现的有利位置略微向右的位置。
图2和3表示来自花园场景100的镜头或合成的立体图像对,其中
图2示出了左眼图像200,图3示出了右眼图像300。每个图像200或300
包括来自花园场景100的各个单独对象的记录图像,使得花园场景中的
每个对象在左眼图像和右眼图像200和300中具有对应的记录图像。为
了避免来自场景100的对象图像与立体图像200和300之间的潜在混乱,
立体图像也可以被称作左眼合成200和右眼合成300,因此,演员103
具有对应图像103L和103R,车101具有对应图像101L和101R,树104
具有对应图像104L和104R,灯105具有对应图像105L和105R,并且建
筑物106具有对应图像106L和106R。
图4是由图像200与300的重叠形成的立体视图,其中,左眼图像
200如虚线所示,使得示出了左眼图像和右眼图像(200,300)之间的
立体视差或位置偏移。
在图4中示出了若干视差。例如与车101相关联的车视差401(例
如,根据右眼车图像和左眼车图像101R和101L的对应垂直边缘之间的
分离所测量的)大约为水平-40个像素,其中当右眼图像在左眼图像右
侧时度量为正。在车101的情况下,由于右眼图像101R位于左眼图像
101L的左侧,因此聚焦在车101上的观看者眼睛在示出了该立体对的
显示器(或屏幕或监视器)的前面会聚,即车101出现在显示器的前面。
演员视差403大约为-5个像素,如在演员的衣袖处测量的,这略微
在屏幕平面的前面。树图像104L和104R呈现大约+40个像素的视差,
其中右眼图像104R在左眼图像104L右侧。因此,树104对于观看者而
言出现在显示器或屏幕的后面。灯105以图像105L与105R之间大约+45
个像素的视差405出现,并且建筑物106以106L与106R之间大约+60个
像素的视差406出现,每一个出现的距离比树104更远。
图5示出了立体解说词510相对于图4的立体视图的期望布置。立
体解说词510包括右眼图像510R和左眼图像510L,在解说词的左边缘
处具有大约-7个像素的解说词视差511(针对解说词的其他部分测量的
视差511’和511”也彼此相等)。该解说词的覆盖区(无论边界框还是更
紧凑的非空区域)在针对右眼解说词图像510R的水平位置512和针对
左眼解说词图像510R的水平位置514处具有最左边缘。
对于平直出现的解说词(迄今为止最普通的意图),解说词视差
应当在解说词宽度上一致或恒定,例如,在‘B’处的视差511,在下方‘t’
处的511’以及在‘ss’处的511”。通过改变解说词视差,解说词可以沿深
度方向以透视或弯曲方式出现,但是这是罕见的。
如图5所示,左眼解说词图像510L的最左边缘514位于右眼车图像
101L的最右边缘515的右侧。因此,车101与解说词不交叠或交叉。如
本发明原理的讨论中使用的,解说词(或其覆盖区)与图像的交叠或
覆盖是指图像空间中(例如,在x-y坐标空间中)的交叠,而不是沿着
深度方向的交叠。右眼车图像101R的最右边缘513与左眼解说词510L
的最左边缘512之间的间隙更明显。这是美学偏好的问题,以免在视差
比解说词小的对象上显示解说词(具有较小视差的对象与具有较大视
差的另一对象相比看起来更接近观看者)。换言之,优选地不使更远离
观看者的解说词(具有更大视差)与更接近观看者的对象交叠。避免
这种覆盖的原因在于,对于观看者而言,观看者对破坏3D效果感知的
立体信息存在差异。从目前的观点看,这导致混乱并且在较长时间段
产生疲劳。
图6是左眼611和右眼612观看具有解说词510的立体图像500的观
看者610所感知的3D图像或场景的虚拟视图。(图6是被称作虚拟的是
因为该视图实际上不能从该有利位置观察到)。对于观察者610而言,
立体车视差401引起在示出了立体图像500的屏幕前面感知到车图像
601。演员图像603(具有偏移或视差403)略微在屏幕前面,其中解说
词510正好在演员图像的前面。树视差404、灯视差45、建筑物视差106
分别产生对在屏幕后面的递增距离处的对应图像604、605和606的感
知。
尽管在图6中作为平面示出了与不同对象相对应的图像,但是实
际上,观看者610应当将在与相应视差相对应的不同距离处的对象图像
601、603、604、605和606感知为3D。图6示出了针对具有相应视差401、
403、404、405和406(还参见图4)的对象的感知3D位置。每个对象
的感知位置有从左眼611和右眼612追踪通过参考点(在参考点处,针
对给定对象测量视差)的相应光线的交叉点所指示。
通过参展图7-15讨论根据本发明的准备用于立体呈现的字幕或解
说词布置的不同情形和方法。
示例1
图7A是示出了具有解说词510的立体图像对500(即,与左眼图像
和右眼图像重叠的立体视图)在区域700中被裁剪或遮挡或模糊的情
形。可以导致这种模糊区域700的一个示例是影院遮挡(例如,结合图
10A讨论的遮挡1020)。在图7A的呈现中,从视图上解说词510的实质
部分被模糊的区域700遮挡,这损害了观看者对放映的体验和享受。
图7B示出了图7A中的立体解说词510被立体解说词710代替的字
幕显示(也可以被称作字幕校正或调整)的第一实施例,立体解说词
710包括右眼解说词图像和左眼解说词图像710R和710L,分别是右眼
解说词图像510R和左眼解说词图像510L的缩小版本。针对图像710R
和710L的缩放因子相同,并且选择这些缩放因子以确保生成的解说词
图像不被区域700模糊。对于本实施例,将解说词视差711设置为与解
说词视差511相同,使得立体解说词710保持与解说词510相同的深度。
此外,立体解说词710的覆盖区的最左边缘715(例如,对应于字母“B”
的左边缘)与最左边缘515相同,因此确保立体解说词710的边界框覆
盖区落在立体解说词510的边界框覆盖区内,并且因此不会干扰任何其
他对象的深度感知。
图10A示出了图7B中所示的通过缩放产生的字幕的虚拟视图
1000A,其中缩放的解说词710出现在图6中看到解说词510的相同位
置,但是由于减小了对解说词710的缩放,因此影院遮挡1020(或幕帘)
不会模糊解说词。解说词710保持与解说词510相同的视差,并且从而
保持距离屏幕相同明显距离。
该提供缩放的立体解说词710的方法的一个可能缺点在于,解说
词510的原始覆盖区和模糊区域700的一些组合需要使得立体解说词
710无美感地较小的缩放因子,或者可能导致没有解决方案(即,如果
解说词510的原始覆盖图完全在模糊区域700内的话)。如果没有找到解
决方案,或者针对立体解说词710的缩放因子小于预定值,则应当选择
不同的校正或方法(以下讨论这些方法中的若干方法)。在另一实施例
中,可以评估若干校正或正确动作,并且如下所述选择最佳得分的一
个来使用。
示例2
在字幕显示的第二实施例中,如果在立体解说词510的覆盖区与
模糊区域700之间存在任何交叠或交叉,则将立体解说词平移或位移
(即,移动)了特定距离,以免模糊区域700删节解说词。然而,立体
解说词510向右的简单平移可能导致解说词510覆盖或与车101的立体
图像交叠(即,当解说词和车图像占用显示平面中的相同x-y坐标,或
者在2D图像空间的相同区域)。由于车具有小于解说词视差511(即,
与解说词相比,车视差是更大的负数,并且因此车看起来比解说词更
接近观看者1010)的视差401,因此这产生深度提示冲突或矛盾,其中
解说词510看起来与车101交叠,并且还具有指示其在车后面的视差。
在这种情况下,解说词的视差还可以被调整为与最近的交叠对象(在
这种情况下,是具有视差401的车101)的视差相比更小(例如,更接
近观看者,这可以是幅度更大的示出,但是符号为负)。
因此,在图8中,立体呈现800包括立体解说词810,立体解说词
810由右眼解说词810R和左眼解说词810L(如虚线所示)组成,右眼
解说词810R和左眼解说词810L相对于解说词510的覆盖区水平向左平
移了足以保持模糊区域700空白的量。选择小于或等于车视差401的解
说词视差811,因此使解说词810看起来在车101前面或者在与车101相
同的视深度。
图10B示出了与图8相对应的虚拟视图1000B,其中解说词810具有
经修改的位置和视差。通过将图10B与图6相比较,可以看到解说词810
的解说词布置和视深度相对于解说词510的原始布置和视深度的变化。
解说词810相对于解说词510的平移的一个选择是确定解说词510
的垂直中心线应当出现在屏幕宽度的什么部分(在图5中这是自呈现
500的左边缘的大约60%),并且再次应用呈现的空白部分内的百分比,
即,将百分比重新计算为空白区的百分比,如所示。另一选择(未示
出)是选择平移的解说词将模糊区域清除了预定量所需的最小距离。
该选择引起左眼图像810L(虚线解说词图像)的最右边缘(在‘ss’处)
刚好将模糊区域清除了预定量(即,最小释放(relief)值或阈值)。
在一些情况下,选择的平移或位移值可能引起解说词跨过呈现或
显示的图像/内容的相对边缘,使得超过空白区的相对边缘平移的解说
词的部分变得模糊。如Redmann的WO2010/096030所教导的,该解说
词位移产生‘相对边缘侵犯’,这需要缩小解说词的比例,以免跨过任
一边缘,这是由于仅平移不能避免字幕的删节和裁剪。在这种情况下,
确定要应用于解说词的缩放因子还应当考虑视差如何变化可以增加或
减小覆盖区。在这种情况下,使解说词的宽度最小化而同时保持预定
最小释放值‘r’的缩放因子由方程1给出:
EQ . 1 : s = ( W A - | D N | - 2 r ) W O + | D O | ]]>
其中,‘s’是缩放因子,是WA是未模糊区域的可用宽度,DN是新
视差(在这种情况下,解说词视差811),WO是原始宽度(即,针对任
一个眼睛的解说词宽度,即,解说词图像510R或510L),并且DO是原
始视差(在这种情况下是解说词视差511)。
如果‘s’大于或等于1,则不需要缩放,并且可用宽度足够。但是
如果‘s’小于1,则必须将解说词的右眼图像和左眼图像中的每一个缩
小因子s倍,结果立体解说词插入到可用宽度中在任一侧正好最小释放
值。缩小(或调整)的解说词的宽度WN由方程2给出:
EQ.2:WN=s×WO
可用建立针对此类校正的美感实用函数以包括缩放因子‘s’的值
(如果不需要缩放,则缩放因子‘s’被设置为1),以及视差变化的幅度
|DO-ON|或有符号的视差变化(DO-ON)。出于本讨论的目的,美感
实用函数用于对与特定解说词布置或调整相关联美感质量的选择进行
量化或合理化。该函数可以采取任何形式,通常受特定边缘条件的约
束。在本发明的上下文中,函数或方程包括诸如缩放因子‘s’和视差变
化‘d’等参数。函数可以基于经验度量,并且在许多情况下,根据有根
据的推测或者来源组合,以创建“实用度量”,例如与原始解说词布置
的美学偏离的度量(因为由具有艺术能力的人所创建,因此可能被视
为“理想”)。
在给出解说词缩放和/或位移的若干可能性的情况下,实用函数可
以提供对最不能引起反感或最佳可用选择的度量。理想地,相同的实
用函数能够用于解说词重新定位的所有可能变型,但是不必是这种情
况。然而,如果针对不同解说词操作来创建不同度量,则需要确定两
个可能位移中的哪个是优选的或者同样可接受的机制。较大的视差变
化可以引起“难以观看”呈现810,这对于观看者没有吸引力,因为解说
词810在感兴趣对象(在这种情况下,是演员103)的图像前面较远处。
呈现500中解说词的原始艺术意图在于将立体解说词510正好放在演员
103的立体图像前面或者接近该立体图像,使得在读取解说词510与演
员103之间几乎不存在观看者眼睛会聚的变化。
示例3
在针对字幕显示的第三实施例中,对另外删节字幕的校正涉及避
免立体解说词510的覆盖区与模糊区域700之间的交叉或交叠。这可以
通过平移立体解说词以不仅避免模糊区域700而且还避免包含视差小
于解说词的对象(即,接近观众或者在解说词前面出现的对象)的区
域。一种方法是跟踪空白区,首先,从与图像500相对应的区域中扣除
模糊区域700,然后从空白区中去除具有视差小于解说词的视差511的
对象的所有区域。这可以可以通过以下来实现:创建或获得用于立体
图像500的视差图并且将视差图中的每个位置与视差511相比较,从而
对视差图进行二值化。
例如,向视差等于或大于视差511的位置分配第一值,并且向视
差小于视差511的位置分配第二值。如果按照策略,存在最小释放值
‘r’,通过该最小释放值‘r’解说词清除接近对象(例如,车101),则二
值化的视差图可以被‘r’膨胀(dilation),以膨胀接近对象区域(膨胀
是与二值图像一起使用的普通图像处理函数,其中真值像素的范围‘r’
内的任何假值像素被设置为真。这类似于围绕车101添加后的‘r’的环
状物,并且出于解说词布置目的考虑模糊区域700的等同物)。可以从
空白区中去除生成的二值化视差图和模糊区域700。在备选实施例中,
从与图像500相对应的区域中减去前景车101和模糊区域700所占用的
区域,以获得空白区,然后该空白区被最小释放值‘r’被腐蚀以根据策
略来精炼空白区(利用腐蚀,将假值像素的范围r内的任何真值像素设
置为假)。
在图9中示出了该校正的结果,其中已经平移或位移了解说词
910,以免与模糊区域700和接近观众的对象车101交叠。解说词910的
右眼图像910R和左眼图像910L之间的视差与原始视差相同。因此,解
说词910避免模糊区域700,并且通过保持车101为空白,还避免与深度
提示冲突。此外,如原始选择的解说词910保持在相同视深度,从而保
持至少一些原始艺术意图。
在图10B中的虚拟视图1000B中示出了图9中位置修改了的解说词
910(并且还示出了以上描述的解说词810)。通过将图10B与图6相比
较,可以看出解说词910的解说词布置和视深度相对于解说词510的原
始布置和视深度的变化。
为了确定足以将至少一部分模糊解说词(例如,510)完全放置
在空白或安全区域(例如,立体图像90的区域扣除了模糊区域700和包
含车101的区域)的最小或近似最小平移或位移,可以使用以下过程。
对于空白区中的每个像素,确定解说词(如果位于该像素处)的覆盖
区是否完全位于空白区内,其中,覆盖区“位于该像素处”,覆盖区中
的每个像素位于空白区内。当解说词的覆盖区被称作位于像素处时,
这意味着该像素用于确定覆盖区的位置。一种可能选项是使用像素来
限定边界框的左上角位置。另一选项是解说词质心的位置(或者边框
质心的位置,可以是相同度量)。对于覆盖区内与空白区外部的像素交
叉的每个像素(即,覆盖区超出空白区或者在空白区外部扩展),计算
最大缩放因子,使得具有相同位置的缩放覆盖区与像素不交叉,并且
对于位置注释也计算最小缩放因子。在备选实施例中,并不检验空白
区中的每个像素,而是可以稀疏地或者仅针对一些像素进行位置检验。
例如,可以检验每第10行中每第10个像素的光栅,或者可以使用Monte
Carlo方法来评价空白区内的随机点。
与该第三解说词重新定位方法一起使用的实用函数可以基于重
新定位或新的解说词位置与原始解说词位置之间的距离以及缩放因
子。再多几个像素的新位置远离原始位置,但是不需要缩放,这与需
要解说词收缩10%的略微近的位置相比可能是更好的选择。实用函数
认为垂直位移比水平位移成本更高并且不令人期望。空白区上实用函
数的评价(即,针对空白区中的每个像素或选定像素完全或稀疏地进
行评价)产生对于重新定位的解说词910而言最小值是优选选择的梯
度。由于对点进行采样,并且坡度逐步发展,因此更高级搜索策略可
以使用发展坡度来集中在分数高的区域,从而优化选择,而不会局限
在局部最小值。
在类似方法中,可以从空白区中扣除图像的显著区域(例如,具
有重要特征)。例如,重新定位解说词910使得覆盖了演员103的脸部,
这是不好的呈现,因为演员的脸部通常定义了图像的显著区域。类似
地,如果存在在背景中进行的动作的特定重要细节,则重新定位字幕
导致该动作被隐藏是不好的选择。为此,可以从空白区中扣除显著区
域(例如,以Le Muer等人在专利申请US 2009/0110269中较大的方式
检测到的那些显著区域)。这样,以同样的方式将图像的显著部分视为
模糊区域(例如,700),或者比解说词更近的对象(例如,车101)。
US 2009/0110269主旨的全部内容通过引用合并于此。在备选实施例
中,在候选位置被解说词的覆盖区覆盖的显著图(例如,如Le Muer
等人所教导的)可以累积,并且应用于针对该位置的实用函数。这样,
在其他条件都相同的情况下,与覆盖不显著和/或更少像素的不同解说
词位置相比,覆盖或与更多显著像素交叉的解说词位置接收较差的实
用值。
注意当在某位置处确定对象或显著区域的像素与解说词的像素
之间的交叉或交叠时,在左眼图像对象与左眼解说词图像(例如,图5
中车101L和解说词510L)之间进行第一比较,并且在右眼图像对象(例
如,101R)与右眼解说词图像(例如,图5中的车101R和解说词510R)
之间进行第二比较。备选地,在解说词的覆盖区(包括左眼解说词图
像与右眼解说词图像的合并)与针对左眼和右眼的空白区交叉之间进
行比较。例如,可以通过消除前景中的所有对象(即,生成的空白区
排除对象所占用的区域),仅针对右眼计算空白区。然后,通过排除针
对左眼图像的对象所占用的区域,针对左眼进行同样的计算。“空白区
的交叉”是在左眼和右眼的空白区中的那些像素。
在另一实施例中,可以仅针对一只眼睛进行比较,即,将左(或
右)眼图像与左(或右)眼解说词相比较,期望空间相干性不会产生
实质上不同的判定。(空间相关性在这里是指以下概念:如果左眼图像
示出了不会影响解说词的良好平滑表面,则另一只眼睛图像不可能呈
现完全不同的轮廓,并且如果呈现了完全不同的轮廓,则这也是很少
发生的)。如果对最小释放值的正确选择可以实质上确保不会发生对显
然更近对象的干扰,上述选择特别有效。为了获得这种保证,在多数
情况下,足以将最小释放值(或者对象与解说词之间的最小分开)应
用于对象的仅一侧,该侧也与所考虑的对应眼睛图像同侧(即,当考
虑左眼图像时,最小释放值可以应用于所讨论的对象图像的仅左侧)。
备选地,该最小释放值还可以应用于解说词图像的左侧。为了策略或
艺术的意图,可以指定解说词与该最小释放值相比不那么接近对象。
在一个实施例中,这可以由视差(例如,1/2个像素或1个像素)表示,
使得即使在其最近布置处,解说词看起来也与其上放置了解说词的下
层对象分离。视深度(或者与x-y图像平面相对的z方向)的这种分离
由根据最小释放值设置的解说词视差产生。
在图11-13中还示出了该解说词布置方法,其中图11示出了另一种
呈现1100,其中具有右眼解说词图像1110R和左眼解说词图像1110L的
解说词1110具有大于车视差401的立体视差1111。通过将解说词1110定
位在车101前面,可以避免解说词与车之间的视深冲突。类似于图10B
中的解说词810,接近车101放置解说词1110,并且在屏幕前面的较远
位置处。
图12示出了模糊区域1200剪裁解说词1110的一部分从而损害呈
现1100的示例。这一点在图13中通过将解说词1110定位到不会引起对
解说词的任何裁剪或遮挡并且避免覆盖视差比解说词和任何显著区域
更小的任何对象(例如,演员103的脸部)的位置来纠正。因此,呈现
1300示出了包括右眼解说词图像1310R和左眼解说词图像1310L的解
说词1310,解说词1310是解说词1110的重新定位版本,即,向上平移
以避免模糊区域1200,但是没有远到足以覆盖演员的脸部。保持解说
词1110的原始视差1111作为图13中的视差1311,使得解说词1310仍出
现在屏幕前面的较远位置处。
示例4
图14示出了根据图13的解说词进一步调整解说词1310的视差的
呈现1400。具体地,已经针对最小视差检验在解说词1310的覆盖区以
下或者覆盖解说词1310的覆盖区的呈现或图像内容(即,识别覆盖解
说词的覆盖区的最接近观众的对象),并且在找到最近对象时,将解说
词的视差增加达到最近对象的视差(即,将解说词移到离观众更远的
位置)。因此,如果之前将字幕或解说词向前置于较远位置以免深度提
示与不再看得见的对象冲突(例如,置于车101前面的解说词1310,现
在会被模糊区域1200隐藏),则远离字幕所覆盖的最近对象移动字幕,
但是不要太远,因为这会产生深度提示冲突。这防止解说词在其他对
象前面被完全“孤立”,否则这会导致难以观看到呈现1300。因此,利
用力视差1411设置包括右眼解说词图像1410R和左眼解说词图像
1410L的解说词1410,立体视差1400与演员103的图像的视差403相同
或略微小。备选地,如上所述可以将解说词推送回到相对于覆盖的最
近对象不比预定的“最小释放值”近的位置。
图15示出了呈现1300和1400的组合虚拟视图,其中,仅将解说词
1110向上平移以避免图13中的模糊区域1200引起解说词1300看起来完
全浮在最近对象图像(即,演员图像603)前面。(注意最初将解说词
1310定位在前面较远位置处以免与先前最近对象(车图像101)的深度
提示冲突,该车图像101现在被遮挡1520模糊)。不让解说词1310在前
面较远位置处,解说词1310的视差增加(使得成为更大的正数)以类
似于下个最近对象的视差,如以上针对图14描述的,引起解说词1410
在深度上看起来接近演员603。然而,解说词视差应当不超过下个最近
对象的视差,在一些实施例中,与最小释放值相比不接近解说词所覆
盖的下个对象。
以下对上述用于调整解说词的示例进行总结:
1)在位置上缩放解说词,而不改变解说词视差(当不存在与任
何对象的深度提示冲突时);
2)利用可选的缩放平移解说词,以避免模糊区域,但是减小视
差(接近观看者一定解说词)以免与对象的深度提示冲突;
3)利用可选缩放平移解说词,以避免模糊区域和深度提示冲突;
以及
4)利用可选缩放平移解说词,以避免模糊区域,并且如果在下
个最近对象前面太远位置则增加视差(远离观看者移动解说词)。
图16示出了根据本发明原理实施例的准备用于显示的解说词的
方法。该过程包括重新定位或重新布置一个或多个解说词,使得完整
地显示每个解说词,而不会被剪裁或遮蔽,例如,就好像可以由于缩
减的图像区域而出现,就好像当图像的部分变得被剪裁或遮蔽时。方
法1600在步骤1601开始,在步骤1601中确定呈现系统和关联的设置(例
如,特定观众席或显示器,以及设置,相应地例如影院遮挡或图像拉
伸和/或裁减)。
在步骤1602中校准呈现系统及其设置,以识别整个图像区域的哪
个区域被模糊。Redmann在PCT公开申请WO2010/096030“Method and
Apparatus for Preparing Subtitles for Display”中详细地讨论了这样的校
准技术。例如,一个校准过程包括:将坐标网格投影到屏幕上,并且
指出观察到的最接近屏幕角的最外坐标。这些角坐标内部的区域限定
空白的投影图像区的区域,而这些角坐标外部的区域从视图上看被模
糊。通常针对立体操作模式中的任一只眼睛进行校准,或者在2D中,
通过禁用立体操作。然而,在特定不经常情况下,需要为每只眼睛单
独产生校准,例如,如果从实质上不同的点投影右眼和左眼立体图像,
因此潜在地具有实质上不同的模糊区域。同样可能的是,投影仪或显
示器具有针对右眼图像和左眼图像中的每一个具有不同的水平偏移
(即,水平会聚有缺陷,或者已经被有意改变),则两只眼睛图像在两
侧实质上以不同方式被剪裁。
校准的结果是在呈现系统上建立图像的空白或非模糊区,呈现系
统可以是特定观众席中的投影屏幕或者家庭娱乐系统或其它观看设备
中的监视器。通常对于右眼图像和左眼图像中的每一个空白区是相同
的,但是如上所指出的,在一些情况下,空白区对于右眼图像和左眼
图像而言不同(例如,当投影仪在物理上分开投影两个图像时)。
如果使用方法1600以在电影或呈现播放时实时地改变解说词的
位置,则在步骤1603处开始呈现。如果不与放映或呈现同时实时地使
用方法1600,则例如通过检验包括要在后续时间播放的内容的文件来
在步骤1603处进行对解说词的预处理。然后根据以下描述的后续步骤
来处理这些文件的解说词或字幕。
在步骤1604中,检验内容文件中的字幕或解说词,或者在整个呈
现期间实时地进行。在步骤1605中,进行比较以确定解说词的覆盖区
是否延伸到根据步骤1602获得的空白区之外。如果对于右眼图像和左
眼图像而言存在单个空白区,则在两个分开步骤中进行比较,针对右
眼和左眼解说词图像覆盖区中的每一个进行一个比较;或者在一个步
骤,将右眼和左眼解说词图像覆盖区的合并或组合与空白区相比较。
如果针对左眼图像和右眼图像的空白区不同,则一种实现方式是分别
针对每个眼睛图像跟踪空白区,并且针对每个空白区分别比较解说词
的覆盖区。另一种实现方式可以将左眼解说词和右眼解说词的组合覆
盖区(即,覆盖区的合并)与左眼和右眼空白区(即,空白区对于两
个立体图像是公共的)的交叉相比较。后者更精确,后一种选择的各
种组合可以更经济,还完全适合。备选地,还可以将空白区与两个解
说词图像覆盖区之一相比较,加上扩展的覆盖区部分以说明相对于另
一眼睛的解说词图像的视差或偏移。
如果比较示出了解说词(覆盖区)完全位于空白区内,则通过将
解说词覆盖或合成到图像来继续处理,如以下讨论的步骤1609中所示。
否则,可以在步骤1606中执行一个或多个解说词或字幕调整过程。
可以提供四个示例性字幕调整过程(例如,图17A-D中分别示出
的过程1700、1710、1720和1730)中的一个或多个以在步骤1606处使
用。在该实施例中,每个过程还返回质量评价,例如,可以在步骤1607
中使用以确定特定字幕调整过程的结果是否可接受的实用函数。在以
下描述中,步骤1606中的每个解说词调整过程返回计算的实用函数,
该函数表示可用性的经验评价和调整的字幕的美学质量。如果实用函
数大于预定值(对于不同过程可以相同或不同),则调整是可接受的并
且可以应用在步骤1608中。否则,在步骤1606处尝试另一字幕调整过
程。
在一个实施例中,可以选择步骤1606中尝试或评价的字幕调整过
程的量级以使找到适合或可接受的结果的期望计算成本最小化。例如,
如果期望每个字幕调整‘a’提供具有可能性或概率‘p(a)’的可接受结果,
并且尝试调整的期望计算成本为‘c(a)’,则根据c(a)/p(a)的增加比的量
级(这实质上表示每单位成功机会的成本)来评价各个过程通常提供
最小期望成本。评价这些过程的量级可以基于经验证据或现有经验,
并且还可以基于特定场景中的结果自动改变。这假定每个p(a)独立于
针对‘a’的其他值的成功或失败,即,如果一个方法不能产生令人满意
的结果,那么也不会影响其他方法的概率。
在另一实施例(未示出)中,在步骤1606尝试或评价字幕调整的
每个方法,并且将返回的美学实用函数值彼此相比较(而不是如在步
骤1607中与预定的‘足够良好’值相比较)。这提供了最佳的可用调整,
但是始终具有最差情况的成本。如果选择仅一个解说词调整过程在步
骤1606中使用,则省略步骤1607(这是因为不存在比较的其他备选过
程)。
在步骤1608处对字幕进行调整之后,或者如果在步骤1605中确定
了字幕在空白区内(并因此不需要调整),则在步骤1609处将立体字幕
与立体图像合成。如果方法1600在内容呈现期间实时地执行,则将字
幕合成到图像中,并且呈现生成的合成。如果过程没有实时地进行,
则将字幕合成到与其相关联的立体图像中,以产生经变换的图像,并
且将结果(例如,作为被合成到相应图像中的一个或多个数据文件字
幕)存储在一个或多个存储器设备(未示出)中以供后续使用。
在步骤1610处,如果确定不存在多个要检查的字幕,则方法在步
骤1604处重复。否则,在步骤1611处完成调整方法。
图17A-D示出了不同的过程或方法,这些过程或方法例如可以在
步骤1606中用于调整字幕或解说词以适合为了图像显示而缩减的空白
区,使得生成的字幕可以完整地显示,例如,不会被遮挡或裁剪。
方法1
图17A示出了用于原地缩放解说词调整的过程1700。术语“原地”
意味着不存在对超出器原始覆盖区的解说词的平移或布置。在步骤
1701处发起该过程,其中初始条件是原始解说词的覆盖图没有完全包
含在空白区(例如,如根据系统校正所确定的,例如,图16中的步骤
1602)中。在步骤1702处,将新的覆盖区设置为等于原始覆盖区与空
白区的交叉。在步骤1703处,确定缩放因子以应用于原始覆盖区的高
度和宽度,使得充分缩减缩放尺寸以适合新覆盖区。在不同实施例中,
缩减的解说词可以保持原始覆盖区的纵横比(即,针对高度和宽度使
用相同的缩放因子),或者可以允许纵横比在限制量内变化。
例如,在对覆盖区进行跟踪并且与其边界框比较的实施例中,覆
盖区的原始高度为HO且宽度为WO的解说词在与空白区交叉时产生高
度HN和宽度WN的新覆盖区。注意可以将边界框视为“充分大”类型的覆
盖区。“恰好覆盖区”精确地是被解说词文本(例如包括阴影或光圈效
应)改变的那些像素,而不会是其他像素。扩大的覆盖图是将恰好覆
盖图膨胀了r(最小释放值)。通常,覆盖图可以是复杂、不连续、不
连贯的区域。覆盖图的边界框版本简化了计算,并且通常产生相似的
结果(尽管可能是不同的结果)。
图18示出了空白区ABCD,原始覆盖图WXYZ,新的覆盖图
WXY’Z’,及其相应参数。在这种情况下,WO=WN。可以将简单缩放
因子(通常由‘s’表示)确定为更低或更小的高度比HN/HO(或sH)以
及宽度比WN/WO(或sW)。由于‘s’用于缩小解说词的比例,因此‘s’
小于或等于1。针对右眼和左眼解说词图像中的每一个重复该计算,以
用于整个呈现。备选地,可以基于右眼和左眼解说词图像边界框来计
算缩放因子,但是当高度比保持相同时,宽度比变为(WN-|DO|)/(WO
-|DO|),其中,DO表示对象的视差(例如,针对车101的视差401),
因为要用于该方法,保留右眼图像与左眼图像之间的原始视差。
如果要保留解说词的纵横比,则在步骤1704处对高度和宽度使用
相同的缩放因子‘s’来缩放解说词。然而,如果允许以变量‘v’改变纵
横比,在一个示例中,可以将该变量预先确定为30%(v的值是策略问
题,尽管实际上值2(200%)变得难以读取),则可以将经缩放的解说
词的其他轴(相对于比值或缩放因子较小的轴)的比例从‘s’增加到
s(1+v),其中s(1+v)具有最大值1。例如,如果从整体上看需要将解说
词的宽度收缩到50%(s=0.5),则这不一定意味着必须将高度缩放相
同量。变量‘v’限制允许高度保留像现在这样的程度(如果v=0,则将
高度缩放到恰好为宽度)。然而,不期望使缩放的高度超过(即,大于)
其原始值,因为这增大了覆盖区,并且可能引入负面美学效果。
作为示例,假定立体解说词原始总共为500个像素宽(即,包括
右眼和左眼解说词图像),并且50个像素高,其中视差为20个像素(备
选地,右眼和左眼解说词图像分别为480个像素)。从而,WO=500,
HO=50,并且DO=20。在特定呈现环境中(例如,在步骤1601处建立的
呈现环境),假定在步骤1602处确定的空白区将该特定解说词的原始覆
盖区水平裁剪了100个像素,而在垂直方向没有裁剪,以产生WN=400,
且HN=50(未改变)的新覆盖区。这产生sW=(WN-DO)/(WO
-DO)=380/480,或者近似0.79,以及sH=HN/HO=1。如果针对缩放的解
说词保留原始纵横比,则针对解说词的高度和宽度而选择的缩放因子
是0.79。然而,如果允许纵横比变化高达v=30%,则针对高度的缩放
比应当高达0.79*(1+v)或者大约1.03,根据以上约束(即,不会将高度
缩放到超出其原始值),该缩放比会固定值1.0。如果空白区将该特定
解说词的原始覆盖区水平裁剪了200个像素(而不是100个像素),则应
当sW是280/480=0.58(大约),并且sH应当高达0.58*(1+v),或者大约
0.76。注意保留了解说词的原始纵横比的情况与设置v=0%相同。
为了应用该字幕调整,如在步骤1703中所确定的将原始字幕缩放
了sW和sH。向缩放的解说词应用平移,以确保该缩放的解说词完整地
位于新覆盖区内,因此完整地显示,即不会被裁剪。对于这种平移的
良好选择是使字幕位置沿着任一轴或方向不变,假如沿着该方向解说
词的尺寸没有缩减(例如,如果的HN/HO比值为1,则垂直位置可以
保持不变)。如果必须缩减或者缩小沿着给定方向的解说词尺寸,则沿
着该轴的解说词位置可以被设置为,使得缩放的解说词的中心与新覆
盖区的中心一致。该缩放和平移的应用可以在步骤1704处进行,或者
可以被延迟,直到例如在步骤1608处完成对该特定调整的选择为止。
作为澄清,方法1700首先通过图16的步骤1606,其中对从步骤1705估
计的质量执行步骤1607处的测试。
如果多个调整方法(例如,图17A-D中所示)可用于步骤1606中,
则对于第一种方法,在步骤1705处应当对呈现质量值进行估计。如果
在步骤1607处来自第一方法的结果被视为不充分,则在步骤1606中评
价另一解说词调整方法,其中将覆盖区和字幕重置到原始位置和设置。
例如,在原地缩放解说词调整过程1700的情况下,用于步骤1705的呈
现质量值应当基于较小或较低的缩放因子(由‘s1’表示),即,两个比
值HN/HO和WN/WO中的较小者。例如,被缩减到其原始大小的50%的
解说词与被缩减到其原始大小的70%的解说词相比产生较差的质量呈
现。实用函数,或者在这种情况下质量函数‘qs’通常通过经验评价来产
生,以确定提供的参数与呈现质量值之间的适当关系(例如,较小的
缩放因子,或者与特定方法相关的其他参数)。例如,可以通过考虑以
其原始大小的100%的解说词是理想的,来构造针对基于较小缩放因子
的呈现质量的示例性函数,该函数由(‘qs(s1)’)表示。注意,qs是“基
于缩放的质量函数”,对于本实施例而言,qs基于作为较低或较小缩放
值s1(即不是s(1+v))的缩放因子。在这种情况下,qs(1)=1。当然,
根本看不到高度或宽度被缩减到0%的解说词,并且该解说词呈现了非
常不好的呈现质量,从而qs(0)=0。如果原始覆盖区与空白区之间的交
叉为空,则会出现这样的情况。
然而,被缩放到如此小以至于不可读的解说词还表示类似的较差
呈现质量。从而,对于特定给定字体和其他情况,存在预定缩放因子
s0(或者阈值缩放值),在该预定缩放因子以下质量函数为零。因此,
qs(s0)也等于0。如果s0等于0.5,则这意味着在50%的缩放因子处或以下
字体不可定,并且使得解说词没有价值。对于这样的解说词,质量函
数‘qs’可以以较小的缩放因子以及在其以下解说词变得无用的缩放因
子来表达:
方程3:
q s ( s l , s 0 ) = if ( s l , ≥ s 0 ) → ( s l - s 0 ) / ( 1 - s 0 ) otherwise → 0 ]]>
这里,括号内的部分表示条件等式。如果s1大于或等于s0,则(s1-
s0)/(1-s0)用于计算qs的结果。如果s1<s0(其他条件),则是qs是0。
对于大于阈值缩放因子s0并且高达1的缩放因子s1,该示例性质量
函数获得从0到1的线性质量函数。质量函数可以针对不同字体而不同。
例如,一些字体可能不是如此限制性的(例如,滑体、非斜体、非粗
体),并且可以被估计具有s0=0.3。同样,花式草写字体对缩放非常敏
感,并且具有s0=0.9。通常,s0是经验上确定的值,并且有时是主观的。
此外,本文提出的方程仅作为说明并非限制。
随着步骤1705处对呈现质量的估计,过程1700可以在步骤1706返
回(并且根据需要返回值步骤1607),记录对所提出的解说词变化的估
计质量。
方法2
图17B示出了第二字幕调整过程1710。过程1710允许字幕水平和/
或垂直平移,以根据需要利用缩放保留在空白区内。此外,检查重新
定位字幕的新覆盖区下层的图像中任何对象的视差是否需要调整字幕
本身的视差(从而字幕通过出现在字幕所覆盖的另一对象后面而不会
与该对象的视深度冲突)。
过程1710在步骤1711处开始,初始条件是原始解说词或字幕的覆
盖图没有完全包含在空白区内。在步骤1712处,识别被原始字幕覆盖
区侵犯的空白区的边缘(例如,Redmann的WO 2010/096030所教导
的),并且将字幕平移足够量以克服这些边缘侵犯。如果在步骤1703
处,字幕没有全部位于空白区内,例如,如果字幕比空白区宽,则在
步骤1714处,对字幕进行缩放以适合空白区(并且如上,缩放可以保
留原始纵横比,或者根据预定策略来修改该缩放)。
在步骤1714之后,将字幕的视差与平移且可能缩放的字幕的新覆
盖区下层的立体图像的视差相比较。如果字幕具有小于或等于下层立
体图像的视差(即,字幕看起来接近字幕下面的对象),则认为字幕调
整是成功的,并且在步骤1718处处理继续。
然而,如果经调整的字幕的视差大于其覆盖的对象的视差(或者
在预定最小视差差值内),则在步骤1716处将立体字幕的视差调整为小
于或等于下层对象的最小视差(或者小于或等于下层对象的最小视差,
而不是预定的最小视差差值)。
作为示例,如果处理美学策略,将重新定位的字幕限制为略微在
下层对象之上浮动,则首先将字幕的视差缩减到下层对象的视差,然
后缩减较小量(例如,预定最小视差差值),这可能是仅一个像素。这
种视差减小的结果是经调整的字幕不再施加与下层对象的冲突深度提
示。如果使用预定最小视差差值,则经调整的字幕通过(典型较小的)
预定最小视差差值引入的视深度清除下层对象。
然而,在一些情况下,视差的改变会因其立体字幕的新覆盖区大
小的增加。潜在地,这可以引起附加的边缘侵犯,或者可能引起先前
在步骤1715处没有考虑的对象覆盖。如果在步骤1717处检测到新覆盖
区的增大,则例程重复回到步骤1713。否则,在步骤1718处处理继续。
注意,对预定或动态计算的过补偿的明智使用会降低或消除需要
循环会倒步骤1713的可能性。例如,这样的过补偿可以包括:基于避
免边缘侵犯所需的最小值,将字幕(在步骤1712中)平移额外5个像素;
基于步骤1714中所需的最小值,将字幕的缩小额外50%;或者在步骤
1715中,当检验字幕覆盖区下层的最小视差的立体图像时,将检验的
区域水平地扩大额外15个像素。
在步骤1718处,进行对具有经修改或调整的立体字幕的呈现质量
的估计。类似于图17A的步骤1705,该质量函数应当至少部分基于缩
放因子(如在示例性方程3中)。然而,对于过程1710,还存在要关于
平移和视差(或者深度)变化而估计的质量效果。较大平移会冒着模
糊下层立体图像的重要部分或至少是感兴趣部分的风险。较大的视差
变化会引起字幕远离(在视深度方面)感兴趣的主平面(例如,当前
讲话者的脸部)。由于针对基于缩放的qs的原始质量方程用于原地缩放
过程1700,针对qt和qd的质量方程(即,分别基于平移和视差调整的
质量函数)是针对质量估计的适合候选,以与平移、缩放和视差调整
过程1710一起使用。
方程4:
q t ( t H , t V ) = ( 1 - | t H | 2 ) 1 2 × ( 1 - | t V | 2 ) ]]>
方程5:
q d ( ∂ d , d ∞ ) = ( 1 2 ) | ∂ d | d ∞ ]]>
tH=水平平移(作为屏幕宽度的一部分)
tV=垂直平移(作为屏幕高度的一部分)
(以像素为单位)
d∞=与出现在无限远的对象相对应的视差(以像素为单位)(即,
两眼分离)。
利用方程3,方程4和5中的每一个的形式提供小于或等于1的正质
量估计。例如,在方程4中,当给出空平移时,qt(0,0)=1。在针对方程
4的其他极限处,从图像的一个角到另一个角的平移(沿着水平和垂直
中的每一个不可能100%平移)产生非零结果:qt(1,1)等于大约0.35,
这是因为完全跨过屏幕移动的解说词(尽管是无美感的)是无用的。
解说词仍是可读的(假定其完整地保留在空白区内)。
此外,构造了方程4,使得水平位移与类似比例的垂直平移相比
几乎没有效果,这是因为为了读取英语,沿着水平方向的眼睛移动与
类似尺寸的垂直平移相比不那么直观。对于日语和其他垂直书写的语
言而言,经验结果可以相反。
以方程4的形式,括号内的每一项的指数(针对包括tH的项的收敛
‘1/2’,对于包括tV的项的发散‘1’)允许每个项的重要性或贡献相对彼此
进行比较。括号内的项分别具有0和1之间的值。从而任何正的有限值
指数会产生同样在0和1之间的间隔内。更具体地,如果指数为1,则平
移与对质量因素的影响之间的关系是线性的。对于小于1的指数而言,
较小平移的差值与较大平移的相同大小差值相比几乎没有效果。相反,
大于1的指数可以在其他质量函数中使用(即,不限于方程4中示出的
特定形式),并且对于较小平移产生较大效果,但是随着平移变大效果
转为下降。
分别地,括号内的每一项的分数中的分母(示例方程4中的‘2’)
还影响针对tH和tV中每一个的质量值的最大缩减。这些常数(分母和
指数)均可以根据对质量的经验评价来调整,以适合方程,从而提高
估计。此外,其他表达式(与方程4不同的表达式)也可以用作对质量
qt的测量。对于方程而言有价值的是不产生落在范围0至1范围之外的
qt值,但是这也可以通过固定到并不是方程本身固有的程度(例如,
如果给定方程实际上没有将它们的限制在0到1的范围中,则当结果小
于0时将qt设置为0,并且当结果大于1时将qt设置为1)或者通过提供不
同形式的方程来实现。
例如,一个备选形式接受针对由于平移而质量降低的经验上确定
的下值或下限(对于水平和垂直方向的平移分别表示为qminH和qminV,
这确保每个平移轴(或沿着特定轴或方向的每次平移,例如,沿着字
母的高度和宽度)的贡献不大于特定质量估计降低。如以下方程6所示,
当将这些值设置为qminH=0和qminV=0时,该方程会产生与方程4相同的
结果,其中括号内的项包括分母1(而不是方程4中所示的2)。然而,
由于qminH和qminV增大而接近1,方程所估计的最小质量(即,Qt(1,1))
增大。
方程6:
Q t ( t H , t V ) = ( ( 1 - t H ) 1 2 × ( 1 - q min H ) + q min H × ) × ( ( 1 - t V ) × ( 1 - q min V ) + q min V ) ]]>
基于平移的质量估计的又一种形式能够以相同方式处理沿着水
平和垂直方向的平移,其中,总计位移的幅度提供质量估计。应当理
解,各种形式的方程可以适合于提供质量估计,其中方程4和6提供两
个示例。
这种形式的质量估计的组合简单地可以是如方程7中所示的乘
法,方程7保留提供0和1之间的生成质量估计的特性。
方程7:
q ( s l , s 0 , t H , t V , ∂ d , d ∞ ) = q s = ( s l , s 0 ) × q t ( t H , t V ) × q d ( ∂ d , d ∞ ) ]]>
该方程还可以使用在过程1700中,但是由于tH、tV和均为零(由
于1700不提供平移和视差调整),因此生成的质量估计与方程3中的质
量估计相同。
类似于过程1700中字幕调整步骤1704,在步骤1714和步骤1716处
进行的实际调整既可以在呈现期间实时地执行,也可以对调整进行记
录并且在后续执行。
方法3
图17C示出了第三字幕或解说词调整过程1720。过程1720不仅允
许将解说词平移到均可见的区域(即,不会平移到可以被遮挡的任何
区域中),而且平移到下层对象不具有较小视差的区域(即,图像中的
对象应当出现在解说词后面的位置)。
在步骤1721处开始过程1720,其中初始条件是原始解说词的覆盖
区没有完全包含在空白区内。在解说词下层的立体图像对的深度图要
么具有立体图像(例如,作为元数据),要么从立体图像直接导出。在
步骤1722处,空白区(例如,来自图16中的步骤1602)与视差大于或
等于解说词的视差的立体对的区域交叉,以限定适合于将解说词布置
在其当前视差处的新空白区。
在步骤1723、1724和1726(也被称作过程中的循环)处,检验适
合于解说词布置的一个或多个潜在位置,并且针对每个位置确定缩放
因子和基于缩放因子和解说词平移(即,基于检验在位置处定位原始
解说词所需的平移量)来确定质量估计或质量函数。可以对这些潜在
位置进行彻底搜索(例如,通过逐行和逐像素光栅化空白区)、稀疏搜
索(例如,通过根据预定过程通过空白区来光栅化,例如每第十行和
列跳过)或者随机搜索(例如,通过针对每次重复拾取空白区内的随
机行和列)。在该上下文中,可以将“平移”视为通过循环(测试每个
可能位置)横贯的(x,y)空间中的光栅,其中平移量由循环的当前
{x,y}值减去原始解说词的{x,y}位置给出。
对于在步骤1723处选择的每个潜在位置,在步骤1724处确定缩放
因子,缩放因子产生具有在正检验位置处放置的解说词的纵横比的最
大矩形。如果该矩形至少像解说词的覆盖区一样大,则将缩放因子设
置为1。否则,将缩放因子设置为最大矩形与解说词的覆盖区的尺寸(线
性尺寸,例如,高度或宽度)比。该缩放因子表示解说词必须缩减以
适合当前位置处的空白区的量。在一个示例中,步骤可以适合于提供
沿着两个不同轴或方向的两个缩放因子。首先,确定为两个轴工作的
缩放因子。然后对于过约束的轴,确定高度变量‘v’的极限的容许再扩
展。解说词仍由于通过缩放因子‘s’减小了尺寸而劣化,但是如果改变
解说词的纵横比由于非零的‘v’指示,则可能通过其他轴的再扩展而恢
复一些可读性。可以使用适当实用函数来完成这样的选项。
一旦在步骤1724处确定了缩放因子(或因子),则可以在步骤1725
处确定质量估计,例如利用方程7(实现由于视差保持不变)。
如果质量估计好于(即,高于)针对该解说词的先前估计,则将估计
的质量保留为迄今为止的最佳,并将位置的缩放因子也保留为最佳。
注意如果已经获知(在步骤1724之前)如在方程4中例如基于平
移的部分质量估计低于迄今为止缩减的最佳质量估计(即,将来自在
过程1700中进行的平移的质量估计与在过程1720中进行的质量估计),
则可以获得效率。对于这样的位置,例如可以通过使用其他优化步骤
来跳过步骤1724处的缩放确定和步骤1725处更复杂的质量估计。
在步骤1726处,确定是否应当检验附加位置。如果对于可能位置
光栅化循环(无论彻底还是稀疏),并且如果保持可能位置,过程返回
至步骤1723。然而,在一些情况下,不需要检验所有位置。例如,如
果对位置的检验被布置为从在解说词的原始位置附近的测试位置开
始,并且前进至检验较远的位置,则只要方程4的质量估计超过在步骤
1725处进行的最佳质量估计,循环可以终止,这是由于具有更大平移
的所有位置具有来自方程7的更差质量估计。(注意方程4对经历纯平
移的重新定位字母的质量,排他性地返回0(无用)与1(理想)之间
的值。方程7采用方程4作为乘法中的一项,其中其他项基于缩放以及
视差的变化。类似地,将这些其他项约束为返回0和1之间的值。因此,
一旦方程7的任何单个项落在针对方程4找到的最佳值以下时,整个方
程7不能胜过方程4的结果)。
在步骤1727处,根据来自步骤1725的最佳质量估计来平移和缩放
解说词,同时保持相同的解说词视差。如上所述,穿过空白区逐步光
栅化来在步骤1723处进行解说词的后续平移,并且根据需要在1724处
确定缩放(如果不需要缩放则缩放是1)。在步骤1728处,过程1720将
找到的最佳质量估计连同调整的解说词返回至例如方法1600中的步骤
1606(或者备选地,如果实现方式在步骤1727处放弃调整,则连同调
整所需的平移和缩放因子返回)。
方法4
图17D示出了图17C的过程1720中平移并缩放解说词的第四解说
词调整过程1730(因此,图17D中的步骤1731、1732、1733、1734和
1739对应于图17C中步骤1721、1722、1723、1724和1726)。然而,过
程1730在步骤1735处引入测试,以确定立体图像部分与经调整的解说
词覆盖区(通过步骤1732确保不小于解说词的覆盖图)之间的视差的
差值是否实际上太大,例如,大于可以基于美学偏好的预定值。图13
和15示出了解说词1310与下层立体图像部分之间的视差差值被视为太
大使得图15中的解说词1310位于演员603前面较远位置处的示例。如果
在步骤1735处检测到该过度视差差值,则在步骤1736处调整解说词的
视差,使得适当地接近背景图像中的元素或对象的视差(例如,引起
解说词410的视差接近演员603的视差)。在步骤1737中,确定调整视差
的解说词的覆盖区是否增大。如果是,则处理返回至步骤1734以确定
另一优化所需的适当缩放因子。
然而,如果在步骤1737处确定覆盖区没有增大,或者如果在步骤
1735处确定下层视差与解说词的视差并没有什么不同,则在步骤1738
处进行质量估计,记录最佳质量估计,以及关联的平移、缩放因子和
视差调整。
在步骤1739处,如果对于解说词的可能布置存在要检验的又一位
置,则处理返回至步骤1733。否则,可以根据在步骤1738处记录的最
佳发现来调整解说词(或者这可以在稍后进行)。过程1730在步骤1741
处退出,将质量估计和经调整的解说词例如返回至方法1600的步骤
1606(或者用于进行适当调整的指令)。
上述方法可以应用于或适合于立体呈现的一个或多个帧中的解
说词布置。在一些实施例中,针对解说词的布置检验下层立体图像的
过程可以包括:针对单个帧不只是检验立体图像。通常针对多于一个
帧在屏幕上显示解说词,并且一些实践者可以选择一旦显示解说词就
将解说词保持在同一位置。在这样的情况下,可以通过考虑在显示解
说词的持续时间在该解说词下层的所有立体帧来进行解说词布置。解
决该问题的一种视差信息处理方式是对立体图像的视差图(或深度图)
进行求和作为针对至少在要显示解说词的整个持续时间所获取的每个
区域(例如像素或较大区)的视差最小值(即,最近视深度)。针对最
小视差要检验的区域对应于与解说词或其覆盖区交叠的区域。在许多
情况下,如果仅耦合获取或采样视差,则能够充分表示这种对视差图
求和。例如,可以针对要与解说词一起显示的立体图像或帧的相应数
目,通过确定在特定持续时间(例如解说词的显示间隔)上最小视差
值(基于每个像素或较大区),来处理视差信息。通常,在缓慢变化的
场景中,这样的信息不需要经常更新,并且即使连续传递视差以允许
这种计算,也不需要计算每个帧的视差。然而,对于快速移动场景(例
如,在体育或动作电影中),存在应当检验每个帧(对应于不同立体图
像)以确保不能忽视视差最小值的序列。
最后,已经示出了适用于修改具有原始设置视差以及立体图像中
的位置的3D解说词和字母本方法实施例。然而,这些实施例还适用于
适应2D解说词和字母布置,其中简单假定将初始视差设置为某预定值
(例如,零),或者被解说词覆盖区所覆盖的立体图像的最小视差(例
如,最近视深度)。这样,针对2D呈现而创建的解说词可以容易的适
合于相同内容的3D呈现。
图17A-D中的过程是不同方法或过程的说明,可以用于自动处理
(与手动处理相反)解说词或字幕(例如,文本和/或图形)以用于针
对3D图像或内容呈现的方法。在这些处理中,可以调整与解说词相关
联的一个或多个参数(例如,位置、尺寸(宽度和/或高度))以及视
差或视深度,使得可以在显示设备的特定区域(例如,影院屏幕的可
见区域,电视、计算机、蜂窝电话或其他移动设备的显示监视器)内
显示解说词,而不会在相对于3D图像或内容中的一个或多个对象以特
定视差或视深度提供解说词时被模糊或遮挡。例如,通过根据与解说
词附近的那些对象的特定关系来调整解说词的视差,可以避免与针对
观看者的深度提示信息冲突,获得改善的观看体验。
因此,针对3D内容呈现的方法通常包括:确定适合于字幕显示的
区域(可以被称作预定区,或空白区);确定具有给定初始位置、尺寸
和/或视差的的字幕位于该区域内。如果否,则根据一个或多个过程以
其字幕的位置、尺寸和/或视差来调整字幕。例如,可以通过沿着显示
平面中至少一个方向将字幕平移特定量来调整字幕的位置,并且可以
通过基于显示区域和字幕覆盖区应用至少一个缩放因子来调整字幕的
尺寸。可以通过与覆盖或交叠经缩放和/或平移的字幕的对象的至少一
个图像的视差相比较来调整解说词的视差,并且调整解说词的视差以
免与图像中的一个或多个对象的深度感知冲突,或者提供美学上更令
人愉悦的3D呈现。缩放因子、平移量以及视差变化也可以被称作调整
信息,调整信息可以用于处理供立体呈现实验的字幕。根据一个或多
个预定准则对经处理或调整的字幕进行评价,在合成到3D图像或内容
中以进行显示之前这可以包括质量测量(例如,使用质量函数)。
本发明的一个方面提供了一种具有其上存储有特定程序指令的
计算机可读介质(例如,存储器、存储设备、可拆卸介质等),当由一
个或多个处理器执行所述指令时,使得根据本发明原理实施例实现上
述方法。
本发明的另一方面是提供用于实现上述方法和过程的系统,例如
通过一个存储有算法或指令的一个或多个存储或存储器设备,当由系
统中的一个或多个处理器执行时,使得实现方法和/或过程。这种系统
的一个示例时具有具体被编程为执行上述方法和/过程的各个步骤的
处理器的数字电影服务器,例如,用于确定用于字幕显示的空白区;
播放数字内容文件;检验与空白区交叠的一个或多个字幕;根据建立
的规则或准则来评估或评价一个或多个字幕调整过程;以及为具有3D
内容的显示呈现经调整的字幕。
图19是示出了本发明的一个实现方式的框图。数字电影系统1900
包括数字电影服务器1910和适合于呈现立体图像的数字电影投影仪
1920。具有对存储设备1920的读取访问的数字电影服务器1910被配置
用于读取来自存储设备1912的作品,并且解码立体画面和音频要素。
通过连接1914向数字电影投影仪1920提供与立体字幕放映有关的画面
要素和定时信息,连接1914可以是单向或双向通信路径。数字电影投
影仪1920根据立体画面要素产生立体图像,并且通过透镜1922将生成
的图像投影到观众席上的屏幕(未示出)。通过数字电影服务器1910
项音频再现链(未示出)提供音频要素,音频再现链向观众席中的观
众传递与立体画面要素相关联或者附带立体画面要素的音频分量。
在当今配置中,通过数字电影服务器1910向投影仪1920通知存储
装置1912中存在对应的字幕要素。可以通过网络1918向投影仪1920通
信通知,网络1918经由相应连接1924和1916与投影仪1920和电影服务
器1910相连。然而,该系统还可以被配置为使得可以经由连接1914发
送通知和/或字幕。
在本发明中,针对输入到存储装置1926中的校正数据来检查如此
存取的每个立体字幕(例如,字幕510),以确定是否需要确定字幕(例
如,平移和/或缩放等)的变换。在字幕与由画面要素形成的图像合成
之前进行任何必要的变换。
如本领域技术人员已知的,可以在字幕文件中以不同形式提供字
幕。如果以“定时文本”形式提供字幕,则需要在投影字幕之前(无论
是否合成)呈现该字幕。然而,如果以“子画面”形式提供字幕,则可
以简单投影该字幕(无论是否合成)。在本讨论的上下文中,应当理解,
字幕的投影图像是指以上两种情况,而与在投影之前是否首先呈现字
幕无关。
在备选实施例中,对立体字幕的控制以及与立体图像的合成可以
通过数字电影服务器1910来执行,并且可以提供给投影仪1920,以准
备用于显示。
在又一实施例(未示出)中,适合家用的消费者设备(包括机顶
盒、或DVD播放器)可以执行对字幕的控制以及与立体图像的合成,
以在支持3D的监视器(即,能够显示立体图像的显示器)上显示。备
选地,对字幕的控制和与立体图像的合成可以完全通过支持3D的监视
器内的计算机来执行。
尽管上述涉及本发明的各个实施例,但是在不背离本发明基本范
围的前提下可以设想本发明的其他和另外实施例。这样,应根据所附
权利要求来确定本发明的适当范围。