实时数字修改代表原始图象的视频数据流的方法.pdf

摘要
申请专利号：	CN98803459.X	申请日：	1998.03.11
公开号：	CN1251235A	公开日：	2000.04.19
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回\|\|\|实质审查的生效申请日:1998.3.11\|\|\|公开
IPC分类号：	H04N5/272	主分类号：	H04N5/272
申请人：	麦托福集团;
发明人：	迈克尔·D·斯蒂芬诺
地址：	美国得克萨斯州
优先权：	1997.03.18 US 08/819,921
专利代理机构：	中国国际贸易促进委员会专利商标事务所	代理人：	酆迅
PDF下载：	PDF下载

内容摘要

一种可利用备用背景(72)实时替换输入视频信号的指定背景部分(54)的方法。该方法利用参考视图(48)的实际背景图象作为基础,测定其最终图象内的背景元素和前景元素,结果可以与诸如色度健和最终遮挡技术之类的传统蓝屏处理相比,只需要一台个人计算机、一部摄象机和软件。然而,在此案例中,背景图象可以为摄象机拍摄的具有充足固定光源的任何合理的静态场景。通过比较参考视图的背景图象,视频流得以实时方式修改,随后传送到其原始目的地。以实时方式对以上信号施加多种信噪处理算法,以达到视觉上可接受的遮挡。

权利要求书

1：一种用包括一个存储器和一个可见显示屏幕的计算机系统实时对代表原始图象的视频数据流进行数字化替换的方法，以便去除部分原始视频图象并替换新元素来创建一个新视频图象，该方法包括以下步骤：在所述计算机存储器之第一存储单元中的一个数据结构中，至少存储表示第一输入视频数据流中所述原始图象的一帧数据；在所述显示器上显示所述已存储的原始图象；从表示后来已改变的原始图象的第二输入视频数据流中捕获实时视频，并在所述计算机存储器之第二存储单元中的一个数据结构中存储表示所述已改变的原始图象的数据；比较表示具有改变的所述原始图象的第二视频数据流中的数据与所述已存储的原始图象视频数据，以区别背景元素和前景元素；删除所述已存储的原始图象与后来已改变的原始图象的公共背景元素，只留下所述后来已改变的原始图象的前景元素；利用备用背景替换元素替换所述后来已改变的原始图象的所述背景元素；以及仅在所述备用背景替换元素上显示所述后来已改变的原始图象中的前景元素，以形成所述新图象。
2：权利要求1的方法还包括以下步骤：利用一部固定摄象机，以所述第一输入视频数据的方式获取所述原始图象，并且以第二输入视频数据的方式获取所述后来已改变的原始图象；将所述摄象机之第一和第二输入视频数据耦合到所述计算机；以及将所述原始图象的所述第一输入视频数据以及所述第二实时视频数据流的所述第二输入视频数据数字化，以便分别在所述存储器之第一存储单元和第二存储单元中存储。
3：权利要求2的方法还包括以下步骤：使所述原始图象免于移动；以及对所述原始图象进行充足照明处理，以便在比较所述数字化的第二实时输入视频数据流与所述已存储的数字化的原始图象时，能够检测和分割背景元素和前景元素。
4：权利要求3的方法还包括以下步骤：利用所述摄象机中的象素接收器创建所述第一和第二视频信号，一个象素接收器生成一个输出信号，输出信号包含表示第一输入视频数据流携带的已存储的原始图象和第二视频数据流携带的已存储的实时输入原始图象的值；以及在所述存储器中创建第一组数据结构，以便存储来自所述象素接收器的值，该值表示原始图象中的偏差，原始图象照明动力中的偏差，以及由生成表示所述原始图象的第一输入视频数据流的摄象机象素接收器造成的象素信号值中的偏差。
5：权利要求4的方法，其中比较表示所述已改变的原始图象的第二实时视频数据流中的视频数据与已存储的原始图象的数据的步骤还包括以下步骤：在所述存储器中创建第二组数据结构，以便存储表示以下偏差的数据，即第二实时原始图象中的偏差，照明动力中的偏差，以及由第二实时原始图象的摄象机象素接收器造成的象素信号值中的信号偏差。比较存储在所述第二实时原始图象之所述第二数据结构中的所述数据的象素值与存储在所述第一数据结构中的对应象素数据值，以便确定所述第二实时原始图象中的前景元素和背景元素。
6：权利要求5的方法还包括以下步骤：比较表示所述已改变的原始图象的所述第二实时视频数据流中的数据与已存储的原始图象数据；以及生成只表示所述前景元素的信号，以便在所述备用背景替换元素上显示。
7：权利要求6的方法还包括以下步骤：将一个人添加到所述第二实时视频数据流，以便替换至少一部分所述原始图象。
8：权利要求6的方法，其中形成所述备用替换图象的步骤还包括以下步骤：提供一段移动视频、一幅位图、动画或者任何能够以数字格式表示的图象作为备用替换图象。
9：一种通过识别并将原始图象的所有部分分割为前景元素和背景元素、利用替换元素替换原始图象的背景元素创建新图象以实时方式数字编辑表示原始图象的视频数据流的计算机辅助系统，该系统包括：一台用于显示所述视频数据流中包含的所述原始图象的可视显示器；一部摄象机，该摄象机具有一个与其相连的用于对所上述摄象机捕获的并表示所述原始图象的视频数据进行数字化的设备；一台与所述可视显示器和所述数字化设备相连的计算机；用于存储所述视频数据流的数字化原始图象的计算机中的第一存储器；所述摄象机和数字化设备获取包含表示原始图象的数据的第二实时视频数据流并对之数字化；用于存储所述视频数据流的数字化的第二实时原始图象的计算机中的第二存储器；用于存储程序指令的计算机中的第三存储器，其中程序指令用于比较数字化的第二实时原始图象与已存储的原始图象，以便检测和分割前景元素和背景元素；一幅备用替换背景图象，存储在第四存储器中，可由所述已存储的程序指令获得以便在所述可视显示器上显示；通过利用备用替换背景图象替换其背景元素，修改所述第二实时原始图象；所述撮象机和相关设备获取具有替换背景图象的所述已修改的原始图象并对之数字化；以及所述程序指令比较所述已修改的原始图象与所述已存储的原始图象，以便只获取前景元素，并且在备用替换图象上显示所述前景元素，从而形成新的图象。
10：一种计算机存储器产品，其中含有一种程序，该程序通过删除部分原始图象并替换该元素，以实时方式数字修改来自摄象机之象素接收器的表示原始图象的视频数据流，该程序包括以下步骤：在第一计算机存储单元中存储表示原始图象的第一视频数据流中的视频数据；比较表示添加有替换部分的原始图象的实时视频数据流与已存储的原始图象，以便只获取替换部分；以及控制计算机响应存储在计算机存储器中的程序指令，以便在备用替换图象上仅仅可视显示原始图象的替换部分，从而形成新的图象。
11：权利要求10的程序还包括以下步骤：访问存储数字化视频信号的计算机的第一存储单元中的第一组数据结构，数字化的视频信号表示第一视频数据流携带的原始图象，包括原始图象照明动力、移动中的偏差，以及摄象机象素接收器造成的象素信号值中的偏差；访问存储数据的计算机存储器中的第二组数据结构，该数据表示其中具有第二实时视频数据流中之替换部分的原始图象的偏差，原始图象之照明动力、移动中的偏差，以及的象素信号值中的信号偏差；控制计算机，以便对包括替换部分的第二实时视频流的存储数据与已存储的原始图象数据进行比较，确定前景元素和背景元素。

说明书

实时数字修改代表原始图象的视频数据流的方法
    本发明一般涉及数字图象处理，更确切地说，涉及用于修改实时视频数据流的系统和方法，该系统和方法通过删除部分原始图象并替换部分元素创建新图象而无需采用传统的蓝屏技术。

    在动画和视频界，通常将两幅或多幅图象合并为一个场景。例如，可以将一幅气象员图象与另一幅气象图图象结合起来表示站在气象图前面的气象员。主要采用“蓝屏”处理实现以上组合图象技术，在蓝屏处理中，以纯蓝为背景拍摄一幅图象，并且以第二图象替换蓝色背景。可以电子或通过光学摄影技术实现以上替换。

    人们对现有“蓝屏”处理进行了各种改进。美国专利No.4,968,132公开了一种产生阴阳遮片(matte)的移动遮片处理过程，该效果可以在计算机上逐帧替换或修改，同时该遮片可用于在常规电影摄制或视频记录中产生特殊效果而无需蓝屏背景。此外，在美国专利No.4,800,432中，一个视频差分键生成器具有一幅已存储的参考视频图象。利用绝对差分电路比较输入视频图象与参考视频图象，该绝对差分电路去掉两幅视频图象中不同的对应象素，即从较大的象素中去掉较小的象素，从而产生一幅差分视频图象。可以过滤以上差分视频图象，随后输入到转换函数电路以产生一个输出，该输出可以作为合成视频图象的关键信号。

    如果能够实时执行以上费力费时的功能，如果视频帧的分析能够更好地理解各视频帧内的图象构成，并且如果还能完全避免使用蓝屏技术的话，则以上背景替换方法具有显著优势。

    本发明简化了从视频图象中删除背景场景并利用备用背景替换以上背景的处理过程。可以使用简单PC计算机代替现有技术的复杂计算机系统。在本发明中，固定摄象机生成的一系列的视频帧(或一帧)被拍摄下来。这些图象和它们帧与帧之间地细微变化，诸如高度、颜色、阴影、微小的移动以及摄象机本身产生的正常偏差，都会从摄象机传送给计算机，在计算机中这些图象被软件以实时方式分析生成视频的数据描述。如同它是被计算机拍摄的。

    随后使用已捕获视频的数学描述分析同一场景的新的视频分割，以便确定该场景是否发生任何变化。相对于原始数学描述而言，将落在预置容差之内的新视频元素称为背景。将落在预置容差以外的新视频元素称为前景，并且可以从背景中分离出来。对不同前景和背景视频元素的理解和分离使得能够修改新的视频流。

    例如，可以将背景改变为一个全新图象，而保留前景不变。背景图象可任意为所希望的移动视频、位图或动画之一。

    因此，无须采用蓝屏就能实现传统蓝屏处理的功能性。

    因此，本发明的目的在于通过采用仅有软件的程序设计机制以实时方式从实况视频场景中删除背景图象，并且利用包含原始前景元素的备用背景图象以实时方式替换以上背景图象，其中仅有软件的程序设计机制采用实况视频场景元素的数学描述而并不采用传统的蓝屏处理。

    因此，本发明涉及利用计算机系统以实时方式数字修改实况视频场景的方法，其中计算机系统具有一个存储器、一个可视显示器以及一个与计算机相连的固定摄象机，以便将来自摄象机的视频信号传送到计算机，并在计算机中形成经过修改的视频场景。这是通过以下处理完成的，首先以数字方式捕获并且以存储器的第一数据结构数学描述实况视频场景(以下称为“参考视图”)的一帧或几帧。接着，由计算机数字化并捕获实况视频场景的各后继帧，用软件数学描述各个新帧并存储在存储器的第二数据结构中。利用熟练技术人员可用的多种信噪处理算法以实时方式比较以上第一和第二数据结构，并且从最近捕获的帧中数学删除参考视图的背景图象。此外，在该阶段中，假定存储器第三数据结构中的不同背景图象的数学描述是可用的，如录制的视频、位图或动画，则可以将其代入第二数据结构代替已被删除的参考视图的背景图象，从而创建数字化帧的新的数学描述。最后，将该帧的数学描述转换回视频信号并在可视显示器上显示，或者传送到诸如视频会议参与者或捕获文件之类的任何适当目的。因此，以上处理的结果得到以下现象：原始视频场景(参考视图)中的任何前景元素现在被叠加到一个创建新图象的不同背景上。

    结合以下最佳实施例的详细说明，本发明的上述特点和其他特点将会更加显示出来，其中相同数字表示相同元素，附图为：

    图1(A)-(D)分别表示显示参考视图时的显示屏幕，显示数学删除参考视图后的黑色(空白)屏幕，检测到新前景元素的黑色屏幕，以及利用先前的前景视图代替参考视图形成新图象的置换视图；

    图2概要表示获取图1所示屏幕的方式；

    图3表示算术布尔异或运算，该运算匹配两组待匹配布尔数据集之间的重复位值，布尔数据表示以标准数字数据格式存储的参考视图，其中把参考视图与表示实况视频场景的数据进行数字比较，以便仅留下并未在两个场景中同时出现的数据；以及

    图4是一个流程图，该图表示本发明的创新步骤。

    图1(A)-(D)表示本发明之创新处理中的基本步骤。在图1(A)中，捕获并在计算机的可视显示器上显示一幅参考视图。参考视图被定义为存储在计算机存储单元之数据结构中的一系列有限数字化视频帧的数学描述。参考视图被用作典型视频场景，以便从随后捕获的数字视频帧中分离出前景元素和背景元素。根据所选择的算法，一幅参考视图可以由一幅或多幅数字化视频帧组成。

    通过比较参考视图，从已捕获的各帧中数学删除同一视图的后继视频场景。如图1(B)所示，修改算法的参数(或者手工或者利用软件自动)直至显示屏幕完全空白(在此案例中选择黑色，但是可以轻而易举地选择白色或任何其他颜色)，空白表示以实时方式从数字化视频流中完全删除参考视图。

    图1(C)所示的屏幕表示当某人进入摄象机捕获的场景时达到的效果。由于该人并不是参考视图的一部分，所以软件处理认为他是前景元素，并以叠加在黑色背景前方的方式出现。该软件以实时方式从数字化视频流中数学删除除该人之外的所有场景。

    图1(D)表示利用备用视图替换已删除的参考视图的能力。可以利用计算机图形、动画或视频数字替换参考视图，以得到该人位于备用视图前方的现像。因此，图1(D)所示的结果表示如何数字重排前景元素和背景元素以产生一幅新图象。

    图2表示用于创建以上新图象的本发明的装置。参考视图10包括一张桌子12和一把椅子14，桌子12和椅子14被定义为摄象机16捕获的可视图象。为了获得最佳效果，以上参考视图应没有多余动作并且应利用固定的、全局强光照明设备照明。

    必须将摄象机16安装在一个固定位置，并且与个人计算机18相连。个人计算机18包括安装摄象机以及摄象机运行时所需的适当视频软件和硬件。视频软件可以包括操作系统视频驱动程序、压缩程序、解压缩程序以及诸如视频会议或视频编辑软件之类的应用软件。个人计算机18对捕获的参考视频进行数字化，将其存储在利用部件19示意表示的存储器的第一单元，并进行显示。个人计算机18包含在其随机存取存储器(也利用部件19示意表示)中运行的软件系统。当表示部分参考视图的各帧出现时，软件系统从摄象机16捕获视频信号。正如参数20所示，捕获各后继帧。为了获得出众的结果，正在被摄象机16拍摄的场景应没有移动并有良好照明。软件的参考阶段20建立一组任何熟练技术人员均可轻易理解的数据结构，该数据结构包含表示场景、照明动力以及由摄象机接收器引起的象素值中的偏差的值。可以调整参考阶段，以便表现最佳场景。

    在计算机的监视器22上显示参考场景10，以方便操作员调整。该软件也可供自动调整之用。阶段24表示软件系统的删除阶段，软件系统的删除阶段从捕获的视频信号中数学删除参考视图，从而在计算机的监视器22上留下空白视图27(这里用黑色表示)。删除阶段要求对表示视频场景的各捕获帧的数据执行多遍信噪处理算法(周知技术)，以创建视觉上可接受的空白视图27。“视觉上可接受的”被定义为一幅稳定的单色(这里选择黑色)视频图象。

    软件的置换阶段28允许以实时方式在合成的视频信号上置换选择的背景图象。在用部件19示意表示的另一计算机存储单元中存储置换场景32，置换场景32可以为移动视频、位图或动画。可以将任何类型的可视图象或图象组放置在空白视图上。将置换图象逐象素映射到删除参考视图时留下的空白象素。由于各象素从相同坐标系映射到参考视图，所以可按预期方式显示置换图象。如图所示，随后在计算机的监视器22上显示新的置换视图32。

    现在操作员34进入摄象机的视野，从而向捕获的视频场景33增加了一个新元素。由同一摄象机16捕获以上视频场景。在部件19中的另一计算机存储单元中存储表示视频场景33的输入视频信号，并在计算机18的监视器22上显示。该信号传送到数字40表示的遮挡(matting)阶段并被处理，从而仅在置换视图32上显示位于实况场景33与原始参考视图10之可调容差内的数学偏差(在此案例中，人员34)，这样将其变换为新图象。显示监视器22上显示的新图象包括备用场景32和添加的人员34。如果该操作员所穿衣服的颜色恰恰与参考视图10中正后面的颜色不一致，则获得最佳结果。该结果与蓝屏处理的结果类似，并且可能引起漏过(bleed-through)效果。然而，与蓝屏处理不同，软件内的某些参数(由于它理解场景内的可视元素)可以计算出漏过效果的百分比并删除它。

    如前所述，可以轻而易举地将能够置换参考视图的备用场景换入或换出视频流。该处理可以很好地换算到彩色视频，尽管由于较大的颜色数据需求而要求PC的中央处理器比较大。可以将移动视频背景替换到表现办公会议的实况视频场景中。

    图3表示所有熟练技术人员周知的过分简单化的布尔异或排列，异或排列匹配两组待匹配二进制数据集之间的重复位值，本处理中利用这一概念获取空白视图。把行A的8比特看作存储的参考视图，而把行B的8比特看作从随后捕获的输入视频中捕获的一帧。如果行B的8比特与行A的8比特相同并须经异或运算，则输出将全为零，即产生一空白帧。假设行B表示图2所示的视频场景33的8比特并在计算机的显示器22上显示，通过在行A与行B之间进行异或运算，得到行C。请注意，与参考视图相比，视频场景中存在变化的地方才存在所示数据。因此，唯一显示的信息是由位3、位5和位8表示的数据的变化。

    因此，作为总结，将参考视图捕获到行A内并且以标准数字数据格式存储。然后须与行B所示的表示同一视图之实况视频场景的数据进行异或运算。这样从实况视频的各帧中去掉两个场景中同时出现的公共数据。在理想世界中，该操作是获取完美遮挡效果需要的唯一操作。然而，在现实中，由于光照、阴影随时间变化，参考视图中的微小移动以及CCD摄象机在连续帧之间的象素上的数字量化结果，为了分离前景元素和背景元素，必须对该数据多次应用一整套的高级信噪处理算法。反复使用以上一整套算法对熟练技术人员而言是众所周知的。

    图4表示本发明的创新处理过程。因此，该处理在步骤46开始。在步骤48，将表示实况视频的数据从诸如摄象机之类的输入设备发送到诸如PC之类的计算设备。在该PC内，将其转换为表示模拟数据的数字(如果摄象机没有进行该转换的话)，并传送到存储单元中的典型数据结构中。这就是捕获的参考视图。

    在步骤50，该步骤为判定步骤，确定是否捕获到正确场景。如果没有捕获到正确场景，则该处理沿52回到步骤48，直至捕获到正确场景。该处理由软件的操作员观察确定。

    当捕获到正确场景时，在步骤54，利用在步骤48中最初存储的参考视图中的数据，对来自当前视频输入的数字化的各捕获帧应用一连串的算法。以上算法试图匹配各帧内对应位置的象素的色度和辉度值与步骤48中作为参考视图而最初存储的对应色度和辉度象素。当确定一个匹配时，将该帧内的象素位置标记为空白。

    由于将模拟数据转换为数字数据时的光照、阴影、移动以及量化结果内的偏差，故与后继各帧内同一视图相对应的象素值可能改变。因此，创建表示以上全部信息的数据结构，并由存储器内的软件维护。随后，对输入的视频数据应用复杂的众所周知的信号处理算法，即“过滤器”，以便在各帧之间进行匹配时精确地标识各象素，从而将其标记为空白。用这种方法，从捕获到的视频场景中删除了在步骤48捕获的参考视图。对输入的视频数据的各捕获帧重复该处理。在判定步骤56，确定是否从捕获到的视频中完全删除了参考视图。可以手工调节或利用软件自动调节背景删除等级，以便从当前视频输入中删除最大数量的参考视图。如果并未完全删除该场景，则该处理沿58返回到步骤54。如果软件或操作员确定参考视图被充分删除，则该处理沿60移动到步骤64，在步骤64随着用户进入摄象机的视野，场景被改变。通常在该步骤中，某人(在摄制界中称为人物“(talent)”)进入摄象机正在捕获的场景中。由于人物象素数据并不是参考视图的一部分，所以该软件判明人物象素值与原始象素值不匹配，并把他们看作是前景元素。人物象素没有被删除，并出现在图1(C)所示视频的空白帧内。在步骤66，可以对捕获到的视频输入应用额外的信噪处理算法，以便增强图1(C)所示空白帧中的人物或“主角”图象。这些过滤器可以是非常完善的。例如，如果人物的领带与图1(A)所示参考视图中的背景的颜色匹配，则观察到“漏过”。然而，通过应用适当的过滤算法，根据前景元素包围领带这一事实，可以由该软件进行复杂推测以阻止将领带标记为空白(由于它匹配领带正后面的参考视图的象素数据)。这是诸如色度键和最终遮挡(ultimatte)之类的传统广播技术不能达到的重要特征。可以手工或利用软件自动实现以上过滤器。

    在步骤68，如果人物的图象是可以接受的，则该处理前进到步骤72。否则，该处理沿70返回到步骤66，在步骤66继续执行过滤器直至在步骤68正确显示该人物。

    当在步骤68正确显示该人物时，该处理前进到步骤72，在步骤72可以利用备用背景替换视频场景的空白部分。以上新图象可以为能够在计算机系统内数字表示的任何图形图象，并将创建人物在新背景之前的错觉。通过以逐帧为基础利用新图象的对应象素替换对应的空白象素，实现新图象的替换。利用这种技术，如果人物移动，则将显示他在新背景之前移动。背景可以为能够逐帧处理的事先录制的视频。这样得到在移动背景之前的人物效果。

    如果会话期在步骤74结束，则处理在步骤78停止。如果会话并未结束，则处理沿76移动，回到步骤72。

    因此，公开了一种创新系统，该系统能利用选择的背景实时替换输入视频信号的指定背景部分。该系统利用参考视图的实际背景图象作为基础，创建一幅其最终结果可以与诸如色度键和最终遮挡技术之类的传统蓝屏处理相比的新的视频图象，但是只需要一台个人计算机、一部摄象机和软件。然而，在此案例中，背景图象可以为摄象机捕获的具有充足固定光源的任何合理的静态场景。以实时方式修改视频流，随后传送到其原始目的。

    权利要求书中的相应结构、部件、动作及功能或步骤加功能性描述的等同物目的在于包括用于完成这些功能的任何结构、部件或动作。