用于游览全球影象的方法和系统 本发明涉及计算机系统和多媒体通信的领域,更具体地说,涉及视频存储和压缩,及视频交互式视频播放和游览的领域。
虽然这里所用的有些术语也包含着字典的含义,但是介绍一下面的某些术语的词汇可能是有益的。
Internet(″the Net″)(国际互连网):将全世界的计算机的连接在一个网中的连接系统。
TCP/IP:传输控制规约/互连网规约。一个包交换方案,互连网用来交换,发送和构建从e-mail到视频的数据。
World Wide Web(WW,″the Web)(全球网):国际互连网的应用让人们可通过按钮一下感兴趣的字或短语,从服务器到服务器和数据库到数据库的国际互连网交换寻找信息。一个国际互连网服务器支持顾客和提供信息。
Home page(家庭页):一个向国际互连网用户引导在国际互连网所存储的信息的多媒体内容表。
Server(服务器):一个根据另一个机器(″顾客″)命令执行一个任务的机器(计算机)。在本发明地上下文中,服务器的主要功能是为方便在全球分配所存储的信息。
Cleint(顾客):一个向服务器提供命令的机器,接收服务器的服务的机器。通常,一个顾客机器是由一个终端用户操作的,并响应于用户的命令。
Web Browser(全球游览器):一个在用户操作的顾客计算机上运行的程序。当用户用一个游览器游览全球网时,游览器作为一个国际互连网导游,允许顾客机器去显示由服务器支持的图标工作台,目录和搜索工具。
URL():Universal Resource Locater(环球资源分配器),一个字符串形式的电子邮件地址的全球文件版本,它唯一地识别一个全球提供的文件,申请人,或工具。
Hyperlink(超级链路):一个埋设在用户可理解的显示的和/或醒目的项目中的网络寻址工具,诸如一个字,一个短语,一个图标或一个图象。可以用其相应的Hyperlink访问一个URL。当一个在顾客机器上的用户通过用户接口选择突出的超级链路时,所属项目被检索以支持顾客全球游览器。
HTTP Hypertext transfer protocol:HTTP超级文本传输规约。在URL的起始处的字符串指示:由URL指定的文件或文档包括按HTTP定义的超级链路。
HyperText Markup Language(超级文本Markup语言)(HTML):HTML是由全球服务器使用的语言,用来生成和连接由全球顾客观看的文件。HTML使用超级文本文件。超级文本文件的其他的使用在下面的美国专利已经有介绍:
在1993年4月20日公布的Bernstein等人的US5,204,947;
在1994年三月22日公布的Bernstein等人的US5,297,249;和
在1994年十月11日公布的lewis的US5,355,472。
所有上述专利已经转让给TBM公司,收作本专利的参考文献。
近年来,视频数据压缩,存储和交互访问技术已经汇集一起,给寻求能远距离存储多媒体信息的用户提供了激动人心的前景。
在网络通信技术的领域,特别激动人心的是国际互连网的突起和其成就,即全球网络的建立。国际互连网和全球网已经给人以一种所谓“信息高速路”的印象。通过全球网获取信息已经被人戏称为(冲浪全球网)。
国际互连网不是一个单独的网络,也没有单独的拥有者,或控制者。国际互连网是一个无法控制的网络的网络。它是那些人们愿意互相连接在一起的许多不同的网络,公共和私人,大的和小的网络的联合体。由这些网络图象的合成网络不依赖于单个传输媒体。可以通过卫星链路,光纤通信干线,电话线,电缆电视线和局部无线电链路进行双向通信。
为了达到此目的,由国际互连网支持的全球网已经作为一种通信,广告,和订购手段支配了工业界。全球网方便了用户通过选择一个醒目的词,图形,或按钮(程序目标的表征图形)让人们可以从一个服务器到另一个服务器获取信息资源,人们可以运用称之为“超级链路”的策略。为了开发全球网,用户在其计算机上装上一个称之为“全球网游览器”特定的导航程序。
当前已有许多游览器投入使用。一般的例子是NetScape,Mosaic和IBM的Web Exporer(全球网开发器)。游览器让顾客的用户通过遍布全球的服务器获取存储在其中的信息。通过将文件或数据包从服务器存储器资源送到要求的顾客,由服务器将该信息送达到顾客。
游览器的一部分功能是为了提供图象或视频(即影象,下同)数据。通过适当指定的全球网页或接口可向一个在顾客机器上的用户提供全球静止图象或视频信息。静止图象也可由用户选择用作为超文本型链路以改进其他功能。例如,一个用户可通过选择一个静止图象来对视频进行编辑。
然而,视频数据目标是很大的,或更精确地说,在实时观看视频数据目标时,每单位时间的数据量是很大的。结果,用户获取所需的视频数据目标受到数据通过量的限制。现有市场的状态不可能通过国际互连网以一个用户满意的响应时间提供长于几十秒的实时视频。
因此,用来向提供获取数据目标,游览,搜索等等的多媒体和通信系统,必需考虑以最好地利用可提供的通过量以对用户最有用的形式提供视频数据的问题。
为此,让我们来看看视频数据压缩,存储,和交互访问的技术的现状。近来的工作已做得使视频资料在全球网可获取和使用。例如,由Amy T.Incremona著的于1995年八月发表在ADVANCEDIMAGING的题为“Automatically Transcribing and Condensing Video”一文中,描述了一个用来提供具有诸如一个伴音或闭路字幕的文本索引的视频的方法。静止图象连同附有该图象语音文本的副本一起提供(参见第60页)。该信息是以HTML格式提供的。于是,一个用户可利用在视频图象和道白或字幕文本之间的当时的对应的优点,为了寻找在相应于文本的已知点的图象中的所需点,用户执行对在文本的已知点的键词搜索。通过此键词搜索获得了在视频中的所需点。
在Shahraray等人的″Atomatic Generation of Pictorial Transcripts ofVideo Programs″(SPIE Vol.2417,512-518页)中描述了一种用于产生有闭路字幕信息相伴的视频程序的图象副本的自动著作系统。该系统采用一个具有一系列行的的表格,每行包含一个对一个图象位置的指针,而每个指针指向相对于该图象的文本段落的起始。一个用于GUI显示的视窗显示在上文的图4中,本发明的图1以简单的形式再现了该图。图1示出了一个视频图象2,一个闭路字幕文献子区域4和一个基本用户控制区域6。该基本用户控制包括一个“寻找”滑尺8。
于是,现有技术已经可使用根据相关的文本获取视频信息。然而,一个未被现有技术提供的用于获取视频的更一般的方法,可切断在视频图象和配音或闭路字幕文本之间的联系。
本发明的目的是为了提供一个便于用户通过诸如全球网这样的具有一个顾客服务器配置的通信媒体获取所存储的视频目标,观看和游览系统和方法。
本发明的另一个目的是为了提供用可方便地让用户获取所存储的目标而无需键入任何不是视频本身的实际部分的文本或其他伴随的标记。
为达到此目的和其他目的,本发明提供一种用来在一个用户的终端显示属于一个存储的视频目标的的视频数据目标信息的方法,该存储的视频目标包括一个当前起始点,一个当前结束点和和在它们之间的当前中间点。
该方法包括如下步骤:
首先,通过一个用户接口向用户提供在视频数据目标,最好是静止图象,中的一个序列表征图形的点。每个所提供的数据目标的表征图形或静止图象相应于在视频数据目标中的一个当前点中的一个点。在典型的情形下,其中用户是一个国际互连网/全球网用户,而视频数据目标则以一个可通过一个服务器遥控获取的方式被存储,提供视频数据目标的步骤包括执行一个适当的操作来识别在要用来提供表征图形的视频数据目标中的识别点。一个最好的技术是检测场景的转切。
然后,提供一个用户接口,包括一个让用户选择在第和第二当前点之间的间隔的装置。用户接口最好是一个图象用户接口(GUI),如可通过诸如IBM的OS/2计算机操作系统和微软公司的视窗操作系统的图形用户接口(GUI)。此外,最好也提供诸如一个视频屏幕和一个鼠标器的适当的接口设备。
最后,根据用户如此选择的间隔,提供一个序列表征图形,每个序列的表征图形相应于在视频数据目标中的一个相对的当前点,每个相对的当前点落在如上所述的第一和第二当前点。
因此,通过提供这一能力,本发明可使用户进入其所感兴趣的长而大的视频目标的一部分。本发明的优点是消除了如在上面讨论的现有技术那样需要使用伴随的视频目标的文本作为一个支撑。
虽然本发明主要作为方法进行了说明,但是熟悉本技术领域的人们可以认识到,诸如一个常规的数据处理器,包括一个CPU,存储器,I/O,程序存储器,一个连接总线,和其他适当的部件都可以被编程或设计的便于实施本发明。这样一个处理器可包括用来执行本发明方法的适当的程序装置。此外,一个制成品,诸如一个用于数据处理系统的预先录制的磁盘或其他类似的计算机程序产品,可包括一个在其上预先录有用来指导数据处理系统以方便实施本发明的方法的存储媒体和存储装置。应该认识到,这种装置和产品也落在本发明的精神和范围中。
图1是用于视频游览的现有技术的图形用户接口的示意图。
图2是典型的分布式计算机系统的系统方框图,该计算机系统有内部和外部网络,包括国际互连网,将顾客连接到全球网服务器和其他服务器,顾客系统能够将本发明结合进去。
图3是说明本发明的高级别流程图。
图4是图3的流程图的一个步骤的更详细的实施的流程图。
图5是图4的一个步骤的更详细的实施的流程图。
图6是一个本发明的图形用户接口的示意图。
图7是一个本发明的图形用户接口的示意图。和
图8是一个图3的流程图的一个步骤的更详细的实施的流程图。
图2示出了一个典型的通信和处理系统,包括节点(计算机,处理器等等)和其间的通信媒体,组成了一个包括顾客,服务器,信息存放器,和通信链路和通信网络的典型的资源组合的信息传送方法。总的用9表示的各个节点,由总的用7表示的各个网络将其互相连接。这些网络包括局域网络(LANs),宽域网络(WANs)等等。
下面对图2的讨论将集中在某些用来说明本发明的新颖性和非显而易见性的各个部件。在图2的系统中,顾客机器10包括一个计算机或其他装置(如上所述),运行一个全球网游览程序。利用一商用计算机程序产品可向一个通用计算机提供由顾客10运行的结合了本发明的程序。所述产品可以例如时预录的软盘11,或其他适合的计算机可读的记录介质。在这样一个计算机程序产品中,实施为一个程序码的本发明的新颖性和非显而易见性的特征已经被预编程到磁盘中,以方便销售和指导顾客机器10按本发明进行操作。
顾客机器10通过一个诸如国际互连网的通信网络12被连接到全球网服务器14。以常规的方式提供对国际互连网的物理使用。用于在顾客10和服务器12之间交换消息的总的指令规约则还是常规的。
顾客机器10最好是一个智能计算机系统,诸如一个IBM PS/2计算机,一个IBM的薄板膝上计算机,或一个IBM RISC系统6000工作站。通过一个适当的通信接口软件工具,诸如IBM的OS/2WARP连接软件产品,将通信耦合到网络。
在顾客机器10中的该全球网游览器最好是IBM的全球网开发器软件产品,或诸如NetScape或Mosaic工具这样的等效的软件工具。此计算机系统10是双向与OS/2WARP连接设备相耦合,通过一条线路或一个无线系统与服务器机器14相连。
如上所述,由服务器14运行的结合了本发明的程序以诸如软盘15这种预录的媒体的形式提供给通用计算机。此时,本发明的新颖性和非显而易见的特征的程序码被预录在磁盘15上,以便于上市销售。
图3是一个说明本发明的方法的操作的高级别流程图。一本发明的最佳实施例采用一个支持一个利用HTML格式的用户接口的顾客机器,并采用全球网。本发明的许多功能可在服务器上执行。然而,下面的描述将有助于对顾客机器的用户考虑的优越之处。
开始时,用户选择一个视频目标(步骤20)。这可以任何合适的方式进行。全球网提供许多格式,技术等,用来选择目标。在最佳的实施中,有用户选择视频目标以将一个请求通过全球网从顾客机器送达到一个服务器机器。具体地说,一个由服务器14提供给顾客10的全球网页,可包括一个图形接口,诸如一个超文本链路,用来使用户选择一个目标。一个方便该用户选择的最佳的方法是利用一个图形接口,诸如示于图6的全球网页(下面要讨论)。图6的全球网页,可用已知技术,例如用上述讨论过的现有技术,进行设计和实施。
在步骤22中,显示了响应于用户请求的在视频数据目标内的所选择的点的第一组表征图形。在实施该全球网的最佳实施例中,在步骤22中选择点的选择在服务器进行。在图4中给出了服务器对实施步骤22的更详细的的描述。
参阅图4,服务器首先接收一个用户的视频目标请求(步骤24)。该服务器获取视频目标(步骤26),并选择在目标中的一集当前点(步骤28,在图5中有更详细的描述)。服务器然后产生用于显示的所选当前点的表征图形(步骤30)。在一个实施全球网和HTML链路的最佳实施例中,当前点的表征图形是相应于在视频目标中的当前点的按钮图象。最后,最好通过从服务器到顾客机器发送一个诸如全球网页这样的图象来显示该信息(步骤32)。图6所示的全球网页是一个最佳的实施(下面要讨论)。
在详细地描述显示以前,先更详细地描述步骤28(选择当前点)。这可以任何合适的方式进行。一个可能的方式是在视频目标内随意选择当前点。
然而,当前点最好选择在视频目标的场景切换点。在本发明的最佳实施例中,图5更详细地显示了步骤28的实施。
参阅图5,图中给出了给相邻帧计算一个场景的变化量值(步骤34)。在一个具体的最佳实施例中,该变化量值是用计算一个在两帧之间的标称化相关进行的。(为了讨论目的,该帧将被称之为“图象”I和“模式”M,无需一定要在它们之间有任何当前次序或顺序。)
用直接相关来计算场景变化量值是可能的,此时,图象I的每个象素与模式M的相应的象素相乘,并积累乘积之和。在这样的方法中,利用行-列坐标或其他适合的方法可建立对应。
然而,一个特别最佳的方法如下所述:对每个图象I的象素,考虑在模式M中的对应点的周围。为了计算帧变化量值,在最接近于在图象I中的点的值的模式M邻近范围内的一个点,最好最接近于灰度值,被在图象I中的点的值相乘。
业已发现,使用具有最接近值的相邻点而不是使用精确相对应的点可改进对在高频图象数据的区域的移动的响应。对一个在图象中的给定点,可以任何适当的方式建立在模式中的一集相邻点,诸如用根据如行-列坐标这样的的系统来识别图象点和用将模式相邻限定为坐标的行和列的点匹配于图象点的点或限定为行和列的坐标是在图象点坐标值的上或下的点这样的方式来建立模式中的一集相邻点。
此外,为了减少对在基本上相同的场景的图象之间的照明的变化的灵敏度,采用标称化相关型式。
一个推荐的将相关函数和如上所述的象素周围搜索相接合的公式已经发现工作得挺好。具体地说,由于该公式以标称化,所以易于门限。该公式如下:r=nΣiIiMi-ΣiIiΣiMi(nΣiIi2-ΣiIi2)(nΣiMi2-ΣiMi2)]]>
式中,r为场景改变量值,而n为用在量值计算中的活动象素的数目。取决于用户的特定环境或优先,n可以是在帧中的总象素,或用来计算的总数的子集。
Ii是在图象I中的象素中的第i个象素(诸如厚度值)。Mi时在模式M中的象素之一的值,该Mi要与Ii配成对用来进行如上所述的场景变化计算。
用来区分象素间的下标i是一个用于本讨论目的一个简化的表示。用来区别象素的任何对一个特定的实施是可以理解为或认为是适当的方法都可以使用。例如,如果象素是一个矩形陈列,则其下标可为一个编序的对,诸如行列计数。一个极坐标系统,或其他认为对一个特定的实施是适合的其他系统也是可以使用的。
注意,为此目的,Mi既可是第i个象素,或在第i个象素附近的一个象素。这就是说,如果,例如,使用一个行-列坐标系统,一个如上定义的相邻区域,则图象点Ii=Ir,c和模式点Mi=M(r+1).c配成对,如果M(r+1).c有最接近于在所定义的区域中的任何模式点的Ir,c值。
一旦已经给在视频目标中的相邻帧的各种对确定了场景的变化值,这些值被与帧变化门限相比较(图5步骤36)。如上所述,这一表示产生一个标称化的场景变化值,该值对两个系统帧为0。因此以具有0和1之间的值的场景变化门限工作是方便的。然而,任何合适量值的门限也是可采用的。
然后,作一个测试(步骤38)以确定是否该值比门限值大(大于或等于门限;根据此特定的实施都是适合的)。该测试结果确定是否该两帧被看成为有场景变化(步骤40,42)。
图6和7示出了用户接口的一个最佳图形的实施例。在一个要被用于诸如全球网这种环境的最佳实施例中,图形接口是用HTML来实施的。不再详细地描述该实施,因为这些对熟悉HTML和其他图形用户接口的人们都是已知技术。
先参阅图6,该图示出了提供给用户的选择菜单。该菜单列出了可提供的视频目标。该所列的目标可以包括显示视频目标内容的一个简图,提示或描述该视频目标的文本标题。此外,该菜单可以包括其他用户使用的信息,诸如所存储文件的字符。例如,图6示出了一个图例“Energy 1 mpeg file”50,这告诉用户视频目标包含根据MPEG数据压缩标准压缩的图象信息。该所列的视频目标最好以HTML格式提供,这样用户可以用诸如在按钮图象或其他标识符上作鼠标按钮来选择一个视频目标。
响应于用户的命令,服务器14获得视频目标并如图4所示,响应于顾客机器10。在图3的步骤44中,一个用户接口用来观看和游览视频目标。图7示出了在全球网上使用的一个最佳实施例。
图7示出了一个可在顾客机器上显示的用来给用户观看的图形图形。本发明显示在视频目标中的几个当前点的表征图形。最好,这些图形如按钮图形52一样被显示。为了减缓压缩,按钮图形52以当前次序,以用户主动安排,诸如从左到右的次序排列以显示,形成一个“货架”,使用户能以其眼睛从左到右扫描,了解在视频目标中的图象或事件。
为了进一步帮助用户了解所显示的按钮图象出现在视频目标的何处,给出了全部视频目标的表征图形和由所显示的按钮图象所覆盖的部分的图象。在图7中,上述是用滑条54表示的。滑条54是水平显示的,但是也可用任何适合的配置,最好是一适合于用户直觉的配置。滑条54的整个水平长度代表了视频目标的持续时间,标记56图象所显示的按钮图象在视频目标内的相对位置。最好,标记56有一个相对于整个滑条54的相对宽度,以反映被所有所显示的表征图形覆盖的的整个视频数据目标的部分。
标记56可用熟悉常规的GUI视窗应用中的滑条的用户的技术来移动,即用一个鼠标器将光标打到标记56上,按下鼠标器并通过移动鼠标器来拖拉标记56。此外,可提供一个GUI控制嵌板55,它具有一些诸如左,右,左快,和右快按钮。通过将光标置于其中一个上述按钮,或其他适合的控制按钮,并按一下鼠标器按钮,用户就可将标记56沿滑条54滚动。
不管用户用什么特定的技术沿滑条54移动标记56,在视频数据目标中的点的表征图形的出没表示标记56正覆盖的视频数据目标那部分的关键帧。于是,通过移动标记56,用户选择其想要仔细观测的视频数据目标那部分。
此外,根据本发明,诸如连续号这样的识别标记可被指定给关键帧,为了帮助用户保持跟踪那些关键帧已经被检查过,或在何处在视频数据目标内出现一个给定帧。该信息可被提供给用户接口。一个图象计数57以连续数的形式显示该识别标记。例如,在图7中,标记56是在滑条54的左端。就是说,在所观看的视频数据目标中的第六按钮被显示。于是,图象计数57显示一个1的数值,指示最左的简图图象视频数据目标的第一简图(也就是说,最早的当前点)。如果一个用户想要使用控制55或标记56来移动视频数据目标,则当标记56被移动到右边,和在后面视频数据目标中的不同的简图52出现时,图象计数57的值将增加。结果,用户可识别一个特定感兴趣的图象并将它记住以便将来以此图象计数值获取该图象。
如上所述,用按钮图形52和滑条54显示了在一个最佳实施例中的图3的步骤22。
此外,根据本发明,用户接口包括用来选择在数据目标内的一个间隔的装置。该间隔是根据所显示的表征图形来选择的。最好,用户选择一个图象,并根据在所选择的表征图形和另一个诸如为该图形的当前相邻一个图形之间的间隔来选择间隔。为方便观看和游览而提供用户接口的图3的方法的步骤44是用提供选择装置予以实施的。
根据本发明,在步骤44中提供的用户接口包括一个选择在两个关键帧之间的间隔的装置。最好用来选择一个间隔的装置与本发明的系统的图形用户接口GUI结合一起工作。也就是说,用户使用一个GUI输入装置,诸如一个鼠标器,来从显示在显示器上的间隔的几个表征图形选择一个所需要的几个的表征图形。
图8中显示了一个执行步骤44的最佳的方法。
参阅图8,用户首先提出一组视频目标的帧的表征图形,诸如在图7所示的图形系列52。用户观察简图并确定其所要详细地考察的一部分视频目标是落在两个简图之间。用户通过图形用户接口选择间隔(步骤58)。简图实施为一个超文本链路,而用户的简图的选择表明其对在简图和一个邻近简图(最好是紧跟所选择的图形的后面的图形)之间的间隔感兴趣。
用户的图形的选择是以作为一个超文本选择的已知方式处理的。服务器检查在被选择的帧与下一帧之间的视频目标部分。以类似于图4的步骤28的方式,服务器选择新的一组落于所选择的帧与下一帧之间的关键帧(步骤60)。
以基本上类似于上述(图4的步骤30和32)的步骤的方法显示所选择的帧(步骤62)。此外,滑条56反映通过移动和/或改变宽度选择间隔。
在许多情形下,用户想要将上述处理反复几次,以便将视频目标的感兴趣区收窄到一个特定小区域。于是,在图8示出了一个重复回路(步骤64和回到步骤58的回路)。
虽然以上已详细地描述了本发明的最佳实施例,但是应该认识到,在不脱离本发明的权利要求的范围内,熟悉本技术领域的人们还可对这些实施例进行修改和调整。