多媒体分段和索引的基于上下文与内容的信息处理.pdf

上传人:a**** 文档编号:501149 上传时间:2018-02-19 格式:PDF 页数:35 大小:1.60MB
返回 下载 相关 举报
摘要
申请专利号:

CN01802837.3

申请日:

2001.07.18

公开号:

CN1535431A

公开日:

2004.10.06

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回|||实质审查的生效|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

皇家菲利浦电子有限公司;

发明人:

R·S·雅辛施

地址:

荷兰艾恩德霍芬

优先权:

2000.07.28 US 60/221,403; 2001.03.09 US 09/803,328

专利代理机构:

中国专利代理(香港)有限公司

代理人:

杨凯;王忠忠

PDF下载: PDF下载
内容摘要

公开用于信息处理的方法和系统,例如,用于多媒体分段、索引和检索。所述方法和系统包括使用概率框架进行例如音频/视觉/文本(A/V/T)的多媒体集成。多媒体内容和上下文信息两者均通过概率框架来表示和处理。此框架例如由贝叶斯网络和分级先验表示,所述框架是以图形方式由级描述,每级具有一组层,每层包括表示内容或上下文信息的多个节点。至少第一级的第一层处理诸如A/V/T域中对象的多媒体内容信息或其组合。如下面进一步描述的那样,不同级的其它层描述多媒体上下文信息。每个层都是贝叶斯网络,其中每个层的节点解释下一“更低”层和/或“更低”级的某些特征。节点及其连接一起形成扩充贝叶斯网络。多媒体上下文是正被处理的多媒体信息(音频、视觉、文本)的环境、情况和基础结构。多媒体信息(内容和上下文)在层和级内以不同粒度级和不同抽象级组合。

权利要求书

1: 一种用于处理信息信号的数据处理装置(502),它包括: 至少一级,其中第一级包括: 第一层(602),它具有第一多个节点,用于从所述信息信号抽 取内容属性;以及 第二层(608),它具有至少一个节点,用于利用另一层或下一 级中选定节点的内容属性为所述至少一个节点确定上下文信息,并用 于集成在所述至少一个节点的某些所述内容属性和所述上下文信息。
2: 如权利要求1所述的数据处理装置(502),其特征在于还包 括第二级,所述第二级具有至少一层,所述至少一层具有至少一个节 点,所述至少一层用于利用另一层或下一级中选定节点的内容属性为 所述至少一个节点确定上下文信息,并且用于为所述至少一个节点集 成某些所述内容属性和所述上下文信息。
3: 如权利要求2所述的数据处理装置(502),其特征在于所述 第一级的第二层的至少一个节点包括从自更高层或所述第二级级联至 所述至少一个节点的信息来确定所述上下文信息,并用于集成所述至 少一个节点的所述信息。
4: 如权利要求1所述的数据处理装置(502),其特征在于每级 与一组分级先验有关。
5: 如权利要求1所述的数据处理装置(502),其特征在于每级 由贝叶斯网络表示。
6: 如权利要求1所述的数据处理装置(502),其特征在于所述 内容属性是从包括音频、视觉、关键帧、视觉文本及文本的组中选择 的。
7: 如权利要求1所述的数据处理装置(502),其特征在于每个 层的所述集成被安排成在不同的粒度级为所述至少一个节点组合某些 所述内容属性和所述上下文信息。
8: 如权利要求1所述的数据处理装置(502),其特征在于每个 层的所述集成被安排成在不同的抽象级为所述至少一个节点组合某些 所述内容属性和所述上下文信息。
9: 如权利要求7所述的数据处理装置(502),其特征在于所述 不同的粒度级是从包括节目、子节目、场景、镜头、帧、对象、对象 部分和像素级的组中选择的。
10: 如权利要求8所述的数据处理装置(502),其特征在于所述 不同的抽象级是从包括图像中的像素、3-D空间中的对象和抄录文本 字符的组中选择的。
11: 如权利要求1所述的数据处理装置(502),其特征在于所述 选定节点通过有向非循环图(DAG)中的有向弧彼此有关。
12: 如权利要求11所述的数据处理装置(502),其特征在于: 假设与父节点有关的属性的真实,选定节点与把所述选定节点定义为 真的属性的cpd有关。
13: 如权利要求1所述的数据处理装置(502),其特征在于所述 第一层还被安排成为所述第一多个节点中的每个节点把某些所述内容 属性分组。
14: 如权利要求1所述的数据处理装置(502),其特征在于每个 层的所述节点对应于随机变量。
15: 一种用于处理信息信号(500)的方法,所述方法包括以下步 骤: 使用概率框架对所述信息信号进行分段和索引,所述框架包括至 少一级,所述至少一级具有多个层(600-608),每个层具有多个节点, 其中所述分段和索引包括: 为第一层(602)的每个节点从所述信息信号抽取内容属性; 使用在另一层或下一级中的选定节点的内容属性,在第二层 (608)确定上下文信息;以及 为所述第二层(608)的至少一个节点集成某些内容属性和所述 上下文信息。
16: 如权利要求15所述的方法,其特征在于所述确定步骤包括: 利用来自从更高层或级级联到所述至少一个节点的信息中的上下文信 息,并用于集成所述至少一个节点的信息。
17: 如权利要求15所述的方法,其特征在于所述抽取步骤包括抽 取音频、视觉、关键帧、视觉文本及文本属性。
18: 如权利要求15所述的方法,其特征在于所述集成步骤包括在 不同的粒度级为所述至少一个节点组合某些所述内容属性和所述上下 文信息。
19: 如权利要求15所述的方法,其特征在于所述集成步骤包括在 不同的抽象级为所述至少一个节点组合某些所述内容属性和所述上下 文信息。
20: 如权利要求18所述的方法,其特征在于所述不同的粒度级是 从包括节目、子节目、场景、镜头、帧、对象、对象部分及像素级的 组中选择的。
21: 如权利要求19所述的方法,其特征在于所述不同的抽象级是 从包括图像中的像素、3-D空间中的对象及字符的组中选择的。
22: 如权利要求15所述的方法,其特征在于所述确定步骤包括利 用使另一层或下一级中选定节点的内容属性有关的有向非循环图 (DAG)。
23: 一种计算机程序产品,所述计算机程序产品允许可编程设备 在执行所述计算机程序产品时起如权利要求1到14项中的任何一项权 利要求所述的数据处理装置(502)的作用。
24: 一种用于处理信息信号的装置(502),所述装置包括: 存储器(502),它存储处理步骤;以及 处理器(502),它执行所述存储器中存储的所述处理步骤,以 便(i)使用至少一级,所述至少一级具有多个层,每个层具有至少一 个节点;(ii)为第一层的每个节点从所述信息信号抽取内容属性;(iii) 利用在另一层中选定节点的内容属性或下一级的上下文信息,在第二 层确定上下文信息;以及(iv)为节点组合某些内容属性和所述上下 文信息。

说明书


多媒体分段和索引的基于上下文与内容的信息处理

    诸如来自因特网或商业电视的多媒体内容信息特征在于其纯卷量和复杂性。从数据角度来看,多媒体分成音频、视频(视觉)和抄录信息。此数据可以是非结构化的,即处于其原始格式,它可被编码成视频流,或者被结构化。它的结构化部分由其内容信息来描述。这可以从表示视觉域中对象的像素群集跨越到音频域中的音乐旋律和口语内容的文本摘要。基于内容的多媒体信息的典型处理是所谓的自底向上法和自顶向下法的组合。

    在自底向上法中,多媒体信息地处理从也被称为低级的信号处理级开始,对于该处理,在音频、视频和抄录域抽取不同的参数。这些参数一般描述空间和/或时间上的局部信息,诸如视觉域中基于像素信息或音频域中的短时间间隔(10ms)。这些参数的子集经组合产生中级参数,中级参数一般描述区域信息,诸如对应于视觉域中图像区域的空间区或音频域中的长时间间隔(例如,1-5秒);高级参数描述更多的语义信息;这些参数通过中级参数的组合产生;此组合可在单域内或涉及不同的域。此方法要求记录许多参数,并且对这些参数估计中的错误敏感。因而,它不但容易损坏而且复杂。

    自顶向下法是模型驱动的。假定应用域,利用构造自底向上法的输出的特定模型,以帮助对这些输出增加健壮性。在此方法中,模型的选择是关键,它不能以任意的方式来实现;此处域知识很重要,并且这要求对应用域的约束。

    随着专业人员和普通大众可用的多媒体信息量的增加,这样的信息的用户要求(i)个人化,(ii)快速方便访问多媒体(例如视频)序列的不同部分,以及(iii)交互性。在过去几年中,取得的进展直接或间接满足了这些用户要求的某些方面。这包括开发了更快的CPU、存储器系统和媒体、以及编程接口。对于上面的个人化要求,诸如TiVo的产品允许用户依据其用户简档和电子节目指南来记录所有或部分广播/有线/卫星电视节目。个人(数字)视频记录器中的这个相对新的应用域要求增加新的功能。这些功能范围从用户简档到商业与节目分离及基于内容的视频处理。PVR集成了PC、存储器和搜索技术。因特网查询语言的开发允许访问主要基于文本的多媒体信息。虽然实现了这些发展,但显然存在着改善信息分段、索引和表示的需要。

    通过根据本发明原理的方法和系统,减少或克服了与诸如多媒体分段、索引和表示的信息处理相关的一些问题。所述方法和系统包括使用概率框架对诸如音频/视觉/文本(A/V/T)的多媒体的集成。此框架除通过使用基于内容的视频外、还通过使用多媒体上下文信息扩大多媒体处理和表示的范围。更具体地说,概率框架包括至少一级,该级具有一个或多个层,其中每个层包括表示内容或上下文信息的多个节点,所述级由贝叶斯(Bayesian)网络和分级先验表示。贝叶斯网络组合有向非循环图(DAG)和条件概率分布(cpd),在有向非循环图中,每个节点对应于给定(音频、视觉、抄录)多媒体域的给定特性(参数),并且每个有向弧描述两个节点间的因果关系,每个弧一个cpd。分级先验增大贝叶斯网络的范围:每个cpd可以通过循环使用Chapman-Kolmogorov等式,由增大的内部变量组表示。在此表示中,每个内变量与特定级的一个层有关。如上所述,不具有任何内部变量的cpd描述标准贝叶斯网络的结构;这定义了基级。这种情况下,节点与基于内容的视频信息有关。随后,具有单个内部变量的cpd描述第二级的节点之间的关系或此第二级的节点与基级的节点之间的关系。对于任意数量的级,这被重复。除此之外,通过形成贝叶斯网络,每一个级中的节点而彼此相关。此增大的级组的重要性在于包括多媒体上下文信息。

    多媒体上下文信息在分级先验框架中表示为除基本级外不同级中的节点。多媒体上下文信息由作为视频信息基础的“特征”或“模式”来确定。例如,为了分割和索引电视节目中的音乐剪辑,我们按诸如音乐节目(MTV)、交谈节目或甚至是商业节目的种类来区分电视节目;这是电视节目中的上下文信息。如果也确定语义信息,则此增加的上下文信息可大大减少与电视节目有关的视频处理,所述电视节目具有大量的数据且处理特别复杂。多媒体上下文的特征在于它单独在音频、视觉和文本每个域内被定义,并且它可以被定义用于来自这些不同域的信息的组合。上下文信息不同于内容信息;一般说来后者处理对象及其关系,而前者处理涉及对象的环境。在电视节目中,内容“对象”定义在不同的抽象层和粒度层。

    因此,通过组合使用内容和上下文信息,本发明允许根据多媒体信息的语义特征来对多媒体进行分段和索引。这允许在多媒体信息描述中(通过索引)有(i)健壮性、(ii)通用性和(iii)互补性。

    在本发明的一个例如用于视频探测(VS:Video Scouting)的说明性实施例中,在第一级中有五个功能不同的层。具体地说,每个层由节点来定义,且“更低”节点通过有向弧与“更高”节点有关。因此,使用了有向非循环图(DAG),并且每个节点定义视频探测系统描述的给定特性,而节点之间的弧描述它们之间的关系;每个节点和每个弧与cpd有关。假定与“更高”级中父节点有关的属性的真实,与节点有关的cpd测量定义节点的属性为真的概率。分层方法允许区别不同类型的处理,每个层一种处理。例如,在电视节目分段和索引框架中,一个层可用于处理节目段,而另一层可处理种类或节目风格信息。这允许用户选择在例如在节目子节目场景镜头(shot)帧图像区图像区部分部分像素的不同粒度层的多媒体信息,其中场景是多个镜头的集合,镜头是基于色彩和/或亮度级变化而分割的视频单元,而对象是信息的音频/视觉/文本单元。

    视频探测的第一层过滤层包括电子节目指南(EPG)和简档,

    一个用于节目个人爱好(P_PP),而另一个用于内容个人爱好(C_PP)。EPG和PP为ASCII文本格式,并且它们用作用户选择或交互作用的节目内的段/事件或电视节目的初始过滤器。第二层特点抽取层被分成三个域:视觉、音频和文本域。在每个域中,彼此独自处理信息的一组“滤波器组”选择特定属性的信息。这包括每个特性中的信息的集成。并且,使用来自此层的信息,对视频/音频镜头进行分段。第三层工具层集成了特点抽取层每个域中的信息;其输出是帮助索引视频/音频镜头的对象。第四层语义处理层组合来自工具层的要素。这种情况下,也可以发生跨域集成。最后,第五层用户应用层通过组合来自语义处理层的要素来分割并索引节目或节目段。此最后层通过PP和C_PP反应用户输入。

    阅读下面结合附图进行的详细说明之后,可以更容易地理解本发明,附图中:

    图1是基于内容的方法的操作流程图;

    图2说明上下文分类法;

    图3说明视觉上下文;

    图4说明音频上下文;

    图5说明本发明的一个实施例;

    图6说明在图5实施例中使用的级和层;

    图7说明在图5实施例中使用的上下文生成;

    图8说明在图5实施例中使用的群集操作;

    图9说明具有多个级的本发明的另一实施例;以及

    图10说明具有两级的本发明的另一实施例,示出了每个级的层和级之间的连接。

    本发明在涉及与嵌入电视设备中的硬磁盘记录器、个人视频记录器(PVR)的技术方面特别重要,在授予N.Dimitrova等人于1999年11月18日申请的题为“音频/数据/视觉信息选择、存储和传送的方法与装置”的美国专利申请09/442960中公开了这类视频探测系统,通过引用将其结合在此,所述专利还公开了视频数据库和因特网的多媒体信息的智能分段、索引和检索。虽然本发明关于PVR或视频探测系统进行描述,但这样安排仅出于方便目的,要知道,本发明本身不限于PVR系统。

    显示本发明重要性的一个应用是基于内容和/或上下文信息进行的电视节目或子节目选择。例如,用于电视设备的硬磁盘记录器的当前技术使用EPG和个人简档(PP)信息。本发明也可以使用EPG和PP,但除这些之外,它包含执行视频信息分析和抽取的额外一组处理层。其核心是生成内容、上下文和语义信息。这些要素允许视频信息的快速访问/检索以及在不同的信息粒度层上的交互作用,特别是通过语义命令的交互作用。

    例如,用户可能想要录制某部电影的某些部分,例如JamesCameron的Titanic(泰坦尼克号),同时他观看其它电视节目。这些部分应对应于电影中的特定场景,例如从远处看到泰坦尼克号沉入海中、Jake和Rose之间的恋爱场景、不同社会角色的成员之间的打斗等。明显地,这些要求涉及到高级信息,该信息组合了不同级别的语义信息。根据EPG和PP信息,当前只可以录制整个节目。在本发明中,使用音频/视觉/文本内容信息以选择适当的场景。可以对帧、镜头或场景进行分段。并且也可以对音频/视觉对象,例如人物,进行分段。随后,根据此内容信息索引目标电影部分。对视频内容的补充要素是上下文信息。例如,视觉上下文可确定场景是否为室外/室内、是是否为白天/黑夜、阴天/晴天等;音频上下文从声音、话音等来确定节目类型以及话音、声音或音乐的类型。文本上下文更多地与节目的语义信息相关,并且这可以从相邻字幕(CC:closecaptioning)或语音到文本的信息中抽取。回到示例,本发明允许抽取例如夜景的上下文信息,而无需执行详细的内容抽取/组合,因而允许快速索引电影的大部分,和电影部分的更高级选择。

    多媒体内容

    多媒体内容是音频/视频/文本(A/V/T)对象的组合。如上所述,这些对象可以定义在不同的粒度级:节目子节目场景镜头帧对象对象部分像素。多媒体内容信息要通过分段操作从视频序列中抽取。

    多媒体上下文

    上下文指明正被处理的信息的环境、情况和基础结构。尽管上下文内在地被用于解释,但上下文的讨论与场景、声音或文本的解释不同。

    上下文的确定定义(closed definition)并不存在。相反,根据应用域(视觉、音频、文本)给出了许多操作定义。在下面的示例中提供了上下文的部分定义。例如晴朗日子里室外场景中的树、房子、人的对象的集合。这些对象是3-D视觉对象,从这些对象的简单关系中,我们无法确定语句“晴朗日子里的室外场景”的实际情况。

    通常,一个对象在其它对象的前面/后面,或以某一相对速度移动,或比其它对象显得更亮等。我们需要上下文信息(室外、晴朗日子等)消除上述陈述的岐义。上下文以这些对象之间的关系为基础。多媒体上下文被定义为抽象对象,它组合来自音频、视觉和文本域的上下文信息。文本域中,存在根据一阶逻辑语言的上下文的形式化,请参阅“上下文:形式化和一些应用”一文(R.V.Guha,Contexts:A Formalization and some Applications,Stanford Universitytechnical report,STAN-CS-91-1399-Thesis,1991)。在此域中,上下文被用作短语或句子的补充信息,以消除谓词的岐义。实际上,在语言学和语言哲学中,上下文信息被看作是确定短语或句子意义的基础。

    本发明中“多媒体上下文”概念的新颖性在于它组合了跨音频、视频和文本域的上下文信息。这是很重要的,因为在处理视频序列的大量信息,如2/3小时的记录A/V/T数据时,对于给定的用户请求,能够抽取所述信息中的相关部分是必要的。

    基于内容的方法

    图1示出了基于内容的方法的整个操作流程图。能够跟踪视频序列中的对象/人物、查看电视新闻节目中显示的特定面孔、或者选择声道中的给定声音/音乐,这是多媒体处理的重要新要素。“内容”的重要特征是在“对象”:它是A/V/T信息的一部分或一块,具有对用户的给定相关,例如语义。内容可以是视频镜头、镜头中的特定帧、以给定速度移动的对象、人物的面孔等。根本的问题是如何从视频中抽取内容。这可以自动或手工来完成,或以自动和手工方式的组合形式来完成。在VS中,内容被自动抽取。通常,自动抽取内容可以被描述成基于局部12和模型12的方法的混合。在视觉域中,基于局部的方法从给定视觉属性上的像素级(pixel level)开始操作,随后是此信息的群集以生成基于区域的视觉内容。在音频域中进行类似的处理;例如,在语音识别中,声音波形按等距10ms的邻接/重叠窗被分析,随后被处理,以便产生音素信息,其方式是通过随着时间的过去群集其信息。基于模型的方法在简化通过基于局部的方法完成的“自底向上”处理方面是重要的。例如,在视觉域中,几何形状模型被用于拟合像素(数据)信息;这有助于给定属性组的像素信息的集成。一个末解决的问题是如何组合基于局部和基于模型的方法。

    基于内容的方法有其局限性。视觉、音频和文本域中的局部信息处理可以通过简单的(基本的)操作来实现,并且这可以并行,因而改善了速度性能,但其集成16是一种复杂过程,且结果通常不好。因而,我们将上下文信息添加到此任务中。

    基于上下文的方法

    上下文信息限定了应用域,因而减少了数据信息的可能解释的数量。上下文抽取和/或检测的目的是为了确定视频的“特征”、“模式”或基础信息。通过此信息,我们可以:根据上下文信息来索引视频序列,并使用上下文信息以“帮助”内容抽取尝试。

    广义上说,有两种类型的上下文:信号和语义上下文。信号上下文被分成视觉、音频和文本上下文信息。语义上下文包括故事、意图、思想等。语义类型有许多粒度,在某些方面,具有无限的可能性。信号类型具有固定一组上述组成部分。图2是示出此所谓的上下文分类法的流程图。

    接下来,我们描述上下文分类法的某些要素,即视觉、听觉和文本信号上下文要素,以及故事和意图语义上下文要素。

    视觉上下文

    如图3所示,视觉域中的上下文具有下面的结构。首先,在自然的、合成的(图形、设计)或两者的组合之间进行区别。随后,对于自然视觉信息,我们确定视频大致为室外还是室内场景。如果是室外场景,则有关摄像机如何移动、场景镜头变化率及场景(背景)色彩/纹理的信息可进一步确定上下文细节。例如,包含缓慢室外随动拍摄/变焦的镜头可能是体育运动或记录片节目的一部分。另一方面,室内/室外场景的快速随动拍摄/变焦可对应于体育运动(蓝球、高尔夫球)或商业节目。对于合成场景,我们必须确定它是否对应于纯图形和/或传统的卡通似的画像。在完成所有区别后,我们仍可以确定更高级的上下文信息,例如室外/室内场景识别,但这确实牵涉到更精细的方案,使上下文与内容信息相关。视觉上下文的示例有:室内与室外、主要色彩信息、主要纹理信息、全局(摄像机)运动。

    音频上下文

    如图4所示,在音频域中,我们首先区分自然声音与合成声音。在下一级中,我们区分人的声音、自然声音与音乐。对于自然声音,我们可在来自生物对象与非生物对象的声音之间进行区分,并且对于人的声音,我们可以在性别、谈话、歌唱之间进行区别;谈话可在大声、正常和低声谈话之间进行区别。音频上下文的示例有自然声音:风、动物、树;人的声音:特征(用于说话者识别)、歌唱、谈话;音乐:流行、古典、爵士。

    文本上下文

    在文本域中,上下文信息可以来自相邻字幕(CC)、人工抄录或视觉文本。例如,从CC中,我们可以使用自然语言工具确定视频图像是否有关新闻、交谈节目等。除此之外,VS可以具有电子节目指南(EPG)信息及在(节目、内容)个人爱好(PP)方面的用户选择。例如,从EPG中,我们可以使用节目、时间表、电视台和电影表来指定节目类别、节目内容(故事、事件等)的短摘要及个人(演员、播音员等)信息。这已经有助于使上下文信息的说明变为能处理的要素类。没有此初始过滤,上下文说明成为相当显著的问题,会减少上下文信息的实际使用。因此,文本上下文信息对于上下文信息的实际应用是重要的。使EPG和PP在一起,处理CC信息以生成有谈论分析和归类的信息应引导上下文抽取过程。正是在这个意义上VS中的信息流是一个“闭环”。

    上下文信息的组合

    上下文信息的组合是上下文处理中强大的工具。特别地,使用例如关键字的自然语言处理所生成的文本上下文信息可以是引导视频/音频上下文处理的重要要素。

    上下文模式

    上下文抽取的一个中心要素是“全局模式匹配”。重要的是,不是通过先抽取内容信息并随后将此内容群集成稍后通过一些推理规则而彼此相关的“对象”来抽取上下文。相反,我们使用尽可能少的内容信息,并通过使用尽可能多的“全局”视频信息独立地抽取上下文信息。从而捕获视频中的“特征”信息。例如,确定某人的声音是女声还是男声、自然声是风声还是水声、所示场景是在白天和室外(高、漫射发光度)还是室内(低发光度)等。为了抽取这种展示其内在“规律性”的上下文信息,我们使用所谓的上下文模式的概念。此模式捕获要处理的上下文信息的类型的“规律性”。此“规律性”可在信号域或变换(傅立叶)域中被处理;它可以具有简单或复杂的形式。这些模式的性质不同。例如,视觉模式使用视觉属性的某种组合,例如,日常室外场景的漫射光,而语义模式使用符号属性,例如,J.S.Bach的组成风格。这些模式在VS的“学习”阶段中生成。它们一起形成一组。该组可始终被更新、改变或删除。

    基于上下文的方法的一个方面是确定适用于给定视频序列的上下文模式。这些模式可被用于索引视频序列或通过基于内容的方法帮助处理(自底向上)信息。上下文模式的示例有亮度直方图、全局图像速度、人的声音特征及音乐谱图。

    信息集成

    根据本发明的一个方面,例如内容和上下文信息的不同要素的集成(通过下面详细描述的概率框架)按层来组织。有利的是,概率框架允许精确处理确定性/不定性、跨模态的信息集成的通用框架,并具有进行信息循环更新的能力。

    确定性/不定性处理是诸如视频探测(VS)的大型系统中所需要的处理。所有模块输出内在地具有一定程度的不定性伴随它。例如,(视频)场景剪辑检测器的输出是帧,即关键帧;仅能依据给定瞬间的色彩、运动等变化的急据程度以某一概率做出有关选择什么关键帧的决定。

    图5示出一个说明性实施例,它包括接收输入信号(视频输入)500的处理器502。处理器执行基于上下文的处理504和基于内容的处理56,以产生分段的和索引的输出508。

    图6和图7进一步示出了基于上下文的处理504和基于内容的处理506。图6的实施例包括在VS应用中具有5个层的一个级。各层具有不同的抽象级和粒度级。层内或跨层的要素的集成内在地取决于抽象级和粒度级。图6所示的VS层如下。通过EPG和(节目)个人爱好(PP)的过滤层600构成第一层。第二层特点抽取层602由特点抽取模块组成。在此之后是作为第三层的工具层604。随后是第四层语义处理层606。最后是第五层用户应用层608。在第二与第三层之间,具有视觉场景剪辑检测操作,该操作生成视频镜头。如果EPG或P_PP不可用,则旁路第一层;这由圆圈中箭头符号表示。类似地,如果输入信息包含一些特点,则将旁路特点抽取层。

    EPG由专用业务生成,例如,Tribune(参阅Tribune网站http://www.tribunemedia.com),并且它以ASCII格式给出一组字符字段,其中包括节目名、时间、频道、收视率和简单摘要。

    PP可以是节目级PP(P_PP)或内容级PP(C_PP)。P_PP是用户确定的优选节目表;它可以根据用户的兴趣来变化。C_PP与内容信息有关;VS系统以及用户可以对它进行更新。根据被处理的内容的类型,C_PP可以具有不同的复杂程度。

    特点抽取层再分成对应于视觉610、音频612和文本614域的三个部分。对于每个域,存在有不同的表示和粒度级。特点抽取层的输出是一组特点,通常是每个域分开,它结合了有关视频的相关局部/全局信息。信息集成可以进行,但通常只是每个域分开进行。

    工具层是进行大范围信息集成的第一层。此层的输出由描述视频稳定要素的视觉/音频/文本特征给定。这些稳定要素应对变化表现健壮,并且它们被用作语义处理层的构件块。工具层的一个主要作用是处理音频、视觉和抄录域的中级特点。这表示信息是有关例如图像区域、3-D对象、诸如音乐或语音的音频类别及完整的抄录句子。

    语义处理层通过集成来自工具层的要素来结合有关视频内容的知识信息。最后,用户应用层集成语义处理层的要素;用户应用层反应在PP级输入的用户技术要求。

    在从过滤层到用户应用层中,VS系统越来越多地处理更多符号信息。通常,过滤层可被大致地分类为元数据信息;特点抽取层处理信号处理信息;工具层处理中级信号信息;并且语义处理和用户应用层处理符号信息。

    重要的是,根据本发明的一个方面,内容信息的集成跨特点抽取、工具、语义处理及用户应用进行以及在特点抽取、工具、语义处理及用户应用中进行。

    图7示出一个上下文生成模块。视频输入信号500由处理器502接收。处理器502把信号分用并解码成为视觉702、音频704和文本706分量部分。此后,分量部分在如圆圈“×”所示在不同的级和层内被集成,以生成上下文信息。最后,从这些不同的级组合的上下文信息与内容信息集成。

    内容域和集成粒度

    特点抽取层有三个域:视觉、音频和文本。信息集成可以是:域间或域内。域内集成是每个域分开地完成,而域间集成是跨域完成。特点抽取层集成的输出或者产生该层内(对于域内)的要素或者产生工具层中的要素。

    第一特性是域独立特性。假设FV、FA和FT分别表示视觉、音频和文本域中的特点,域独立特性按下面的三个等式,根据概率密度分布描述:

                  P(FV,FA)=P(FV)×P(FA),

                             等式1

                  P(FV,FT)=P(FV)×P(FT),

                             等式2

                  P(FA,FT)=P(FA)×P(FT)。

                             等式3

    第二特性是属性独立特性。例如,在视觉域中,有色彩、浓淡、边缘、运动、阴影、形状以及纹理属性;在音频域中,有音调、音品、频率和带宽属性;在文本域中,属性的示例有相邻字幕、声音到文本和抄录属性。对于每个域,各个属性相互独立。

    现在,更详细地描述特点抽取集成,我们注意到,对于给定域中的每个特性,通常有三个基本操作:(1)过滤器组变换,(2)局部集成,和(3)群集。

    过滤器组变换操作对应于将一组过滤器组应用到每个局部单元。在视觉域中,局部单元是例如像素矩形块中的一个像素或一组像素。在音频域中,每个局部单元是例如语音识别中使用的10ms时间窗。在文本域中,局部单元是字。

    局部集成操作在要消除局部信息岐义的情况下是必要的。它集成过滤器组抽取的局部信息。这是以下情况:对于计算2-D光流,正常速度要在局部邻域内组合,或者对于纹理抽取,空间定向过滤器的输出要在局部邻域内集成,例如计算频率能量。

    群集操作将每个帧或每组帧内局部集成操作中获得的信息进行群集。它基本上描述相同属性的域内集成模式。一种群集类型是根据给定属性来描述区域/对象;这可以是根据平均值或更高阶统计动差;这种情况下,群集隐含使用形状(区域)信息,目标属性的信息要被群集。其它类型是为整个图像全局执行该操作;这种情况下,使用全局鉴定,例如直方图。

    群集操作的输出被标识为特点抽取的输出。明显地,在特点抽取处理内,三个操作的每个操作之间具有相关性。这在图8中以图解法对视觉(图像)域作了示意。

    图8中的叉表示实现局部过滤器组操作的图像点(image sites)。会集到小实心圆的线示出局部集成。会聚到大实心圆的线条显示区域/全局集成。

    在每个局部单元(像素、像素块、时间间隔等)完成的操作是独立的,例如在图8中每个叉的位置。对于集成操作,结果的输出是相关的,特别是相邻邻域内的结果输出。每个区域的群集结果是独立的。

    最后,特点属性的集成跨域。对于这种情况,集成不是在局部属性之间,而是在区域属性之间进行。例如,在所谓的唇音(lip-speech)同步问题上,由张嘴高度、张嘴宽度或张嘴面积给出的视觉域特点与音频域特点,即与(孤立或相关)音素集成在一起,其中,张嘴高度即上下内唇“中心”连线的点之间的距离;张嘴宽度即内唇或外唇最左与最右点之间的距离;张嘴面积即与内唇或外唇相关的面积。这些特点中的每个特点本身是某信息集成的结果。

    集成来自工具层的信息以生成语义处理层的要素和集成来自语义处理层的信息以生成用户应用层的要素更加明确。通常,集成取决于应用类型。在后面两个层(工具、语义处理)中被集成的信息内的视频单元是视频段,例如镜头或整个电视节目,以便进行故事选择、故事分段、新闻分段。这些语义处理在连续的帧组中进行操作,它们描述有关视频的全局/高级信息,如下面进一步讨论的那样。

    贝叶斯网络

    如上所述,用于VS概率表示法的框架基于贝叶斯网络。使用贝叶斯网络框架的重要之处在于它在VS系统每个层内和/或每个层之间不同要素之间自动对条件相关性进行编码。如图6所示,在VS系统的每个层中,存在不同类型的抽取和粒度。并且,每个层可以具有其自己的粒度组。

    已知贝叶斯网络的详细描述,参阅“智能系统中的概率推理:似然推理网络”(Judea Pearl,Probabilistic Reasoning in IntelligentSystems:Networks of Plausible Inference,Morgan Kaufmann,San Mateo,CA,1998)和“贝叶斯网络学习教程”(David Heckerman,“A Tutorialon Learning with Bayesian Networks”,Microsoft Research technicalreport,MSR-TR-95-06,1996)。通常,贝叶斯网络是有向非循环图(DAG),其中:(i)节点对应于(随机)变量,(ii)弧描述链接变量之间的直接因果关系(direct causal relationship),和(iii)这些链接的强度由cpd给出。

    假设N个变量的集合Ω≡{x1,...,xN}定义DAG。对于每个变量,假定存在Ω的变量的子集,即xi的父集∏xi,也就是DAG中xi的前趋,使得

                P(xi|∏xi)=P(xi|x1,...xi-1),

                          等式4

    其中,P(.|.)是绝对为正的cpd。现在,假定联合的概率密度函数(pdf)P(x1,...,xN),使用链式法则,我们得到:

    P(x1,...,xN)=P(xN|xN-1,...,x1)...P(x2|x1)P(x1)。

                          等式5

    根据等式15,父集∏xi具有以下特性:xi和{x1,...,xN}\∏xi与给定∏xi无关。

    与DAG相关的联合pdf是:

    P(x1,x2,x3,x4,x5)=P(X5|x4)P(x4|x3,x2)P(x2|x1)P(x3|x1)P(x1)。

                                等式6

    变量之间的相关性由等式6以数学方式表示。等式4、5和6中的cpf可以是物理的,或者它们可以通过贝叶斯定理变换成包含先验pdf的表达式。

    图6给出了具有DAG结构的VS系统流程图。此DAG由五个层组成。每层中,每个要素对应于DAG中的一个节点。有向弧将给定层中的一个节点与上一层的一个或多个节点相连。基本上,四组弧连接五个层的要素。其中存在对此的限制是:通常,从第一层过滤层到第二层特点抽取层,所有三个弧均用相同的加权穿过,即相应的pdf全部为1.0。

    对于给定层,以及对于给定要素,按等式6描述的来计算联合pdf。更正式地,对于层l中的要素(节点)il,联合pdf是:

    P(l)(xi(l),Π(l-1),...,Π(2),)=P(xi(l)|Πi(l)){P(x1(l-1)|Π1(l-1))...]]>

    P(xN(l-1)(l-1)|ΠN(l-1)(l-1))}...{P(x1(2)|Π1(2))...P(xN(2)2|ΠN((2)(2))}.]]>

                           等式7等式7中暗示,对于每个要素xi(l),存在一个父集∏i(l);给定层级1的父集的并集,即Π(l)≡Σi=1N(L)Πl(l).]]>每个级的不同父集之间可以存在重叠。

    如上所述,VS中的信息集成在四个层之间发生:(i)特点抽取和工具,(ii)工具和分段处理,以及(iii)语义处理和用户应用。此集成通过涉及VS的贝叶斯网络公式的增量处理来实现。

    要处理的VS的基本单元是视频镜头。视频镜头根据符合图6所示安排的P_PP和C_PP用户技术要求进行索引。视频镜头的群集可生成更大部分的视频段,例如节目。

    令V(id,d,n,ln)表示视频流,其中id、d、n、ln分别表示视频识别号、生成数据、名称和长度。视频(视觉)段由VS(tf,ti; vdi)表示,其中tf、ti、vid分别表示最后帧时间、初始帧时间和视频索引。视频段VS(.)可以是或不是视频镜头。如果VS(.)是视频镜头,由VSh(.)表示,则第一帧是与tivk表示的视觉信息相关的关键帧(keyframe)。时间tfvk表示镜头中的最后帧。关键帧通过镜头剪辑检测操作者获得。在处理视频镜头的同时,最终镜头帧时间仍未知。否则,我们写VSh(t,tivk;vid),其中,t<tfvk。音频段由AS(tf,ti;avd)表示,其中aud表示音频索引。类似于视频镜头,音频镜头Ash(tfak,tiak;aud)是音频段,其中tfak和tiak分别表示最后和初始音频帧。音频和视频镜头不必重叠;在视频镜头的时间边界内可以有不止一个音频镜头,反之亦然。

    镜头生成、索引和群集的处理在VS中递增实现。对于每个帧,VS处理相关图像、音频和文本。这是在第二层,即在特点抽取层中实现的。首先分用视觉、音频和文本(CC)信息,并且假定要提供EPG、P_PP和C_PP数据。并且,视频和音频镜头被更新。逐帧处理完成后,视频和音频镜头被群集成更大的单元,例如场景、节目。

    在特点抽取层实现平行处理:(i)对每个域(视觉、音频和文本),以及(ii)在每个域内。在视觉域中,处理图像I(.,.),在音频域中,处理声波SW,并且在文本域中,处理字符串CS。视觉(v)、音频(a)或文本(t)域的简写是Dα;α=1指视觉域,α=2指音频域,而α=3指文本域。特点抽取层的输出是集合{ODa,iFE}i中的对象。第i个对象ODa,iFE(t)在时间t与第i个属性ADa,i(t)相关。在时间t,对象ODa,iFE(t)满足下面的条件:

    PDα(ODα,iFE(t)|ADα,i(t)∈RDα).]]>

                         等式8

    在等式8中,符号ADa,i(t)∈RDa表示属性ADα,i(t)出现/是部分(∈)区域(分区)RDα。此区域可以是图像中的一组像素,或声波中的时间窗(例如,10ms),或者是字符串的集合。实际上,等式8是表示三级处理的简化形式,所述三级处理即过滤器组处理、局部集成和全局/区域群集,如上所述。对于每个对象ODa,iFE(t),存在一个父集∏ODa,iFE(t);对于此层,父集通常大(例如,给定图像区中的像素);因而,它未被明确地描述。每个对象的生成独立于每个域内其它对象的生成。

    特点抽取层生成的对象被用作到工具层的输入。工具层集成来自特点抽取层的对象。对于每个帧,来自特点抽取层的对象被组合成工具对象。对于时间t,在域Dα中定义的工具对象ODa,iT(t)和特点抽取对象的父集∏ODa,iT(t),cpd

    P(ODα,i(t)T|ΠODα,i(t)T)]]>

    等式9表示ODa,iT(t)条件依赖于∏ODa,iT(t)中的对象。

    在下一层语义处理层中,信息的集成可以跨域,例如跨视觉和音频。语义处理层包含对象{OiSP(t)}i;每个对象集成来自用于分段/索引视频镜头的工具层的工具。与等式9相类似,cpd

    P(OiSP(t)|Πoisp(t))]]>

                           等式10描述语义处理集成过程,其中∏OiSP(t)表示在时间t的OiSP(t)的父集。

    分段以及递增镜头分段和索引是利用工具要素来实现的,并且索引通过使用来自特点抽取、工具和语义处理三个层的要素来完成。

    在时间t的视频镜头被索引为:

                   VShi(t,tivk;{χλ(t)}λ),

                           等式11其中,i表示视频镜头号,χλ(t)表示视频镜头的第λ个索引参数。χλ(t)包括可被用于对镜头索引的所有可能参数,从局部基于帧的参数(低级、与特点抽取要素有关)到全局基于镜头的参数(中级,与工具要素有关,和高级,与语义处理要素有关)。在每个时间t(可以将其表示为连续或离散变量—在后一情况下,它写为k),计算cpdP(F(t)VShi,(t,tivk;{χλ(t)}λ)|{ADi,j(t)}j),

                  等式12假定在时间t的视觉域D1中的特点抽取属性集{ADi,j(t)}j),cpd确定在时间t的帧F(t)包含在视频镜头VShi(t,tivk;{χλ(t)}λ)中的条件概率。为了使镜头分段处理更健壮,不仅使用在时间t获得的特点抽取属性,而且也使用前面时间获得的特点抽取属性,即集合{ADi,j(t)}j,t代替{ADi,j(t)}j。这通过贝叶斯更新规则递增地实现,即:P(F(t)VShi(t,tivk;{χλ(t)}λ)|{ADi,j(t)}j,t)=[P({ADt,j(t)}j|F(t)VShi(t,tivk;{χλ(t)}λ))×P(F(t)VShi(t,tivk;{χλ(t)}λ)|{ADi,j(t-1)}j,t-1)]×C,

                           等式13其中,C是归一化常量(通常是等式13中整个状态的总和)。

    下一项是等式12中索引参数的增量更新。首先,依据(临时)扩展的属性集合{ADi,j(t)}j,t,进行估计索引参数的处理。这通过cpd完成:P(VShi(t,tivk;{χλ(t)=xλ(t)}λ)|{ADi,j(t)}j,t),

                        等式14

    其中,x2(t)是χλ(t)的给定测量值。依据等式14,利用贝叶斯规则,由下列等式给出索引参数的增量更新:

    P(VShi(t,tivk;{χλ(t)=xλ(t)}λ)|{ADi,j(t)}j,t)=P({ADi,j(t)}j|VShi(t,tivk;{χλ(t)=xλ(t)}λ))×P(VShi(t,tivk,{χλ(t)=xλ(t)}λ)|{ADi,j(t-1)}j,t-1)]×C。

                             等式15

    工具和/或语义处理要素也可以索引视频/音频镜头。等式12、13、14和15的表达式的模拟集合适用于音频镜头的分段。

    信息表示:

    从过滤到VS用户应用层,内容/上下文信息的表示不可以是唯一的。这是很重要的特性。表示取决于用户对VS要求的内容/上下文信息详细程度、取决于实现约束(时间、存储空间等)、以及取决于特定的VS层。

    作为表示的这样多样化的一个示例,在特点抽取层,视觉表示可具有不同粒度的表示。在2-D空间中,表示由视频序列的图像(帧)组成,每个图像由像素或像素矩形块组成;对于每个像素/块,我们指配速度(位移)、色彩、边缘、形状和结构值。在3-D空间中,用体素、以及指配的视觉属性的类似(例如在2-D中)集合表示。这是细节在精细级的表示。在较粗级,视觉表示是按照直方图、统计动差和傅立叶描述符的。这些不过是视觉域中的可能表示的示例。音频域具有类似的情况。精细级的表示是按照时间窗、傅立叶能量、频率、音调等的。在较粗级,有语素、三单音(tri-phones)等。

    在语义处理和用户应用层,表示是由特点抽取层的表示所做的推理的结论。语义处理层推理的结果反应视频镜头段的多模式属性。另一方面,用户应用层完成的推理表示反应用户高级要求的镜头集合或整个节目的特性。

    分级先验

    根据本发明的另一方面,使用概率公式中的分级先验,即用于视频信息的分析和集成。如上所述,多媒体上下文是基于分级先验的。有关分级先验的其它信息,参阅“统计决策理论和贝叶斯分析”一文(J.O.Berger,Statistical Decision Theory and Bayesian Analysis,Springer Verlag,NY,1985)。表征分级先验的一种方法是通过Chapman-Kolmogorov等式,参阅“概率、随机变量和随机过程”一文(A.Papoulis,Probability,Random Variables,and StochasticProcesses,McGraw-Hill,NY,1984)。假设具有作为n-k-1和k个变量分布的n个连续或离散变量的条件概率密度(cpd)p(xn,...,xk+1|xk,...,x1)。它可以表示:

    p(xn,...,xl,xl+2,...,xk+1|xk,...,xm,xm+2,...,x1)=]]>

    ∫-∞∞dx‾l+1{∫-∞∞dx‾m+1[p(xn,...,xl,x‾l+1,xl+2,...,xk+1|xk,...,xm,x‾m+1,xm+2,...,x1)]]>

    ×p(x‾m+1|xk,...,xm,xm+2,...,x1)]},]]>

    等式16

    其中,表示积分(连续变量)或和数(离散变量)。n=1且k=2时,等式16的特殊情况是Chapman-Kolmogorov等式:

    p(x1|x2)=∫-∞∞dx‾3p(x1|x‾3,x2)×p(x‾3|x2)]]>

    等式17

    现在,将论述限制在n=k=1的情况。并且,假定x1是要估计的变量,并且x2是“数据”。那么,根据贝叶斯定理:p(x1|x2)=[p(x2|x1)×p(x1)]/p(x2),

    等式18其中,p(x1|x2)被称为给定x2而估计x1的后验cpd;p(x2|x1)是给定要估计的变量x1而具有数据x2的可能cpd,p(x2)是先验概率密度(pd),而p(x1)是只取决于数据的“常量”。

    先验项p(x1)确实通常取决于参数,特别在它是结构先验时;在后一情况下,此参数也被称为超参数。因此,p(x1)实际上应写为p(x1|λ),其中λ是超参数。常常是不要估计λ,而是有了有关它的先验。在这种情况下,用p(x1|λ)xp’(λ)代替p(x1|λ),其中,p’(λ)是该先验。此过程可扩展用于任意数量的嵌套先验。此方案被称为分级先验。通过等式17,为后验描述分级先验的一个公式。假设P( x3|x2),且 x3=λ1,并为它改写等式17:

    p(λ1|x2)=∫-∞∞dλ2p(λ1|λ2,x2)×p(λ2x2)]]>

                        等式19

    或

    p(x1|x2)=∫-∞∞dλ1∫-∞∞dλ2p(x1|λ1,x2)×p(λ1|λ2,x2)×p(λ2|x2)]]>

                        等式20表达式20描述了两层先验,即另一先验参数的先验。这可以概括到任意层数。例如,在等式20中,可以使用等式17根据另一超参数来写p(λ2|x2)。在该处,对总计m个分层先验,通常具有等式20的概括:

    p(x1|x2)=∫-∞∞dλ1...∫-∞∞dλmp(x1|λ1,x2)]]>

    ×p(λ1|λ2,x2)×...×p(λm-1|λm,x2)×p(λm|x2)]]>

                         等式21

    对于任一数量n的条件变量,这也可以被概括出来,即从p(x1|x2)到p(x1|x2,...,xn)。

    图9示出本发明的另一实施例,其中,有一组m个级表示多媒体信息的分段和索引。每级与分级先验方案中的一组先验相关,并由贝叶斯网络描述。每个λ变量均与一个给定级相关,即,第i个λ变量λi与第I级相关。每个层对应于多媒体上下文信息的一种给定类型。

    回到等式17中二级的情况,该等式在此处以新表示法再现:

    p(x1|x2)=∫-∞∞dλ1p(x1|λ1,x2)×p(λ1|x2)]]>

    等式22

    最初,p(x1|x2)指明x1与x2之间的(概率)关系。接着,通过将变量λ1结合到问题中,可以看到:(i)cpd p(x1|x2)现在取决于p(x1|λ1,x2),这表示为适当估计x1,必需知道x2和λ1;(ii)必须知道如何从x2估计λ1。例如,在电视节目域中,如果要选择交谈节目中的给定音乐剪辑,则x1=“选择交谈节目中的音乐剪辑”,x2=“电视节目视频-数据”,并且λ1=“基于音频、视频和/或文本线索的交谈节目”。基于分级先验的方法提供的较不用等式22计算p(x1|x2)的标准方法相比为新东西的是由λ1描述的附加信息。此附加信息也要从数据(x2)推断得出,但它具有与x1的有所不同的性质;它从另一角度描述数据,如电视节目种类,而不是只看到视频信息的镜头或场景。基于数据x2的λ1估计在第二级完成;第一级涉及从数据和λ1中估计x1。通常,存在处理不同参数的序列次序。首先,从第二级上到第m级,处理λ参数,然后在第一级处理x参数。

    在图10中,第一级包括涉及变量x1、x2的贝叶斯网络。在上方的第二级中,是另一贝叶斯网络的不同λ1变量(记住λ1表示第二层的“先验”变量的集合)。在两级中,节点通过直线箭头互连的。现在,弯曲箭头示出第二级中的节点与第一级中的节点之间的连接。

    在优选实施例中,由数据处理装置(例如处理器)执行的计算机可读代码来实现所述方法和系统。代码可存储在数据处理装置内的存储器中,或者从诸如CD-ROM或软盘的存储器媒体读取/下载。此设置仅为方便起见,并要知道,实现实质上并不限于数据处理仪器。在此处使用时,术语“数据处理仪器”指便于信息处理的任一类型的(1)计算机、(2)无线、蜂窝或无线电数据接口设备、(3)智能卡、(4)因特网接口设备及(5)VCR/DVD播放器等。在其它实施例中,硬件电路可用于代替软件指令、或与软件指令相组合来实现本发明。例如,本发明可在使用用于处理的Trimedia处理器和用于显示的电视监视器的数字电视平台上来实现。

    另外,通过使用专用硬件、以及通过使用能够执行与适当软件相联系的软件的硬件,可以提供图1-10所示不同要素的功能。由处理器提供功能时,可由单个专用处理器、单个共享处理器,或多个单独的且其中一些是共享的处理器提供功能。另外,明确使用术语“处理器”或“控制器”不应视为专指能够执行软件的硬件,并可暗示包括,但不限于数字信号处理器(DSP)硬件、用于存储软件的只读存储器(ROM)、随机存取存储器(RAM)和非易失性存储器。也可以包括其它常规和/或定制硬件。

    下面内容只用于说明本发明原理。因而将知道,本领域的技术人员将能够设计不同的布置,这些布置虽未在此明确描述或示出,但体现了本发明的原理,且包括在本发明精神和范围之内。此外,此处所述所有示例和条件语言主要是只用于教学目的,以帮助读者理解发明人提供的本发明原理和概念,促进技术,并理解为不限于这样特别叙述的示例和条件。另外,此处涉及本发明原理、方面和实施例的所有语句及其特定示例是用于包括其构造和功能两者的等同物。另外,意在这样的等同物包括当前已知的等同物以及将来开发的等同物,开发出来执行相同功能的任何元件,而不管结构如何。

    因此,例如,本领域的技术人员将明白,此处的方框图表示实施本发明原理的说明性电路的概念视图。类似地,将明白,任何流程图、操作程序图、状态转移图等表示不同的处理,这些处理主要出现在计算机可读媒体上,并因而可由计算机或处理器执行,而无论是否明确示出这样的计算机或处理器。

    在本文的权利要求书中,表示为执行特定功能的装置的任何单元用于包括执行所述功能的任何方式,例如包括:a)执行所述功能的电路单元的组合或b)任一形式的软件,因而包括固件、微代码等,与适当的电路相组合,用于执行实现所述功能的软件。由这样的权利要求定义的本发明在于以下事实:按权利要求书所要求的方式,一起组合与产生了由所述不同装置提供的功能。申请人因而将可以提供所述功能的所有装置视为此处所示那些装置的等同物。

多媒体分段和索引的基于上下文与内容的信息处理.pdf_第1页
第1页 / 共35页
多媒体分段和索引的基于上下文与内容的信息处理.pdf_第2页
第2页 / 共35页
多媒体分段和索引的基于上下文与内容的信息处理.pdf_第3页
第3页 / 共35页
点击查看更多>>
资源描述

《多媒体分段和索引的基于上下文与内容的信息处理.pdf》由会员分享,可在线阅读,更多相关《多媒体分段和索引的基于上下文与内容的信息处理.pdf(35页珍藏版)》请在专利查询网上搜索。

公开用于信息处理的方法和系统,例如,用于多媒体分段、索引和检索。所述方法和系统包括使用概率框架进行例如音频/视觉/文本(A/V/T)的多媒体集成。多媒体内容和上下文信息两者均通过概率框架来表示和处理。此框架例如由贝叶斯网络和分级先验表示,所述框架是以图形方式由级描述,每级具有一组层,每层包括表示内容或上下文信息的多个节点。至少第一级的第一层处理诸如A/V/T域中对象的多媒体内容信息或其组合。如下面。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1