视频/音频流处理设备和视频/音频流处理方法.pdf

摘要
申请专利号：	CN200580021737.0	申请日：	2005.06.20
公开号：	CN1977264A	公开日：	2007.06.06
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30公开日:20070606\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G06F17/30(2006.01); G11B27/00(2006.01); G11B20/10(2006.01); H04N5/76(2006.01); G11B20/12(2006.01); H04N5/91(2006.01)	主分类号：	G06F17/30
申请人：	松下电器产业株式会社;
发明人：	后藤修; 稻田彻; 喜多村启
地址：	日本大阪府
优先权：	2004.06.28 JP 190376/2004
专利代理机构：	永新专利商标代理有限公司	代理人：	王英
PDF下载：	PDF下载

内容摘要

视频/音频流处理设备在HDD(115)中存储视频/音频数据，并且还生成与该视频/音频数据有关的信息，将该信息添加到视频/音频数据，并存储该数据。比较单元(112)将该视频/音频数据与在选择器单元(111)中存储的特征数据进行比较，并检测包含所述特征数据的位置。当执行检测时，标签信息生成单元(113)生成标签信息，将其添加到该视频/音频数据，并将该数据存储到HDD(115)中。

权利要求书

1.  一种视频/音频流处理设备，用于在向视频/音频数据添加与该视频/音频数据有关的信息之后对其进行存储，所述视频/音频流处理设备包括：
特征数据保存单元，用于存储与视频/音频或字符有关的特征数据；
特征数据检测单元，用于检测所述视频/音频数据中包含所述特征数据的位置；
标签信息生成单元，用于当在所述特征数据检测单元中检测到所述特征数据时生成标签信息；以及
视频/音频数据存储单元，用于存储所述视频/音频数据和所述标签信息。

2.  如权利要求1所述的视频/音频流处理设备，还包括计时器，用于测量在所述视频/音频数据上所检测到的位置处的时间，其中
所述标签信息包含基于所述计时器所测量的时间的时间信息。

3.  如权利要求1所述的视频/音频流处理设备，还包括特定数据提取单元，用于从包含在所述视频/音频数据中的多种数据中提取用于所述特征数据检测单元中的检测的特定数据，并将所述特定数据输出到所述特征数据检测单元。

4.  如权利要求3所述的视频/音频流处理设备，还包括数据格式转换单元，用于将所述视频/音频数据转换为预定格式的数字数据，并且将所述数字数据输出到所述特定数据提取单元，其中
所述数据格式转换单元包括：
模拟数据转换单元，用于将模拟数据转换为预定格式的数字数据；以及
数字数据转换单元，用于将除所述预定格式之外的格式的数字数据转换为所述预定格式的数字数据。

5.  如权利要求1所述的视频/音频流处理设备，其中，所述标签信息包含指示哪个特征数据已被用于检测的标识符数据。

6.  如权利要求1所述的视频/音频流处理设备，还包括图形生成单元，用于生成屏幕，所述屏幕使得用户能够通过使用所述标签信息来选择播放位置，并且所述屏幕显示所述检测到的位置作为所述播放位置的候选。

7.  如权利要求1所述的视频/音频流处理设备，还包括关键字搜索信息生成单元，用于通过使用从所述视频/音频数据中获得的字符数据来生成关键字搜索信息。

8.  如权利要求7所述的视频/音频流处理设备，还包括：
视频数据提取单元，用于提取所述视频/音频数据中的包含字幕的特定区域中的视频数据；以及
字幕识别单元，用于将由所述视频数据提取单元所提取的视频数据中包含的字幕转换为字符数据，其中
所述关键字搜索信息生成单元使用由所述视频识别单元获得的所述字符数据来生成所述关键字搜索信息。

9.  如权利要求7所述的视频/音频流处理设备，还包括：
音频数据提取单元，用于从所述视频/音频数据中提取音频数据；以及
语音识别单元，用于将由所述音频数据提取单元所提取的音频数据转换为字符数据，其中
所述关键字搜索信息生成单元使用由所述语音识别单元获得的字符数据来生成所述关键字搜索信息。

10.  如权利要求7所述的视频/音频流处理设备，还包括：
关键字输入单元，用于输入想要搜索的字符；以及
关键字搜索单元，用于在所述关键字搜索信息中搜索从所述关键字输入单元输入的字符。

11.  一种视频/音频流处理方法，用于在向视频/音频数据添加与该视频/音频数据有关的信息之后对其进行存储，所述方法包括：
存储所述视频/音频数据并检测所述视频/音频数据中包含与视频/音频或者字符有关的预定特征数据的位置；
当已经执行所述检测时，生成标签信息；以及
在向所述视频/音频数据添加了所述标签信息之后，存储所述视频/音频数据。

12.  如权利要求11所述的视频/音频流处理方法，还包括测量在所述视频/音频数据上所检测到的位置处的时间，其中
所述标签信息包含基于所述特定时间的时间信息。

13.  如权利要求11所述的视频/音频流处理方法，还包括，在执行所述检测之前，从包含在所述视频/音频数据中的多种数据中提取在所述检测中使用的数据。

14.  如权利要求13所述的视频/音频流处理方法，还包括，当所述视频/音频数据是模拟数据或者是除预定格式之外的格式的数字数据时，在提取所述检测中使用的数据之前，将所述视频/音频数据转换为所述预定格式的数字数据。

15.  如权利要求11所述的视频/音频流处理方法，其中，所述标签信息包含指示哪个特征数据已被用于所述检测的标识符数据。

16.  如权利要求11所述的视频/音频流处理方法，还包括生成屏幕，所述屏幕使得用户能够通过使用所述标签信息来选择播放位置，并且所述屏幕显示所述检测到的位置作为所述播放位置的候选。

17.  如权利要求11所述的视频/音频流处理方法，还包括：
从所述视频/音频数据中获得字符数据；以及
通过使用所述获得的字符数据来生成关键字搜索信息。

18.  如权利要求17所述的视频/音频流处理方法，
其中，通过以下步骤获得所述字符数据：
提取所述视频/音频数据中的包含字幕的特定区域中的视频数据；以及
将所述提取的视频数据中包含的字幕转换为字符数据。

19.  如权利要求17所述的视频/音频流处理方法，
其中，通过以下步骤获得所述字符数据：
从所述视频/音频数据中提取音频数据；以及
将所述提取的音频数据转换为字符数据。

20.  如权利要求17所述的视频/音频流处理方法，还包括：
为由所述检测到的位置定义的每个章节生成所述关键字搜索信息；
在所述关键字搜索信息中搜索由用户输入的字符；以及
生成用于显示对每个章节的搜索结果的屏幕。

说明书

视频/音频流处理设备和视频/音频流处理方法
技术领域
本发明涉及视频/音频流处理设备，尤其涉及用于在加入了与视频/音频数据有关的信息之后存储视频/音频数据的视频/音频流处理设备和视频/音频流处理方法。
背景技术
当前，采用无线电波来提供电子节目指南(EPG)，并通过诸如因特网等等之类的通信线路从互连网站点提供详细的内容信息(节目信息)。观看者能够使用电子节目指南和详细内容信息等来获得与例如每个节目的开始/结束时间以及节目细节有关的信息。
近些年来，提出了一种视频/音频流处理设备(以下，称为“AV流处理设备”)，其在为了便于搜索所记录的节目，从而为节目数据添加了与节目有关的详细内容信息之后，存储节目数据(例如，专利文件1)。
图23是传统的AV流处理设备1的框图。AV流处理设备1包括数字调谐器2、模拟调谐器3、MPEG2编码器4、主机CPU 5、调制解调器6、硬盘驱动器(HDD)8、MPEG2解码器9、图形生成单元10、合成器11、存储器12和用户面板13。
例如，由未显示的天线接收从广播公司通过数字广播提供的广播节目的视频/音频信号，并输入到数字调谐器2。数字调谐器2处理所输入的视频/音频信号，并输出节目的MPEG2传输流(以下称为“MPEG2TS”)。
此外，由未显示的天线接收从广播公司通过模拟广播提供的广播节目的视频/音频信号，并输入到模拟调谐器3。模拟调谐器3处理所输入的视频/音频信号，并将处理后的视频/音频信号输出到MPEG2编码器4。MPEG2编码器4在将所输入的视频/音频信号编码为MPEG2格式后将其输出。从数字调谐器2和MPEG2编码器4输出的数字广播节目和模拟广播节目的MPEG2TS存储在HDD 8中。
同样地，与将广播节目的MPEG2TS存储在HDD 8中相并行地或者在其之后，AV流处理设备1通过互联网下载详细的内容信息，并将其与所存储的广播节目的MPEG2TS相关联地存储在HDD 8中。
基于根据对用户面板13的输入而从主机CPU 5输出的指令信号，图形生成单元10基于存储在HDD 8中的详细内容信息生成节目信息屏幕。所生成的节目信息屏幕在图中未示出的显示单元上显示，从而用户能够通过观看屏幕来了解节目细节。另外，AV流处理设备1能够从由详细内容信息所指示的每个主题的位置开始播放AV数据流。
因此，通过使用AV流处理设备1，就能够在所记录的广播节目中有效地搜索包含有期望观看的主题的节目。另外，AV流处理设备1消除了通过反复的诸如快进、播放和回退之类的操作来搜索记录有所期望观看的主题的位置的麻烦。
[专利文件1]日本特开专利公开No.2003-199013
发明内容
本发明要解决的问题
然而，在视频/音频数据不具有详细内容信息时，例如记录在录像带中的视频/音频数据或个人捕获的移动图像的视频/音频数据，AV流处理设备1则不能添加和记录详细内容信息。因此，不具有详细内容信息的视频/音频数据不能成为搜索对象。
另外，即使是具有详细内容信息的视频/音频数据，也不是总包含了解细节或者进行搜索所必需的信息，这是因为详细内容信息所提供的信息是有限的。
因此，本发明的一个目的是提供一种AV流处理设备，其能够独立地生成能够用于进行与不具有详细内容信息等的视频/音频数据相关的搜索的信息。
解决问题的方法
本发明的第一方面针对一种AV流处理设备，用于在为视频/音频数据添加与该视频/音频数据有关的信息之后存储其，所述视频/音频流处理设备包括：特征数据保存单元，用于存储与视频/音频或字符有关的特征数据；特征数据检测单元，用于检测在所述视频/音频数据中包含所述特征数据的位置；标签信息生成单元，用于当在所述特征数据检测单元中检测到所述特征数据时生成标签信息；以及视频/音频数据存储单元，用于存储所述视频/音频数据和所述标签信息。
此外，根据优选实施例，还包括计时器，用于测量在所述视频/音频数据上所检测到的位置处的时间，并且所述标签信息包含基于由所述计时器所测量的时间的时间信息。
此外，根据另一优选实施例，还包括特定数据提取单元，用于从包含在所述视频/音频数据中的多种数据中，提取用于在所述特征数据检测单元中的检测的特定数据，并将所述特定数据输出到所述特征数据检测单元。
此外，还包括数据格式转换单元，用于将所述视频/音频数据转换为预定格式的数字数据，并将所述数字数据输出到所述特定数据提取单元，并且所述数据格式转换单元可以包括：模拟数据转换单元，用于将模拟数据转换为预定格式的数字数据；以及数字数据转换单元，用于将除所述预定格式之外的格式的数字数据转换为所述预定格式的数字数据。
此外，根据另一优选实施例，所述标签信息包含指示哪个特征数据已被用于检测的标识符数据。
此外，根据另一优选实施例，还包括图形生成单元，用于生成屏幕，所述屏幕使得用户能够通过使用所述标签信息来选择播放位置，并且所述屏幕显示所述检测到的位置，作为所述播放位置的候选。
此外，根据另一优选实施例，包括关键字搜索信息生成单元，用于使用添加到所述视频/音频数据中的字符数据来生成关键字搜索信息。
注意，还包括视频数据提取单元，用于提取所述视频/音频数据中的包含字幕的特定区域中的视频数据，以及字幕识别单元，用于将由所述视频数据提取单元所提取的视频数据中包含的字幕转换为字符数据，并且所述关键字搜索信息生成单元可以使用由所述视频识别单元获得的字符数据来生成关键字搜索信息。
此外，还包括音频数据提取单元，用于从所述视频/音频数据中提取音频数据，以及语音识别单元，用于将由所述音频数据提取单元所提取的音频数据转换为字符数据，并且所述关键字搜索信息生成单元可以使用由所述语音识别单元获得的字符数据来生成关键字搜索信息。
此外，根据另一优选实施例，还包括关键字输入单元，用于输入想要搜索的字符，以及关键字搜索单元，用于在所述关键字搜索信息中搜索从所述关键字输入单元输入的字符。
本发明的第二方面针对视频/音频流处理方法，其用于在为视频/音频数据添加与该视频/音频数据有关的信息之后存储其，所述方法包括：存储所述视频/音频数据并检测在所述视频/音频数据中包含与视频/音频或者字符有关的预定特征数据的位置；当已经执行了所述检测时生成标签信息；以及在添加了所述标签信息之后，存储所述视频/音频数据。
根据一优选实施例，还包括测量在所述视频/音频数据上所检测到的位置处的时间，并且所述标签信息可以包含基于所述特定时间的时间信息。
此外，根据另一优选实施例，还包括，在执行所述检测之前，从包含在所述视频/音频数据中的多种数据中提取在所述检测中使用的数据。
注意，还包括，当所述视频/音频数据是模拟数据或者是除预定格式之外的格式的数字数据时，在提取所述检测中使用的数据之前，将所述视频/音频数据转换为所述预定格式的数字数据。
此外，根据另一优选实施例，所述标签信息包含指示哪个特征数据已被用于检测的标识符数据。
此外，根据另一优选实施例，还包括生成屏幕，所述屏幕使得用户能够通过使用所述标签信息来选择播放位置，并且所述屏幕显示所述检测到的位置，作为所述播放位置的候选。
此外，根据另一优选实施例，包括获得添加到所述视频/音频数据中的字符数据；以及使用所获得的字符数据来生成关键字搜索信息。
注意，可以通过提取所述视频/音频数据中的包含字幕的特定区域中的视频数据，并且将所提取的视频数据中包含的字幕转换为字符数据，来获得所述字符数据。
此外，可以通过从所述视频/音频数据中提取音频数据，并将所提取的音频数据转换为字符数据来获得字符数据。
此外，根据另一优选实施例，还包括为由所检测到的位置定义的每个章节生成所述关键字搜索信息；在所述关键字搜索信息中搜索由用户输入的字符；以及生成用于显示每个章节的搜索结果的屏幕。
本发明的效果
根据本发明的AV流处理设备从要记录的视频/音频数据中检测用户指定的特征部分，并根据搜索结果单独地生成搜索信息。因此，用户能够通过使用所生成的搜索信息，容易地从所述视频/音频数据中找到期望的位置。
此外，根据本发明的AV流处理设备能够根据从要存储的AV流中获得的字符数据，生成关键字搜索信息。从而，用户能够通过在关键字搜索信息中搜索通过字符表示希望观看的位置的关键字，容易地在所述AV流中找到适合观看的位置。
附图说明
图1是根据本发明第一实施例的AV流处理设备的框图；
图2是用于说明在AV特征值保存单元和选择器单元中存储的数据的示图；
图3是用于说明比较单元中的处理的示图；
图4是示出生成信息文件的过程的流程图；
图5是示出示例性段表的示图；
图6是示出示例性标签信息文件的示图；
图7是延续自图6的图；
图8是示出存储在HDD中的数据的示图；
图9是示出根据标签信息文件所生成的屏幕的示例的图；
图10是示出播放AV数据的处理的流程图；
图11是根据本发明第二实施例的AV流处理设备的框图；
图12是用于说明DVD VR格式的示图；
图13是显示当生成关键字搜索文件时的时间图的示图；
图14是示出生成关键字搜索文件的过程的流程图；
图15是示出示例性段表的示图；
图16是示出示例性标签信息文件的示图；
图17是延续自图16的示图；
图18是示出根据信息文件和关键字搜索文件所生成的搜索结果显示屏幕的示例的图；
图19是用于说明搜索处理的过程的流程图；
图20是示出用于搜索处理的特征的图；
图21是根据本发明第三实施例的AV流处理设备的框图；
图22是根据本发明第四实施例的AV流处理设备的框图；
图23是传统的AV流处理设备的框图。
参考标记的描述
100：AV流处理设备
101：数字调谐器
102：模拟调谐器
103：切换单元
104：格式转换单元
105：解码处理单元
106：A/D转换单元
107：分离器单元(splitter unit)
108：MPEG编码器
110：AV特征值保存单元
111：选择器单元
112：比较单元
113：标签信息生成单元
114：主机CPU
115：HDD
116：存储器
117：MPEG解码器
118：图形生成单元
119：合成器
120：用户面板
200：AV流处理设备
201：字符数据累积单元
202：字符串搜索单元
251：搜索关键字保存单元
252：搜索比较器
253：搜索匹配数量计数器
300：AV流处理设备
301：语音识别单元
400：AV流处理设备
401：字幕识别单元
具体实施方式
(第一实施例)
图1是示出根据本发明第一实施例的AV流处理设备100的结构的框图。AV流处理设备100包括数字调谐器101、模拟调谐器102、切换单元103、格式转换单元104、分离器单元107、MPEG编码器108、AV特征值保存单元110、选择器单元111、比较单元112、标签信息生成单元113、主机CPU 114、硬盘驱动器(以下称为“HDD”)115、存储器116、MPEG解码器117、图形生成单元118、合成器119和用户面板120。
用户面板120是在AV流处理设备100的主体上提供的包含有按钮、远程控制器、键盘等的面板，其使得用户能够操作AV流处理设备100。主机CPU 114是运算处理单元，通常用于控制包含在AV流处理设备100中的每个单元。
数字调谐器101处理例如由未示出的天线所接收的数字广播节目的视频/音频信号，并输出该节目的MPEG2传输流(MPEG2TS)。另外，模拟调谐器102处理在天线处接收的模拟广播节目的视频/音频信号，并输出该节目的模拟视频/音频信号。
切换单元103通过数字调谐器101、模拟调谐器102或者因特网接收要存储在HDD 115中的节目的视频/音频数据。另外，切换单元103采用USB或者IEEE 1394标准来接收在外部连接的设备(例如DVD设备、LD设备、外部HDD和VHS视频设备)中存储的视频/音频数据。因此，切换单元103接收模拟视频/音频数据、未压缩的数字视频/音频数据以及压缩的数字视频/音频数据。因此，AV流处理设备100能够处理任何类型或格式的视频/音频数据。在本说明中，模拟视频/音频数据、未压缩的数字视频/音频数据和压缩的数字视频/音频数据在此统称为视频/音频数据(以下称为“AV数据”)。
切换单元103具有根据所输入的AV数据的类型将其分发到合适的目的地的作用。为了更加具体的对其进行描述，将输入到切换单元103的模拟AV数据输入到格式转换单元104中的A/D转换单元106。A/D转换单元106将模拟AV数据转换为给定格式的未压缩数字AV数据。同样，将输入到切换单元103的数字AV数据被输入到格式转换单元104中的解码处理单元105。解码处理单元105确定输入数据的格式，如果必要，则执行到给定格式的解码处理。
同样，格式转换单元104接收各种类型或格式的AV数据以及预定的给定格式的AV数据。注意，从格式转换单元104输出的音频和视频数据可以作为独立的数据提供，例如，使得音频数据为PCM数据，视频数据为REC 656数据，或者与在以MPEG2PS(MPEG2节目流)为代表的MPEG格式数据中一样，可以提供两种数据类型作为一个数据集合。然而，从格式转换单元104输出的数据和后面将要描述的、存储在选择器单元111中的数据需要在格式上一致，以便能够在比较单元112中比较它们。
将从格式转换单元104输出的AV数据输入到分离器单元107。分离器单元107包括记录数据输出端口，用于输出所有输入的AV数据，以及标签信息生成数据输出端口，用于仅仅输出为生成信息文件而提取的特定数据。
当从分离器单元107的记录数据输出端口输出的AV数据是MPEG格式数据时，将AV数据直接存储到HDD 115。另一方面，当从分离器单元107的记录数据输出端口输出的AV数据不是MPEG格式数据时，将AV数据输入到MPEG编码器108。MPEG编码器108在将输入的AV数据编码为例如MPEG格式之后将其输出。将从MPEG编码器108输出的MPEG存储到HDD 115。
从分离器单元107的标签信息生成数据输出端口输出的特定数据是用于检测视频/音频数据的特征部分的数据，并且其类型是根据在选择器单元111中存储的数据来决定的。
图2是示出在选择器单元111和AV特征值保存单元110中存储的示例性数据的图。AV特征值保存单元110中存储用于检测要记录的视频/音频数据的特征部分的数据的候选。例如，AV特征值保存单元110中已经存储了多个音频特征值数据片、每个音频特征值数据片的特征值标题数据和音频匹配连续值数据、多个视频特征值数据片、以及每个视频特征值数据片的特征值标题数据和视频匹配连续值数据。特征值标题数据是添加到每个特征值数据片的标识符数据，用于使得用户能够识别哪个特征值数据片已经用于检测。
图形生成单元118生成屏幕，所述屏幕显示例如在AV特征值保存单元110中存储了什么特征值数据。由图形生成单元118所生成的屏幕显示在显示单元上，例如TV屏幕或者个人计算机的显示器。因此，在记录之前，用户观看屏幕并使用用户面板120选择期望的特征值数据和匹配连续值数据。将所选择的特征值数据、特征值标题数据和匹配连续值数据存储在选择器单元111中。主机CPU 114控制一系列处理，包括读出存储在AV特征值保存单元110中的数据以及将数据写入选择器单元111。可以通过AV流处理设备100的制造商预先生成并存储要存储在AV特征值保存单元110中的特征值数据，或者可以由用户生成并存储。
图2示出了一种情况，其中，选择器单元111从AV特征值保存单元110中选择音频数据和视频数据。图2所示的选择器单元111中的所选择的音频特征值数据是标题为“MUTE”的静音确定阈值Pa。音频匹配连续值为Qa。另外，视频特征值数据是标题为“BLACKSCREEN”的黑屏确定值阈值Pb。视频匹配连续值为Qb。Pa表示音量，Pb表示亮度。另外，Qa和Qb表示时间段。当由如图2所示的选择器单元111选择音频特征值数据和视频特征值数据时，将未压缩的音频数据(例如PCM数据)和视频数据(例如REC 656数据)从分离器单元107输出到比较单元112。
接下来，参考图3和图4描述在AV流处理设备100中的标签信息生成，图3是选择器单元111和比较单元112的框图，图4显示生成标签信息的过程。如图3所示，比较单元112包括例如音频比较单元150和视频比较单元160。音频比较单元150包括特征值比较器151、计数器152和连续值比较器153，视频比较单元160包括特征值比较器161、计数器162和连续值比较器163。
音频比较单元150中的特征值比较单元151将从分离器单元107输出的音频数据与在选择器单元111中存储的静音确定阈值Pa进行比较。如果特征值比较单元151确定音量小于或等于阈值Pa，则计数器152对次数进行计数，直到音量大于Pa为止。连续值比较器153将计数器152中的计数值与音频匹配连续值Qa进行比较。当连续值比较器153确定计数器152中的计数值与音频匹配连续值Qa匹配时，连续值比较器153输出触发信号(图4中的步骤S3)。
类似地，视频比较单元160中的特征值比较器161将从分离器单元107输出的视频数据与在选择器单元111中存储的黑屏确定阈值Pb进行比较。这里，黑屏确定阈值Pb是例如视频数据的每个场(field)的亮度值的总和。特征值比较器161获得从分离器单元107输出的视频数据的每个场的亮度值的总和S，并将该总和S与在选择器单元111中存储的黑屏确定阈值Pb进行比较。当特征值比较器161确定该总和S小于或等于黑屏确定阈值Pb时，计数器162对次数进行计数，直到该总和S变得大于黑屏确定阈值Pb为止。由连续值比较器163将计数器162中的计数值与匹配的连续值Qb进行比较。如果连续值比较器163确定计数器162中的计数值与匹配连续值Qb匹配，则连续值比较器163输出触发信号(图4中的步骤S3)。
将从连续值比较器153和163中输出的触发信号作为中断信号输入到主机CPU 114。标签信息生成单元113包括计时器，用于测量从AV数据的开始所流逝的时间。已经接收到触发信号的主机CPU 114输出读出指令信号，以从标签信息生成单元113中的计时器中读出时间，并从选择器单元111中读出标题(步骤S4)。
将从标签信息生成单元113中的计时器中读出的时间和从选择器单元111中读出的标题分别作为章节开始时间T(i)和章节标题ID(i)写入到存储器116中的段表(步骤S5)。特别地，通过在检测到特征数据的位置处分割AV数据而获得的每个部分对应于一个章节。编号i是章节号，它是按照自AV数据的头开始的流逝时间的递增的顺序来指定的，例如0，1，2…。
计算在存储器116中存储的章节开始时间T(i)与章节开始时间T(i-1)之间的差(步骤S6)，并将结果写入到存储器116中的段表中作为章节长度A(i-1)(步骤S7)。图5示出了所生成的段表的例子。章节号0的开始点是AV数据的头部分，因此可以预先将章节标题ID(0)和章节开始时间T(0)存储在段表中的章节号0的区域中。
一旦完成将章节标题ID(i)、章节开始时间T(i)和章节长度A(i-1)写入到段表中，就将章节号i的值增加1(步骤S8)。然后，如果比较单元112还没有完成比较(步骤S2中为“否”)，则测量直到输出触发信号时为止的时间。或者，如果完成了比较单元112中的所有比较，则计算从输出上一个触发信号时的时间T(i-1)直到AV数据的结束时间T(end)为止的时间段T(end)-T(i-1)，并且将其写入到段文件作为章节长度A(i-1)(步骤S9和S10)。因此，完成对段表的写入。
一旦完成对段表的写入，就使用段表中存储的数据来生成标签信息文件，如图6所示(步骤S11)。通过主机CPU 114执行预先存储在例如存储器16中的标签信息文件生成程序来生成标签信息文件。将所生成的标签信息文件添加到视频/音频数据中并写入到HDD 115(步骤S12)。特别地，如图8所示，将AV数据170及其信息数据171存储在HDD 115中。
另外，采用MPEG7格式生成图6和图7所示的信息文件，它是采用XML描述的搜索描述方案。在图6所示的标签信息文件中，部分(A)显示HDD 115中的目录。该目录是在HDD 115中所记录的AV数据的目录。此外，部分(B)显示章节标题ID(i)，部分(C)显示章节开始时间T(i)，部分(D)显示章节长度A(i)。为每个章节生成包括上述部分(B)到(D)的部分(E)。
如上所述，AV流处理设备100从AV数据中检测包含特征数据的位置，并生成包含有关该部分的信息的标签信息文件。在播放存储在HDD 115中的AV数据时，可以使用所生成的标签信息文件。
接下来，参考图9和图10描述存储在HDD 115中的AV数据的播放。图9是示例性屏幕，用于允许用户选择播放位置，该屏幕是由图1所示的图形生成单元118使用存储在HDD 115中的标签信息文件而生成的。该屏幕180显示AV数据的标题、章节号、章节开始时间和章节标题。当用户按下在用户面板120上设置的章节屏幕显示按钮时，将该屏幕180显示在显示单元上。
用户使用用户面板120从在显示单元上显示的章节中选择他/她现在希望播放的章节(图10的步骤S21)。如图9所示，当前所选择的章节为高亮的181，从而与其他章节相区分。此外，可以使用用户面板120上的导航键等来改变要被选择的章节(步骤S22和S25)，直到按下播放按钮182为止，从而主机CPU 114输出播放指令(步骤S23)。
当按下屏幕180上的播放按钮182时，将表示所选择章节的信号输入到主机CPU 114。主机CPU 114命令HDD 115输出与该所选择章节相对应的数据，并且HDD 115将所指定的数据输出到MPEG解码器117。MPEG解码器117在对所输入的数据执行解码处理之后，将其输出到监视器等。
用于检测在上述描述中的章节开始位置的“静音”状态大多发生在场景变换时。例如，在新闻节目的每个主题开始之前，存在一个或者多个预定时间段的静音章节。因此，如本实施例所述，通过将已经发生静音状态的位置设定为章节开始位置，可以始终在每个章节的开头部分处开始新的主题。因此，通过用AV流处理设备100生成标签信息文件并检查每个章节的开始，就可以相对容易地找到期望观看的主题。
在传统的AV流处理设备中，如果所记录内容的AV数据没有详细的内容信息，就不能生成表示内容细节的信息屏幕。然而，在根据本实施例的AV流处理设备100中，即使对于没有详细内容信息或EPG信息的视频/音频数据(例如记录在VHS录像带上的视频/音频数据)，也能够独立地生成信息文件。此外，该信息文件能够用于生成用于选择播放位置的屏幕，并且能够用于将播放位置的候选(章节开始位置)展示给用户，从而使得用户能够在无需重复的倒带和快进操作的情况下知道合适的观看开始位置。
此外，在根据本实施例的AV流处理设备100中，用户能够单独地设定用于决定章节开始位置的特征数据，因此可以提高每个用户的搜索效率。
另外，AV流处理设备100包括格式转换单元104，因此能够将任何期望被记录的AV数据转换为能够在比较单元112中处理的适当的格式，而不管格式或类型。因此，可以从任何格式的AV数据生成信息文件。
在上述实施例中，使用一个音频特征值和一个视频特征值来决定章节开始位置。然而，可以仅仅使用音频特征值或者视频特征值，或者可以使用多个音频特征值或多个视频特征值。
例如，可以将音频比较设备和视频比较设备分别用作图3中的音频比较单元150和视频比较单元160，从而当已经检测到与之前注册在选择器单元111中的音频数据或视频数据相匹配的音频数据或视频数据时，输出触发信号。同样，在比较单元112中包含的设备的结构并不局限于图2所示的结构。用于将AV数据分割为多个章节的数据并不局限于音频数据或视频数据，还可以是例如文本数据。
本实施例中的HDD 115可以是诸如DVD-RW等的存储单元。另外，当音频比较单元150和视频比较单元160的处理速度不同时，可以在标签信息生成单元113中分别提供音频计时器和视频计时器，所述音频计时器用于测量当从音频比较单元150输出触发信号时的时间，所述视频计时器用于测量当从视频比较单元160中输出触发信号时的时间。
在上述说明中，当从比较单元112输出触发信号时的时间被设定为章节开始时间，但是根据特征值数据的特性，可以将当从比较单元112输出触发信号时的时间之前预定时间段的时间设定为章节开始时刻。这就使得可以防止以下错误：当从章节的开头播放AV数据时，未播放用户期望观看的AV数据的开头。
在图1和图2中，还存储AV特征值保存单元110等等中存储的每个特征值的标题数据，但是并不总是需要这种标识符数据。然而，通过将标识符数据添加到每个特征值数据，当多个AV特征值被用于检测不同特征部分时，就可以容易地区分使用了哪个特征值。注意，标识符数据并不局限于文本文件，其可以是JPEG格式的视频数据等。另外，作为视频数据的标识符数据的文件名称等可以写入到信息文件中，从而使得能够将视频显示在用于搜索的屏幕上，如图9所示。
(第二实施例)
图11是示出根据本发明的第二实施例的AV流处理设备200的结构的框图。在某些情况下，通过无线电波的文本广播和DVD除了视频信息和音频信息之外，还附带有字幕信息或字符信息。AV流处理设备200使用伴随AV数据的字符信息来生成关键字搜索文件，其能够用于关键字搜索。作为用于实现其的独特特征，AV流处理设备200包括字符数据累积单元201和字符串检测单元202。另外，分离器单元207包括用于输出所有被输入的AV数据的记录输出端口、用于将特定数据输出到比较单元112的输出端口、以及用于将字符数据输出到字符数据累积单元201的输出端口。
用相同的附图标记表示根据本实施例的AV流处理设备200中的、与第一实施例中所述并在图1中示出的部件相同的部件，并且省略对其的描述。另外，省略由根据本实施例的AV流处理设备200所执行的、与第一实施例所述的处理相同的处理的描述。
图12是用于说明基于DVD VR格式的AV数据的图。图12中所示的VOB(视频对象)210是视频数据和音频数据的记录单元。VOBU(视频对象单元)220是VOB 210的构成单元，并且其包含与0.4到1秒相对应的视频和音频数据。VOBU 220包括包含字符信息的导航包221、包含视频信息的视频包222以及包含音频数据的音频包223。在图中，导航包221、视频包222和音频包223分别由“N”、“V”和“A”指示。另外，单个VOBU 220包括一个或者两个GOP(帧组)230。
导航包221包括“GOP头”和“扩展/用户数据区域”。音频包223和视频包222由I帧(帧内编码帧)、P帧(预测编码帧)和B帧(双向编码帧)组成，其表示15帧的视频/音频信息。
导航包221的“扩展/用户数据区域”包含每帧两个字符的字符数据，即，总共30个字符的字符数据。将字符数据从分离器单元207输出到字符数据累积单元201。
尽管以上已经以DVD为例进行了描述，但是，在待记录的AV数据是模拟广播节目的数据的情况下，可以将与第一和第二场中的21线相对应的信息从分离器单元207输出到字符数据累积单元201。即，字符数据累积单元201仅仅接收要被记录的AV数据中所包含的字符数据。
以下，将参考图13和图14描述为将记录到HDD 115中的AV数据生成搜索文件的过程。图13的顶行显示从比较单元112输出触发信号的次数。从上数第二行显示输出垂直同步信号的次数。从上数第三行显示将字符输入到字符数据累积单元201中的次数和要输入的字符。从上数第四行显示暂时累积在字符数据累积单元201中的字符。图13最底行显示在根据暂时累积在字符数据累积单元201中的字符数据而生成的关键字搜索文件中所描述的字符串。
图14是示出生成关键字搜索文件的过程的流程图。首先，当开始到HDD 115的记录时，打开一个新文本文件(图14中步骤S32)。如果已经从要记录的AV数据中检测到字符数据，则分离器单元207将其输出到字符数据累计单元201。
字符数据累计单元201暂时累积所输入的字符数据，直到从比较单元112输出触发信号为止(步骤S34到S36)。在图13中，在直到输出触发信号为止的时间段内累积在字符数据累计单元201中的字符数据片是“ab”、“cd”、“ef”、“gh”和“.”，并以此为序。在输出了该触发信号之后输入到字符数据累计单元201中的字符数据片“ij”和“kl”暂时积累在字符数据累计单元201中，并与在输出所述触发信号之前输入到字符数据累计单元201中的字符数据片“ab”、“cd”、“ef”、“gh”和“.”分离。
当从比较单元112输出触发信号时，将暂时累积在字符数据累计单元201中的字符数据片“ab”、“cd”、“ef”、“gh”和“.”写入已在步骤S32中打开的文件(步骤S37)。然后，关闭该文本文件(步骤S38)，并为其指定一个与章节标题ID(i)相关联的文件名称，例如mute0.txt，并将其存储到HDD 115中作为关键字搜索文件(步骤S39)。在完成该处理时，章节数i加1(步骤S40)。同样地执行生成关键字搜索文件的处理，直到在比较单元112中的比较完成为止(步骤S33和S41)。
如图15所示，还将每个关键字搜索文件的名称等记录到存储器116中的段表中。图16和图17是显示通过使用该段表所生成的标签信息文件的示例的图。图16和图17采用MPEG7格式生成，它是用XML描述的搜索描述方案。在图16所示的标签信息文件中，部分(A)显示在HDD 115中的目录。该目录是HDD 115中的所记录的AV数据的目录。此外，部分(B)显示章节标题ID(i)，部分(C)显示章节开始时间T(i)，以及部分(D)显示章节长度A(i)。另外，部分(E)显示在HDD115中的存储该章节的关键字搜索文件的目录。为每个章节生成包含上述部分(B)到(E)的部分(F)。
接下来，参照图18到图20描述通过使用所生成的关键字搜索文件来搜索所记录的内容的细节的方法。图18显示要在诸如监视器这样的显示单元上显示的屏幕(关键字录入提示)240的例子。屏幕240是用于显示在HDD 115中所记录的AV数据的章节信息以及关键字搜索结果的屏幕。在屏幕240的上部是搜索关键字录入框241和搜索按钮242，搜索关键字录入框241用于输入希望搜索的字符。另外，在搜索按钮242下方，具有所显示的章节号和章节开始时间，此外，还有章节信息区域和播放按钮245，所述章节信息区域指示搜索匹配数量指示器244，用于显示每个章节的搜索结果。该屏幕240是采用如下过程生成的。
首先，当按下用户面板120上的搜索屏幕显示按钮时，将在HDD115中存储的标签信息文件读出，以生成搜索匹配数量指示器244的区域(图19中的步骤S51)。然后，将如图18所示的屏幕240显示在监视器上(步骤S52)。注意，在该时刻，在搜索匹配数量指示器244和搜索关键字录入框241中不显示任何内容。
当显示该屏幕时，用户在搜索关键字录入框241中输入搜索关键字。在图18中，输入字“ichiro”作为搜索关键字。在该状态下，如果按下搜索按钮242，则从关键字搜索文件中搜索该字“ichiro”。
图20主要说明图11所示的AV流处理设备200的部件中的用于搜索的特征。字符串检测单元202包括搜索关键字保存单元251、搜索比较器252和搜索匹配数量计数器253。当从用户面板120输入关键字时，将关键字存储到字符串检测单元202中的搜索关键字保存单元251中。在该状态下，如果按下屏幕240上的搜索按钮242，则已经接收到信号的主机CPU 114输出指令信号，以从HDD 115中读出关键字搜索文件。
将在从HDD 115中读出的关键字搜索文件中描述的字符数据片从数据串的头部开始顺序地输入搜索比较器252。搜索比较器252将在搜索关键字保存单元251中存储的字符串“ichiro”与在搜索关键字保存单元251中描述的字符串进行比较，如果它们匹配，则输出信号到搜索匹配数量计数器253。
搜索匹配数量计数器253在每次输入信号时将计数值加1，从而对关键字搜索文件中的匹配的数量进行计数(图19中的步骤S55)。在完成一个关键字搜索文件时，主机CPU 114从搜索匹配数量计数器253中读出一个值，并将该值写入存储器116。对所有章节的关键字搜索文件执行搜索。当搜索完成时，读出存储器116中存储的数值，并将其显示在屏幕240的搜索匹配数量指示器244中(步骤S57)。
图18中所示的屏幕240表示一种情况，其中，对于第零、第一和第二章节的搜索匹配的数量分别为1、12、0。用户能够通过查看该搜索结果来选择待播放的章节。例如，如果用户选择如图18所示的具有最大搜索匹配数量的第一章节并按下播放按钮245，则将与第一章节相对应的一部分AV数据从HDD 115中读出到MPEG解码器117，从而从第一章节的开头开始播放。
根据本实施例的AV流处理设备200使用待记录的内容中包含的字符数据，从而为由标签信息生成单元113定义的每个章节生成关键字搜索文件。另外，所生成的关键字搜索文件能够用于关键字搜索。从而，通过使用AV流处理设备200，可以进一步提高用户的搜索效率。
为了生成关键字搜索文件，本实施例的字符数据累计单元201具有运算处理单元的功能和存储器的功能。然而，替代提供字符数据累计单元201，可以配置主机CPU 114和存储器116来执行应由字符数据累计单元201执行的处理。
(第三实施例)
图21是示出根据本发明第三实施例的AV流处理设备300的结构的框图。本实施例的AV流处理设备300的特征在于，根据音频数据生成用于搜索的字符数据。作为实现其的独特特征，AV流处理设备300包括语音识别单元301、字符数据累计单元201和字符串搜索单元202。
分离器单元307具有用于输出所有所输入的AV数据的记录输出端口、用于将特定数据输出到比较单元112的输出端口、以及用于将音频数据输出到语音识别单元301的输出端口。
用相同的附图标记表示AV流处理设备300中的、与第一和第二实施例中所述并在图1和图11中示出的部件相同的部件，并且省略对其的描述。另外，省略由根据本实施例的AV流处理设备300所执行的、与第一和第二实施例所述的处理相同的处理的描述。
语音识别单元301对从分离器单元307输出的音频数据进行语音识别，将人类对话部分的数据转换为文本数据，并将其输出到字符数据累计单元201。字符数据累计单元201为一个章节累积数据，即自从比较单元112输出触发信号开始，到输出下一个触发信号为止，从分离器单元307输出的数据。
本实施例的AV流处理设备300根据从音频数据获得的文本数据，为每个章节生成关键字搜索文件。所生成的关键字搜索文件能够用于关键字搜索。
例如，在音频数据是5.1声道(5.1ch)音频数据的情况下，分离器单元307可以仅仅提取在中央声道中包含的音频数据，并将其输出到语音识别单元301。同样，通过在很可能适用于搜索的特定声道中提取音频数据，能够提高语音识别单元301中的数据处理速度和准确度。
(第四实施例)
图22是示出根据本发明第四实施例的AV流处理设备400的结构的框图。根据本实施例的AV流处理设备400的特征在于，根据包含字幕的视频数据生成用于搜索的文本数据。作为实现其的独特特征，AV流处理设备400包括字幕识别单元401、字符数据累计单元201和字符串搜索单元202。
分离器单元407具有用于输出所有所输入的AV数据的记录输出端口、用于将特定数据输出到比较单元112的输出端口、以及用于将视频数据输出到字幕识别单元401的输出端口。用相同的附图标记表示AV流处理设备400中的、与第一和第二实施例中所述并在图1和图11中示出的部件相同的部件，并且省略对其的描述。另外，省略由根据本实施例的AV流处理设备400所执行的、与第一和第二实施例所述的处理相同的处理的描述。
在本实施例中，分离器单元407仅仅将包含字幕的视频数据输出到字幕识别单元401。包含字幕的视频数据是指例如一帧的底部1/4区域的视频数据。字幕识别单元401识别写入到所输入的视频数据的字幕部分中的字符，并将所识别的字符的字符串的数据输出到字符数据累计单元201。
字符数据累计单元201积累包含在一个章节中的字符数据。将所生成的字符数据存储到HDD 115。另外，在由AV流处理设备400所生成的标签数据文件中描述了每个章节的关键字搜索文件的地址等等，作为关于每个章节的信息。
根据本实施例的AV流处理设备400根据从视频中的字幕获取的字符数据，为每个章节生成关键字搜索文件。所生成的关键字搜索文件能够用于字符串搜索。
虽然以上已经描述了本发明的实施例，但是以上描述在所有方面仅仅是对本发明的说明，其目的并不是要限制本发明的范围。因此，应该理解，在不脱离本发明的范围的情况下，能够进行各种改进和变形。
工业应用
根据本发明的视频/音频流处理设备能够用作用于存储和观看AV数据等的设备。另外，其适用于AV数据编辑/播放设备和AV数据服务器。