客户端设备识别数据流的内容的方法及系统.pdf

摘要
申请专利号：	CN201280019133.2	申请日：	2012.02.14
公开号：	CN103562909A	公开日：	2014.02.05
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20140205\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20120214\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	沙扎姆娱乐有限公司
发明人：	A.L-C.王
地址：	英国伦敦
优先权：	2011.02.18 US 61/444,458; 2011.05.04 US 13/101,051; 2011.06.10 US 61/495,571
专利代理机构：	北京市柳沈律师事务所 11105	代理人：	叶齐峰
PDF下载：	PDF下载

内容摘要

提供了通过客户端设备识别数据流中的内容的方法和系统。该方法包括在客户端设备处接收表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征的签名文件。该方法还包括基于与签名文件的比较，客户端设备对接收到的由媒体呈递源呈递的媒体内容进行内容识别。客户端设备可以基于包括客户端设备的物理位置、客户端设备的网络地址、客户端设备之前的内容识别请求、流派偏好、艺术家偏好和用户配置文件的任意数量的因素来接收一组签名文件。

权利要求书

权利要求书
1.  一种方法，包括：
在客户端设备处接收签名文件，其中签名文件表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征；以及
基于与签名文件的比较，客户端设备对接收到的由媒体呈递源呈递的媒体内容进行内容识别。

2.  如权利要求1所述的方法，其中所述签名文件包括从媒体内容中提取的一个或多个特征的在时间上映射的集合，其中一个或多个特征中的每一个描述了映射时间点附近的媒体内容。

3.  如权利要求1所述的方法，其中从媒体内容中提取的一个或多个特征与媒体内容频谱图中对应的能量值是局部最大值的峰值对应，并且签名文件包括峰值和对应的时间位置的数据对。

4.  如权利要求1所述的方法，其中从媒体内容提取的一个或多个特征与媒体内容频谱图中的频谱位图光栅对应。

5.  如权利要求1所述的方法，其中媒体内容频谱图中的峰值与每秒大约10至大约50个峰值对应。

6.  如权利要求1所述的方法，进一步包括在客户端设备处接收与多个媒体内容对应的一组签名文件，其中多个媒体内容基于客户端设备的物理位置。

7.  如权利要求1所述的方法，进一步包括在客户端设备处接收与多个媒体内容对应的一组签名文件，其中多个媒体内容基于客户端设备的网络地址。

8.  如权利要求1所述的方法，进一步包括在客户端设备处接收与多个媒体内容对应的一组签名文件，其中多个媒体内容基于从包括客户端设备之前的内容辨识请求、流派偏好、艺术家偏好和用户配置文件的组中选择出来的因素。

9.  如权利要求1所述的方法，进一步包括在客户端设备处接收与多个媒体内容对应的一组签名文件，其中多个媒体内容基于流行的媒体内容的统计排序。

10.  如权利要求1所述的方法，进一步包括客户端设备使用麦克风接收由媒体呈递源呈递的媒体内容。

11.  如权利要求1所述的方法，进一步包括客户端设备在连续的基础上接收由媒体呈递源呈递的媒体内容。

12.  如权利要求1所述的方法，其中客户端设备对接收到的由媒体呈递源呈递的媒体内容进行内容识别包括：
确定接收到的媒体内容的一个或更多的特征；以及
比较接收到的媒体内容的一个或更多的特征与签名文件表示的从媒体内容中提取的一个或多个特征，以确定一个或多个特征的匹配。

13.  如权利要求12所述的方法，其中确定接收到的媒体内容的一个或多个特征包括确定接收到的媒体内容的一组指纹，每一个指纹与接收到的媒体内容内的界标相关联。

14.  如权利要求1所述的方法，其中在客户端设备处接收签名文件包括从服务器接收签名文件。

15.  如权利要求14所述的方法，其中客户端设备包括存储多个签名文件的数据库，其中签名文件是所述多个签名文件之一，并且所述方法进一步包括：在客户端设备处从服务器接收对数据库的更新，其中所述更新包括将一个或多个新的签名文件并入数据库或从数据库移除一个或多个现有的签名文件的指令。

16.  如权利要求1所述的方法，其中在客户端设备处接收签名文件包括：
在客户端设备处接收媒体内容；以及
通过客户端设备处理媒体内容以生成媒体内容的签名文件。

17.  一种在其上存储有客户端设备可执行的指令的非临时性计算机可读介质，使得客户端设备执行以下功能，包括：
在客户端设备处接收签名文件，其中所述签名文件表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征；以及
基于与签名文件的比较，客户端设备对接收到的由媒体呈递源呈递的媒体内容进行内容识别。

18.  如权利要求17所述的非临时性计算机可读介质，其中所述指令通过客户端设备可进一步执行以使得客户端设备执行以下功能，包括：
确定接收到的媒体内容的一组指纹，每一个指纹与接收到的媒体内容内的界标相关联；以及
比较接收到的媒体内容的该组指纹与签名文件表示的从媒体内容中提取的一个或多个特征，以确定一个或多个特征的匹配。

19.  一种客户端设备，包括：
数据库，被配置为接收且并入签名文件，其中所述签名文件表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征；以及
内容识别模块，耦合到数据库，并被配置为基于与签名文件的比较对接收到的由媒体呈递源呈递的媒体内容进行内容识别。

20.  如权利要求19所述的客户端设备，其中所述数据库被进一步配置为接收与多个媒体内容对应的一组签名文件，其中所述多个媒体内容基于客户端设备的类型或客户端设备的配置中的一个或多个，其中客户端设备的类型或客户端设备的配置指示客户端设备的给定的位置或给定的服务提供商。

21.  如权利要求19所述的客户端设备，进一步包括被配置为接收由媒体呈递源呈递的媒体内容的麦克风。

22.  一种方法，包括：
通过服务器确定来自客户端设备签名文件数据库的一组签名文件，其中每一个签名文件表示从相应的媒体内容和与相应的媒体内容相关联的信息中提取的一个或多个特征；以及
将所述一组签名文件提供给客户端设备。

23.  如权利要求22所述的方法，其中所述标识相应的媒体内容的信息包括歌曲的标题、歌曲的艺术家和歌曲的流派中的一个或多个。

24.  如权利要求22所述的方法，其中每一个签名文件包括与相应的媒体内容内的界标相关联的相应的媒体内容的指纹。

25.  如权利要求22所述的方法，其中将所述一组签名文件提供给客户端设备包括：
服务器识别与客户端设备的通信接口；以及
确定通信接口包括用于传输所述一组签名文件的足够的带宽量。

26.  如权利要求25所述的方法，其中确定通信接口包括用于传输所述一组签名文件的足够的带宽量包括：确定通信接口通过本地无线宽带连接（WiFi）实现。

27.  如权利要求25所述的方法，其中将所述一组签名文件提供给客户端设备包括：
服务器识别与客户端设备的通信接口；
确定通信接口通过由蜂窝无线提供商提供的蜂窝无线网络实现；以及
在确定通信接口通过本地无线宽带连接实现时将所述一组签名文件提供给客户端设备。

28.  如权利要求22所述的方法，其中相应的媒体内容包括歌曲，所述方法进一步包括：
服务器根据与用户配置文件相关联的并由数字媒体服务提供商提供的购买的歌曲的列表对数据库中的签名文件进行排序；以及
基于排序确定给客户端设备的所述一组签名文件。

29.  如权利要求22所述的方法，其中确定客户端设备的所述一组签名文件包括基于客户端设备的位置确定要包括在所述一组签名文件中的签名文件。

30.  如权利要求22所述的方法，其中确定客户端设备的所述一组签名文件包括基于服务器接收到的并且客户端设备所请求的之前的内容识别请求来确定要包括在所述一组签名文件中的签名文件。

31.  如权利要求22所述的方法，其中确定客户端设备的所述一组签名文件包括基于存储在客户端设备上的媒体内容来确定要包括在所述一组签名文件中的签名文件。

32.  如权利要求22所述的方法，其中确定客户端设备的所述一组签名文件包括基于流派偏好、艺术家偏好和相应的媒体内容的创作日期中的一个或多个来确定要包括在所述一组签名文件中的签名文件。

33.  如权利要求22所述的方法，其中确定客户端设备的所述一组签名文件包括基于客户端设备上对所述一组签名文件的预定的存储限制来确定多个签名文件。

34.  如权利要求22所述的方法，进一步包括为与相应的媒体内容相关的一组广告提供所述一组签名文件。

35.  如权利要求22所述的方法，其中确定来自客户端设备的签名文件数据库的所述一组签名文件包括基于指示多份媒体内容受欢迎程度的统计简档来确定要包括在所述一组签名文件中的签名文件。

36.  如权利要求22所述的方法，其中确定来自客户端设备的签名文件数据库的所述一组签名文件包括基于与服务器上所请求的内容识别请求的历史相关的统计简档来确定要包括在所述一组签名文件中的签名文件。

37.  如权利要求22所述的方法，进一步包括：
服务器接收多个内容识别请求，其中每一个内容识别请求包括内容样本；
服务器基于与签名文件对应的媒体内容的频率对数据库中的签名文件进行排序，所述媒体内容是多个内容识别请求的对象；以及
基于排序将所述一组签名文件提供给客户端设备。

38.  一种在其中存储有通过计算设备可执行的指令的非临时性计算机可读介质，以使得计算设备执行以下功能，包括：
通过计算设备确定来自客户端设备的签名文件数据库的一组签名文件，其中每一个签名文件表示从相应的媒体内容和与相应的媒体内容相关联的信息中提取的一个或多个特征；以及
将所述一组签名文件提供给客户端设备。

39.  如权利要求38所述的非临时性计算机可读介质，其中每一个签名文件包括与相应的媒体内容内的界标相关联的相应的媒体内容的指纹。

40.  如权利要求38所述的非临时性计算机可读介质，其中所述指令通过计算设备可进一步执行，以使得计算设备执行以下功能，包括：基于与计算设备上请求的内容识别请求的历史相关的统计简档来确定要包括在所述一组签名文件中的签名文件。

41.  一种服务器，包括：
数据库，被配置为存储签名文件，其中每一个签名文件表示从相应的媒体内容和与相应的媒体内容相关联的信息中提取的一个或多个特征；以及
内容识别模块，耦合到数据库，并被配置为从存储的客户端设备的签名文件中确定一组签名文件，并将所述一组签名文件提供客户端设备以使得客户端设备能够对接收到的媒体内容进行内容识别。

42.  如权利要求41所述的服务器，其中所述内容识别模块被进一步配置为基于与服务器上接收到的媒体内容的内容识别请求的历史相关的统计简档从客户端设备的签名文件数据库中确定一组签名文件。

说明书

说明书客户端设备识别数据流的内容的方法及系统
相关申请的交叉引用
本申请要求2011年6月10日提交的美国临时申请序列号61/495，571的优先权，其全部内容通过引用并入本说明书。本申请还要求2011年5月4日提交的美国专利申请序列号13/101,051的优先权，该专利申请要求2011年2月18日提交的美国临时申请61/444,458的优先权，这些专利申请中的每一个专利申请的全部内容都通过引用并入本说明书。每个交叉引用的相关申请的全部内容都通过引用并入本说明书。
技术领域
本发明涉及识别媒体流的内容。例如，本公开涉及基于存储在客户端设备上的签名文件对媒体流内容进行内容识别的客户端设备。
背景技术
用于各种数据类型（如，音频或视频）的内容识别系统使用许多不同的方法。客户端设备可以捕获记录媒体流（如，无线电广播）的媒体样本，然后可以请求服务器在媒体记录（也称为媒体轨道）数据库中对匹配进行搜索以便识别媒体流。例如，样本记录可以传递给内容识别服务器模块，内容识别服务器模块可以进行样本内容识别，并返回识别结果给客户端设备。然后，辨识结果可以在客户端设备上显示给用户，或用于各种后续服务，如购买或引用相关信息。内容识别的其他应用包括例如广播监测或内容敏感广告。
现有的内容识别系统可能需要用户交互以发起内容识别请求。很多时候，用户可能例如在一首歌曲结束后发起请求，错过识别这首歌曲的机会。
此外，在内容识别系统中，中央服务器从客户端设备接收内容识别请求并执行计算密集的程序，以识别样本内容。当提供结果给客户端设备时，由于可用于执行辨识的服务器的数量有限，大量请求可能会导致延迟。
发明内容
在一些示例中，提供了一种方法，包括在客户端设备处接收签名文件，签名文件表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征。该方法还包括基于与签名文件的比较，客户端设备对接收到的由媒体呈递源(rendering source)呈递的媒体内容进行内容识别。
在其他示例中，提供了一种方法，包括通过服务器从客户端设备的签名文件数据库确定一组签名文件，每个签名文件表示从相应的媒体内容和标识相应的媒体内容的信息中提取的一个或多个特征。该方法还包括将该组签名文件提供给客户端设备。
本说明书描述的任何一种方法也可以被提供为存储在非临时性计算机可读介质上的指令的形式，当通过计算设备执行时，这些指令使得计算设备执行该方法的多个功能。更多示例还可以包括制造品，它包括具有编码于其上的计算机可读指令的有形计算机可读介质，这些指令可以包括用来执行本说明书所描述的方法的功能的指令。
在更多的示例中，可以使用任何类型的设备或者任何类型的设备都可以被配置为执行本说明书所描述的任何过程或方法中的逻辑功能。
在其他示例中，提供了一种客户端设备，包括数据库和耦合到数据库的内容识别模块。数据库被配置为接收并存储签名文件，签名文件表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征。内容识别模块被配置为基于与签名文件的比较对接收到的通过媒体呈递源呈递的媒体内容进行内容识别。
在另一些示例中，提供了一种服务器，包括被配置为存储签名文件的数据库，每一个签名文件都表示从相应的媒体内容和标识相应的媒体内容的信息中提取的一个或多个特征。该服务器还包括内容识别模块，该内容识别模块耦合到数据库，并被配置为从存储的客户端设备的签名文件中确定一组签名文件，并将该组签名文件提供给客户端设备，以使得客户端设备能够对接收到的媒体内容进行内容识别。
前述概述只是示例性的，不用于任何方式的限制。除上面描述的示例性方面、实施例和特征之外，通过参照附图和下面的详细描述，更多的方面、实施例和特征将变得显而易见。
附图说明
图1示出了用于识别数据流内容的系统的一个示例。
图2示出了准备签名的示例性系统。
图3示出了示例性内容识别方法。
图4示出了用于识别数据流内容的示例性方法的流程图。
图5示出了用于识别数据流内容并确定客户端设备的签名文件的示例性系统。
具体实施方式
在下面的详细描述中，参照多张附图，这些附图也构成本说明书的一部分。在附图中，除非上下文另有规定，否则相似的符号通常标识相似的组件。在说明书、附图和权利要求中描述的示例性实施例的目的不是为了限制。在不偏离本说明书所展示的主题的精神或范围的情况下，可以使用其他的实施例，还可以做出其他的变化。很容易理解的是，本公开的各个方面，如在本说明书中一般性描述的，如在附图中示出的，可以被布置、替换、组合、分离和设计成各种不同的配置，所有这些都在本说明书的明确设想之中。
除了其他之外，本公开可以描述客户端设备识别数据流内容的方法和系统。该方法可以包括在客户端设备接收表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征的签名文件。该方法还可以包括客户端设备基于与签名文件的比较对接收到的由媒体呈递源呈递的媒体内容进行内容识别。客户端设备可以基于包括客户端设备的物理位置、客户端设备的网络地址、客户端设备的前一内容辨识请求、流派偏好、艺术家偏好和用户配置文件的多个因素中的任意数量的因素接收一组签名文件。
现在参看附图，图1示出了用于识别数据流内容的系统的一个示例。虽然图1示出了具有给定配置的系统，但系统内的组件可以以其他方式布置。该系统包括媒体或数据呈递源102，以任何已知的方式呈递和展示来自媒体流的内容。媒体流可以存储在媒体呈递源102上，或从外部源（如，模拟或数字广播）接收。在一个实施例中，媒体呈递源102可以是广播媒体流（例如，音频和/或视频）和/或其他信息的无线电电台或电视内容提供商。媒体呈递源102也可以是任何类型的播放记录的或实时格式的音频或视频媒体的设备。在一个替代性实施例中，媒体呈递源102可以包括例如作为音频源和/或视频源的现场表演。媒体呈递源102可以通过例如图形显示器、音频扬声器、 MIDI乐器、动画电子模型（animatronic puppet）等或媒体呈递源102呈递的任何其他类型的呈现来呈递或展示媒体流。
客户端设备104通过输入接口106从媒体呈递源102接收呈递的媒体流。在一个实施例中，输入接口106可以包括天线，在此情形中，媒体呈递源102可以将媒体流无线广播到客户端设备104。然而，根据媒体流的形式，媒体呈递源102可以使用无线或有线通信技术呈递媒体。在其他的示例中，输入接口106可以包括麦克风、视频摄像机、振动传感器、无线电接收器、网络接口等中的任一种。作为特定的示例，媒体呈递源102可以播放音乐，输入接口106可以包括麦克风以接收音乐样本。
在多个示例中，除了接收呈递的媒体流之外，客户端设备104可能不能可操作地耦合到媒体呈递源102。以这种方式，客户端设备104可以不受媒体呈递源102控制，并且可以不是媒体呈递源102的集成的部分。在图1所示的示例中，客户端设备104是与媒体呈递源102分离的实体。
输入接口106被配置为捕获呈递的媒体流的媒体样本。输入接口106可以被预编程为无需用户干预地连续地捕获媒体样本，以记录所有接收的音频并将记录存储在缓冲器108中。缓冲器108可以存储多个记录，或者可以存储有限时间的记录，这样客户端设备104可以例如以预定的时间间隔或者以使得在时间上往回的某个长度的历史可用于分析的方式来记录并存储记录。在其他的示例中，捕获媒体样本可以由用户激活触发样本捕获的按钮或其他应用程序引起或触发。例如，客户端设备104的用户可以按下按钮，通过麦克风记录十秒钟的数字音频样本，或使用相机捕获静止图像或视频序列。
客户端设备104可以实现为具有较小外形的便携式（或移动）电子设备如，手机、无线手机、个人数据助理（PDA）、平板计算机、个人媒体播放设备、无线网络观看设备、个人耳机设备、专用设备或包括任何上述功能的混合设备中的一部分。客户端设备104也可以实现为个人计算机，包括膝上型计算机和非膝上型计算机配置。客户端设备104也可以是更大的设备或系统的组件。
客户端设备104还包括位置识别模块110和内容识别模块112。位置识别模块110被配置为从缓冲器108接收媒体样本，并基于在那一时刻捕获的媒体样本识别指示媒体样本在呈递的媒体流（或在呈递的媒体流片段）中的时间偏移量的对应的估计时间位置（Ts）。在一些示例中，时间位置（Ts）也可以是自媒体流开始起已经经过的时间量。例如，媒体流可以是无线电广播，时间位置（Ts）可以对应于正在呈递的歌曲的已经经过的时间量。
内容识别模块112被配置为从缓冲器108接收媒体样本，并对接收到的媒体样本进行内容识别。内容识别对媒体流进行识别，或对与媒体样本相关或有关的信息进行识别。内容识别模块112可被配置为接收环境音频样本，识别音频样本的音乐内容，并提供与该音乐有关的信息，包括音轨名称、艺术家、曲集、艺术作品、传记、唱片、音乐会门票等。
在此方面，内容识别模块112包括媒体搜索引擎114，并可以包括或耦合到数据库116，该数据库116对参考媒体流进行索引化处理，例如，以比较接收到的媒体样本和存储的信息，从而识别接收到的媒体样本内的轨道。一旦识别出媒体流内的轨道，轨道特性或其他信息就可以显示在客户端设备104的显示器上。
数据库116可以存储包括用来识别内容片段的信息的内容模式（content pattern）。内容模式可以包括媒体记录，如音乐、广告、广告词（jingles）、电影、纪录片、电视和电台节目。每个记录都可以通过唯一标识符（例如，sound_ID）识别。替代性地，数据库116不一定存储每个记录的音频或视频文件，因为sound_ID可用于从其他地方获取音频文件。内容模式可以包括其他信息（除包括媒体记录之外或者不包括媒体记录），如包括描述媒体记录内容的时间映射特征集合的参考签名文件，其具有与媒体记录的时间轴对应的时间维度，其中每一个特征都可以是对每个映射时间点附近的内容的描述。一般情况下，例如，可以对签名文件中的特征进行选择，以可以在存在噪声和失真的情况下再现。特征可以从媒体记录之中在离散时间位置处稀疏地提取，每一个特征都可以与感兴趣特征对应。稀疏特征的示例包括Lp范数幂峰值、频谱能量峰值、链接凸点（linked salient point）等。对于更多的示例，读者可以参考Wang和Smith的美国专利第6,990,453号，该专利通过引用被整体并入本说明书中。
替代性地，连续的时间轴可以密集地表示，其中每一个时间值都具有对应的可以被包括或表示在媒体记录的签名文件中的特征值。这种密集特征的示例包括特征波形（如在Kenyon的美国专利第7,174,293号描述的，该专利通过引用被整体并入本说明书）、频谱位图光栅（如美国专利第5,437,050号描述的，该专利通过引用被整体并入本说明书）、活动矩阵（如美国公开专利申请第2010/0145708号描述的，该专利通过引用被整体并入本说明书）和能量通量位图光栅（energy flux bitmap raster）（如美国专利第7,549,052号描述的，该专利通过引用被整体并入本说明书）。
在一个实施例中，签名文件包括媒体记录的稀疏特征表示。记录的特征可以从使用重叠的短时快速傅立叶变换（FFT）提取的频谱图中获得。频谱图的峰值可以在对应的能量值为局部最大值的时间-频率位置处选择。例如，峰值可以通过识别每个候选位置周围区域中的最大值点来选择。心理声学掩蔽标准也可以用来抑制听不见的能量峰值（inaudible energy peak）。每一个峰值都可以编码为一对时间和频率值。此外，可以记录峰值的能量幅度。在一个示例中，音频采样速率为8KHz，FFT帧的大小可能会在大约64-1024bin之间变化，帧之间的跳距（hop size）使得大约与前一帧有25-75％的重叠。增加频率分辨率可能导致更低的时间精度。并且，频率轴可以弯曲（warp）和内插到对数标度之上，如梅尔频率。
与这些特征相关联的许多特征或信息可以组合成签名文件。签名文件可以将特征排序成按时间递增排列的列表。每个特征Fj都可以与数据结构（data construct）中的时间值tj相关联，列表可以是这种结构的数组；例如，这里j是第j个结构的索引。在使用连续时间表示（例如，连续频谱图帧）的示例中，时间轴可以隐含在列表数组的索引中。每一个媒体记录中的时间轴都可以被获得作为自记录开始处起的偏移量，因此，时间零指示记录开始。
图2示出了生成签名文件的示例性系统。该系统包括媒体记录数据库202、特征提取模块204以及媒体签名数据库206。媒体记录数据库202可以包括多个媒体记录的副本（例如，歌曲或视频）或对多个媒体记录的副本的引用。特征提取模块204可以耦合到媒体记录数据库202，并且可以接收媒体记录进行处理。图2概念性地示出了从媒体记录数据库202接收音频轨道的特征提取模块。
特征提取模块204可以使用任何上述示例方法从媒体记录提取特征来生成用于媒体记录的签名文件208。特征提取模块204可以将签名文件208存储在媒体签名数据库206中。例如，媒体签名数据库206可以存储带有相关联的标识符的签名文件，如图2所示。例如，签名文件的生成可以在批处理模式下进行，参考媒体记录库可以被预处理为对应的提取特征参考签名文件的库。输入到特征提取模块204的媒体记录可以存储在缓冲器中（例如，其中将旧的记录从滚动缓冲器发送出去并接收新的记录）。可以提取特征，并可以从媒体记录的滚动缓冲器的连续操作中连续创建签名文件，以根据需要不留时间间隙地或基于需求进行表示。在按需示例中，特征提取模块204可以在必要时从媒体记录数据库202获取媒体记录，以响应于对应特征的请求提取特征。在一个示例中，然后，由此得到的参考签名文件库可以存储或提供给客户端设备104。
得到的签名文件的大小可能会随着所使用的特征提取方法的不同而变化。在一个示例中，所选频谱图的峰密度（例如，特征）可以选择在大约每秒10-50点之间。峰可以选择为每单位时间的前N个最大能量峰，例如，一秒帧中的前10个峰。在一个示例中，使用每秒10个峰，用32位来编码每个峰的频率（例如，8位用于频率值，24位用来编码时间偏移量），可能需要每秒40个字节来编码特征。歌曲的平均长度大约为三分钟，一首歌大约会产生7.2千字节大小的签名文件。对于其他的签名编码方法，例如，跳距为100毫秒的频谱图中的每一个偏移处32位的特征会产生类似大小的指纹。
在另一个示例中，签名文件可能大约为5-10KB的量级，并可以与从中获得约20秒长的样本的媒体记录的一部分对应，并在结束样本捕获之后指向媒体记录的一部分。
在一些示例中，签名文件可以通过描述记录的特征来表示媒体记录的指纹。在这方面，媒体记录的签名可以视为是记录的指纹，签名或指纹可以被包括在签名文件之中。
图2中所示的系统可以被包括在客户端设备104或服务器122之中。在系统被包括在客户端设备之中的一个示例中，媒体记录数据库202可以包括本地存储的媒体（例如，音乐库）。在其他的示例中，客户端设备104可以接收来自服务器或从流（如，无线电广播、流传输的互联网广播等）中捕获的原始内容（例如，音乐文件），并进行签名提取以使用签名文件填充数据库116。在另一些示例中，接收到新的媒体记录（例如，用户购买新的歌曲并下载歌曲到客户端设备104）时，客户端设备104可以提取签名特征以生成新媒体记录的签名文件。客户端设备104可以将信息与生成的签名文件相关联，如识别原始内容的信息（如，歌曲标题、艺术家、流派等）、广告等，或从服务器接收到的与原始内容相关联的任何信息。
再参照图1，数据库116可以包括多个媒体记录的签名文件，并可以持续更新，以包括新媒体记录的签名文件。数据库116可以接收用于删除旧的签名文件的指令以及纳入来自服务器的新的签名文件的指令。数据库116可以进一步包括与提取的媒体文件的特征相关联的信息。数据库116可以包括多个签名文件，使得客户端设备104能够执行与本地存储的签名文件进行内容匹配的内容识别。
数据库116还可以包括每个存储的签名文件的信息，诸如元数据，该元数据表示有关例如艺术家名称、歌曲长度、歌曲的歌词、歌词的行或单词的时间索引、曲集艺术品之类的签名文件的信息，或任何其他标识文件或与文件相关的信息。元数据还可以包括数据和到其他相关内容和服务的超链接，包括推荐、广告、提供预览、书签以及购买音乐记录、视频、音乐会门票和奖励内容；以及为了方便浏览、探索、发现万维网上的相关内容。
内容识别模块112也可以包括签名提取器118，签名提取器118可以被配置为生成从捕获的媒体样本中提取出的特征的签名流，每个特征都可以具有对应的样本内的时间位置。提取出的特征的签名流可以用来与存储在数据库116中的签名文件比较，以识别对应的媒体记录。在一些示例中，签名提取器116可以被配置为使用上述生成签名文件的方法中的任何一种从媒体样本中提取特征，以生成提取特征的签名流。签名流可以基于例如观测到的媒体流实时确定和生成。
内容识别模块112和/或签名提取器118还可以被配置用来比较媒体样本内的特征和签名文件的对准，以识别对应时刻的特征匹配。
图1中的系统还包括客户端设备104可以通过无线或有线链接与之耦合的网络120。服务器122被设置为耦合到网络120，服务器122包括位置识别模块124和内容识别模块126。虽然图1示出服务器122包括位置识别模块124和内容识别模块126，但是位置识别模块124和/或内容识别模块126中的任意一个都可以是例如远离服务器122的单独的实体。此外，位置识别模块124和/或内容识别模块126可以在例如通过网络120连接到服务器122的远程服务器上。
在一些示例中，客户端设备104可以捕获媒体样本，并可以通过网络120将媒体样本发送给服务器122，以确定媒体样本中的内容的特性。服务器122的位置识别模块124和内容识别模块126可以被配置为类似于客户端设备104的位置识别模块110和内容识别模块112运行。在这方面，内容识别模块126 包括媒体搜索引擎128，并可以包括或耦合到索引化参考媒体流的数据库130，例如，以比较接收到的媒体样本和存储的信息，以识别接收到的媒体样本中的轨道。一旦已经识别出媒体流内的轨道，轨道特性或其他信息就可以返回给客户端设备104。
响应于从客户端设备104接收到的内容识别查询，服务器122可以对从中获得媒体样本的媒体记录进行识别，和/或获取与识别的媒体记录对应的签名文件。然后，服务器122可以返回识别媒体记录的信息和与媒体记录对应的签名文件给客户端设备104。
在其他的示例中，客户端设备104可以从媒体呈递源102捕获媒体流的样本，并且可以对样本进行初始处理，以创建媒体样本的签名文件/指纹。然后，客户端设备104可以发送指纹信息给服务器122的位置识别模块124和/或内容识别模块126，它可以单独基于指纹信息对与样本有关的信息进行识别。以这种方式，更多的计算或识别处理可以在客户端设备104而不是在例如服务器122处进行。
在又一些示例中，如上所述，客户端设备104还可以被配置为本地执行内容识别，通过比较媒体样本内的特征和签名文件的对准（alignment），以识别对应时刻的特征匹配。
各种内容识别技术在本领域中已经是广为人知的，用于使用媒体轨道数据库进行媒体样本和媒体样本特征的计算内容识别。下列美国专利和出版物描述了可能的媒体辨识技术的示例，每一个都通过引用被完整并入本说明书中，就像在本说明书中完整提出：Kenyon等人的标题为《Broadcast Information Classification System and Method》的美国专利第4,843,562号；Kenyon的标题为《Broadcast Signal Recognition System and Method》的美国专利第4,450,531号;Haitsma等人的标题为《Generating and Matching Hashes of Multimedia Content》的美国专利申请公开号2008/0263360；Wang和Culbert的标题为《Robust and Invariant Audio Pattern Matching》的美国专利第7,627,477号；Wang,Avery的标题为《Method and Apparatus for Identification of Broadcast Source》的美国专利申请公开号2007/0143777；Wang和Smith的标题为《System and Method for Recognizing Sound and Music Signals in High Noise and Distortion》的美国专利第6,990,453号；Blum等人的标题为《Method and Article of Manufacture for Content-Based Analysis,Storage,Retrieval,and Segmentation of Audio Information》的美国专利第5,918,223号；以及Master等人的标题为《System and Method for Identifying Original Music》的美国专利申请公开号2010/0145708。
简要地说，内容识别模块（在客户端设备104或服务器122之内）可以被配置为接收媒体记录和对媒体记录进行采样。记录可能与数字化、归一化的参考信号片段相关，以获得的每一个作为结果的相关片段的相关函数峰值，以便当相关函数峰值之间的间距在预定限度之内时提供辨识信号。例如，如在美国专利第4,450,531号（通过引用完整并入本说明书之中）中提及的，与相关函数峰值重合的RMS功率值图形可以在来自数字化的参考信号片段的RMS功率值图形的预定限度内匹配。因此，可以识别匹配的媒体内容。此外，媒体内容中的媒体记录的匹配位置由例如匹配的相关片段的位置以及相关峰值的偏移量给出。
图3示出了另一种示例性的内容识别方法。一般情况下，媒体内容可以通过识别或计算媒体样本的特征或指纹并比较指纹和先前识别的参考媒体文件的指纹来识别。样本内计算指纹的特定位置可能取决于样本中可以再现的点。这种可再现计算的位置被称为“界标（landmark）”。样本中界标的位置可以通过样本本身确定，即取决于样本质量，并且是可以再现的。也就是说，每次重复该过程时，相同的信号可以计算相同或类似的界标。界标标记方案对于声音记录可以每秒标记约5至10个界标；然而，界标标记的密度可能与媒体记录内的活动量有关。一种被称为功率范数（power norm）的界标标记技术是计算记录内多个时间点处的瞬时功率以选择局部最大值。这样做的方法之一是通过直接对波形进行整形和滤波计算出包络线（envelop）。另一种方法是计算信号的希尔伯特（正交）变换，并使用希尔伯特变换和原始信号的幅值的平方和。也可以使用其他的方法来计算界标。
图3示出了样本的dB（幅度）随时间变化的示例性曲线图。曲线图示出了多个标识的界标位置（L1至L8）。一旦已经确定界标，就在记录中的每一个界标时间点处或其附近计算指纹。特征与界标的接近度由所使用的指纹方法定义。在某些情况下，如果特征清楚地与界标对应，而不是与前面或后面的界标对应，那么认为该特征在界标附近。在其他情况下，特征与多个相邻的界标对应。指纹通常是汇总记录中的界标时间点处或其附近的一组特征的一个值或一组值。在一个示例中，每一个指纹都是单个数值，该数值是多个特征的散列函数。指纹的其他示例包括频谱切片（slice）指纹、多切片指纹、LPC系数、倒谱（cepstral）系数和频谱峰值的频率分量。
指纹可以通过任何类型的数字信号处理或信号频率分析计算得到。在一个示例中，为了生成频谱切片指纹，在每个界标时间点的邻域中进行频率分析，以提取前几个频谱峰值。然后，指纹值可以是最强频谱峰值的单个频率值。欲了解有关计算音频样本的特征或指纹的更多信息，读者可以参考Wang和Smith的标题为《System and Methods for Recognizing Sound and Music Signals in High Noise and Distortion》的美国专利第6,990,453号，其全部内容通过引用并入本说明书中，就像此描述中的完整陈述。
因此，参照图1，客户端设备104或服务器122可以接收记录（例如，媒体/数据样本）并计算记录的指纹。在一个示例中，为了对记录相关的信息进行识别，客户端设备104的内容识别模块112可以随后访问数据库116以便通过生成等效指纹和数据库116中的文件之间的对应关系来匹配记录的指纹和已知音频轨道的指纹，以找到具有最多的线性相关对应关系或其特征指纹的相对位置与记录中相同指纹的相对位置最为匹配的文件的位置。
参看图3，示出了样本界标和指纹匹配（或基本匹配）的参考文件的散布图。样本可以与多个参考文件比较以生成多个散布图。生成散布图之后，可以对界标对之间的线性对应关系进行识别，并可以根据线性相关的界标对的数量对集合进行评分。当例如可以使用大致相同的线性方程在允许的容差范围内描述统计学上大量的对应的样本位置和参考文件位置时，可能出现线性对应关系。具有最高的统计学意义得分的，即具有最多的线性相关对应关系的文件集合是获胜的文件，可以被视为是匹配的媒体文件。
在一个示例中，为了生成文件的得分，可以生成偏移值的直方图。样本和指纹匹配的参考文件之间的界标时间位置的偏移值可能不同。图3示出了示例性的偏移值直方图。参考文件可被赋予等于直方图峰值的分数（例如，在图3中，分数=28）。每一个参考文件都可以以这种方式进行处理来生成得分，具有最高得分的参考文件可被确定为与样本匹配。
此外，在上述出版物中描述的系统和方法可能返回不仅仅是媒体样本的特性。例如，使用Wang和Smith的美国专利第6,990,453号中描述的方法,除了返回与识别的音频轨道相关联的元数据以外，还可以返回自识别的样本开始起的媒体样本的相对时间偏移量（RTO）。为了确定记录的相对时间偏移，可以比较样本的指纹和这些指纹所匹配的原始文件的指纹。每一个指纹都发生在给定的时间，因此在匹配指纹以识别样本之后，（样本中的匹配指纹的）第一指纹和所存储的原始文件的第一指纹之间的时间差将是样本的时间偏移量，例如，在一首歌中偏移的时间量。因此，可以确定抽取样本的相对时间偏移量（例如，一首歌曲中的67秒）。也可以使用其他的信息来确定RTO。例如，直方图的峰值位置可被视为是从参考记录的开始到样本记录的开始的时间偏移量。
根据媒体样本的类型，也可以进行其他形式的内容识别。例如，视频识别算法可被用来识别视频流内（例如，电影）的位置。Oostveen，J.等人的《Feature Extraction and a Database Strategy for Video Fingerprinting》（Lecture Notes in Computer Science，2314，2002年3月11日，117-128）描述了示例性的视频识别算法，其全部内容通过引用并入本说明书中。例如，视频样本在视频中的位置可以通过确定哪个视频帧被识别来推导。为了识别该视频帧，媒体样本的帧可以被划分成行和列的网格，对于每个网格块，计算像素亮度值的平均值。空间滤波器可以应用于计算出的平均亮度值来导出每个网格块的指纹比特（fingerprint bits）。指纹比特可用来唯一地识别该帧，并可以与包括已知媒体的数据库的指纹比特进行比较或匹配。从帧中提取的指纹比特可以被称为子指纹，指纹块是来自连续帧的固定数量的子指纹。利用子指纹和指纹块，可以进行视频样本识别。基于媒体样本包括了哪个帧，可以确定视频中的位置（例如，时间偏移）。
此外，也可以进行其他形式的内容识别，例如使用水印方法。客户端设备104的位置识别模块110（相似地，服务器122的位置识别模块124）可以使用水印方法来确定时间偏移量，使媒体流可以具有以一定时间间隔嵌入的水印，而每个水印直接地或者通过例如数据库查找间接地指定水印的时间或位置。
在前述某些示例性的实现内容识别模块112的功能的内容识别方法中，识别过程中的副产物可以是媒体流内的媒体样本的时间偏移量。因此，在这些示例中，位置识别模块110可以与内容识别模块112相同，或位置识别模块110的功能可以由内容识别模块112执行。
在一些示例中，客户端设备104或服务器122还可以通过网络120访问媒体流库数据库132，以便选择随后可以返回给客户端设备104的与被采样媒体对应的媒体流以便通过客户端设备104呈现。媒体流库数据库132中的信息或流媒体库数据库132本身都可以被包括在数据库116之中。
媒体呈递源102呈递的媒体的估计时间位置通过位置识别模块110来确定，并用来确定呈递所选择的媒体流的、选择的媒体流中对应位置。当客户端设备104被触发捕获媒体样本时，根据客户端设备104的参考时钟记录时间戳（T0）。与媒体样本的采样时刻对应的时间戳记录为T0，并可以称为同步点。采样时刻可以优选地是开始处，但也可以是媒体样本的结束处、中间或任何其他的预定时刻。因此，媒体样本可以带有时间戳，这样使得媒体流中从固定的任意参考时间点起的对应的时间偏移量都是已知的。在任何时刻t，估计的实时媒体流位置Tr（t）根据估计的识别的媒体流位置Ts加上自时间戳的时刻经过的时间来确定：
Tr(t)=Ts+t–T0    等式（1）
Tr（t）是从媒体流的开始处到当前呈递的媒体流的实时位置经过的时间量。因此，可以使用Ts（即，基于记录的样本估计的从媒体流的开始处到媒体流的某个位置经过的时间量）计算Tr（t）。然后，客户端设备104使用Tr（t）与媒体呈递源102正在呈递的媒体同步地展现选择的媒体流。例如，客户端设备104可以在时间位置Tr（t）处或在使得已经经过时间量Tr（t）的位置处开始呈现选择的媒体流，以便与媒体呈递源102正在呈递的媒体同步地呈现呈递和展现选择的媒体流。
在一些实施例中，估计的位置Tr（t）可以根据速度调节比R调整。例如，标题为《Robust and invariant audio pattern matching》的美国专利第7,627,477号（其全部内容通过引用被并入本说明书）描述的方法可以实现用于识别媒体样本、估计的识别的媒体流位置Ts和速度比R。为了估计速度比R，计算匹配指纹变化部分的交叉频率比，由于频率与时间成反比，因此交叉时间比是交叉频率比的倒数。跨速比（cross-speed ratio）R是交叉频率比（例如，交叉时间比的倒数）。
也可以使用其他方法估计速度比R。例如，可以捕获多个媒体样本，可以对每个样本进行内容识别，以获得第k个样本在参考时钟时刻T0（k）的多个估计的媒体流位置Ts（k）。然后，R可以估计为：
Rk=TS(k)-TS(1)T0(k)-T0(1)]]>   等式（2）
为了表示R随时间变化，也可以使用下面的等式：
Rk=TS(k)-TS(k-1)T0(k)-T0(k-1)]]>   等式（3）
因此，可以使用某一段时间上的估计的时间位置Ts来计算速度比R，以确定媒体呈递源102正在以何种速度呈递媒体。
使用速度比R，实时媒体流位置的估计值可以计算为：
Tr(t)=TS+R(t-T0)   等式（4）
实时媒体流位置指示媒体样本的时间位置。例如，如果媒体样本来自一首长度为四分钟的歌曲，并且如果Tr（t）为一分钟，那么表明这首歌已经经过了一分钟。时间信息可以通过客户端设备在内容识别过程中确定。
图4示出了用于识别数据流中的内容的示例性方法400的流程图。图4中所示的方法400展示了方法的一个实施例，例如，该方法可以和图1中所示的系统一起使用，例如，该方法可以通过计算设备（或计算设备的多个组件），如客户端设备或服务器执行。方法400可以包括如一个或多个块402-410所示的一个或多个操作、功能或行为。虽然这些块以一定顺序示出，但这些块也可以并行和/或以不同于此处描述的顺序执行。此外，各个块根据想要的实现可被组合成更少的块、划分成更多的块和/或移除。
应该理解的是，对于本说明书中公开的这些和其他的过程和方法，该流程图显示了本发明的实施例的一种可能的实现的功能和操作。在这方面，每一个块都可以表示程序代码的一个模块、片段或部分，包括可以通过处理器执行以实现特定的逻辑功能或过程中的多个步骤的一条或多条指令。程序代码可以存储在任何类型的计算机可读介质或数据存储装置上，例如，如包括磁盘或硬盘驱动器的存储设备。计算机可读介质可以包括非临时性计算机可读介质或存储器，例如，如短时间存储数据的计算机可读介质，像寄存器存储器、处理器高速缓存和随机存取存储器（RAM）。计算机可读介质还可以包括非临时性介质，如辅助的或持久性的长期存储装置，例如，像只读存储器（ROM）、光盘或磁盘、致密盘只读存储器（CD-ROM）。计算机可读介质还可以是任何其他的易失性或非易失性存储系统。计算机可读介质可以视为是例如有形的计算机可读存储介质。
此外，图4中的每一个块都可以代表被导线连接以执行过程中的特定的逻辑功能的电路。本领域中一般的技术人员应该理解的是，替代性的实现包括在本公开的示例性实施例的范围之内，其中根据所涉及的功能，多个功能可以不按照所示的或所讨论的顺序执行，包括基本同时或以相反的顺序。
方法400包括：在块402中，在客户端设备接收媒体流的样本。客户端设备可以连续、零散或每隔一段时间接收媒体流，媒体流可以包括任何类型的数据或媒体，如无线电广播、电视节目的音频/视频，或所呈现的任何音频。媒体流可以由源连续地呈递，因此，客户端设备可以连续地接收媒体流。在一些实例中，客户端设备可能会接收到基本连续的媒体流，使得客户端设备接收所呈递的媒体流的主要部分，或使得客户端设备基本上在所有时间都接收媒体流。客户端设备可以使用例如麦克风捕获媒体流的样本。
方法400包括：在块404中，在客户端设备处，确定样本特征的签名流。例如，客户端设备可以在接收媒体流时通过输入接口（例如，麦克风）以增量的方式接收媒体流的样本，并可以提取这些样本的特征以生成对应的签名流增量。由于媒体呈递源呈递媒体流的进行，每一个增量样本都可能包括前面的样本之后的某个时间的内容。使用例如上述的任何一种提取样本特征的方法都可以根据媒体流的样本生成签名流。
当媒体流是正在进行中的媒体流时，签名流可以在正在进行的基础上实时生成。以这种方式，签名流中特征的数量可能会随着时间的推移而增加。
方法400包括：在块406中，确定样本的签名流和至少一个媒体记录的签名文件之间的特征随着时间的推移是否基本匹配。例如，客户端设备可以比较签名流中的特征和存储的签名文件中的特征。签名流中的特征可能是或可以包括界标-指纹对，签名文件可能包括例如给定的参考文件的界标-指纹对。因此，客户端设备可以对签名流和签名文件的界标-指纹对进行比较。
方法400包括：在块408中，确定匹配特征的数量是否高于阈值，并基于匹配特征的数量，在块410中识别匹配的媒体记录。例如，客户端设备可以被配置为确定媒体样本的签名流和存储的签名文件之间的匹配特征的数量，并对每一个签名文件的匹配特征的数量进行排序。具有最大数量的匹配特征的签名文件可被视为是匹配的，通过该签名文件识别或引用的媒体记录可被识别为样本的匹配记录。
在一个示例中，当匹配特征的数量小于阈值时，块406可以在块408之后重复执行，这样可以对签名流和签名文件之间的特征进行反复比较。随着时间的推移，当媒体流被连续地接收时，客户端设备可以接收更多的签名流内容（例如，一首歌曲的更长的部分），累积的数据可以合在一起处理，利用处理更前面的片段得到的结果，以在更长的样本内寻找匹配。
客户端设备可以连续接收媒体流，并可以基于与存储的签名文件的比较来连续进行内容识别。以这种方式，客户端设备可以尝试识别接收到的所有内容。内容识别可以基本上连续地进行，这样例如在客户端设备运行或包括内容识别功能的应用程序运行时，一直或者或始终进行内容识别。
在一些示例中，内容识别可以在接收到媒体流时进行。客户端设备可以被配置为连续地接收来自麦克风的数据流（例如，始终捕获周边环境音频）。客户端设备可以被配置为连续地进行内容识别，以进行被动的内容识别而无需用户输入（例如，用户不需要触发客户端设备进行内容识别）。客户端设备的用户可以启动连续进行内容识别的应用程序或可以配置客户端设备上的设置使得客户端设备连续进行内容识别。
使用图4中的方法400，特征内容可以通过客户端设备本地识别（基于本地存储的内容模式）。方法400使得所有的内容识别处理能够在客户端设备上进行（例如，提取样本特征、搜索存储在手机上的一组有限的签名文件等）。例如，对于优惠，与优惠内容有关的签名文件可以被提供给客户端设备（例如，预加载在客户端设备上），客户端设备可以被配置为运行在连续辨识模式，并能够识别这组有限的内容。
在一个示例中，当特征内容是由客户端设备捕获时，客户端设备可以进行内容识别，并提供表示辨识的通知（例如，弹出式窗口）。方法400可以为用户提供零点击（例如，被动的）的标记体验，以在识别出特征内容时通知用户。
图5示出了用于识别数据流中的内容并确定客户端设备的签名文件的示例性系统500。在图5中描述的系统功能或组件中的一个或多个可以被划分成更多的功能或物理组件，或组合成更少的功能或物理组件。在一些其他的示例中，更多的功能和/或物理组件可以添加到图5所示的示例中。
系统500包括辨识服务器502和请求服务器504。辨识服务器502可以被配置为从客户端设备接收确定内容特性的查询，该查询可以包括内容样本。辨识服务器502包括位置识别模块506和包括媒体搜索引擎510的内容识别模块508，并耦合到数据库512和媒体流库数据库514。辨识服务器504可以例如被配置为类似于图1中的服务器122运行。
请求服务器504可以被配置为指示客户端设备以连续识别模式运行，使得在处于连续识别模式的客户端设备处，客户端设备在接收到的数据流中连续地进行内容识别（而不是发送查询给辨识服务器502以识别内容或除发送查询给辨识服务器502之外还这样做）。请求服务器504可以耦合到包括内容模式或签名文件的数据库516，并且请求服务器504可以访问数据库516以获取内容模式并将这些内容模式发送给客户端设备。
在一个示例中，请求服务器504发送给客户端设备一个或多个签名文件，以及可选的在客户端设备处连续地进行媒体流中的内容的内容识别的指令。客户端设备可以响应地工作在连续模式。请求服务器504可以在辨识服务器502正在经历大容量的内容识别请求的时候发送指令给客户端设备，因此，请求服务器502通过指示一些客户端设备在本地进行内容识别来进行负载均衡。示例性的可能接收到大容量的请求的时候包括当大量的观众调谐电视时正在电视上播放歌曲或广告的时候。在此情况下，请求服务器504可以提前计划，提供与将要在播放期间呈现的歌曲或广告匹配的签名文件给客户端设备，并包括用于客户端设备在本地进行内容识别的指令。该指令可以包括客户端设备应该何时进行本地内容识别的指示，如指示在将来的某个时间执行此操作且持续一段时间。在一些示例中，对于优惠，只要进行优惠活动，就可以将签名文件提供给客户端设备以对文件进行本地缓存（例如，约100至500个文件），而指令可以指示客户端设备进行本地内容识别。
在一些示例中，请求服务器504可以提供一个或多个签名文件给客户端设备。请求服务器504可以发送签名/指纹数据库给客户端设备，使得客户端设备能够以单机方式来识别内容，而无需连接到请求服务器504。在其他的示例中，该请求服务器504可以提供原始内容或记录给客户端设备，客户端设备可以从原始内容中提取签名以填充客户端设备上的本地数据库。
请求服务器504可以基于多个标准选择将要提供给客户端设备的签名文件。例如，请求服务器504可以接收与用户的配置文件（profile）有关的信息，并可以选择要提供给客户端设备的、与用户的配置文件相关的签名文件。具体地说，用户可以指示对某一音乐流派、某些艺术家、音乐类型、音乐来源等的偏好，请求服务器504可以提供与这些偏好相关的媒体的签名文件，也可以基于客户端设备上可用的预定的存储限制来提供一定量的内容以便存储签名文件。
作为另一个示例，请求服务器504可以接收与客户端设备（过去或当前）的位置相关的信息，并可以选择要提供给客户端设备的与客户端设备的位置相关联的签名文件。具体地说，请求服务器404可以接收指示客户端设备位于音乐会的信息，并可以选择与音乐会上的音乐流派或艺术家相关联的签名文件以便将其提供给客户端设备。在另一个示例中，客户端设备的其他的物理或地理位置粒度（granularity）可以用来从较大的签名文件集合或池中选择要提供给客户端设备的签名文件，如基于位于某个国家（例如，提供与当地偏好的歌曲对应的签名文件），某个州或某个县。
也可以使用其他类型的位置以用于选择性确定，包括网络地址位置，如当客户端设备通过Wi-Fi网络节点连接到网络时，MAC地址可以用作位置。同样地，与蓝牙或RFID设备相关联的网络或无线地址也可使用。任何网络地址都可以被确定，并可以与位置数据库交叉引用来确定客户端设备的物理位置。
在更进一步的实施例中，设备类型或配置类型可以用作选择发送到设备的签名文件的基础。例如，某些设备类型或配置类型可以与在特定的国家或特定的服务提供商（在已知区域内经营）的设备使用相关联，这些信息可以用来确定或推断客户端设备的位置。
作为另一个示例，请求服务器504可以接收与存储在客户端设备上的媒体内容相关的信息，并可以选择要提供给客户端设备且与存储在客户端设备上的媒体内容相关的签名文件。签名文件可以以多种方式相关，如通过艺术家、流派、类型、年份、节奏等。
作为另一个示例，请求服务器504可以接收与客户端设备之前识别的媒体内容相关的信息，并可以选择要提供给客户端设备且与客户端设备或辨识服务器502之前识别的内容相关的签名文件。在此示例中，请求服务器504可以存储由客户端设备或辨识服务器502识别的内容的列表，以选择和提供与识别内容相关的内容模式。
作为另一个示例，请求服务器504可以基于第三方接收到的信息选择要提供给客户端设备的签名文件。第三方可以提供对请求服务器504的选择，以便选择提供给客户端设备的签名文件。在一个示例中，第三方广告商可以基于要被包括在今后将在广播或电视广告中播放的广告中的内容选择签名文件。
作为另一个示例，请求服务器504可以根据与客户端设备的用户配置文件相关联的所购买歌曲的列表基于数据库中排序的签名文件来选择要提供给客户端设备的签名文件。例如，请求服务器504可以根据用户配置文件从数字媒体服务提供商接收歌曲列表，并可以选择相同流派、艺术家、类别等的歌曲的签名文件。
作为另一个示例，请求服务器504可以基于指示与属于内容识别历史的多份内容的受欢迎程度的统计简档来选择将要提供给客户端设备的内容模式。在此示例中，请求服务器404可以维护辨识服务器502识别的媒体内容列表，并可以基于对每个媒体内容的内容识别请求的数量对媒体内容的受欢迎程度进行排序。对于已经接收到数量高于阈值的内容识别请求（例如，给定时间段内1000个请求）的媒体内容，请求服务器504可以选择这些媒体内容的签名文件，并将这些签名文件提供给客户端设备。以这种方式，客户端设备将拥有签名文件的本地副本，并可以在本地进行内容识别。
在进一步的实施例中，请求服务器504可以基于标准的任意组合选择将要提供给客户端设备的签名文件，如基于客户端设备的位置和从第三方接收的选择的签名文件（例如，第三方基于客户端设备的位置识别要提供给客户端设备的多个签名文件）。
一般情况下，在某些示例中，请求服务器504可以被配置为基于客户端设备（或客户端设备的用户）将请求对所选内容进行内容识别的概率来选择将要提供给客户端设备的签名文件。例如，对于已经发布的新的或流行歌曲，或对于辨识服务器502在过去的一天中已经接收到内容识别请求的尖峰（spike），请求服务器504可以将这些歌曲的签名文件提供给客户端设备，以使得客户端设备可以进行本地内容识别，而不需要与辨识服务器502通信。这可以卸载（offload）辨识服务器502的业务量，并使得通过在客户端设备上进行本地内容识别能够更快地进行内容识别。因此，在一些示例中，可以根据标记频率生成概率排序的媒体数据库。例如，辨识服务器502可以确定最流行的内容识别请求的统计信息，并可以提供与请求对应的媒体的签名文件给客户端设备，使得客户端设备可以进行内容识别。
在一些示例中，当客户端设备连接到辨识服务器时，辨识服务器可以提供多个签名文件给客户端设备（例如，约20MB的内容，其中可能包括大约1000个歌曲签名文件和这些歌曲的信息）。在一个示例中，辨识服务器（或其他的连接服务器）可以确定客户端设备是否以及何时通过选择的通信信道（例如，宽带或WiFi连接）与辨识服务器通信，然后，辨识服务器可以使用所选择的通信信道将签名文件传输到客户端设备，以避免通过速度较慢、较拥挤的通信信道传输数据和/或避免用户负担有限的数据计划。在某些情况下，辨识服务器可以确定服务器和客户端设备之间的通信接口包括足够的带宽容量以传输一组签名文件。在某些情况下，辨识服务器可以确定网络接口通过由蜂窝无线服务提供商提供的蜂窝无线网络实现，并可以在确定通信接口通过本地有线或无线宽带连接（WiFi）实现时将一组签名文件提供给客户端设备。
客户端设备执行辨识请求可以减少辨识服务器的负荷，并且还可以准备进行更多的即时辨识（例如，不需要与服务器进行通信）。与辨识服务器执行并响应所有的内容辨识请求相反，辨识服务器可以选择性地确定要发送给客户端设备用于客户端设备进行内容辨识的签名文件（以准备本地缓存潜在的识别）。
虽然已经在此公开了各个方面和实施例，但其他的方面和实施例对于本领域的技术人员来说将是显而易见的。本说明书所公开的各个方面和实施例都用于说明的目的，而不是为了进行限制，真正的范围通过所附权利要求表示。对于本领域技术人员来说显而易见的是，可以在不脱离其范围的情况下做出许多修改和变化。根据前面的描述，除了本说明书中所列举的那些，还有在本公开的范围内的功能上等效的方法和装置对本领域的技术人员来说也都是显而易见的。这些修改和变化都落在所附权利要求书的范围之内。

资源描述

《客户端设备识别数据流的内容的方法及系统.pdf》由会员分享，可在线阅读，更多相关《客户端设备识别数据流的内容的方法及系统.pdf（24页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103562909 A (43)申请公布日 2014.02.05 CN 103562909 A (21)申请号 201280019133.2 (22)申请日 2012.02.14 61/444,458 2011.02.18 US 13/101,051 2011.05.04 US 61/495,571 2011.06.10 US G06F 17/30(2006.01) (71)申请人沙扎姆娱乐有限公司地址英国伦敦 (72)发明人 A.L-C. 王 (74)专利代理机构北京市柳沈律师事务所 11105 代理人叶齐峰 (54) 发明名称客户端设备识别数据流的内容。

2、的方法及系统 (57) 摘要提供了通过客户端设备识别数据流中的内容的方法和系统。该方法包括在客户端设备处接收表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征的签名文件。该方法还包括基于与签名文件的比较，客户端设备对接收到的由媒体呈递源呈递的媒体内容进行内容识别。客户端设备可以基于包括客户端设备的物理位置、客户端设备的网络地址、客户端设备之前的内容识别请求、流派偏好、艺术家偏好和用户配置文件的任意数量的因素来接收一组签名文件。 (30)优先权数据 (85)PCT国际申请进入国家阶段日 2013.10.18 (86)PCT国际申请的申请数据 PCT/US201。

3、2/025079 2012.02.14 (87)PCT国际申请的公布数据 WO2012/112573 EN 2012.08.23 (51)Int.Cl. 权利要求书 4 页说明书 14 页附图 5 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书4页说明书14页附图5页 (10)申请公布号 CN 103562909 A CN 103562909 A 1/4 页 2 1. 一种方法，包括：在客户端设备处接收签名文件，其中签名文件表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征；以及基于与签名文件的比较，客户端设备对接收到的由媒体呈递源呈。

4、递的媒体内容进行内容识别。 2. 如权利要求 1 所述的方法，其中所述签名文件包括从媒体内容中提取的一个或多个特征的在时间上映射的集合，其中一个或多个特征中的每一个描述了映射时间点附近的媒体内容。 3. 如权利要求 1 所述的方法，其中从媒体内容中提取的一个或多个特征与媒体内容频谱图中对应的能量值是局部最大值的峰值对应，并且签名文件包括峰值和对应的时间位置的数据对。 4. 如权利要求 1 所述的方法，其中从媒体内容提取的一个或多个特征与媒体内容频谱图中的频谱位图光栅对应。 5. 如权利要求 1 所述的方法，其中媒体内容频谱图中的峰值与每秒大约 10 至大约 50 个峰值。

5、对应。 6. 如权利要求 1 所述的方法，进一步包括在客户端设备处接收与多个媒体内容对应的一组签名文件，其中多个媒体内容基于客户端设备的物理位置。 7. 如权利要求 1 所述的方法，进一步包括在客户端设备处接收与多个媒体内容对应的一组签名文件，其中多个媒体内容基于客户端设备的网络地址。 8. 如权利要求 1 所述的方法，进一步包括在客户端设备处接收与多个媒体内容对应的一组签名文件，其中多个媒体内容基于从包括客户端设备之前的内容辨识请求、流派偏好、艺术家偏好和用户配置文件的组中选择出来的因素。 9. 如权利要求 1 所述的方法，进一步包括在客户端设备处接收与多个媒体内容对。

6、应的一组签名文件，其中多个媒体内容基于流行的媒体内容的统计排序。 10. 如权利要求 1 所述的方法，进一步包括客户端设备使用麦克风接收由媒体呈递源呈递的媒体内容。 11. 如权利要求 1 所述的方法，进一步包括客户端设备在连续的基础上接收由媒体呈递源呈递的媒体内容。 12. 如权利要求 1 所述的方法，其中客户端设备对接收到的由媒体呈递源呈递的媒体内容进行内容识别包括：确定接收到的媒体内容的一个或更多的特征；以及比较接收到的媒体内容的一个或更多的特征与签名文件表示的从媒体内容中提取的一个或多个特征，以确定一个或多个特征的匹配。 13. 如权利要求 12 所述的方。

7、法，其中确定接收到的媒体内容的一个或多个特征包括确定接收到的媒体内容的一组指纹，每一个指纹与接收到的媒体内容内的界标相关联。 14. 如权利要求 1 所述的方法，其中在客户端设备处接收签名文件包括从服务器接收签名文件。 15. 如权利要求 14 所述的方法，其中客户端设备包括存储多个签名文件的数据库，其中签名文件是所述多个签名文件之一，并且所述方法进一步包括：在客户端设备处从服务权利要求书 CN 103562909 A 2 2/4 页 3 器接收对数据库的更新，其中所述更新包括将一个或多个新的签名文件并入数据库或从数据库移除一个或多个现有的签名文件的指令。。

8、16. 如权利要求 1 所述的方法，其中在客户端设备处接收签名文件包括：在客户端设备处接收媒体内容；以及通过客户端设备处理媒体内容以生成媒体内容的签名文件。 17. 一种在其上存储有客户端设备可执行的指令的非临时性计算机可读介质，使得客户端设备执行以下功能，包括：在客户端设备处接收签名文件，其中所述签名文件表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征；以及基于与签名文件的比较，客户端设备对接收到的由媒体呈递源呈递的媒体内容进行内容识别。 18. 如权利要求 17 所述的非临时性计算机可读介质，其中所述指令通过客户端设备可进一步执行以使得客户端。

9、设备执行以下功能，包括：确定接收到的媒体内容的一组指纹，每一个指纹与接收到的媒体内容内的界标相关联；以及比较接收到的媒体内容的该组指纹与签名文件表示的从媒体内容中提取的一个或多个特征，以确定一个或多个特征的匹配。 19. 一种客户端设备，包括：数据库，被配置为接收且并入签名文件，其中所述签名文件表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征；以及内容识别模块，耦合到数据库，并被配置为基于与签名文件的比较对接收到的由媒体呈递源呈递的媒体内容进行内容识别。 20. 如权利要求 19 所述的客户端设备，其中所述数据库被进一步配置为接收与多个媒。

10、体内容对应的一组签名文件，其中所述多个媒体内容基于客户端设备的类型或客户端设备的配置中的一个或多个，其中客户端设备的类型或客户端设备的配置指示客户端设备的给定的位置或给定的服务提供商。 21. 如权利要求 19 所述的客户端设备，进一步包括被配置为接收由媒体呈递源呈递的媒体内容的麦克风。 22. 一种方法，包括：通过服务器确定来自客户端设备签名文件数据库的一组签名文件，其中每一个签名文件表示从相应的媒体内容和与相应的媒体内容相关联的信息中提取的一个或多个特征；以及将所述一组签名文件提供给客户端设备。 23. 如权利要求 22 所述的方法，其中所述标识相应的媒体内。

11、容的信息包括歌曲的标题、歌曲的艺术家和歌曲的流派中的一个或多个。 24. 如权利要求 22 所述的方法，其中每一个签名文件包括与相应的媒体内容内的界标相关联的相应的媒体内容的指纹。 25. 如权利要求 22 所述的方法，其中将所述一组签名文件提供给客户端设备包括：服务器识别与客户端设备的通信接口；以及权利要求书 CN 103562909 A 3 3/4 页 4 确定通信接口包括用于传输所述一组签名文件的足够的带宽量。 26. 如权利要求 25 所述的方法，其中确定通信接口包括用于传输所述一组签名文件的足够的带宽量包括：确定通信接口通过本地无线宽带连接（Wi。

12、Fi）实现。 27. 如权利要求 25 所述的方法，其中将所述一组签名文件提供给客户端设备包括：服务器识别与客户端设备的通信接口；确定通信接口通过由蜂窝无线提供商提供的蜂窝无线网络实现；以及在确定通信接口通过本地无线宽带连接实现时将所述一组签名文件提供给客户端设备。 28. 如权利要求 22 所述的方法，其中相应的媒体内容包括歌曲，所述方法进一步包括：服务器根据与用户配置文件相关联的并由数字媒体服务提供商提供的购买的歌曲的列表对数据库中的签名文件进行排序；以及基于排序确定给客户端设备的所述一组签名文件。 29. 如权利要求 22 所述的方法，其中确定客户端。

13、设备的所述一组签名文件包括基于客户端设备的位置确定要包括在所述一组签名文件中的签名文件。 30. 如权利要求 22 所述的方法，其中确定客户端设备的所述一组签名文件包括基于服务器接收到的并且客户端设备所请求的之前的内容识别请求来确定要包括在所述一组签名文件中的签名文件。 31. 如权利要求 22 所述的方法，其中确定客户端设备的所述一组签名文件包括基于存储在客户端设备上的媒体内容来确定要包括在所述一组签名文件中的签名文件。 32. 如权利要求 22 所述的方法，其中确定客户端设备的所述一组签名文件包括基于流派偏好、艺术家偏好和相应的媒体内容的创作日期中的一个或多个来确定要包括。

14、在所述一组签名文件中的签名文件。 33. 如权利要求 22 所述的方法，其中确定客户端设备的所述一组签名文件包括基于客户端设备上对所述一组签名文件的预定的存储限制来确定多个签名文件。 34. 如权利要求 22 所述的方法，进一步包括为与相应的媒体内容相关的一组广告提供所述一组签名文件。 35. 如权利要求 22 所述的方法，其中确定来自客户端设备的签名文件数据库的所述一组签名文件包括基于指示多份媒体内容受欢迎程度的统计简档来确定要包括在所述一组签名文件中的签名文件。 36. 如权利要求 22 所述的方法，其中确定来自客户端设备的签名文件数据库的所述一组签名文件包括基于与服务。

15、器上所请求的内容识别请求的历史相关的统计简档来确定要包括在所述一组签名文件中的签名文件。 37. 如权利要求 22 所述的方法，进一步包括：服务器接收多个内容识别请求，其中每一个内容识别请求包括内容样本；服务器基于与签名文件对应的媒体内容的频率对数据库中的签名文件进行排序，所述媒体内容是多个内容识别请求的对象；以及基于排序将所述一组签名文件提供给客户端设备。 38. 一种在其中存储有通过计算设备可执行的指令的非临时性计算机可读介质，以使得计算设备执行以下功能，包括：权利要求书 CN 103562909 A 4 4/4 页 5 通过计算设备确定来自客户端。

16、设备的签名文件数据库的一组签名文件，其中每一个签名文件表示从相应的媒体内容和与相应的媒体内容相关联的信息中提取的一个或多个特征；以及将所述一组签名文件提供给客户端设备。 39. 如权利要求 38 所述的非临时性计算机可读介质，其中每一个签名文件包括与相应的媒体内容内的界标相关联的相应的媒体内容的指纹。 40. 如权利要求 38 所述的非临时性计算机可读介质，其中所述指令通过计算设备可进一步执行，以使得计算设备执行以下功能，包括：基于与计算设备上请求的内容识别请求的历史相关的统计简档来确定要包括在所述一组签名文件中的签名文件。 41. 一种服务器，包括：数据库。

17、，被配置为存储签名文件，其中每一个签名文件表示从相应的媒体内容和与相应的媒体内容相关联的信息中提取的一个或多个特征；以及内容识别模块，耦合到数据库，并被配置为从存储的客户端设备的签名文件中确定一组签名文件，并将所述一组签名文件提供客户端设备以使得客户端设备能够对接收到的媒体内容进行内容识别。 42. 如权利要求 41 所述的服务器，其中所述内容识别模块被进一步配置为基于与服务器上接收到的媒体内容的内容识别请求的历史相关的统计简档从客户端设备的签名文件数据库中确定一组签名文件。权利要求书 CN 103562909 A 5 1/14 页 6 客户端设备识别数据。

18、流的内容的方法及系统 0001 相关申请的交叉引用 0002 本申请要求 2011 年 6 月 10 日提交的美国临时申请序列号 61/495， 571 的优先权，其全部内容通过引用并入本说明书。本申请还要求 2011 年 5 月 4 日提交的美国专利申请序列号 13/101,051 的优先权，该专利申请要求 2011 年 2 月 18 日提交的美国临时申请 61/444,458 的优先权，这些专利申请中的每一个专利申请的全部内容都通过引用并入本说明书。每个交叉引用的相关申请的全部内容都通过引用并入本说明书。技术领域 0003 本发明涉及识别媒体流的内容。例如，本公开涉及基于存。

19、储在客户端设备上的签名文件对媒体流内容进行内容识别的客户端设备。背景技术 0004 用于各种数据类型（如，音频或视频）的内容识别系统使用许多不同的方法。客户端设备可以捕获记录媒体流（如，无线电广播）的媒体样本，然后可以请求服务器在媒体记录（也称为媒体轨道）数据库中对匹配进行搜索以便识别媒体流。例如，样本记录可以传递给内容识别服务器模块，内容识别服务器模块可以进行样本内容识别，并返回识别结果给客户端设备。然后，辨识结果可以在客户端设备上显示给用户，或用于各种后续服务，如购买或引用相关信息。内容识别的其他应用包括例如广播监测或内容敏感广告。 0005 现。

20、有的内容识别系统可能需要用户交互以发起内容识别请求。很多时候，用户可能例如在一首歌曲结束后发起请求，错过识别这首歌曲的机会。 0006 此外，在内容识别系统中，中央服务器从客户端设备接收内容识别请求并执行计算密集的程序，以识别样本内容。当提供结果给客户端设备时，由于可用于执行辨识的服务器的数量有限，大量请求可能会导致延迟。发明内容 0007 在一些示例中，提供了一种方法，包括在客户端设备处接收签名文件，签名文件表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征。该方法还包括基于与签名文件的比较，客户端设备对接收到的由媒体呈递源(rendering s。

21、ource)呈递的媒体内容进行内容识别。 0008 在其他示例中，提供了一种方法，包括通过服务器从客户端设备的签名文件数据库确定一组签名文件，每个签名文件表示从相应的媒体内容和标识相应的媒体内容的信息中提取的一个或多个特征。该方法还包括将该组签名文件提供给客户端设备。 0009 本说明书描述的任何一种方法也可以被提供为存储在非临时性计算机可读介质上的指令的形式，当通过计算设备执行时，这些指令使得计算设备执行该方法的多个功能。更多示例还可以包括制造品，它包括具有编码于其上的计算机可读指令的有形计算机可读介质，这些指令可以包括用来执行本说明书所描述的方法的功能的指令。说。

22、明书 CN 103562909 A 6 2/14 页 7 0010 在更多的示例中，可以使用任何类型的设备或者任何类型的设备都可以被配置为执行本说明书所描述的任何过程或方法中的逻辑功能。 0011 在其他示例中，提供了一种客户端设备，包括数据库和耦合到数据库的内容识别模块。数据库被配置为接收并存储签名文件，签名文件表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征。内容识别模块被配置为基于与签名文件的比较对接收到的通过媒体呈递源呈递的媒体内容进行内容识别。 0012 在另一些示例中，提供了一种服务器，包括被配置为存储签名文件的数据库，每一个签名文件都表示从相。

23、应的媒体内容和标识相应的媒体内容的信息中提取的一个或多个特征。该服务器还包括内容识别模块，该内容识别模块耦合到数据库，并被配置为从存储的客户端设备的签名文件中确定一组签名文件，并将该组签名文件提供给客户端设备，以使得客户端设备能够对接收到的媒体内容进行内容识别。 0013 前述概述只是示例性的，不用于任何方式的限制。除上面描述的示例性方面、实施例和特征之外，通过参照附图和下面的详细描述，更多的方面、实施例和特征将变得显而易见。附图说明 0014 图 1 示出了用于识别数据流内容的系统的一个示例。 0015 图 2 示出了准备签名的示例性系统。 0016 图 3。

24、示出了示例性内容识别方法。 0017 图 4 示出了用于识别数据流内容的示例性方法的流程图。 0018 图 5 示出了用于识别数据流内容并确定客户端设备的签名文件的示例性系统。具体实施方式 0019 在下面的详细描述中，参照多张附图，这些附图也构成本说明书的一部分。在附图中，除非上下文另有规定，否则相似的符号通常标识相似的组件。在说明书、附图和权利要求中描述的示例性实施例的目的不是为了限制。在不偏离本说明书所展示的主题的精神或范围的情况下，可以使用其他的实施例，还可以做出其他的变化。很容易理解的是，本公开的各个方面，如在本说明书中一般性描述的，如在附图中示出。

25、的，可以被布置、替换、组合、分离和设计成各种不同的配置，所有这些都在本说明书的明确设想之中。 0020 除了其他之外，本公开可以描述客户端设备识别数据流内容的方法和系统。该方法可以包括在客户端设备接收表示从媒体内容和标识媒体内容的信息中提取的一个或多个特征的签名文件。该方法还可以包括客户端设备基于与签名文件的比较对接收到的由媒体呈递源呈递的媒体内容进行内容识别。客户端设备可以基于包括客户端设备的物理位置、客户端设备的网络地址、客户端设备的前一内容辨识请求、流派偏好、艺术家偏好和用户配置文件的多个因素中的任意数量的因素接收一组签名文件。 0021 现在参看附图，。

26、图1示出了用于识别数据流内容的系统的一个示例。虽然图1示出了具有给定配置的系统，但系统内的组件可以以其他方式布置。该系统包括媒体或数据呈递源102，以任何已知的方式呈递和展示来自媒体流的内容。媒体流可以存储在媒体呈递源 102上，或从外部源（如，模拟或数字广播）接收。在一个实施例中，媒体呈递源102可以是广说明书 CN 103562909 A 7 3/14 页 8 播媒体流（例如，音频和 / 或视频）和 / 或其他信息的无线电电台或电视内容提供商。媒体呈递源 102 也可以是任何类型的播放记录的或实时格式的音频或视频媒体的设备。在一个替代性实施例中，媒。

27、体呈递源102可以包括例如作为音频源和/或视频源的现场表演。媒体呈递源 102 可以通过例如图形显示器、音频扬声器、 MIDI 乐器、动画电子模型（animatronic puppet）等或媒体呈递源 102 呈递的任何其他类型的呈现来呈递或展示媒体流。 0022 客户端设备 104 通过输入接口 106 从媒体呈递源 102 接收呈递的媒体流。在一个实施例中，输入接口 106 可以包括天线，在此情形中，媒体呈递源 102 可以将媒体流无线广播到客户端设备 104。然而，根据媒体流的形式，媒体呈递源 102 可以使用无线或有线通信技术呈递媒体。在其他的示例中，输入。

28、接口 106 可以包括麦克风、视频摄像机、振动传感器、无线电接收器、网络接口等中的任一种。作为特定的示例，媒体呈递源 102 可以播放音乐，输入接口 106 可以包括麦克风以接收音乐样本。 0023 在多个示例中，除了接收呈递的媒体流之外，客户端设备 104 可能不能可操作地耦合到媒体呈递源 102。以这种方式，客户端设备 104 可以不受媒体呈递源 102 控制，并且可以不是媒体呈递源 102 的集成的部分。在图 1 所示的示例中，客户端设备 104 是与媒体呈递源 102 分离的实体。 0024 输入接口 106 被配置为捕获呈递的媒体流的媒体样本。输入接口 1。

29、06 可以被预编程为无需用户干预地连续地捕获媒体样本，以记录所有接收的音频并将记录存储在缓冲器 108 中。缓冲器 108 可以存储多个记录，或者可以存储有限时间的记录，这样客户端设备 104 可以例如以预定的时间间隔或者以使得在时间上往回的某个长度的历史可用于分析的方式来记录并存储记录。在其他的示例中，捕获媒体样本可以由用户激活触发样本捕获的按钮或其他应用程序引起或触发。例如，客户端设备 104 的用户可以按下按钮，通过麦克风记录十秒钟的数字音频样本，或使用相机捕获静止图像或视频序列。 0025 客户端设备104可以实现为具有较小外形的便携式（或移动）电子设备如，。

30、手机、无线手机、个人数据助理（PDA）、平板计算机、个人媒体播放设备、无线网络观看设备、个人耳机设备、专用设备或包括任何上述功能的混合设备中的一部分。客户端设备 104 也可以实现为个人计算机，包括膝上型计算机和非膝上型计算机配置。客户端设备 104 也可以是更大的设备或系统的组件。 0026 客户端设备104还包括位置识别模块110和内容识别模块112。位置识别模块110 被配置为从缓冲器 108 接收媒体样本，并基于在那一时刻捕获的媒体样本识别指示媒体样本在呈递的媒体流（或在呈递的媒体流片段）中的时间偏移量的对应的估计时间位置（Ts）。在一些示。

31、例中，时间位置（Ts）也可以是自媒体流开始起已经经过的时间量。例如，媒体流可以是无线电广播，时间位置（Ts）可以对应于正在呈递的歌曲的已经经过的时间量。 0027 内容识别模块 112 被配置为从缓冲器 108 接收媒体样本，并对接收到的媒体样本进行内容识别。内容识别对媒体流进行识别，或对与媒体样本相关或有关的信息进行识别。内容识别模块 112 可被配置为接收环境音频样本，识别音频样本的音乐内容，并提供与该音乐有关的信息，包括音轨名称、艺术家、曲集、艺术作品、传记、唱片、音乐会门票等。 0028 在此方面，内容识别模块 112 包括媒体搜索引擎。

32、114，并可以包括或耦合到数据库 116，该数据库 116 对参考媒体流进行索引化处理，例如，以比较接收到的媒体样本和存储的信息，从而识别接收到的媒体样本内的轨道。一旦识别出媒体流内的轨道，轨道特性或其说明书 CN 103562909 A 8 4/14 页 9 他信息就可以显示在客户端设备 104 的显示器上。 0029 数据库 116 可以存储包括用来识别内容片段的信息的内容模式（content pattern）。内容模式可以包括媒体记录，如音乐、广告、广告词（jingles）、电影、纪录片、电视和电台节目。每个记录都可以通过唯一标识符（例如，。

33、sound_ID）识别。替代性地，数据库116不一定存储每个记录的音频或视频文件，因为sound_ID可用于从其他地方获取音频文件。内容模式可以包括其他信息（除包括媒体记录之外或者不包括媒体记录），如包括描述媒体记录内容的时间映射特征集合的参考签名文件，其具有与媒体记录的时间轴对应的时间维度，其中每一个特征都可以是对每个映射时间点附近的内容的描述。一般情况下，例如，可以对签名文件中的特征进行选择，以可以在存在噪声和失真的情况下再现。特征可以从媒体记录之中在离散时间位置处稀疏地提取，每一个特征都可以与感兴趣特征对应。稀疏特征的示例包括 Lp 范数幂峰值、。

34、频谱能量峰值、链接凸点（linked salient point）等。对于更多的示例，读者可以参考 Wang 和 Smith 的美国专利第 6,990,453 号，该专利通过引用被整体并入本说明书中。 0030 替代性地，连续的时间轴可以密集地表示，其中每一个时间值都具有对应的可以被包括或表示在媒体记录的签名文件中的特征值。这种密集特征的示例包括特征波形（如在 Kenyon 的美国专利第 7,174,293 号描述的，该专利通过引用被整体并入本说明书）、频谱位图光栅（如美国专利第5,437,050号描述的，该专利通过引用被整体并入本说明书）、活动矩阵。

35、（如美国公开专利申请第 2010/0145708 号描述的，该专利通过引用被整体并入本说明书）和能量通量位图光栅（energy flux bitmap raster）（如美国专利第 7,549,052 号描述的，该专利通过引用被整体并入本说明书）。 0031 在一个实施例中，签名文件包括媒体记录的稀疏特征表示。记录的特征可以从使用重叠的短时快速傅立叶变换（FFT）提取的频谱图中获得。频谱图的峰值可以在对应的能量值为局部最大值的时间 - 频率位置处选择。例如，峰值可以通过识别每个候选位置周围区域中的最大值点来选择。心理声学掩蔽标准也可以用来抑制听不见的能量峰值（。

36、inaudible energy peak）。每一个峰值都可以编码为一对时间和频率值。此外，可以记录峰值的能量幅度。在一个示例中，音频采样速率为 8KHz， FFT 帧的大小可能会在大约 64-1024bin 之间变化，帧之间的跳距（hop size）使得大约与前一帧有 25-75的重叠。增加频率分辨率可能导致更低的时间精度。并且，频率轴可以弯曲（warp）和内插到对数标度之上，如梅尔频率。 0032 与这些特征相关联的许多特征或信息可以组合成签名文件。签名文件可以将特征排序成按时间递增排列的列表。每个特征 Fj 都可以与数据结构（data construct）。

37、中的时间值 tj 相关联，列表可以是这种结构的数组；例如，这里 j 是第 j 个结构的索引。在使用连续时间表示（例如，连续频谱图帧）的示例中，时间轴可以隐含在列表数组的索引中。每一个媒体记录中的时间轴都可以被获得作为自记录开始处起的偏移量，因此，时间零指示记录开始。 0033 图2示出了生成签名文件的示例性系统。该系统包括媒体记录数据库202、特征提取模块 204 以及媒体签名数据库 206。媒体记录数据库 202 可以包括多个媒体记录的副本（例如，歌曲或视频）或对多个媒体记录的副本的引用。特征提取模块 204 可以耦合到媒体记录数据库202，并且。

38、可以接收媒体记录进行处理。图2概念性地示出了从媒体记录数据库说明书 CN 103562909 A 9 5/14 页 10 202 接收音频轨道的特征提取模块。 0034 特征提取模块 204 可以使用任何上述示例方法从媒体记录提取特征来生成用于媒体记录的签名文件 208。特征提取模块 204 可以将签名文件 208 存储在媒体签名数据库 206 中。例如，媒体签名数据库 206 可以存储带有相关联的标识符的签名文件，如图 2 所示。例如，签名文件的生成可以在批处理模式下进行，参考媒体记录库可以被预处理为对应的提取特征参考签名文件的库。输入到特征提取模块 204 的媒体记。

39、录可以存储在缓冲器中（例如，其中将旧的记录从滚动缓冲器发送出去并接收新的记录）。可以提取特征，并可以从媒体记录的滚动缓冲器的连续操作中连续创建签名文件，以根据需要不留时间间隙地或基于需求进行表示。在按需示例中，特征提取模块 204 可以在必要时从媒体记录数据库 202 获取媒体记录，以响应于对应特征的请求提取特征。在一个示例中，然后，由此得到的参考签名文件库可以存储或提供给客户端设备 104。 0035 得到的签名文件的大小可能会随着所使用的特征提取方法的不同而变化。在一个示例中，所选频谱图的峰密度（例如，特征）可以选择在大约每秒 10-50 点之间。峰可以。

40、选择为每单位时间的前 N 个最大能量峰，例如，一秒帧中的前 10 个峰。在一个示例中，使用每秒 10 个峰，用 32 位来编码每个峰的频率（例如， 8 位用于频率值， 24 位用来编码时间偏移量），可能需要每秒 40 个字节来编码特征。歌曲的平均长度大约为三分钟，一首歌大约会产生 7.2 千字节大小的签名文件。对于其他的签名编码方法，例如，跳距为 100 毫秒的频谱图中的每一个偏移处 32 位的特征会产生类似大小的指纹。 0036 在另一个示例中，签名文件可能大约为5-10KB的量级，并可以与从中获得约20秒长的样本的媒体记录的一部分对应，并在结束样本捕获之后指。

41、向媒体记录的一部分。 0037 在一些示例中，签名文件可以通过描述记录的特征来表示媒体记录的指纹。在这方面，媒体记录的签名可以视为是记录的指纹，签名或指纹可以被包括在签名文件之中。 0038 图 2 中所示的系统可以被包括在客户端设备 104 或服务器 122 之中。在系统被包括在客户端设备之中的一个示例中，媒体记录数据库 202 可以包括本地存储的媒体（例如，音乐库）。在其他的示例中，客户端设备 104 可以接收来自服务器或从流（如，无线电广播、流传输的互联网广播等）中捕获的原始内容（例如，音乐文件），并进行签名提取以使用签名文件填充数据库116。在另。

42、一些示例中，接收到新的媒体记录（例如，用户购买新的歌曲并下载歌曲到客户端设备 104）时，客户端设备 104 可以提取签名特征以生成新媒体记录的签名文件。客户端设备 104 可以将信息与生成的签名文件相关联，如识别原始内容的信息（如，歌曲标题、艺术家、流派等）、广告等，或从服务器接收到的与原始内容相关联的任何信息。 0039 再参照图 1，数据库 116 可以包括多个媒体记录的签名文件，并可以持续更新，以包括新媒体记录的签名文件。数据库 116 可以接收用于删除旧的签名文件的指令以及纳入来自服务器的新的签名文件的指令。数据库 116 可以进一步包括与提取。

43、的媒体文件的特征相关联的信息。数据库 116 可以包括多个签名文件，使得客户端设备 104 能够执行与本地存储的签名文件进行内容匹配的内容识别。 0040 数据库 116 还可以包括每个存储的签名文件的信息，诸如元数据，该元数据表示有关例如艺术家名称、歌曲长度、歌曲的歌词、歌词的行或单词的时间索引、曲集艺术品之类的签名文件的信息，或任何其他标识文件或与文件相关的信息。元数据还可以包括数据和到其他相关内容和服务的超链接，包括推荐、广告、提供预览、书签以及购买音乐记录、视说明书 CN 103562909 A 10 6/14 页 11 频、音乐会门票和奖励。

44、内容；以及为了方便浏览、探索、发现万维网上的相关内容。 0041 内容识别模块112也可以包括签名提取器118，签名提取器118可以被配置为生成从捕获的媒体样本中提取出的特征的签名流，每个特征都可以具有对应的样本内的时间位置。提取出的特征的签名流可以用来与存储在数据库 116 中的签名文件比较，以识别对应的媒体记录。在一些示例中，签名提取器 116 可以被配置为使用上述生成签名文件的方法中的任何一种从媒体样本中提取特征，以生成提取特征的签名流。签名流可以基于例如观测到的媒体流实时确定和生成。 0042 内容识别模块 112 和 / 或签名提取器 118 还可以被配置。

45、用来比较媒体样本内的特征和签名文件的对准，以识别对应时刻的特征匹配。 0043 图 1 中的系统还包括客户端设备 104 可以通过无线或有线链接与之耦合的网络 120。服务器 122 被设置为耦合到网络 120，服务器 122 包括位置识别模块 124 和内容识别模块 126。虽然图 1 示出服务器 122 包括位置识别模块 124 和内容识别模块 126，但是位置识别模块 124 和 / 或内容识别模块 126 中的任意一个都可以是例如远离服务器 122 的单独的实体。此外，位置识别模块 124 和 / 或内容识别模块 126 可以在例如通过网络 120 连接到服务器 12。

46、2 的远程服务器上。 0044 在一些示例中，客户端设备104可以捕获媒体样本，并可以通过网络120将媒体样本发送给服务器122，以确定媒体样本中的内容的特性。服务器122的位置识别模块124和内容识别模块 126 可以被配置为类似于客户端设备 104 的位置识别模块 110 和内容识别模块 112 运行。在这方面，内容识别模块 126 包括媒体搜索引擎 128，并可以包括或耦合到索引化参考媒体流的数据库 130，例如，以比较接收到的媒体样本和存储的信息，以识别接收到的媒体样本中的轨道。一旦已经识别出媒体流内的轨道，轨道特性或其他信息就可以返回给客户端设备 10。

47、4。 0045 响应于从客户端设备 104 接收到的内容识别查询，服务器 122 可以对从中获得媒体样本的媒体记录进行识别，和 / 或获取与识别的媒体记录对应的签名文件。然后，服务器 122 可以返回识别媒体记录的信息和与媒体记录对应的签名文件给客户端设备 104。 0046 在其他的示例中，客户端设备104可以从媒体呈递源102捕获媒体流的样本，并且可以对样本进行初始处理，以创建媒体样本的签名文件 / 指纹。然后，客户端设备 104 可以发送指纹信息给服务器122的位置识别模块124和/或内容识别模块126，它可以单独基于指纹信息对与样本有关的信息进行识别。以这种方式。

48、，更多的计算或识别处理可以在客户端设备 104 而不是在例如服务器 122 处进行。 0047 在又一些示例中，如上所述，客户端设备 104 还可以被配置为本地执行内容识别，通过比较媒体样本内的特征和签名文件的对准（alignment），以识别对应时刻的特征匹配。 0048 各种内容识别技术在本领域中已经是广为人知的，用于使用媒体轨道数据库进行媒体样本和媒体样本特征的计算内容识别。下列美国专利和出版物描述了可能的媒体辨识技术的示例，每一个都通过引用被完整并入本说明书中，就像在本说明书中完整提出： Kenyon 等人的标题为 Broadcast Information。

49、 Classification System and Method 的美国专利第4,843,562号； Kenyon的标题为 Broadcast Signal Recognition System and Method 的美国专利第 4,450,531 号 ;Haitsma 等人的标题为 Generating and Matching Hashes of Multimedia Content 的美国专利申请公开号 2008/0263360 ； Wang 和 Culbert 说明书 CN 103562909 A 11 7/14 页 12 的标题为 Robust and Invariant Audio Pattern Matching 的美国专利第 7,627,477 号； Wang,Avery 的标题为 Method and Apparatus for Identification of Broadcast Source的美国专利申请公开号 2007/0143777 ； Wang 和 Smith 的标题为 System and Method for Recogn。

展开阅读全文