《客户端设备识别数据流的内容的方法及系统.pdf》由会员分享,可在线阅读,更多相关《客户端设备识别数据流的内容的方法及系统.pdf(24页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103562909 A (43)申请公布日 2014.02.05 CN 103562909 A (21)申请号 201280019133.2 (22)申请日 2012.02.14 61/444,458 2011.02.18 US 13/101,051 2011.05.04 US 61/495,571 2011.06.10 US G06F 17/30(2006.01) (71)申请人 沙扎姆娱乐有限公司 地址 英国伦敦 (72)发明人 A.L-C. 王 (74)专利代理机构 北京市柳沈律师事务所 11105 代理人 叶齐峰 (54) 发明名称 客户端设备识别数据流的内容。
2、的方法及系统 (57) 摘要 提供了通过客户端设备识别数据流中的内容 的方法和系统。该方法包括在客户端设备处接收 表示从媒体内容和标识媒体内容的信息中提取的 一个或多个特征的签名文件。该方法还包括基于 与签名文件的比较, 客户端设备对接收到的由媒 体呈递源呈递的媒体内容进行内容识别。客户端 设备可以基于包括客户端设备的物理位置、 客户 端设备的网络地址、 客户端设备之前的内容识别 请求、 流派偏好、 艺术家偏好和用户配置文件的任 意数量的因素来接收一组签名文件。 (30)优先权数据 (85)PCT国际申请进入国家阶段日 2013.10.18 (86)PCT国际申请的申请数据 PCT/US201。
3、2/025079 2012.02.14 (87)PCT国际申请的公布数据 WO2012/112573 EN 2012.08.23 (51)Int.Cl. 权利要求书 4 页 说明书 14 页 附图 5 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书4页 说明书14页 附图5页 (10)申请公布号 CN 103562909 A CN 103562909 A 1/4 页 2 1. 一种方法, 包括 : 在客户端设备处接收签名文件, 其中签名文件表示从媒体内容和标识媒体内容的信息 中提取的一个或多个特征 ; 以及 基于与签名文件的比较, 客户端设备对接收到的由媒体呈递源呈。
4、递的媒体内容进行内 容识别。 2. 如权利要求 1 所述的方法, 其中所述签名文件包括从媒体内容中提取的一个或多个 特征的在时间上映射的集合, 其中一个或多个特征中的每一个描述了映射时间点附近的媒 体内容。 3. 如权利要求 1 所述的方法, 其中从媒体内容中提取的一个或多个特征与媒体内容频 谱图中对应的能量值是局部最大值的峰值对应, 并且签名文件包括峰值和对应的时间位置 的数据对。 4. 如权利要求 1 所述的方法, 其中从媒体内容提取的一个或多个特征与媒体内容频谱 图中的频谱位图光栅对应。 5. 如权利要求 1 所述的方法, 其中媒体内容频谱图中的峰值与每秒大约 10 至大约 50 个峰值。
5、对应。 6. 如权利要求 1 所述的方法, 进一步包括在客户端设备处接收与多个媒体内容对应的 一组签名文件, 其中多个媒体内容基于客户端设备的物理位置。 7. 如权利要求 1 所述的方法, 进一步包括在客户端设备处接收与多个媒体内容对应的 一组签名文件, 其中多个媒体内容基于客户端设备的网络地址。 8. 如权利要求 1 所述的方法, 进一步包括在客户端设备处接收与多个媒体内容对应的 一组签名文件, 其中多个媒体内容基于从包括客户端设备之前的内容辨识请求、 流派偏好、 艺术家偏好和用户配置文件的组中选择出来的因素。 9. 如权利要求 1 所述的方法, 进一步包括在客户端设备处接收与多个媒体内容对。
6、应的 一组签名文件, 其中多个媒体内容基于流行的媒体内容的统计排序。 10. 如权利要求 1 所述的方法, 进一步包括客户端设备使用麦克风接收由媒体呈递源 呈递的媒体内容。 11. 如权利要求 1 所述的方法, 进一步包括客户端设备在连续的基础上接收由媒体呈 递源呈递的媒体内容。 12. 如权利要求 1 所述的方法, 其中客户端设备对接收到的由媒体呈递源呈递的媒体 内容进行内容识别包括 : 确定接收到的媒体内容的一个或更多的特征 ; 以及 比较接收到的媒体内容的一个或更多的特征与签名文件表示的从媒体内容中提取的 一个或多个特征, 以确定一个或多个特征的匹配。 13. 如权利要求 12 所述的方。
7、法, 其中确定接收到的媒体内容的一个或多个特征包括确 定接收到的媒体内容的一组指纹, 每一个指纹与接收到的媒体内容内的界标相关联。 14. 如权利要求 1 所述的方法, 其中在客户端设备处接收签名文件包括从服务器接收 签名文件。 15. 如权利要求 14 所述的方法, 其中客户端设备包括存储多个签名文件的数据库, 其 中签名文件是所述多个签名文件之一, 并且所述方法进一步包括 : 在客户端设备处从服务 权 利 要 求 书 CN 103562909 A 2 2/4 页 3 器接收对数据库的更新, 其中所述更新包括将一个或多个新的签名文件并入数据库或从数 据库移除一个或多个现有的签名文件的指令。 。
8、16. 如权利要求 1 所述的方法, 其中在客户端设备处接收签名文件包括 : 在客户端设备处接收媒体内容 ; 以及 通过客户端设备处理媒体内容以生成媒体内容的签名文件。 17. 一种在其上存储有客户端设备可执行的指令的非临时性计算机可读介质, 使得客 户端设备执行以下功能, 包括 : 在客户端设备处接收签名文件, 其中所述签名文件表示从媒体内容和标识媒体内容的 信息中提取的一个或多个特征 ; 以及 基于与签名文件的比较, 客户端设备对接收到的由媒体呈递源呈递的媒体内容进行内 容识别。 18. 如权利要求 17 所述的非临时性计算机可读介质, 其中所述指令通过客户端设备可 进一步执行以使得客户端。
9、设备执行以下功能, 包括 : 确定接收到的媒体内容的一组指纹, 每一个指纹与接收到的媒体内容内的界标相关 联 ; 以及 比较接收到的媒体内容的该组指纹与签名文件表示的从媒体内容中提取的一个或多 个特征, 以确定一个或多个特征的匹配。 19. 一种客户端设备, 包括 : 数据库, 被配置为接收且并入签名文件, 其中所述签名文件表示从媒体内容和标识媒 体内容的信息中提取的一个或多个特征 ; 以及 内容识别模块, 耦合到数据库, 并被配置为基于与签名文件的比较对接收到的由媒体 呈递源呈递的媒体内容进行内容识别。 20. 如权利要求 19 所述的客户端设备, 其中所述数据库被进一步配置为接收与多个媒 。
10、体内容对应的一组签名文件, 其中所述多个媒体内容基于客户端设备的类型或客户端设备 的配置中的一个或多个, 其中客户端设备的类型或客户端设备的配置指示客户端设备的给 定的位置或给定的服务提供商。 21. 如权利要求 19 所述的客户端设备, 进一步包括被配置为接收由媒体呈递源呈递的 媒体内容的麦克风。 22. 一种方法, 包括 : 通过服务器确定来自客户端设备签名文件数据库的一组签名文件, 其中每一个签名文 件表示从相应的媒体内容和与相应的媒体内容相关联的信息中提取的一个或多个特征 ; 以 及 将所述一组签名文件提供给客户端设备。 23. 如权利要求 22 所述的方法, 其中所述标识相应的媒体内。
11、容的信息包括歌曲的标 题、 歌曲的艺术家和歌曲的流派中的一个或多个。 24. 如权利要求 22 所述的方法, 其中每一个签名文件包括与相应的媒体内容内的界标 相关联的相应的媒体内容的指纹。 25. 如权利要求 22 所述的方法, 其中将所述一组签名文件提供给客户端设备包括 : 服务器识别与客户端设备的通信接口 ; 以及 权 利 要 求 书 CN 103562909 A 3 3/4 页 4 确定通信接口包括用于传输所述一组签名文件的足够的带宽量。 26. 如权利要求 25 所述的方法, 其中确定通信接口包括用于传输所述一组签名文件的 足够的带宽量包括 : 确定通信接口通过本地无线宽带连接 (Wi。
12、Fi) 实现。 27. 如权利要求 25 所述的方法, 其中将所述一组签名文件提供给客户端设备包括 : 服务器识别与客户端设备的通信接口 ; 确定通信接口通过由蜂窝无线提供商提供的蜂窝无线网络实现 ; 以及 在确定通信接口通过本地无线宽带连接实现时将所述一组签名文件提供给客户端设 备。 28. 如权利要求 22 所述的方法, 其中相应的媒体内容包括歌曲, 所述方法进一步包括 : 服务器根据与用户配置文件相关联的并由数字媒体服务提供商提供的购买的歌曲的 列表对数据库中的签名文件进行排序 ; 以及 基于排序确定给客户端设备的所述一组签名文件。 29. 如权利要求 22 所述的方法, 其中确定客户端。
13、设备的所述一组签名文件包括基于客 户端设备的位置确定要包括在所述一组签名文件中的签名文件。 30. 如权利要求 22 所述的方法, 其中确定客户端设备的所述一组签名文件包括基于服 务器接收到的并且客户端设备所请求的之前的内容识别请求来确定要包括在所述一组签 名文件中的签名文件。 31. 如权利要求 22 所述的方法, 其中确定客户端设备的所述一组签名文件包括基于存 储在客户端设备上的媒体内容来确定要包括在所述一组签名文件中的签名文件。 32. 如权利要求 22 所述的方法, 其中确定客户端设备的所述一组签名文件包括基于流 派偏好、 艺术家偏好和相应的媒体内容的创作日期中的一个或多个来确定要包括。
14、在所述一 组签名文件中的签名文件。 33. 如权利要求 22 所述的方法, 其中确定客户端设备的所述一组签名文件包括基于客 户端设备上对所述一组签名文件的预定的存储限制来确定多个签名文件。 34. 如权利要求 22 所述的方法, 进一步包括为与相应的媒体内容相关的一组广告提供 所述一组签名文件。 35. 如权利要求 22 所述的方法, 其中确定来自客户端设备的签名文件数据库的所述一 组签名文件包括基于指示多份媒体内容受欢迎程度的统计简档来确定要包括在所述一组 签名文件中的签名文件。 36. 如权利要求 22 所述的方法, 其中确定来自客户端设备的签名文件数据库的所述一 组签名文件包括基于与服务。
15、器上所请求的内容识别请求的历史相关的统计简档来确定要 包括在所述一组签名文件中的签名文件。 37. 如权利要求 22 所述的方法, 进一步包括 : 服务器接收多个内容识别请求, 其中每一个内容识别请求包括内容样本 ; 服务器基于与签名文件对应的媒体内容的频率对数据库中的签名文件进行排序, 所述 媒体内容是多个内容识别请求的对象 ; 以及 基于排序将所述一组签名文件提供给客户端设备。 38. 一种在其中存储有通过计算设备可执行的指令的非临时性计算机可读介质, 以使 得计算设备执行以下功能, 包括 : 权 利 要 求 书 CN 103562909 A 4 4/4 页 5 通过计算设备确定来自客户端。
16、设备的签名文件数据库的一组签名文件, 其中每一个签 名文件表示从相应的媒体内容和与相应的媒体内容相关联的信息中提取的一个或多个特 征 ; 以及 将所述一组签名文件提供给客户端设备。 39. 如权利要求 38 所述的非临时性计算机可读介质, 其中每一个签名文件包括与相应 的媒体内容内的界标相关联的相应的媒体内容的指纹。 40. 如权利要求 38 所述的非临时性计算机可读介质, 其中所述指令通过计算设备可进 一步执行, 以使得计算设备执行以下功能, 包括 : 基于与计算设备上请求的内容识别请求的 历史相关的统计简档来确定要包括在所述一组签名文件中的签名文件。 41. 一种服务器, 包括 : 数据库。
17、, 被配置为存储签名文件, 其中每一个签名文件表示从相应的媒体内容和与相 应的媒体内容相关联的信息中提取的一个或多个特征 ; 以及 内容识别模块, 耦合到数据库, 并被配置为从存储的客户端设备的签名文件中确定一 组签名文件, 并将所述一组签名文件提供客户端设备以使得客户端设备能够对接收到的媒 体内容进行内容识别。 42. 如权利要求 41 所述的服务器, 其中所述内容识别模块被进一步配置为基于与服务 器上接收到的媒体内容的内容识别请求的历史相关的统计简档从客户端设备的签名文件 数据库中确定一组签名文件。 权 利 要 求 书 CN 103562909 A 5 1/14 页 6 客户端设备识别数据。
18、流的内容的方法及系统 0001 相关申请的交叉引用 0002 本申请要求 2011 年 6 月 10 日提交的美国临时申请序列号 61/495, 571 的优先 权, 其全部内容通过引用并入本说明书。本申请还要求 2011 年 5 月 4 日提交的美国专利 申请序列号 13/101,051 的优先权, 该专利申请要求 2011 年 2 月 18 日提交的美国临时申请 61/444,458 的优先权, 这些专利申请中的每一个专利申请的全部内容都通过引用并入本说 明书。每个交叉引用的相关申请的全部内容都通过引用并入本说明书。 技术领域 0003 本发明涉及识别媒体流的内容。例如, 本公开涉及基于存。
19、储在客户端设备上的签 名文件对媒体流内容进行内容识别的客户端设备。 背景技术 0004 用于各种数据类型 (如, 音频或视频) 的内容识别系统使用许多不同的方法。客户 端设备可以捕获记录媒体流 (如, 无线电广播) 的媒体样本, 然后可以请求服务器在媒体记 录 (也称为媒体轨道) 数据库中对匹配进行搜索以便识别媒体流。例如, 样本记录可以传递 给内容识别服务器模块, 内容识别服务器模块可以进行样本内容识别, 并返回识别结果给 客户端设备。然后, 辨识结果可以在客户端设备上显示给用户, 或用于各种后续服务, 如购 买或引用相关信息。内容识别的其他应用包括例如广播监测或内容敏感广告。 0005 现。
20、有的内容识别系统可能需要用户交互以发起内容识别请求。很多时候, 用户可 能例如在一首歌曲结束后发起请求, 错过识别这首歌曲的机会。 0006 此外, 在内容识别系统中, 中央服务器从客户端设备接收内容识别请求并执行计 算密集的程序, 以识别样本内容。 当提供结果给客户端设备时, 由于可用于执行辨识的服务 器的数量有限, 大量请求可能会导致延迟。 发明内容 0007 在一些示例中, 提供了一种方法, 包括在客户端设备处接收签名文件, 签名文件表 示从媒体内容和标识媒体内容的信息中提取的一个或多个特征。 该方法还包括基于与签名 文件的比较, 客户端设备对接收到的由媒体呈递源(rendering s。
21、ource)呈递的媒体内容进 行内容识别。 0008 在其他示例中, 提供了一种方法, 包括通过服务器从客户端设备的签名文件数据 库确定一组签名文件, 每个签名文件表示从相应的媒体内容和标识相应的媒体内容的信息 中提取的一个或多个特征。该方法还包括将该组签名文件提供给客户端设备。 0009 本说明书描述的任何一种方法也可以被提供为存储在非临时性计算机可读介质 上的指令的形式, 当通过计算设备执行时, 这些指令使得计算设备执行该方法的多个功能。 更多示例还可以包括制造品, 它包括具有编码于其上的计算机可读指令的有形计算机可读 介质, 这些指令可以包括用来执行本说明书所描述的方法的功能的指令。 说。
22、 明 书 CN 103562909 A 6 2/14 页 7 0010 在更多的示例中, 可以使用任何类型的设备或者任何类型的设备都可以被配置为 执行本说明书所描述的任何过程或方法中的逻辑功能。 0011 在其他示例中, 提供了一种客户端设备, 包括数据库和耦合到数据库的内容识别 模块。数据库被配置为接收并存储签名文件, 签名文件表示从媒体内容和标识媒体内容的 信息中提取的一个或多个特征。 内容识别模块被配置为基于与签名文件的比较对接收到的 通过媒体呈递源呈递的媒体内容进行内容识别。 0012 在另一些示例中, 提供了一种服务器, 包括被配置为存储签名文件的数据库, 每一 个签名文件都表示从相。
23、应的媒体内容和标识相应的媒体内容的信息中提取的一个或多个 特征。 该服务器还包括内容识别模块, 该内容识别模块耦合到数据库, 并被配置为从存储的 客户端设备的签名文件中确定一组签名文件, 并将该组签名文件提供给客户端设备, 以使 得客户端设备能够对接收到的媒体内容进行内容识别。 0013 前述概述只是示例性的, 不用于任何方式的限制。 除上面描述的示例性方面、 实施 例和特征之外, 通过参照附图和下面的详细描述, 更多的方面、 实施例和特征将变得显而易 见。 附图说明 0014 图 1 示出了用于识别数据流内容的系统的一个示例。 0015 图 2 示出了准备签名的示例性系统。 0016 图 3。
24、 示出了示例性内容识别方法。 0017 图 4 示出了用于识别数据流内容的示例性方法的流程图。 0018 图 5 示出了用于识别数据流内容并确定客户端设备的签名文件的示例性系统。 具体实施方式 0019 在下面的详细描述中, 参照多张附图, 这些附图也构成本说明书的一部分。 在附图 中, 除非上下文另有规定, 否则相似的符号通常标识相似的组件。在说明书、 附图和权利要 求中描述的示例性实施例的目的不是为了限制。 在不偏离本说明书所展示的主题的精神或 范围的情况下, 可以使用其他的实施例, 还可以做出其他的变化。很容易理解的是, 本公开 的各个方面, 如在本说明书中一般性描述的, 如在附图中示出。
25、的, 可以被布置、 替换、 组合、 分离和设计成各种不同的配置, 所有这些都在本说明书的明确设想之中。 0020 除了其他之外, 本公开可以描述客户端设备识别数据流内容的方法和系统。该方 法可以包括在客户端设备接收表示从媒体内容和标识媒体内容的信息中提取的一个或多 个特征的签名文件。 该方法还可以包括客户端设备基于与签名文件的比较对接收到的由媒 体呈递源呈递的媒体内容进行内容识别。客户端设备可以基于包括客户端设备的物理位 置、 客户端设备的网络地址、 客户端设备的前一内容辨识请求、 流派偏好、 艺术家偏好和用 户配置文件的多个因素中的任意数量的因素接收一组签名文件。 0021 现在参看附图, 。
26、图1示出了用于识别数据流内容的系统的一个示例。 虽然图1示出 了具有给定配置的系统, 但系统内的组件可以以其他方式布置。该系统包括媒体或数据呈 递源102, 以任何已知的方式呈递和展示来自媒体流的内容。 媒体流可以存储在媒体呈递源 102上, 或从外部源 (如, 模拟或数字广播) 接收。 在一个实施例中, 媒体呈递源102可以是广 说 明 书 CN 103562909 A 7 3/14 页 8 播媒体流 (例如, 音频和 / 或视频) 和 / 或其他信息的无线电电台或电视内容提供商。媒体 呈递源 102 也可以是任何类型的播放记录的或实时格式的音频或视频媒体的设备。在一个 替代性实施例中, 媒。
27、体呈递源102可以包括例如作为音频源和/或视频源的现场表演。 媒体 呈递源 102 可以通过例如图形显示器、 音频扬声器、 MIDI 乐器、 动画电子模型 (animatronic puppet) 等或媒体呈递源 102 呈递的任何其他类型的呈现来呈递或展示媒体流。 0022 客户端设备 104 通过输入接口 106 从媒体呈递源 102 接收呈递的媒体流。在一个 实施例中, 输入接口 106 可以包括天线, 在此情形中, 媒体呈递源 102 可以将媒体流无线广 播到客户端设备 104。然而, 根据媒体流的形式, 媒体呈递源 102 可以使用无线或有线通信 技术呈递媒体。在其他的示例中, 输入。
28、接口 106 可以包括麦克风、 视频摄像机、 振动传感器、 无线电接收器、 网络接口等中的任一种。作为特定的示例, 媒体呈递源 102 可以播放音乐, 输入接口 106 可以包括麦克风以接收音乐样本。 0023 在多个示例中, 除了接收呈递的媒体流之外, 客户端设备 104 可能不能可操作地 耦合到媒体呈递源 102。以这种方式, 客户端设备 104 可以不受媒体呈递源 102 控制, 并且 可以不是媒体呈递源 102 的集成的部分。在图 1 所示的示例中, 客户端设备 104 是与媒体 呈递源 102 分离的实体。 0024 输入接口 106 被配置为捕获呈递的媒体流的媒体样本。输入接口 1。
29、06 可以被预 编程为无需用户干预地连续地捕获媒体样本, 以记录所有接收的音频并将记录存储在缓冲 器 108 中。缓冲器 108 可以存储多个记录, 或者可以存储有限时间的记录, 这样客户端设备 104 可以例如以预定的时间间隔或者以使得在时间上往回的某个长度的历史可用于分析的 方式来记录并存储记录。在其他的示例中, 捕获媒体样本可以由用户激活触发样本捕获的 按钮或其他应用程序引起或触发。例如, 客户端设备 104 的用户可以按下按钮, 通过麦克风 记录十秒钟的数字音频样本, 或使用相机捕获静止图像或视频序列。 0025 客户端设备104可以实现为具有较小外形的便携式 (或移动) 电子设备如,。
30、 手机、 无 线手机、 个人数据助理 (PDA) 、 平板计算机、 个人媒体播放设备、 无线网络观看设备、 个人耳 机设备、 专用设备或包括任何上述功能的混合设备中的一部分。客户端设备 104 也可以实 现为个人计算机, 包括膝上型计算机和非膝上型计算机配置。客户端设备 104 也可以是更 大的设备或系统的组件。 0026 客户端设备104还包括位置识别模块110和内容识别模块112。 位置识别模块110 被配置为从缓冲器 108 接收媒体样本, 并基于在那一时刻捕获的媒体样本识别指示媒体样 本在呈递的媒体流 (或在呈递的媒体流片段) 中的时间偏移量的对应的估计时间位置 (Ts) 。 在一些示。
31、例中, 时间位置 (Ts) 也可以是自媒体流开始起已经经过的时间量。例如, 媒体流 可以是无线电广播, 时间位置 (Ts) 可以对应于正在呈递的歌曲的已经经过的时间量。 0027 内容识别模块 112 被配置为从缓冲器 108 接收媒体样本, 并对接收到的媒体样本 进行内容识别。 内容识别对媒体流进行识别, 或对与媒体样本相关或有关的信息进行识别。 内容识别模块 112 可被配置为接收环境音频样本, 识别音频样本的音乐内容, 并提供与该 音乐有关的信息, 包括音轨名称、 艺术家、 曲集、 艺术作品、 传记、 唱片、 音乐会门票等。 0028 在此方面, 内容识别模块 112 包括媒体搜索引擎 。
32、114, 并可以包括或耦合到数据库 116, 该数据库 116 对参考媒体流进行索引化处理, 例如, 以比较接收到的媒体样本和存储 的信息, 从而识别接收到的媒体样本内的轨道。 一旦识别出媒体流内的轨道, 轨道特性或其 说 明 书 CN 103562909 A 8 4/14 页 9 他信息就可以显示在客户端设备 104 的显示器上。 0029 数据库 116 可以存储包括用来识别内容片段的信息的内容模式 (content pattern) 。内容模式可以包括媒体记录, 如音乐、 广告、 广告词 (jingles) 、 电影、 纪录片、 电 视和电台节目。每个记录都可以通过唯一标识符 (例如, 。
33、sound_ID) 识别。替代性地, 数据 库116不一定存储每个记录的音频或视频文件, 因为sound_ID可用于从其他地方获取音频 文件。内容模式可以包括其他信息 (除包括媒体记录之外或者不包括媒体记录) , 如包括描 述媒体记录内容的时间映射特征集合的参考签名文件, 其具有与媒体记录的时间轴对应的 时间维度, 其中每一个特征都可以是对每个映射时间点附近的内容的描述。 一般情况下, 例 如, 可以对签名文件中的特征进行选择, 以可以在存在噪声和失真的情况下再现。 特征可以 从媒体记录之中在离散时间位置处稀疏地提取, 每一个特征都可以与感兴趣特征对应。稀 疏特征的示例包括 Lp 范数幂峰值、。
34、 频谱能量峰值、 链接凸点 (linked salient point) 等。 对于更多的示例, 读者可以参考 Wang 和 Smith 的美国专利第 6,990,453 号, 该专利通过引 用被整体并入本说明书中。 0030 替代性地, 连续的时间轴可以密集地表示, 其中每一个时间值都具有对应的可以 被包括或表示在媒体记录的签名文件中的特征值。这种密集特征的示例包括特征波形 (如 在 Kenyon 的美国专利第 7,174,293 号描述的, 该专利通过引用被整体并入本说明书) 、 频谱 位图光栅 (如美国专利第5,437,050号描述的, 该专利通过引用被整体并入本说明书) 、 活动 矩阵。
35、 (如美国公开专利申请第 2010/0145708 号描述的, 该专利通过引用被整体并入本说明 书) 和能量通量位图光栅 (energy flux bitmap raster) (如美国专利第 7,549,052 号描述 的, 该专利通过引用被整体并入本说明书) 。 0031 在一个实施例中, 签名文件包括媒体记录的稀疏特征表示。记录的特征可以从 使用重叠的短时快速傅立叶变换 (FFT) 提取的频谱图中获得。频谱图的峰值可以在对应 的能量值为局部最大值的时间 - 频率位置处选择。例如, 峰值可以通过识别每个候选位 置周围区域中的最大值点来选择。心理声学掩蔽标准也可以用来抑制听不见的能量峰值 (。
36、inaudible energy peak) 。每一个峰值都可以编码为一对时间和频率值。此外, 可以记 录峰值的能量幅度。在一个示例中, 音频采样速率为 8KHz, FFT 帧的大小可能会在大约 64-1024bin 之间变化, 帧之间的跳距 (hop size) 使得大约与前一帧有 25-75的重叠。增 加频率分辨率可能导致更低的时间精度。并且, 频率轴可以弯曲 (warp) 和内插到对数标度 之上, 如梅尔频率。 0032 与这些特征相关联的许多特征或信息可以组合成签名文件。 签名文件可以将特征 排序成按时间递增排列的列表。每个特征 Fj 都可以与数据结构 (data construct)。
37、 中的时 间值 tj 相关联, 列表可以是这种结构的数组 ; 例如, 这里 j 是第 j 个结构的索引。在使用连 续时间表示 (例如, 连续频谱图帧) 的示例中, 时间轴可以隐含在列表数组的索引中。每一个 媒体记录中的时间轴都可以被获得作为自记录开始处起的偏移量, 因此, 时间零指示记录 开始。 0033 图2示出了生成签名文件的示例性系统。 该系统包括媒体记录数据库202、 特征提 取模块 204 以及媒体签名数据库 206。媒体记录数据库 202 可以包括多个媒体记录的副本 (例如, 歌曲或视频) 或对多个媒体记录的副本的引用。特征提取模块 204 可以耦合到媒体 记录数据库202, 并且。
38、可以接收媒体记录进行处理。 图2概念性地示出了从媒体记录数据库 说 明 书 CN 103562909 A 9 5/14 页 10 202 接收音频轨道的特征提取模块。 0034 特征提取模块 204 可以使用任何上述示例方法从媒体记录提取特征来生成用于 媒体记录的签名文件 208。特征提取模块 204 可以将签名文件 208 存储在媒体签名数据库 206 中。例如, 媒体签名数据库 206 可以存储带有相关联的标识符的签名文件, 如图 2 所 示。 例如, 签名文件的生成可以在批处理模式下进行, 参考媒体记录库可以被预处理为对应 的提取特征参考签名文件的库。输入到特征提取模块 204 的媒体记。
39、录可以存储在缓冲器中 (例如, 其中将旧的记录从滚动缓冲器发送出去并接收新的记录) 。可以提取特征, 并可以从 媒体记录的滚动缓冲器的连续操作中连续创建签名文件, 以根据需要不留时间间隙地或基 于需求进行表示。在按需示例中, 特征提取模块 204 可以在必要时从媒体记录数据库 202 获取媒体记录, 以响应于对应特征的请求提取特征。在一个示例中, 然后, 由此得到的参考 签名文件库可以存储或提供给客户端设备 104。 0035 得到的签名文件的大小可能会随着所使用的特征提取方法的不同而变化。 在一个 示例中, 所选频谱图的峰密度 (例如, 特征) 可以选择在大约每秒 10-50 点之间。峰可以。
40、选择 为每单位时间的前 N 个最大能量峰, 例如, 一秒帧中的前 10 个峰。在一个示例中, 使用每秒 10 个峰, 用 32 位来编码每个峰的频率 (例如, 8 位用于频率值, 24 位用来编码时间偏移量) , 可能需要每秒 40 个字节来编码特征。歌曲的平均长度大约为三分钟, 一首歌大约会产生 7.2 千字节大小的签名文件。对于其他的签名编码方法, 例如, 跳距为 100 毫秒的频谱图中 的每一个偏移处 32 位的特征会产生类似大小的指纹。 0036 在另一个示例中, 签名文件可能大约为5-10KB的量级, 并可以与从中获得约20秒 长的样本的媒体记录的一部分对应, 并在结束样本捕获之后指。
41、向媒体记录的一部分。 0037 在一些示例中, 签名文件可以通过描述记录的特征来表示媒体记录的指纹。在这 方面, 媒体记录的签名可以视为是记录的指纹, 签名或指纹可以被包括在签名文件之中。 0038 图 2 中所示的系统可以被包括在客户端设备 104 或服务器 122 之中。在系统被包 括在客户端设备之中的一个示例中, 媒体记录数据库 202 可以包括本地存储的媒体 (例如, 音乐库) 。在其他的示例中, 客户端设备 104 可以接收来自服务器或从流 (如, 无线电广播、 流传输的互联网广播等) 中捕获的原始内容 (例如, 音乐文件) , 并进行签名提取以使用签名 文件填充数据库116。 在另。
42、一些示例中, 接收到新的媒体记录 (例如, 用户购买新的歌曲并下 载歌曲到客户端设备 104) 时, 客户端设备 104 可以提取签名特征以生成新媒体记录的签名 文件。客户端设备 104 可以将信息与生成的签名文件相关联, 如识别原始内容的信息 (如, 歌曲标题、 艺术家、 流派等) 、 广告等, 或从服务器接收到的与原始内容相关联的任何信息。 0039 再参照图 1, 数据库 116 可以包括多个媒体记录的签名文件, 并可以持续更新, 以 包括新媒体记录的签名文件。数据库 116 可以接收用于删除旧的签名文件的指令以及纳入 来自服务器的新的签名文件的指令。数据库 116 可以进一步包括与提取。
43、的媒体文件的特征 相关联的信息。数据库 116 可以包括多个签名文件, 使得客户端设备 104 能够执行与本地 存储的签名文件进行内容匹配的内容识别。 0040 数据库 116 还可以包括每个存储的签名文件的信息, 诸如元数据, 该元数据表示 有关例如艺术家名称、 歌曲长度、 歌曲的歌词、 歌词的行或单词的时间索引、 曲集艺术品之 类的签名文件的信息, 或任何其他标识文件或与文件相关的信息。元数据还可以包括数据 和到其他相关内容和服务的超链接, 包括推荐、 广告、 提供预览、 书签以及购买音乐记录、 视 说 明 书 CN 103562909 A 10 6/14 页 11 频、 音乐会门票和奖励。
44、内容 ; 以及为了方便浏览、 探索、 发现万维网上的相关内容。 0041 内容识别模块112也可以包括签名提取器118, 签名提取器118可以被配置为生成 从捕获的媒体样本中提取出的特征的签名流, 每个特征都可以具有对应的样本内的时间位 置。提取出的特征的签名流可以用来与存储在数据库 116 中的签名文件比较, 以识别对应 的媒体记录。在一些示例中, 签名提取器 116 可以被配置为使用上述生成签名文件的方法 中的任何一种从媒体样本中提取特征, 以生成提取特征的签名流。签名流可以基于例如观 测到的媒体流实时确定和生成。 0042 内容识别模块 112 和 / 或签名提取器 118 还可以被配置。
45、用来比较媒体样本内的特 征和签名文件的对准, 以识别对应时刻的特征匹配。 0043 图 1 中的系统还包括客户端设备 104 可以通过无线或有线链接与之耦合的网络 120。服务器 122 被设置为耦合到网络 120, 服务器 122 包括位置识别模块 124 和内容识别 模块 126。虽然图 1 示出服务器 122 包括位置识别模块 124 和内容识别模块 126, 但是位置 识别模块 124 和 / 或内容识别模块 126 中的任意一个都可以是例如远离服务器 122 的单独 的实体。此外, 位置识别模块 124 和 / 或内容识别模块 126 可以在例如通过网络 120 连接 到服务器 12。
46、2 的远程服务器上。 0044 在一些示例中, 客户端设备104可以捕获媒体样本, 并可以通过网络120将媒体样 本发送给服务器122, 以确定媒体样本中的内容的特性。 服务器122的位置识别模块124和 内容识别模块 126 可以被配置为类似于客户端设备 104 的位置识别模块 110 和内容识别模 块 112 运行。在这方面, 内容识别模块 126 包括媒体搜索引擎 128, 并可以包括或耦合到索 引化参考媒体流的数据库 130, 例如, 以比较接收到的媒体样本和存储的信息, 以识别接收 到的媒体样本中的轨道。一旦已经识别出媒体流内的轨道, 轨道特性或其他信息就可以返 回给客户端设备 10。
47、4。 0045 响应于从客户端设备 104 接收到的内容识别查询, 服务器 122 可以对从中获得媒 体样本的媒体记录进行识别, 和 / 或获取与识别的媒体记录对应的签名文件。然后, 服务器 122 可以返回识别媒体记录的信息和与媒体记录对应的签名文件给客户端设备 104。 0046 在其他的示例中, 客户端设备104可以从媒体呈递源102捕获媒体流的样本, 并且 可以对样本进行初始处理, 以创建媒体样本的签名文件 / 指纹。然后, 客户端设备 104 可以 发送指纹信息给服务器122的位置识别模块124和/或内容识别模块126, 它可以单独基于 指纹信息对与样本有关的信息进行识别。以这种方式。
48、, 更多的计算或识别处理可以在客户 端设备 104 而不是在例如服务器 122 处进行。 0047 在又一些示例中, 如上所述, 客户端设备 104 还可以被配置为本地执行内容识别, 通过比较媒体样本内的特征和签名文件的对准 (alignment) , 以识别对应时刻的特征匹配。 0048 各种内容识别技术在本领域中已经是广为人知的, 用于使用媒体轨道数据库进 行媒体样本和媒体样本特征的计算内容识别。下列美国专利和出版物描述了可能的媒体 辨识技术的示例, 每一个都通过引用被完整并入本说明书中, 就像在本说明书中完整提出 : Kenyon 等人的标题为 Broadcast Information。
49、 Classification System and Method 的 美国专利第4,843,562号 ; Kenyon的标题为 Broadcast Signal Recognition System and Method 的美国专利第 4,450,531 号 ;Haitsma 等人的标题为 Generating and Matching Hashes of Multimedia Content 的美国专利申请公开号 2008/0263360 ; Wang 和 Culbert 说 明 书 CN 103562909 A 11 7/14 页 12 的标题为 Robust and Invariant Audio Pattern Matching 的美国专利第 7,627,477 号 ; Wang,Avery 的标题为 Method and Apparatus for Identification of Broadcast Source的美国专利申请公开号 2007/0143777 ; Wang 和 Smith 的标题为 System and Method for Recogn。