用于显像音频数据的方法.pdf

摘要
申请专利号：	CN200910128105.4	申请日：	2009.02.27
公开号：	CN101520808A	公开日：	2009.09.02
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20090902\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G06F17/30; G10H1/00	主分类号：	G06F17/30
申请人：	索尼株式会社
发明人：	M·弗比克; H·索卢姆
地址：	日本东京都
优先权：	2008.2.29 EP 08003831.8
专利代理机构：	中国专利代理(香港)有限公司	代理人：	柯广华;蒋骏
PDF下载：	PDF下载

内容摘要

本发明的名称是用于显像音频数据的方法，提供了一种用于显像对应音乐片段的音频数据的方法，包括以下步骤：基于所述音频数据确定所述音乐片段的结构，所述结构包括各具有音乐结构段长度的音乐结构段；将预定的图形对象分配给所述音乐片段，所述图形对象具有预定的大小；将所述图形对象分割成图形段，其中每个图形段具有表示所述音乐结构段长度的大小；以及将所述图形对象和所述图形段显示在显示器上。

权利要求书

1.  一种用于显像对应音乐片段的音频数据的方法，包括以下步骤：
基于所述音频数据确定所述音乐片段的结构，所述结构包括各具有音乐结构段长度的音乐结构段；
将作为图形对象的圆分配给所述音乐片段，所述圆具有预定的大小；
将所述圆分割成环，其中每个环具有表示对应的音乐结构段长度的大小；以及
将所述圆和所述环显示在显示器上；
其中第一环沿着所述圆的外围圆周设置，所述第一环对应在所述音乐片段开始处的段，而跟随的环设置在所述第一环和所述圆的中心之间，所述跟随的环对应跟随在所述音乐片段开始处的所述段的段，设置的次序对应在所述音乐片段中出现的次序。

2.  如权利要求1所述的方法，其中相应的音乐结构段表示所述音乐片段的前奏、主歌、副歌、插曲、间奏、尾奏或诸如此类，或相应的音乐结构段的开始表示所述音乐片段中基调的改变。

3.  如权利要求1或2所述的方法，其中对应相同类型的音乐结构段的环显示为相同风格或格式。

4.  如权利要求1或2所述的方法，包括
根据所述音乐片段中相应的音乐结构段的出现次序，设置所述环的次序。

5.  如权利要求1或2所述的方法，包括以下步骤：
由用户选择环；以及
播放与所选择的环的音乐结构段对应的音频段的至少一部分。

6.  如权利要求1或2所述的方法，其中所述结构基于自动音乐结构提取的算法确定。

7.  如权利要求1或2所述的方法，还包括以下步骤：
接收所述音乐片段的歌词信息，所述歌词信息包括所述音乐片段的至少部分歌词以及歌词结构信息，所述歌词结构信息指示所述至少部分歌词的相应的歌词部分属于哪个音乐结构段；
基于所述音频数据的语音识别，将所述至少部分歌词的至少一部分分配给所述音频数据的对应的部分；以及
基于所述分配以及基于所述歌词信息，确定或修改所述结构。

8.  如权利要求1或2所述的方法，还包括以下步骤：
接收所述音乐片段的关键词信息，所述关键词信息包括在所述音乐片段的歌词中包含的关键词和关键词结构信息，所述关键词结构信息指示相应的关键词属于哪个音乐结构段；
基于所述音频数据的关键词定位，在所述音频数据中定位至少部分所述关键词；以及
基于所定位的关键词以及基于所述关键词信息，确定或修改所述结构。

9.  如权利要求1或2所述的方法，还包括以下步骤：
接收所述音乐片段的元数据，其中所述元数据指示在所述音乐片段中使用的至少部分乐器和/或声乐信息，所述声乐信息指示在所述音乐片段中是否存在声乐部分；
确定基于时间的乐器/声乐信息，所述乐器/声乐信息指示在哪个时间正在演奏哪些乐器和/或在所述音乐片段的特定时间点是否存在声乐，其中所述基于时间的乐器/声乐信息基于所述乐器和/或所述声乐信息的识别和/或定位来确定。
将所述基于时间的乐器/声乐信息分配给相应的环；以及
连同相应的环一起显示至少部分所述基于时间的乐器/声乐信息。

10.  如权利要求1或2所述的方法，其中特征向量基于所述结构确定，而所述特征向量用于发现具有与所述音乐片段相似的结构的更多音乐片段。

11.  如权利要求1或2所述的方法，其中基于确定结构的所述步骤、分配圆的所述步骤、分割的所述步骤以及显示的所述步骤对多个音乐片段确定显像，而其中具有相似的结构的音乐片段的相应圆显示为彼此接近。

12.  如权利要求11所述的方法，其中两个音乐片段之间的相似性由相关值确定，所述相关值基于相同类型的音乐结构段的开始和/时间或结束时间来确定，所述开始时间和/或结束时间对应所述两个音乐片段的音乐结构段。

13.  如权利要求1或2所述的方法，其中对多个音乐片段确定显像，而且对每个显像，从相应的显像确定特征向量，而每个显像都设置在自组织图上，使得密切相关的显像在所述图上显示为彼此接近，并且其中当用户使用光标悬浮在所述自组织图的区域上时显示所述显像。

14.  如权利要求1或2所述的方法，其中对应音乐结构段的环邻接地设置，使得如果要描绘跨圆的半径的线，则将穿越对应音乐片段的所有音乐结构段的所有相邻的环。

15.  一种用于显像对应音乐片段的音频数据的装置，包括：
存储设备，配置成存储至少部分所述音频数据；
音乐结构提取器，配置成基于所述音频数据确定所述音乐片段的结构，所述结构包括各具有音乐结构段长度的音乐结构段；
数据处理单元，配置成将作为图形对象的圆分配给所述音乐片段，所述圆具有预定的大小，并将所述圆分割成环，其中每个环具有表示对应的音乐结构段长度的大小；以及
显示器，配置成显示所述圆和所述环，
其中第一环沿着所述圆的外围圆周设置，所述第一环对应在所述音乐片段开始处的段，而跟随的环设置在所述第一环和所述圆的中心之间，所述跟随的环对应跟随在所述音乐片段开始处的所述段的段，设置的次序对应在所述音乐片段中出现的次序。

16.  如权利要求15所述的装置，还包括
语音识别引擎，配置成接收所述音乐片段的歌词信息，所述歌词信息包括所述音乐片段的至少部分歌词和歌词结构信息，所述歌词结构信息指示所述至少部分歌词的相应的歌词部分属于哪个音乐结构段，所述语音识别引擎还配置成基于所述音频数据的声乐部分的语音识别，将所述至少部分歌词的至少一部分分配给所述音频数据的对应的部分；其中所述数据处理单元还配置成基于所述分配和基于所述歌词信息，确定或修改所述结构。

17.  如权利要求15或16所述的装置，还包括
关键词定位器，配置成接收所述音乐片段的关键词信息，所述关键词信息包括在所述音乐片段的歌词中包含的关键词以及关键词结构信息，所述关键词结构信息指示相应的关键词属于哪个音乐结构段，而且还配置成基于所述音频数据的声乐部分的关键词定位，在所述音频数据中定位至少部分所述关键词，其中所述数据处理单元还配置成基于所定位的关键词和基于所述关键词信息，确定或修改所述结构。

18.  如权利要求15或16所述的装置，还包括
图形用户接口，配置成使得能够选择显示的环；以及
音频接口，配置成播放对应所选择的环的音频段。

19.  一种系统，包括
用户装置，配置成接收音乐片段的显像，所述用户装置包括配置成显示所述显像的显示器；以及
服务器，包括
存储设备，配置成至少存储所述音乐片段；
音乐结构提取器，配置成确定所述音乐片段的结构，所述结构包括各具有音乐结构段长度的音乐结构段；
数据处理单元，配置成生成所述显像，其中将作为图形对象的圆分配给所述音乐片段，所述圆具有预定的大小，并且将所述圆分割成环，其中每个环具有表示对应的音乐结构段长度的大小，其中第一环沿着所述圆的外围圆周设置，所述第一环对应所述音乐片段开始处的段，而跟随的环设置在所述第一环和所述圆的中心之间，所述跟随的环对应跟随所述音乐片段开始处的所述段的段，设置的次序对应在所述音乐片段中出现的次序；以及数据传输机构，配置成将所述显像提供给所述用户装置。

20.  如权利要求19所述的系统，其中所述用户装置具有允许用户选择所述显像的环的功能，并且基于特定环的选择，所述服务器将音频数据传送给所述用户装置，所述音频数据是所述音乐片段的一部分并且对应所述特定环。

21.  一种图形用户接口，包括
作为图形对象的圆，所述圆表示音乐片段并包括环，所述环各具有表示所述音乐片段的相应的音乐结构段的音乐结构段长度的大小，其中第一环沿着所述圆的外围圆周设置，所述第一环对应所述音乐片段开始处的段，而跟随的环设置在所述第一环和所述圆的中心之间，所述跟随的环对应跟随所述音乐片段开始处的所述段的段，设置的次序对应在所述音乐片段中出现的次序，以及
选择器，配置成选择至少一个所述环。

22.  一种网站，包括：
至少一个音乐片段的显像，所述显像包括作为图形对象的圆，所述圆分割成环，其中每个环具有表示所述音乐片段的音乐结构段的音乐结构段长度的大小；
选择机构，配置成允许用户选择特定环，并将音频数据传输到用户装置，所述音频数据对应由所述特定环表示的相应的音乐结构段，或对应音乐片段。

23.  如权利要求22所述的网站，其中所述传输对应下载和/或流传送操作。

24.  如权利要求22或23所述的网站，其中所述用户装置是移动电话且所述音频数据至少部分地用作所述移动电话的铃声。

25.  一种计算机程序产品，包括计算机可读介质、计算机上的可下载的可运行的和/或预安装的程序，所述程序包括使计算机运行用于显像音频数据的方法的计算机程序指令，所述方法包括：
基于所述音频数据确定所述音乐片段的结构，所述结构包括各具有音乐结构段长度的音乐结构段；
将作为图形对象的圆分配给所述音乐片段，所述圆具有预定的大小；
将所述圆分割成环，其中每个环具有表示对应的音乐结构段长度的大小；以及
将所述圆和所述环显示在显示器上。

说明书

用于显像音频数据的方法
技术领域
本发明涉及一种用于显像对应音乐片段的音频数据的方法，还涉及一种用于显像对应音乐片段的音频数据的装置。本发明还涉及图形用户接口。
背景技术
今天，大的音乐数据库是广泛可用的。然而，用户通常不易于浏览此类大数据库并发现他们喜欢听的音乐片段，例如一首歌。此外，用户可能通常不想听完整的音乐片段而仅仅是一首歌的一部分。
发明内容
本发明的一个目标是提供一种用于显像音频的方法，从而使得用户能够有效地执行以上任务。此外，本发明的一个目标是提供相应的装置和图形用户接口以用于显像音频数据。
目标由分别根据权利要求1、13和17的方法和装置和图形用户接口来解决。
本发明的进一步的目标和优点基于对附图和伴随的描述的理解将变得明显。
附图说明
图1示出流程图，示出用于显像音频数据的方法的步骤；
图2示出用于显像音频数据的方法的进一步的步骤；
图3示出示例，其中音乐片段被分割成音乐结构段；
图4示出对应图3的示例的图形对象和图形段；
图5示出不同音乐片段的图形对象/段；
图6示出用于显像音乐的装置；
图7示出关于图形对象和相应的图形段的可能的实施例；
图8示出具有移动装置和服务器的系统。
具体实施方式
以下描述的实施例可以任何方式组合，即没有以下限制：特定描述的实施例不可与其它实施例组合。
一种用于显像对应音乐片段的音频数据的方法可包括：基于所述音频数据确定所述音乐片段的结构，所述结构包括音乐结构段，例如前奏、主歌、副歌、插曲(break)、间奏或诸如此类，其中每个音乐结构段具有表示相应的音乐结构段持续时间的音乐结构段长度。因此，段对应预定的音乐理论的分类，其中分类的序列描述相应的音乐片段的结构。该方法还可包括将预定的图形对象(诸如圆、矩形框、特定长度的条或诸如此类)分配给所述音乐片段，所述图形对象具有预定的大小。预定的大小可根据音乐片段的持续时间来选取。预定大小还可以是常数，即独立于音乐片段的长度。该方法还可包括将所述图形对象分割成图形段，其中每个图形段具有表示所述音乐结构段长度的大小。换句话说，图形段的大小指示相应的音乐结构段的长度，即持续时间。该方法还可包括将所述图形对象和所述图形段显示在显示器上。因此，用于用户快速得到音乐片段(例如一首歌)的结构的概要可以是可能的。例如，通过查看分割的图形对象，用户可快速看到前奏与主歌或副歌比较的长度。例如，如果前奏相当短，例如20秒，而副歌持续较长时间段，例如1分钟，则用户将能够快速分析这个事实，因为该前奏的图形段将小于副歌的图形段，即前奏的图形段的面积将小于副歌的图形段的面积。
在一个实施例中，音乐结构段表示音乐片段的前奏、主歌、副歌、插曲、间奏、尾奏(outro)或诸如此类是可能的。根据所应用的音乐理论的类型，可使用其它适合的音乐结构段。音乐结构段也可例如基于特定音乐结构段中正使用/演奏的乐器的类型，或取决于相应段是否包括声乐作品。它也能够是由音量来定义的段，使得大声部分和小声部分被选取成不同的音乐结构段。为了确定音乐结构段，现有技术算法/方法可使用，例如在“贝叶斯音乐结构提取器的理论和估计(Theoryand evaluation of a Bayesian music structure extractor)”中描述的，由S.Abdallah等人在Proceedings of the 6^th International Conference onMusic Information Retrieval(London，UK，2005年9月11-15，ISMIR2005)中公布，其内容通过引用结合于本文中。
在另一个实施例中，对应相同类型的音乐结构段的图形段显示成相同风格、格式和/或颜色。例如，相同颜色可用于表示副歌的音乐结构段。例如，第一颜色可用于表示前奏的音乐结构段，而不同的第二颜色可用于表示副歌的音乐结构段。如果副歌于所述音乐片段中出现数次，则相应的音乐结构段可显示为相同的颜色并将由用户识别。可能提供相应的图例或解答(key)以向用户解释哪种颜色用于哪个类型的音乐结构段。因此，用户通过区分表示音乐结构段的相应的图形段的颜色和不同大小，可快速地标识歌的结构。例如，如果音乐片段具有以下结构：前奏、副歌、主歌、副歌，则用户可从图形对象内的图形段直接见到该结构。因为每个音乐片段具有不同的结构，带有不同长度和不同次序的音乐结构段，将音频数据/音乐片段以唯一方式显像是可能的，即对应音乐片段的分割的图形对象将对于每个音乐片段/歌有所不同。因此，用户可从显示的分割的图形对象标识特定的歌。因为不同类型的音乐可具有不同但相似的结构，用户也可确定特定的音乐片段属于什么类型的音乐。例如，摇滚歌可具有分割的图形对象的典型模式，其不同于流行歌的典型模式。因此，用户可以能够浏览大的音乐数据库，通过仅查看表示相应音乐片段/歌的结构的分割的图形对象。
而且，如果提供例如图例或解答，指示哪种颜色用于哪种类型的音乐结构段，例如不同颜色可针对前奏、副歌、主歌、间奏、插曲等而选取，则用户可以能够直接选择他想听的音乐片段的部分，即音乐结构段。例如，用户可能仅想听副歌的第一实例(instance)。则，通过查看分割的图形对象，用户能直接看见副歌的第一实例，并且例如通过借助图形用户接口指向它来选择它，然后将播放该副歌。
在另一个实施例中，方法可包括根据音乐片段内相应的音乐结构段出现的次序来设置图形段的次序。如果例如图形对象选取为圆，则表示前奏的环可沿着圆的外围圆周设置。如果例如在前奏之后跟随副歌，则表示副歌的另一个同心环可设置为邻接于第一同心环，即在第一同心环内。该设置是根据用于存储音乐的黑胶唱片(vinyl record)，它在播放时从外面向唱片的中心读取。该设置将被许多用户快速理解并接受，因为他们通常熟悉黑胶唱片。当然，在另一个实施例中，图形段的次序可设置为从圆的中心开始，直到外围圆周，即表示歌的第一音乐结构段的图形段将设置在圆的中心。
方法可进一步包括由用户选择图形段，以及播放对应所选择的图形段的音乐结构段的至少部分音频段。该选择可由例如图形用户接口启用，而且因此对于用户直接跳到音乐片段内的期望位置是可能的。
这类似于由音乐节目主持人(DJ)重放黑胶唱片。当然，容易将电唱机的唱针置于碟的轨道之间，因为凹槽较宽，但通常DJ能查看黑胶唱片中的凹槽的纹理以定位碟上轨道内的某个位置，在该位置例如鼓拍改变或副歌开始。
如所述的，音乐片段的结构可基于自动音乐结构提取的算法确定，例如在“Theory and evaluation of a Bayesian music structureextractor”中描述的，由S.Abdallah等人在Proceedings of the 6^thInternational Conference on Music Information Retrieval(London，UK，2005年9月11-15，ISMIR 2005)中公布。
在另一个实施例中，方法包括接收关于音乐片段的歌词信息是可能的，所述歌词信息包括音乐片段的至少部分歌词和歌词结构信息，所述歌词结构信息指示所述至少部分歌词的相应的歌词部分属于哪个音乐结构段，并基于音频数据的例如声乐部分的语音识别将所述至少部分歌词的至少一部分分配给音频数据的对应部分，且基于该分配和该歌词信息确定或修改结构。换句话说，提供包括歌的歌词和歌词结构信息的歌词信息可以是可能的，歌词结构信息即段信息，指示歌词的哪些词属于特定音乐结构段。例如，在麦当娜的流行歌“Sorry”中，可使用以下歌词信息：
前奏：
Je suis desolee...
间奏：
I’ve heard it...
副歌：
I don’t wanna...
Please don’t say...
I’ve heard it all...
主歌：
You’re not half the man you think you are...
副歌：
I don’t wanna...
主歌：
Don’t explain yourself cause talk is cheap...
间奏：
Gomen nasai...
副歌：
I don’t wanna...
尾奏：
Don’t explain yourself cause talk is cheap...
There’s more important things...
I don’t wanna...
以上信息，即“歌词信息”随后可用于语音识别过程中，其中(已知)歌词匹配对应的音频数据，即将歌词的词分配给音频数据的对应部分。因为歌词的相应部分对应哪个音乐结构段是先前已知的，所以音乐片段的结构可通过将音频数据根据歌词信息分割来确定。换句话说，通过将(已知)歌词映射到音频数据，并基于歌词结构信息(即，歌词的相应部分属于哪个音乐结构段的信息)分割音频数据，确定或细化音乐片段的结构是可能的。这能实现而完全独立于基于自动音乐结构提取的算法确定结构。
然而，在另一个实施例中，应用两种音乐结构提取的可能性是可能的，即应用自动音乐结构提取算法，然后应用如上所述的语音识别。由自动音乐结构提取的算法确定的音乐结构段和由应用语音识别确定的音乐结构段可组合。例如，首先应用自动音乐结构提取的算法用于确定音乐结构段，然后通过应用如上所述的语音识别纠正或修改所确定的段是可能的。自动音乐结构提取和语音识别的算法的应用组合可导致音乐片段中的音乐结构段的段边界的更高精确度。然而，根据计算资源或诸如此类的可用性，仅使用上述可能性(即自动音乐结构提取的算法或语音识别)之一也是合适的。
在另一个实施例中，可附加地或备选地执行以下步骤：接收关于所述音乐片段的关键词信息，所述关键词信息包括包含在所述音乐片段的歌词中的关键词和关键词结构信息，所述关键词结构信息指示相应的关键词属于哪个音乐结构段、基于例如音频数据的声乐部分的关键词定位来定位音频数据中的至少部分关键词、并基于所定位的关键词和关键词信息来确定或修改结构。在计算资源稀少时和/或在可使用关于关键词定位的相应功能强大的算法时关键词定位可以是合适的。
在上述示例中，下表可以是关键词信息的示例。

音乐结构段关键词前奏Lo siento间奏I’ve heard it all before副歌Care of myself主歌I’ve listened to your lies副歌Care of myself主歌Hearing you speak间奏Gomen nasai副歌Care of myself尾奏Care of myself

基于语言知识选择词作为不同音乐结构段中的关键词是可能的。例如，可能选择易于定位的关键词，即通常导致高识别率的关键词。为了选择合适的关键词，执行字素(grapheme)到音素(phoneme)的转换可以是可能的，并选择可能导致相应关键词的高识别率的音素的序列。
因为关键词信息指示相应关键词属于哪个音乐结构段，所以可能确定音乐片段的结构。
可将关键词定位附加地或备选地应用于上述音乐结构提取和/或语音识别。
在一个实施例中，方法包括以下步骤也是可能的：接收关于音乐片段的元数据，其中元数据指示在音乐片段中使用的至少部分乐器和/或指示声乐部分是否在音乐片段中存在的声乐信息；确定基于时间的乐器/声乐信息，该信息指示哪种乐器在哪个时间演奏和/或在音乐片段的特定时间点上是否存在声乐，其中基于时间的乐器声乐信息基于乐器和/或所述声乐信息的识别和/或定位来确定；将所述基于时间的乐器声乐信息分配给相应图形段；以及连同相应图形段一起显示至少部分所述基于时间的乐器声乐信息。因此，用户可快速分析音乐片段，因为他能看见在相应音乐结构段内哪些乐器被演奏和/或在相应音乐结构段中是否存在声乐。这以直观的方式给予用户关于音乐片段的附加信息。
在另一个实施例中，图形对象可以是圆，并且至少一个图形段可对应所述圆内的环或同心环段。图形段也可是螺旋设置的同心部分。通过针对相同类型的音乐结构段/图形段选取相同颜色或格式，可获得上述的音乐片段的黑胶唱片类型的展示。
对应音乐片段开始处(即前奏)段的第一环沿着圆的外围圆周设置，而后面的环对应跟随所述开始处段的段可以是可能的，例如，在上述的麦当娜的歌的示例中，音乐片段的间奏、副歌、主歌、副歌、主歌、间奏、副歌、尾奏设置在第一环和圆的中心之间，其次序对应在音乐片段内出现的次序。
在另一个实施例中，也有可能图形对象是矩形框，而图形段对应矩形段。矩形框也可以是具有特定长度的条形。总之，可根据其上显示图形对象的显示器的形式来选取图形对象。例如，如果显示器具有长的形状，则图形对象可选取成适合于长显示器的条。另一方面，如果显示器具有相当正方的形状，则选取成圆形的图形对象是合适的。
在另一个实施例中，特征向量可基于结构确定，而该特征向量可用于发现具有与音乐片段相似结构的更多音乐片段。换句话说，对于多个音乐片段，可计算特征向量。对应具有相似结构的音乐片段的相似特征向量可由不同特征向量的相关性或由计算它们之间的欧几里德距离来确定。
在另一个实施例中，也有可能基于以下步骤对多个音乐片段确定显像：确定结构的步骤、分配预定图形对象的步骤、分割的步骤和/或显示的步骤，其中具有相似结构的音乐片段的相应图形对象显示为接近或邻接彼此。换句话说，通过如上所述显像多个音乐片段，以下可以是可能的，即组织大量音乐片段使得具有相似结构的音乐片段，以及因此还有相似的显像将显示为接近彼此。这可允许用户得到大量音乐片段的概要。
在另一个实施例中，两个音乐片段之间的相似性可通过基于相同类型的音乐结构段的开始和/或结束时间确定相关值来确定。所述开始和/结束时间对应所述两个音乐片段的音乐结构段。
在另一个实施例中，可针对多个音乐片段确定显像，而且对于每个显像，可从相应显像确定特征向量，而且每个显像可设置在自组织图上，使得紧密相关的显像在图上显示为彼此接近，其中当用户使用光标悬浮在自组织图上的区域上时显示显像。
用于显像对应音乐片段的音频数据的装置可包括：配置成存储至少部分音频数据的存储设备，例如，硬盘或其它类型的存储器。备选地或附加地，也有可能该装置包括配置成经无线链路接收音频数据的接收器，例如通过下载或流传送。该装置可进一步包括音乐结构提取器，该提取器配置成基于音频数据确定音乐片段的结构，该结构包括各具有音乐结构长度的音乐结构段；配置成将预定图形对象分配给所述音乐片段并将图形对象分割成图形段的数据处理单元，所述图形对象具有预定大小，其中每个图形段具有表示所述音乐结构段长度的大小；以及配置成显示图形对象和图形段的显示器。
装置可以是手持装置，例如移动电话，个人数字助理(PDA)或小的音乐存储装置，例如Walkman(商标)。装置还可以是个人计算机(PC)。
装置可进一步包括语音识别引擎，该引擎配置成接收关于音乐片段的歌词信息，所述歌词信息包括音乐片段的至少部分歌词和歌词结构信息，该结构信息指示所述至少部分歌词的相应歌词部分属于哪个音乐结构段，语音识别引擎可进一步配置成将所述至少部分歌词的至少一部分分配给所述音频数据的对应部分，其依据是音频数据的声乐部分的语音识别，其中数据处理单元进一步配置成基于分配和基于歌词信息确定或修改结构。
本发明的另一个实施例涉及包括用户装置和服务器的系统。用户装置可配置成接收音乐片段的显像，所述用户装置包括配置成显示显像的显示器。用户装置可接收来自服务器的显像。服务器可包括配置成存储至少所述音乐片段的存储设备(storage)，配置成确定所述音乐片段结构的音乐结构提取器，所述结构包括音乐结构段，各具有音乐结构段长度；以及数据处理单元。数据处理单元可配置成生成显像，随后由用户装置接收显像。显像可包括分配给音乐片段的预定的图形对象，图形对象具有预定的大小并可分割成图形段，其中每个图形段具有表示音乐结构段长度的大小。服务器可进一步具有配置成将显像提供给用户装置的数据传输机构。服务器可例如是web服务器而用户装置可例如是移动装置，例如带Wi-Fi连接(即，带无线连接)的个人媒体播放器，或诸如此类。也有可能用户装置是小型的移动音乐存储装置，具有例如硬盘或其它存储设备。
根据另一个实施例，用户装置可具有允许用户选择显像的图形段的功能，且基于特定图形段的选择，服务器可将音频数据传送给用户装置，所述音频数据是所述音乐片段的部分并对应特定图形段或对应整个音乐片段。换句话说，通过选择显像的图形段，用户可开始下载、流传送或以其它方式传输音乐片段的至少一部分到他的移动装置，该部分对应图形段和/或整个音乐片段。
图形用户接口可包括预定的表示音乐片段的图形对象和各具有表示音乐片段的相应音乐结构段的音乐结构段长度的图形段；还包括配置成选择图形段的至少一个的选择器。
选择器可具有典型地用于获得黑胶唱片的信息的唱针的设计。这可产生更广的用户接受度，这使得用户想到黑胶唱片。
根据本发明的另一个实施例，可提供包括音乐片段的至少一个显像的网站，所述显像包括分割为图形段的预定的图形对象，其中每个图形段具有表示所述音乐片段的音乐结构段的音乐结构段长度的大小；还包括配置成允许用户选择特定图形段并将音频数据传输给用户装置的选择机构，所述音频数据对应由所述特定图形段表示的相应音乐结构段或对应整个音乐片段。换句话说，可提供网站，其中用户能够预览音乐片段之后下载、流传送或以其他方式传输音乐片段到他的用户装置，其中预览对应音乐片段小于其全部持续时间的预定长度的部分，例如30秒，而用户能使用显像选择预览部分用于传输。换句话说，网站可允许用户基于音乐片段的显像，仅选择音乐片段的部分用于下载/流传送。可在服务器上实施规则以防止用户请求/下载音乐片段(例如歌)的连续部分。例如，在一个二十四小时时间段仅可选择歌的两个不同部分。
网站也可允许用户根据显像选择部分，以用于提取歌或其部分作为移动电话的铃声。因此，用户装置可以是移动电话而音频数据可以至少部分地用作移动电话的铃声。
图1示出了对于显像音频数据可执行的步骤。图1中，在音乐结构提取步骤S100中接收音频数据101。此外，在音乐结构提取步骤S100中，执行用于音乐结构提取的自动方法，以便确定音频数据101的音乐结构段。音频数据101可对应歌，而音乐结构段102可对应音乐结构段，例如前奏、副歌、主歌或诸如此类。在图1的示例中，音频数据101的前奏从对应音频数据101的歌的开始持续直到22秒。此外，副歌从22秒持续到1分10秒。在副歌之后另外的音乐结构段(例如主歌)可跟随。
在随后的图形对象选择步骤S104中，预定的图形对象可分配给音乐片段，其中图形对象具有预定的大小。在图1的示例中，圆106用作图形对象。
在随后的图形分割步骤S108中，圆106分割成同心环110-1，110-2和110-3。在图1的示例中，图形段110-1可对应音乐结构段102的前奏，而段110-2可对应音乐结构段102的副歌。此外，表示前奏的段110-1的区域小于表示副歌的段110-2的区域，因为副歌的持续时间比前奏的持续时间长。段110-3可对应跟随副歌的主歌。
在进一步显示步骤S112中，显示分割的图形对象，即圆106，包括段110-1到110-3。
图2示出另一个实施例，其中在音乐结构提取步骤S100中将音频数据101分割成音乐结构段。音乐结构提取步骤100的结果是音乐结构段102。然而在图2中，在音乐结果提取步骤S100之后执行语音识别步骤S114。语音识别步骤S114可基于音频数据101和歌词信息，而歌词信息由歌词信息数据库116提供。歌词信息数据库116提供例如对应音频数据101的上述歌词信息。语音识别步骤S114的结果是基于时间的歌词信息118，其中以歌词的词映射音频信号101。
在语音识别步骤S114之后，校正步骤S120可跟随，其中根据基于时间的歌词信息118修改音乐结构段102的段边界。在图2的示例中，修改前奏的边界，而段前奏的结束现在是开始后的25秒，而不是22秒。此外，副歌的开始和结束时间被修改，现在副歌从25秒持续到1分15秒，而不再是从22秒到1分10秒。
图3示出一个示例，其中确定关于上述麦当娜的歌“Sorry”的音乐结构段。在图3的中央，示出音乐结构提取部分S300，其中示出不同的音乐结构段的能量。能量是用于音乐结构提取的特征的示例。然而，可应用其它特征，而因此音乐结构提取可基于其它特征。
在歌词处理部分S302中，示出歌词信息301，以及边界信息303，其指示不同音乐结构段的边界。如上所述，边界303，例如音乐结构段的开始和/或结束点，可通过音频信号内的歌词的语音识别来确定或细化或校验。
声音聚类提取部分S304给出关于在对应的音乐结构段中演奏的不同乐器以及声乐是否在相应音乐结构段内存在的信息。此外，声乐聚类提取部分S304给出用户信息：何时出现声乐以及何时演奏哪种乐器。例如，在从0:00持续到0:22的前奏中，有五个声乐部分V-1和V-5。此外，在前奏的结束有第一电贝司部分EB-1。在整个前奏期间播放电小提琴EV。
基于时间的声乐/乐器信息对用户是有用的，因为用户能更轻松地跳到音乐片段内想要的位置。例如，如果用户想直接跳到前奏音乐结构段中的歌词“Ik ben droevig”，用户可移动定点装置到第三声乐部分V-3并选择第三声乐部分V-3的开始。系统可随后在此位置开始播放歌，即系统可开始播放以唱歌词“Ik ben droevig”的音频部分开始的音频数据。
声音聚类提取部分S304中的信息因此可有助于用户更精确地选择他想要听的歌的准确部分。
图4示出圆400，其对应的歌具有的结构带有以下次序的音乐结构段的序列：前奏、副歌、间奏、副歌、间奏、副歌、间奏和尾奏(参见图4中的图解)。为了显像这首歌，即对应的音频数据，将表示歌的圆400分割成段或环，每个都具有与相应音乐结构段的长度对应的不同的大小。因此，圆400具有第一环402，对应于前奏，第二环404，对应于副歌的第一次出现，第三环406，对应于第一间奏部分，第四环408，对应于副歌的第二次出现，第五环412，对应于之后的间奏部分，第六环414，对应于副歌的第三次出现，第七环416，对应于之后的间奏部分，第八环418，对应于尾奏。正如能看到的，不同的间奏部分406、412和416以相同风格显示，例如相同颜色。此外，副歌404、408和414的不同出现也可以相同风格显示。因此，通过唯一模式显示歌在下文也称为歌的“指纹(fingerprint)”。
包括环的圆400可以是包括选择器420的图形用户接口的部分。通过在不同环上移动选择器420，使用户能够选择对应歌中特定位置的圆400的特定位置。在图4的示例中，用户选择对应第四环408的副歌的第二次出现中的位置410。在一个实施例中，基于选择，系统可从副歌的第二次出现的开始处开始播放。在另一个实施例中，系统可在对应选择器420的位置的歌的准确位置处开始播放。因此，用户可直接跳到音乐结构段内的特定位置是可能的。如图4中所示，用户选择第四环408的中间位置，而系统可在歌的副歌的第二次出现的中间位置开始播放此歌。
图5示出带有不同模式的不同歌的“指纹”，即显像，它们产生于歌的不同结构，即不同序列和长度的音乐结构段。
在图5的示例中，示出第一圆500包括第一环501，第二圆502包括第二环503，而第三圆504包括第三环505。第一圆500和第一环501表示U2的歌“It’s a beautiful day”，第二圆502和第二环503表示Bob Dylan的歌“Blowing in the wind”，而第三圆504和第三环505表示Basement Jaxx的歌“Rendezvous”。
如在图5中所见，对于每首歌，三首歌的结构是唯一的，因此用户能非常快速地将不同的歌彼此区分。这在浏览大的音乐数据库时是有益的，即显像可帮助用户更有效地完成他/她的任务：发现特定的音乐片段或特定风格的音乐片段。在图5的示例中，相同格式用于相同类型的环。因此，在该示例中用户可看见例如U2的歌“It’s a beautifulday”中副歌重复了两次，每次具有不同的长度(副歌由从第一圆500的外面开始第二和第五环段表示)。相对于主歌部分(第三和第六环)副歌相当短。
作为比较，Basement Jaxx的歌“Rendezvous”中，副歌(从圆504的外面开始的第二和第五环)与主歌(从圆504的外面开始的第三和第六环)比较相当长。
因此，用户能快速地评估/判断歌的类型。例如，如果主歌相比于副歌相当短和/或副歌重复非常频繁，则这可指示现代流行歌。相反，如果副歌是例如相比于主歌相当短和/或仅重复一次或两次，则这可指示经典摇滚歌。
图6示出手持音乐存储装置600，其包括存储设备602。存储设备602存储对应歌的音频数据和歌词信息。歌的音频数据可提供给音乐存储提取器604和/或提供给自动语音识别引擎606。歌词信息可提供给自动语音识别引擎606。
音乐结构提取器604和自动语音识别引擎606的输出输入到处理单元608中。因此，由音乐结构提取器604和自动语音识别引擎606确定的音乐结构段的段边界被输入到处理单元608中，而处理单元608例如通过平均来合并边界，即由音乐结构提取器604和自动语音识别引擎606确定的不同音乐结构段的开始和结束点。
此外，处理单元608可确定图形段的大小，该大小取决于不同音乐结构段的长度。处理单元608控制显示器610并显示具有例如环段(也称为环)的图形段的例如圆的图形对象，显示依据的是对应的音乐结构段的长度。
图7示出图形对象的另一个实施例。在图7的示例中，图形对象是矩形条700，表示一首歌。条的总长度L表示音乐片段的完整持续时间。矩形条700包括矩形图形段702、704、706......。每个矩形图形段702到706表示相应的音乐结构段。在图7的示例中，矩形图形段702表示前奏，矩形图形段705表示副歌，而矩形图形段706表示主歌。矩形图形段对象的长度/大小表示相应音乐结构段的长度。因此，用户可快速看到歌的结构。此外，用户可快速选择想要的矩形图形段而系统可开始播放相应音乐结构段的开始部分，或备选地，系统可在某个位置开始播放音乐片段，该位置由用户使用例如定点装置(其是图形用户接口的部分)指出。
图8示出经连接804与服务器802通信的移动装置800。连接804可以是例如无线连接和/或因特网连接。移动装置800包括显示器806，其允许显示显像808-1、808-2、808-3、808-4、......。对于生成显像808必要的数据可由服务器802提供。即，服务器802可确定音乐片段对应显像808的相应结构。数据例如可包括音乐片段的音乐结构段的开始和/或结束时间，和/或音乐结构段的类型，例如诸如前奏、副歌、插曲、间奏、尾奏或诸如此类。
根据此实施例，通过查看显像808，用户可得到对音乐片段结构和类型的认识。移动装置800也可包括图形用户接口，其具有光标810，光标能用来选择特定的显像和对应的音乐片段。在图8的示例中，光标810置于显像808-4之上，而基于显像808-4的选择，系统可开始将对应显像808-4的音乐片段从服务器传输到移动装置800。因此，可以不一定传送对应显示在移动装置800上的显像808的所有音乐片段。仅基于特定显像808的选择，从服务器802传送音乐片段，即音频数据，到移动装置800是足够的。在另一个实施例中，光标也可允许仅选择一个或若干显像808-1、808-2、808-3、808-4、......的图形段。如果用户仅选择一个或若干图形段，则可能仅相应歌的一部分被传输到移动装置800，该部分对应所选择的图形段。
以下说明可帮助本领域技术人员得到用于显像音频数据的方法/装置的更好的理解。
存在两个部分，即
A)元数据对齐部分，和
B)显像部分。
在元数据对齐部分中，包括文本单元的不同元数据与音乐片段(即一首歌)的声音信号对齐。元数据对齐部分由此可包括以下三个主要部分：
A1)歌词处理
A2)结构提取，和
A3)声音聚类提取
作为输入，可使用音乐片段的歌词并且对应的段信息，即歌词，可包括表示前奏、间奏、副歌、主歌及诸如此类的分类。
可执行以下步骤：
-结构提取由此确定对段边界的估计。可以存在与相应音乐结构段的每个段边界相关的误差容限。
-附加地或备选地，可执行自动语音识别来对齐预定的歌词和声音信号。在一个实施例中，声音关键词定位用作用于自动语音识别处理的算法可以是可能的。
-歌词处理和结构提取的结果可以被合并，即对结构提取中确定的音乐结构段的边界的估计可由歌词处理获得的结果进行修改或校正，反之亦可。
-可选地，可执行声音聚类提取。因此，可使用来自元数据库的可用于音乐片段的元数据。如果例如关于歌的元数据指示该首歌包括电贝司、电小提琴和电吉他，则在声音聚类提取期间，可搜索声音数据以准确寻找这些乐器。因为哪种乐器包含在声音数据中是先前已知的，基于例如频率分析来定位乐器可能更容易。
在显像部分B中，音乐片段的不同音乐结构段的确定的边界可用作歌的指纹显示的基础。因此，可提取基于时间的元数据，其使得能够按照歌词、乐器类和结构对音乐进行指纹鉴定。
使用索引和提取方法，语言的和声音的基于时间的元数据可对每个单独的歌生成。这些元数据可描述对歌中的每个明确的时间戳划分成乐器类、歌词和模块(前奏、副歌、......)的内容。
因此，媒体内容的分类、选择、搜索和表示可使得能够设置、发现和探查媒体以用于内容发布、推荐和检索服务。
在现有技术中，电子音乐通路(electronic music distribution)(EMD)系统可使用基于描述元数据(例如音乐家、标题、年份、流派、基调等)的推荐和分类，并仅基于个人的或基于合作的内容信息(喜欢/不喜欢、评级分数等)和综合的歌标准(来自该音乐家、记录(record)、流派、基调等中的多个)返回搜索结果和/或推荐。
这些现有技术系统不可区分带有单独特性的独立模块，其含有更多内在信息。
通过使用索引和提取方法，语言的和声音的基于时间的元数据允许生成包含歌结构的明确位置(时间戳)的元数据，关于任何特定的歌或媒体项目的该特定时间戳上正在演奏的乐器以及正在唱的准确歌词。可运行以下部分。
(I)结构提取
通过取样和比较在每个时间戳的信号模式(信令、建模、处理)，可能识别模块，即组成歌的音乐结构段(前奏、间奏、副歌、主歌和尾奏)。这些模块随后可排列成按时间先后次序以描述歌的唯一结构和指纹。
(II)歌词处理
基于文本文件和语言处理方法，文本可与(I)中描述的模块相关。通过应用文本/语音识别方法，也可以基于文本来标识模块，从而允许验证或校正(I)的结果，因此改善结构和歌词提取的健壮性。
(III)声音聚类提取
使用(I)和(II)的结构的描述并应用信号处理方法，可对每个时间戳识别演奏的乐器和声乐并将其与歌中包含的模块联系起来，声乐分类处理。这可使得对单独的歌的独立部分能够进行甚至更详细的指纹鉴定。
声乐可区分为男声、女声以及合唱。乐器可区分为弦乐、打击乐器、电子乐器、非电传音乐器、号角、铜管乐器等等。
指纹鉴定：
内在元数据可使得能够根据模块进行指纹鉴定，并使用来自黑胶的已知模式显像，该模式显示基于版样(pressing)的唯一的暗和亮的模式(dark and lighter pattern)并直接与上述模块相关。
模块(音乐结构段)：
大多数音乐显示连贯的歌结构，其由以下模块(也称为音乐结构段)描述：
前奏：序曲或前奏通常是由三或四乐句组成一主歌，用于引入主旋律或对听众给出情境。
主歌：当歌的两个或更多部分基本上具有一致的音乐和不同的歌词时，这些部分可以是歌的主歌。因此，主歌大体上对应诗歌的节。主歌中歌词的重复往往少于它们在副歌中的重复。
副歌：副歌是歌的副句。它假定较高水平的力度和活跃性。当两段或更多段的歌词具有几乎一致的文本，这些段就是副歌的实例。副歌重复至少两次，重复之间没有或很少差别，从而成为歌词的最多重复的部分。它也是主旋律更清楚的地方。副歌也通常是听众易于记住的部分。
在流行音乐中，副歌用于指歌的副句并假定较高水平的力度和活跃性，通常具有更多的配器。副歌可以是基于一个正式部分的重复或重复演奏的块构造音乐片段的可组合的和/或附加的方式。当歌的两部分或多个部分具有基本上相同的音乐和歌词，这些段可能就是副歌的实例。
间奏：在歌写作中，间奏是连接那个歌的两个部分的插曲。因为主歌重复至少两次，则间奏可取代第三主歌或跟随它，从而延迟副歌。在两种情况下，它引导进入副歌。间奏后的副歌通常在最后并通常重复，以便强调它是最终部分。如果，当预期主歌或副歌却得到某些东西在音乐上和歌词上不同于主歌和副歌时，它可能就是间奏。
尾奏：尾奏也称为结束或尾声。尾奏不一定出现；该部分位于主歌的末尾并往往是关于主旋律的终结。
使用场景：
流行音乐可容易由广泛的听众接受，通过大众传媒发布为商业产品，覆盖大多数现代音乐流派，例如摇滚、pop、舞曲和电子音乐。
图形用户接口(GUI)可基于黑胶，即如上所示的指纹鉴定，因为冲压根据实际演奏的乐器而变动，并且这能在黑胶上识别。典型的黑胶唱片是平的碟，以恒定角速度旋转，带有其中停靠唱针的刻的螺旋的凹槽。通过基于声音的基于时间的元数据对不同的部分应用不同的颜色或结构，用户可以如下方式交互：他/她能定位歌中的具体的歌词，将他/她置于歌结构的特定的部分内，或甚至要求系统给他/她共享相同乐器组合的歌的推荐。
因此，可实现优化的搜索功能。基于被显像的音乐接口，用户不仅能搜寻特定综合的歌标准，例如音乐家、标题和流派，还能搜寻特定孤立的歌标准，例如乐器和/或指定的词/句子(歌词)。
还可提供导航和浏览功能。基于被显像的音乐接口，用户可能够基于显像的歌结构贯穿歌导航(流传送)。用户能选择直接到歌的副歌或直接导航到歌中的特定部分，在那里正在唱歌词的特定段。
还可实现优化的推荐功能。基于被显像的音乐接口，用户可能够要求系统提供匹配他/她想要的孤立的歌标准的指定推荐，例如“请向我推荐具有相似乐器、声调......的歌”，而不管用户是否喜欢或不喜欢该首歌的全部。
因此，来自声音的基于时间的元数据和相关结构的信息可用于显像歌的相关部分。
贯穿歌或音频内容的探查或导航可使用上述图形用户接口更方便地进行，因为用户可以能够拾取唱针并贯穿歌进行流传送，即可实现快进的新方式，同时记住歌中的位置。
还可实现改进的预听。预听音乐曲目在目前的商业服务提供中可能通常仅允许播放歌的初始的30秒。如上所述的曲目的显像可允许用户将唱针放置在副歌或主歌处，或放置在另一个以特定颜色标记的音乐结构段处。通常，例如歌的副歌将更容易被用户识别或记住，而且用户将更有可能从例如在线商店购买歌。因此，可刺激购买，并且可获得对于唱片业的附加的收入。
也可创建铃声。歌的副歌或任何其它部分，即音乐结构段，可以如上所述的颜色模式显像，并且用户可轻松地选择他/她想要的部分来当作铃声。可裁剪音乐的该部分并传输成适当的移动电话格式。随后，该部分可借助收费的短消息服务(SMS)传送到移动电话，其可立即允许准确的计费。这可允许音乐服务公司参与高度成功的铃声业务。
如上所述，指纹鉴定，即如上所述的音频数据的显像，是将歌显像为唯一的和单独的方式。因此每首歌以唯一的方式显示，取决于其结构和流派。
可提供以下功能：
1.提供使用显像的颜色模式的接口贯穿歌流传送。
2.基于歌词搜索歌并直接到该歌的段。
3.选取直接到副歌或歌的其它部分。
4.搜索包含指定乐器组合的歌并直接到该歌的段。
可执行以下步骤：
步骤1：结构提取-标识描述歌的结构的模块
-用于该处理的技术可称为信号建模处理(分析和比较歌的时间戳内的相似结构)
-这产生基于时间的结构元数据的处理。
步骤2：歌词提取-将歌词指配给每个对应的时间戳
-用于该处理的技术称为歌词指配处理(采用语音识别技术将基于文本的歌词与实际歌的歌词相比较)
-这产生基于时间的歌词元数据的提取
-在该处理中，也可有“结构反馈控制”算法，其验证在信号建模过程中标识的结构(注意：歌词也确定歌的结构)
步骤3：声音聚类提取-对每个时间戳标识乐器的和声音的类别(声乐、电子鼓、电贝司、电吉他、电小提琴、合成器......)
-用于该处理的技术可称为声音分类提取(定义声音的声响方面的相似性并将它们分类成明确的单元)。
-这产生基于时间的声音聚类元数据的提取。
步骤4：基于时间的元数据的显像-在该处理中，提取的基于时间的元数据由显像的音乐接口呈现。
-对于流行音乐，可使用动态的黑胶指纹鉴定用户接口(基于动态流通过(stream-through)技术)。
因此，使用基于时间的元数据以便更好使用包含在音乐片段中的内在信息可以是可能的。此外，对于离线和在线平台都应用所述技术可以是可能的。创建显像的音乐接口可帮助音乐爱好者发现和探查新的音乐曲目以便进一步改善现有的个人化音乐推荐系统。因此，可实现对于用户新的、容易的且方便的音乐体验。
还可以可能将以上应用到用户生成的内容。进入全世界成百上千的消费者的集体体验、技能和才智可完全脱离用户生成的音乐内容模型。借助上述的音乐显像接口，其可基于指纹鉴定的和基于时间的元数据模型，用户可能够共享他们自己的音乐产品。用户可能够将他的歌上载到系统中，系统将自动地提取必要的基于时间的元数据用于显像。有了他/她的编辑的元数据，用户可能够与世界上的其他人共享他的工作。背后的商业模型可以是基于订购的利益共享的模型。
将以上应用到专用目标组也是可能的。对于瞄准机会的市场(niche market)，在歌和目标组方面潜在地存在大市场。还有旧的分类(back catalogue)、较老的唱片集仍然被资深音乐迷深情地怀念或被新的音乐迷重新发现。存在现场曲目、单曲(B-sides)、混编曲目(remix)、甚至(gasp)封套。在流派中的流派中的流派，存在数以千计的小类别(niche)。例如，在DJ团体中黑胶未消失。遍布世界地，数千职业和业余的DJ正在跑到各种专门的黑胶商店去发现新唱片以用于播放、共享和收集。通过使用上述的显像的指纹鉴定技术，可能为DJ和电子音乐爱好者提供第一真实供应，以便以他们习惯的相同的方式发现并购买新曲目，只不过更好、更快而且更集中。
以下也可被认为是可能的实施例：
一种用于显像音乐片段的结构的方法，所述结构包括音乐结构段，每个音乐结构段具有音乐结构段长度，所述方法包括以下步骤：将预定的图形对象分配给所述音乐片段，所述图形对象具有预定的大小；将所述图形对象分割成图形段，其中每个图形段具有表示所述音乐结构段长度的大小。
一种用于显像对应音乐片段的音频数据的部件，包括：用于基于所述音频数据确定所述音乐片段的结构的部件，所述结构包括各具有音乐结构段长度的音乐结构段；用于将预定的图形对象分配给所述音乐片段的部件，所述图形对象具有预定的大小；用于将所述图形对象分割成图形段的部件，其中每个图形段具有表示所述音乐结构段长度的大小；以及用于将所述图形对象和所述图形段显示在显示器上的部件。
一种用于显像对应音乐片段的音频数据的装置，包括：无线接收单元，配置成经无线连接接收至少部分所述音频数据；音乐结构提取器，配置成基于所述音频数据确定所述音乐片段的结构，所述结构包括各具有音乐结构段长度的音乐结构段；数据处理单元，配置成将预定的图形对象分配给所述音乐片段，所述图形对象具有预定的大小并将所述图形对象分割成图形段，其中每个图形段具有表示所述音乐结构段长度的大小；以及显示器，配置成显示所述图形对象和所述图形段。
根据另一个实施例，还可提供一种用于显像音乐片段的结构的方法，所述结构包括各具有音乐结构段长度的音乐结构段，所述方法包括以下步骤：将预定的图形对象分配给所述音乐片段，所述图形对象具有预定的大小；将所述图形对象分割成图形段，其中每个图形段具有表示所述音乐结构段长度的大小。
根据还有的另一个实施例，还可提供一种用于显像对应音乐片段的音频数据的方法，包括以下步骤：基于所述音频数据确定所述音乐片段的结构，所述结构包括各具有音乐结构段长度的音乐结构段；将预定的图形对象分配给所述音乐片段，所述图形对象具有预定的大小；将所述图形对象分割成图形部分，其中每个图形部分具有表示所述音乐结构段长度的大小；以及在显示器上显示所述图形对象和所述图形段。
根据还有的另一个实施例，还可提供一种用于显像对应音乐片段的音频数据的部件，包括：用于基于所述音频数据确定所述音乐片段的结构的部件，所述结构包括各具有音乐结构段长度的音乐结构段；用于将预定的图形对象分配给所述音乐片段的部件，所述图形对象具有预定的大小；用于将所述图形对象分割成图形段的部件，其中每个图形段具有表示所述音乐结构段长度的大小；以及用于将所述图形对象和所述图形段显示在显示器上的部件。
根据还有的另一个实施例，还可提供一种用于显像对应音乐片段的音频数据的装置，包括：无线接收单元，配置成经无线连接接收至少部分所述音频数据；音乐结构提取器，配置成基于所述音频数据确定所述音乐片段的结构，所述结构包括各具有音乐结构段长度的音乐结构段；数据处理单元，配置成将预定的图形对象分配给所述音乐片段，所述图形对象具有预定的大小并将所述图形对象分割成图形段，其中每个图形段具有表示所述音乐结构段长度的大小；以及显示器，配置成显示所述图形对象和所述图形段。