帮我找找这方面的资料目前有代表性的音频检索系统有美国加利福尼亚有
目前有代表性的检索系统有美国加利福尼亚有限责任公司开发的Muscle Fish系统。我国上海交通大学图书馆也创建了一个音频数据库,允许非音乐专业人员方便地采用传统的检索途径,如音乐家名、曲名、作曲家、生平介绍等进行全文检索,获得相关的曲子;也允许音乐专业人员用乐句进行全曲检索。
分析和检索系统Muscle Fish 音乐工作者和作曲家可以从基于内容的声音检索中得到极大的好处,因为可以利用声学特征从数据库中选取所需要的声音。美国加利福尼亚有限责任公司的Muscle Fish是一种正在开发中的音频分析引擎,用于数据库中声音的自动分类和检索。目前,在网络上作为演示例子的数据库中大约有400个声音,用户可选择一个或多个声音文件作为示例,系统根据与示例的相似程度对声音进行排序。示例的声音可以是说话声、笑声、双簧管音乐、弹拨音乐、欢快音乐、小鸡声和雨声。重排序的时候,可以忽略或考虑声音持续期、平均音调或平均响度。浏览窗口中的声音名称按照字母顺序排列。 现有的声音数据库一般只允许用户把有限数目的文本关键字和描述赋予每个声音,而采用关键字进行检索。在Muscle Fish中,采用一个或多个客观的声学参数,通过指出主观概念来分析、分类和检索音频数据库,或者通过选择或输入一个参考的声音,要求数据库检索相似的(或不相似的)所有声音。 1.音频的基本分析技术 最简单的音频检索是用准确的序号查找出一段声音;较高级别的检索是匹配任何包含给定样值的声音(不受数据的采样率、量化和压缩格式的影响等)的检索;再高一级的查询是可以涉及频域信息或其它声学属性;最困难的,也是用户友善的级别是查询中可以包含声音的概念(主观)特性。当然,语音可以经过识别后转换为文本,然后对文本进行检索。 对于基于内容的检索来说,最关心的是用上述中后两级的声学和主观特性进行查询。声音的一些感知特性,如音调、响度、音色,与音频信号的测量属性非常接近,因此,可以在音频数据库中存储这些特性,以供检索。但是,其它的主观特性(例如"刮擦声")难以直接与声音的声学属性联系。对于不同的用户,这些特性甚至具有不同的含义。 为了利用不同的概念准则来检索声音,首先测量声音的各种声学属性。N个属性的集合可表示为一个N维矢量。在文本数据库中,查询的分解典型地需要匹配和比较字符串。在音频数据库中,需要匹配和比较的是主观及客观的特性。例如,我们要求查询与给定声音相似的所有声音或具有指定特性的声音。 2.声学属性 Muscle Fish使用的声学属性有: (1)音调 又称音高,是听觉赖以分辨声音高低的特性,它完全由频率决定,是构成音乐的主要要素之一。可通过计算一系列短时富立叶频谱来估计音调。 (2)响度 表示声音轻重的程度,取决于声强和频率等参数,以声音的振幅表示。响度通过信号的RMS级(分贝)来近似。 (3)音色 是区分声音的基本特征。主要由谐音的频率、数量和相对强弱决定。乐器发出的声音,即使响度和音调相同,我们仍能够容易地分辨出钢琴和小提琴,因为各种乐器形成包络线基音、泛音的频率与数量是不同的。 (4)带宽 用短时富立叶频谱的加权方差来计算。 (5)谐音 该参数用于区分谐波频谱(如元音和许多音乐声音)、非谐波频谱(如金属声)和噪声(在频率及时间上是变化和随机的)。 以上声音特性可能随时间变化,因此,分析时要计算在时间上的轨迹。从效率角度考虑,轨迹并没有存储在数据库中,对于每个轨迹,只计算和存储几个参数,包括:平均值、方差、自相关值(度量轨迹的平滑性,可以区分滑奏和狂烈变化的音调,而只用方差度量是不够的)、最大值和最小值、临界点和音调变化数(与轨迹平滑性相关的参数)、包络上升和衰减时间等。另外,还存储了声音的持续时间。这样,对于每个声音要素(音调、谐音、响度、音色和频谱波峰等),测量属性的N维矢量由持续时间加上面提到的参数(平均值、最大值、最小值、方差、自相关和形状参数)组成。 3.声音查询 如上面提到的,一些主观特性直接与度量的属性相关。但是系统必须经过训练才能较为准确地辨别某些主观特性,尤其是那些因人而异的主观特性。为了训练系统,用户拾取一组相对短小的示范声音,然后使用标准的特征矢量方法,建立表示这个特性的统计模型。一旦完成了训练,就可以直接从数据库中通过查询,选择用户要求的声音。目前,Muscle Fish采用的查询方法为: (1)赋值查询(Query By Value) 用户指定某些声学特性的值或范围来说明查询。例如,检索所有的具有特性值p0大于0.9和特性值p1小于0.2的声音。 (2)示例查询 用户提交或选择一个示例声音,针对某个或某些特性,查出所有与示例相似的声音。 例如,对于特性p0,检索所有的相似于示例声音的声音,或者是检索所有的p1值小于示例声音p1值的声音。"相似"意味着"在δ范围内"。 (3)组织/浏览 用某种或某些特性对声音分类和分组。然后,可以浏览分类和分组的声音。 4.进一步的研究工作 以上讨论的情况是假设声音是单个的声音段,实际上,较长的声音记录需要分割后才能使用以上方法进行检索。对声音的分割是通过对信号进行声学分析,并找到声音的过渡点(在测量属性上的突然变化)来实现的。 基于内容的检索并不与基于文本的检索互相排斥。除了用音频引擎检索声学和主观特性之外,用户可以使用文本的关键字和类别来检索。另外,还可以结合灵活的浏览和搜索工具帮助检索与查询。神经网络分析方法提供了不同的寻找声学属性和感知特性之间的映象方法。声音编辑和混音可以集成到数据库应用中。