基于MEL算法的音频ID比对技术的研究与实现[00原创]

2007-06-16 / Life in Programming MultiMediia Data-Structrue/Algorithms

基于MEL算法的音频ID比对技术的研究与实现[00原创]

呵呵，申请学院创新基金终于通过了！
￥2500。。。。放假要加油做了，呵呵。

基于MEL算法的音频ID比对技术的研究与实现

一、本项目的技术依据和意义（包括实际意义和应用前景，外部环境概况、水平和发展趋势，特色或创新之处，主要参考文献目录和出处）

一．实际意义和应用前景

首先，LivaID（LivaID是我们自己为这个技术取的名字）技术的实现将提出一种新颖的歌曲检索方式。在用户不知道歌曲一切相关信息的情况下自动提取并分析这首歌曲的波型特征，计算产生一个针对本首歌曲的特征值。利用这个值就可以在一定规范下的歌曲特征值库进行歌曲检索；其次，本技术的实现将提出一种新的歌曲检索规范，利用音频特征值的方式使得音频文件在检索上实现统一；最后，在这种检索方式下实现的歌词下载，歌词解析以及歌词同步具有很强的实效性，准确性，便捷性。也体现了第一时间满足用户需求的服务理念。

二．外部环境概况、水平和发展趋势

现今流行于IT界的信息检索技术纷繁多样，常规的信息检索(IR)研究主要是基于文本，例如我们已经非常熟悉的诸如Yahoo!和AltaVista这样的搜索引擎。经典的IR问题是利用一组关键字组成的查询来定位需要的文本文档，即定位文档中的查询关键字来发现匹配的文档。如果一个文档中包含较多的查询项，那么，它就被认为比其他包含较少查询项的文档更“相关”。

显而易见，这种基于关键字和面向文本的搜索技术在应用层面的推广上有一定的局限性，若我们检索的对象是音频和声乐等流媒体的信息，这种基于文本的IR技术虽然在某些方面上可以满足我们的需求，但是，这种满足是不稳定的，不可靠的，不完整的，如果我们把数字音频当成一种不透明的位流来管理，虽然可以赋予名字、文件格式、采样率等属性，但存在两个问题，首先，这样的附属文本信息量很大，难于管理，也没有得到规范化，并且在网络中这样的信息很混乱，甚至有很多歌曲就没有这样的文本信息。其次，其中的文本信息可能是重复的，缺失的，甚至是错误的，使我们得不到可靠的比较实体。因此，我们就很有可能不能准确定位到检索的对象。

正因为如此，面对音频对象，我们需要一种从本质上更可靠，更准确，更完整的检索策略和方案，这就是根据音乐的特征值与特征点进行检索的技术，并且我们相信，这也将是以后在流媒体服务中能得到广泛拓展和应用的一项技术，而且是在流媒体检索领域中占主导地位的技术。

三．特色或创新之处

针对以上提出的问题，我们在此提供一种基于音乐与歌曲内容的检索技术的实现，试想一下，当我们在网上下载到一首自己很喜爱的歌曲时，获取的信息却只是一连串日期序列数，而传统的基于文本的IR技术在这种没有任何关键字和子词信息的情况下又无能为力。而我们采取的这种新的检索技术通过对歌曲的内容采样，计算出特征值，得到一首歌曲的唯一标识，再在我们建立的特征值库中进行音频编码比对，而后在音频数据库中提取这首歌曲的所有相关信息，并且整个过程是在我们欣赏音乐的前几毫秒中自动完成，然后自动更新。与传统的方法相比，这种技术更具高效性，合理性，以及更人性化。

四．主要参考文献目录和出处

参考著作:

《A Highly Robust Audio Fingerprinting System》，Jaap Haitsma, Ton Kalker

《Robust Audio Hashing for content Identification》，Jaap Haitsma, Ton Kalker, Job Oostveen

《Audio Fingerprinting For Recognition》，Michael Mandel

参考网站:

<http://www.shazamentertainment.com>

<http://www.research.philips.com/InformationCenter/Global>

二、开发内容和预期成果（说明研究项目的具体内容并明确重点解决的关键实际问题，预期成果和提供的形式。如系理论成果，应写明在理论上解决哪些问题及其科学意义；如系应用性成果或基础性资料，应写明其应用前景及达到的技术指标）。

本项目的主要任务：

1. 研究内容：

（1）研究主流音频的编码方式

·不同编码方式下还原波形的方法

（2）研究去除波谱中毛刺的方法

·使用Haar小波函数变换波形幅度

（3）音频特征值的提取方法

·Mel 对数倒谱系数MFCC

·峰值过滤

（4）对不同提取方法所得的特征值进行处理

·计算特征值的标准偏差、数学期望值和方差

（5）与数据库样本特征值的模式匹配

·求与样本特征值的相似度

2．解决的关键问题

·引入Haar小波函数调节系数，调节波形幅度

·采用试验统计学原理，进行波形幅度最优化

·对Mel (MFCC) 算法进行改进

·对输入样本特征值与数据库样本特征值的相似度描述

3.预期成果

1）提交一份基于音频特征值检索技术实现的完美解决方案(文档形式)。

2）编码实现根据采样值计算特征值以及由数字数据转换为模拟波形数据的算法，建立遵循一定规范的特征值码库，使已完成的算法和数据库能够支持特定的模式匹配完成信息检索，并能在测试平台上实现无缝集成（软件应用形式）。

三、拟采取的研究方法和技术（包括理论分析、计算、实验方法和步骤及可行性论证，可能遇到的问题和可能的解决办法，使用到的主要技术）

根据拟定的研究内容逐一阐述本项目的研究方法和技术路线。

（1）研究主流音频的编码方式

我们将重点研究MP3 音频编码，在采样后对其进行波形还原。

MP3格式简介：

所需频宽：128～112kbps（压缩10～12倍）

特性：编码复杂，用于互联网上的高质量声音的传输，如MP3音乐压缩10倍，2声道。优点：压缩比高，适合用于互联网上的传播

缺点：MP3在128KBitrate及以下时，会出现明显的高频丢失

应用领域：voip

（2）研究去除波谱中毛刺的方法

基本Haar函数的定义为:

设有一段分辨率为N 个数据的立体声音频数据X = { x1 , x2 , ⋯, x N } ( N mod 2 = 0)

用小波函数转换为：

i=1.2…N/4 j = 4 * (i-1) + 1 (1)

i=1.2…N/4 j = 4 * (i-1) + 1 (2)

分别利用(1) 、(2) 两公式即可得到一阶小波变换后的音频数据新序列： X′= { x′1 , x′2 ,⋯, x′N′}

以及重构系数序列 Y′= { y′1 , y′2 , ⋯, y′N′} ,式中N′= N/ 2.

下图是波谱优化之前的和频谱优化之后的两个帧级波谱图的例子:

波谱优化之前波谱优化之后

（3）音频特征值的提取方法

1) 峰值过滤

对于每个帧级的峰值点（x, y）都进行如下的操作:

If Exy== max(Eij )

E_xy为特征点

Else

E_xy 不为特征点

其中x 是该峰值点的频率值，y 是该峰值点的时间值。

有x − df ≤ i ≤ x + df ，y−dt ≤ j ≤ y+dt 。df 为允许频率误差。

2) Mel 对数倒谱系数MFCC

（1）计算频域信息:

1) 对音频帧进行快速傅里叶变换( Fast Fourier Transformation , FFT) 。

2) 将时域信息xi ( n) ( n ∈ [1. .Num ]) 转换为频域信息yi ( n) ( n∈[0. .Num - 1 ]) :

yi ( n) = k = 0 ,1 , ⋯, Num - 1 　j 为虚数单位 (6)

（2）计算Mel 频率:

f i ( i ∈[1. . 24 ]) :

f 1 = 20 Hz

f 12 = 1 000 Hz

f _i= f _i- 1 + Hz i ∈[2. . 11 ] (7)

==...=

f 24 = 22 000 Hz

根据(7) 式的计算结果,代入(8) 式,即可计算出对应的Mel 频率.

Fi=61n + (8)

计算Mel 倒谱系数:

1) 利用24 个三角带通滤波器分别与⑹式计算出的频域信息yi ( n) ( n∈[0..Num - 1 ]) 求卷积,得到每个频率点的对数能量pi ( n) ( n ∈[1. . 24 ]) .

2) 根据该频点能量进行余弦变换(DCT) 即可得到Nel 倒谱系数.

—7—

FCC_i ( d) = d∈[1,2…12] (9)

（4）对不同提取方法所得的特征值进行处理

标准偏差： S = (Xn为特征值 y 为特征值的算数平均数)

标准偏差越小，这些值偏离平均值就越少。

数学期望值（均值）： E(X) =

方差： D(x) =

E(x²) =

E(x) =

根据标准偏差，数学期望，方差对不同算法所得到的特征值进行均值计算。

（5）与数据库样本特征值的模式匹配

对音频数据提取特征后，假设共N个特征，则形成了一个N维特征矢量的序列。对N维特征矢量进行聚类，一般采用模糊聚类法，模糊聚类首先要对N维特征矢量进行归一化，一般采用高斯归一化。音频聚类质心生成图如下。

音频波形

加窗处理

特征序列

模糊聚类

音频模板　

—8—

计算request和clip的相似度：

1）对于V中的每个，在W中找到与其最相似的，记为，其中d表示余弦相似度。同理，对于W中的每个V中的每个，在V中找到与其最相似的，记为。

2) request和clip之间的相似度

音频库　 ……

A B N

样本音频

D(X,A), D(X,B), …,D(X,N)

四、研究工作年度计划安排（在研究工作期限内，按月阐明研究工作具体内容）

（1）研究工作和总体安排

研究工作分三个阶段进行:

第一阶段: 收集并整理资料、阅读相关文献,对研究内容中涉及到的各问题作综述性研究。

第二阶段: 理论分析和研究。

· 研究主流音频的编码方式

· 不同编码方式下还原波形的方法

· 研究去除波谱中毛刺的方法

· 音频特征值的提取方法

· 对不同提取方法所得的特征值进行处理

· 与数据库样本特征值的模式匹配

第三阶段: 编程实现,进行实验研究和性能分析。

（2）分月计划安排

2007 年 4 月--2007 年 7 月查阅资料、整理相关工作,作综述性研究和报告。

2007 年 7 月--2007 年 9 月设计系统框架,以及各部分功能的实施策略。

2007 年 9 月--2007 年 10 月不同编码方式下还原波形及去除波谱中毛刺的方法

2007 年 10 月--2007 年 11 月音频特征值的提取方法

2007 年 11 月--2007 年 12 月对不同提取方法所得的特征值进行处理

2007 年 12 月--2008 年 2 月与数据库样本特征值的模式匹配

2008 年 2 月--2008 年 4 月编程实现,使用实际的数据对所提出的方法及策略进行实验研究和性能分析。

（格式有问题，大家如果有兴趣的话可以下载这个Word文档看看）

http://download1.csdn.net/down3/20070615/15224910580.doc

D 的个人博客

全职做开源，自由职业者

基于MEL算法的音频ID比对技术的研究与实现[00原创]