韦国刚 周萍
【摘要】模仿者蓄意模仿说话人的语音,当相似度较高时,说话人识别系统就有可能被模仿者欺骗。语音特征参数作为说话人识别系统的关键组成部分,直接影响系统的性能。Mel系数是语音识别领域最成熟的特征参数之一,但是,MFCC特征参数在语音识别中对中、高频段的识别精度较低。为了解决上述问题,融合Mid-MFCC和IMFCC,采用增减分量法,提出了MMI-MFCC特征参数。实验结果表明,新的MMI-MFCC特征参数比传统的MFCC特征参数更有效的区分模仿语音的相似度。
【关键词】模仿语音;Mel系数;增减分量法;相似度
1.Mel及其相关特征参数
1.1 MFCC特征特征参数
作为一种能够较好模拟人耳对声音信号的特殊感知特性的特征,Mel频率倒谱参数(MFCC)近年来被广泛应用在语音识别领域,1Mel的意义对应为1000Hz音频感知程度的1/1000。经研究,Steven B.Davis建立了符合人类听觉特性Mel频率,与实际频率之间的对应关系如下:
(1)
公式(1)中,Mel频率的单位是Mel,将语音信号频率划分成一个三角滤波器组——Mel滤波器组[1]。Mel尺度滤波器组各个滤波器在Hz频率坐标轴上并非等距的,但在Mel频率坐标轴上是等距的,各滤波器之间交叉重叠。用式(2)对Mel滤波器进行计算:
(2)
公式(2)中,M为滤波器组中滤波器的个数,一般。
MFCC参数[1][2]的算法流程图如图1所示,Mel滤波器组的作用主要在于将语音信号从Hz频域空间映射到人耳感知的Mel频域空间,使滤波器的空间尺度与人的听觉感知尺度更加相近。
图1 MFCC的提取流程图
1.2 改进的Mel频率倒谱系数
Sandipan在MFCC参数的基础上,通过改变Hz-Mel频率直接的非线性对应关系,研究设计出一种与Mel滤波器完全相反的I-Mel滤波器,提出了逆Mel频率倒谱参数(IMFCC)。I-Mel滤波器组的滤波器在低频段分布较为稀疏,而集中分布在高频段,从而使得IMFCC在高频段具有较强的频谱信息。IMFCC的Hz-Mel频率的对应关系为:
(3)
IMFCC的Hz-Mel频率对应关系及I-Mel频率滤波器的分布如图2所示:
图2 IMFCC频率对数关系及I-Mel滤波器组
图3 Mid-Mel频率对数关系及I-Mel滤波器组
MFCC和IMFCC分别解决了低频段和高频度段的计算精度问题,可是中频段的计算精度仍然不够理想。为了解决上述问题,经研究设计出了一种在中频段分布密集的Mid-Mel滤波器组。Mid-MFCC频率倒谱参数[5]参考MFCC和IMFCC的Hz-Mel频率对应关系,在0~2000Hz频率段相似于IMFCC的高频段,在2000~4000Hz频率段相似于MFCC的低频段,从而得到了Mid-Mel的Hz-Mel频率对应关系,Mid-MFCC的Hz-Mel频率对应关系及Mid-Mel频率滤波器组分布如图3所示。可以看出,IMFCC和Mid-MFCC的提取过程与MFCC,基本相同只需要改变滤波器组的响应函数即可。
2.混合特征参数
2.1 增减分量法
增减分量法是一种计算各阶倒谱分量平均贡献(相对重要性)的有效方法,具体计算公式如下:
(4)
公式(5)中,R(i)表示第i阶倒谱分类的平均贡献值,n为倒谱阶数,p(i,j)是从第i阶到第j阶倒谱系数特征的识别率。若求出一个特征的平均贡献值R(i)为正值,则说明添加该特征会提高识别率,反之,则说明添加该特征会降低识别率。本文中仅顺序添加或社区特征分量,所以R(i)仅代表该分类的相对重要性,而不能依次衡量各分量之间的依赖关系。
2.2 MMI-MFCC混合特征参数
为了提高MFCC在中、高频段的语音识别分辨率,根据增减分量法原理,求出MFCC、Mid-MFCC和IMFCC三种特征参数对识别率贡献最大的n阶倒谱系数后,再在它们组合到一起,便得到了新的混合MFCC,本文定义为MMI-MFCC。其参数的提取过程如图4所示。
图4 H-MFCC的提取流程图
3.实验结果和分析
模仿语音库是研究模仿语音说话人识别的关键问题之一,它的质量直接影响实验研究的意义。一些专业配音网站,从事各类题材的配音,他们拥有很多优秀的专业配音员,在配音工作室有他们专业的录音棚,拥有模仿者和被模仿者的语音材料,采用频率为8kHz,量化精度为16bit。
提取16阶的MFCC参数,并计算其Mid-MFCC和IMFCC特征参数,根据增减分量法原理,选取16阶的MMI-MFCC混合特征参数,用欧氏距离计算原语音与模仿语音的MMI-MFCC差异,然后对MMI-MFCC的欧氏距离从小到大进行排序提取16阶的MFCC参数,用欧氏距离计算原语音与模仿语音的MFCC差异,然后对MFCC的欧氏距离从小到大进行排序。将16阶MFCC和MMI-MFCC的欧氏距离进行及相似度排名对比,见表1所示。
通过表1可以看出,模仿者与被模仿者之间,混合特征参数MMI-MFCC欧氏距离远大于MFCC的,这说明混合参数MMI-MFCC区分模仿者与被模仿者的性能得到了明显的提高;欧氏距离排名与模仿相似度排名中,混合特征参数MMI-MFCC最相似,有约85.71%的模仿者的排名是一致,MFCC最差(僅约57.14%排名一致),这说明混合特征参数MMI-MFCC对于描述语言模仿相似程度的能量最好。
4.结束语
MFCC较好地模拟人耳对声音信号的特殊感知特性的特征,针对MFCC中、高频段识别精度不高的问题,融合Mid-MFCC和IMFCC,提出了混合特征参数MMI-MFCC,并采用增减分量法很好地控制了它们的计算时间复杂度和空间复杂度。对于辨别模仿语音,新的混合特征参数具有更好的性能。
参考文献
[1]郭春霞.基于MFCC的说话人识别系统研究[D].西安:西安电子科技大学,2006.
[2]张晶,范明,冯文全等.基于MFCC参数的说话人特征提取算法的改进[J].电声技术,2009,33(9):61-69.