语音情感识别的多窗口数据增强方法
链接:https://arxiv.org/abs/2010.09895
摘要
提出了一种新颖的多窗口数据增强(MWA-SER)语音情感识别方法。MWA-SER是一种单模态方法;设计语音增强方法来生成额外的数据样本,并建立深度学习模型来识别音频信号的潜在情绪。该方法通过在语音特征提取过程中引入多个窗口大小,从而从语音信号中提取更多的音频特征。实验表明,提出的增强方法结合深度学习模型提高了语音情感识别的性能。
在IEMOCAP语料库上演示了MWA-SER方法的性能,并表明其优于以前的方法,分别显示出65%的正确率和73%的加权平均准确率,6%和9%的提高。文中使用最小数量的特征(34)的模型,比使用900多个特征并具有更高建模复杂性的其他模型性能更好。此外,还用“兴奋”来取代“快乐”的情绪类别,以此来评估模型。该方法实现了最先进的结果,正确率为66%,加权平均精度为68%,分别比SOTA方法提高了11%和14%。
总结
【亮点:训练过程中,采用多窗长提取语音特征,进行数据增强,提升语音情绪识别性能】
特征提取是语音情绪识别(SER)的一大难点,SER分析中常用的语音特征包括MFCC、LPCC等频域特征,以及基频、能量等基于韵律的特征。这些特征的性能会受到FFT长度、滤波器数目、滤波器类型、窗长和帧间重叠长度影响。有研究表明,窗长在语音特征提取中影响极大。
文章聚焦于数据增强,提升深度学习模型在SER任务上的性能。相比于之前工作中特征提取过程选取合适的固定窗长,本文采用多个窗长处理数据,提出MWA-SER(multi-window speech augmentation)方法。结合CNN模型,聚焦两个问题:1)解决固定窗长的问题;2)提供了更多数据用于模型训练。
文中提取了34维特征,包括13维MFCC、13维色度特征和8维时域特征。采用hamming窗。训练时采用数据增强,即特征提取时同时采用三种窗长:200ms, 100ms, 50ms,对应帧间重叠为100ms, 50ms, 25ms。测试时只采用200ms的窗长提取特征。
CNN模型中,采用4个卷积层,2个全连接层,最后是softmax层。4个卷积层的核数目分别为32,64,128,256,FC层的隐藏神经元数目分别为128和32。为缓解过拟合问题,训练过程中,引入dropout层到CNN模型中,以及early stopping。此外,每个卷积层后均采用batch normalization 和最大池化层进行特征下采样。
该方法见下图,multi-window data augmentation method, and CNN model for SER analysis:
未来可研究:窗长变化的影响,帧间重叠长度影响,最优窗长选择,在更多数据集上验证。