Cross-corpus speech emotion recognition based on a feature transfer learning method
基于特征迁移学习方法的跨库语音情感识别 清华大学学报. 自然科学版/2016/quote:0
摘要:在实际语音情感识别系统中,训练语音和测试语音往往来自不同的语料库,识别率下降显著。针对这一问题, 该文提出一种有效的基于特征迁移学习的跨库语音情感识别方法。引入最大均值差异(maximum mean discrepancy, MMD)来描述不同数据库情感特征分布之间的相似度,并通过最大均值差异嵌入(maximum mean discrepancy embedding, MMDE)算法及特征降维算法来寻找二者之间的邻近低维特征空间,并在此低维空间中训练得到情感分类器用于情感识别。同时为了更好地保证情感信息的类别区分度, 进一步引入半监督判别分析(semi-supervised discriminant analysis,SDA)方法用于特征降维。最后在2个经典语音情感数据库上对提出的方法进行实验评价,实验结果表明:提出的方法可以有效提高跨库条件下的语音情感识别率。
Discriminative locally linear embedding in image space
图像空间中的鉴别型局部线性嵌入方法 中国图象图形学报/2010/quote:1
摘要:为了更好地利用图像的空间关系和类信息来提高局部线性嵌入的性能, 提出一种针对图像识别的鉴别型局部线性嵌入算法, 并应用于人脸识别. 首先, 利用自适应图像欧氏距离构建近邻矩阵, 计算得到的权重矩阵, 再由权重矩阵重构特征, 然后重构出数据内在的低维空间, 最后利用线性判别分析引入类信息解决局部线性嵌入算法对测试样本无法重构以及分类的缺陷. 实验基于FRAV2D和0RL人脸数据库, 分析了图像欧氏距离和自适应图像欧氏距离算法提取图像空间信息的能力, 并将本文提出的算法与目前已经广泛使用的人脸识别算法进行比较, 其结果表明了鉴别型局部线性嵌入算法能更好地保留图像流形结构和类信息, 显著提高人脸识别准确率
Whisper to normal speech conversion using deep convolutional neural networks
利用深度卷积神经网络将耳语转换为正常语音 声学学报/2020/quote:0
摘要:耳语是一种特殊发音方式,将耳语转换为正常语音是提升耳语质量和可懂度的关键方法。为了充分利用语音的频域和时域相关性实现耳语转换,提出了使用深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)将耳语转换为正常语音。它的卷积层用来提取连续帧语音谱包络之间的频域与时域的相关特征,而全连接层用来拟合耳语在卷积层提取的特征和对应正常语音之间的映射关系。实验结果表明与深度神经网络(Deep Neural Networks,DNN)模型相比,DCNN模型获得的转换后语音的梅尔倒谱失真度(Cepstral Distance,CD)降低了4.64%,而语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)与平均主观意见分(Mean Opinion Score,MOS)分别提高了5.41%,5.77%,9.68%。
Novel face recognition method based on KPCA plus KDA
一种融合KPCA和KDA的人脸识别新方法
计算机应用/ 2008/qute:1
摘要:核判别分析(KDA)和核主成分分析(KPCA)分别是线性判别分析(LDA)和主成分分析(PCA)在核空间中的非线性推广,提出了一种融合KDA和KPCA的特征提取方法并应用于人脸识别中,该方法综合利用KDA和KPCA的优点来提高人脸识别的性能。此外,还提出了一种广义最近特征线(GNFL)方法来构造有效的分类器。实验结果证明:提出的方法获得了更好的识别结果。