• 常用有话帧检测技术(VAD)


    作者:桂。

    时间:2017-05-31  17:43:22

    链接:http://www.cnblogs.com/xingshansi/p/6925355.html 


    前言

    总结一下基本的有话帧检测(Voice activity detection, VAD)技术,基于神经网络的待后面梳理完神经网络的理论后再作整理。

    一、双门限

    这是一种Boosting的思路,即:两个弱分类器可以组合更强的分类器,依次类推,三、四门限其实都可。每一种门限对应一种判决准则。

    基本的双门限:短时能量+短时过零率,其原理是元音能量较大,用短时平均能量检测,辅音频率较高,用短时平均过零率检测。

    考虑到噪声的影响,通常作平滑处理。如:中值滤波,medfilt.

    二、相关

    该算法通过计算信号的相关系数,主要利用信号、噪声相关系数的差异性。依次扩展的方法包括:1)最大端点检测;2)利用相关函数的归一化R,主/副峰比值;3)音频的相关函数具有一定的周期性,可以转换成余弦求解→自相关函数余弦角值的端点检测。

    三、方差

    语音与噪声在频谱域中差异大,有话帧:随频带变化较大,噪声变化较小,此类方法推广的应用:1)均匀子带划分;2)Bark子带划分;3)小波包Bark子带。

    四、谱熵

    熵是衡量不确定性的量度,噪声在频谱分布较均匀,熵较大;语音分布不均匀,熵较小,归一化的能量得到概率密度,依此计算出熵,利用该原理可以实现VAD检测。

    五、能零比和能熵比

    能零比:短时能量与短时过零率的比值;

    能熵比:短时能量与谱熵的比值。

    六、其他方法

    EMD的端点检测,本质是降噪+VAD检测,丢弃EMD分解的高频分量,对剩余的IMF分量进行VAD检测。

    小波变换与基于EMD的方法大同小异。

  • 相关阅读:
    浮点数
    2020.07.13
    2020.07.07
    2020.07.06
    剑指offer(三)
    剑指offer(二)
    剑指offer
    堆排序
    归并排序
    希尔排序
  • 原文地址:https://www.cnblogs.com/xingshansi/p/6925355.html
Copyright © 2020-2023  润新知