一.帧时长计算
通俗的讲采样频率是指计算机每秒钟采集多少个信号样本,比如声音信号,此时采样频率可以是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准。采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的样本数据就越多,对信号波形的表示也越精确。采样频率与原始信号频率之间有一定的关系,根据奈奎斯特理论,
只有采样频率高于原始信号最高频率的两倍时,才能把数字信号表示的信号还原成为原来信号。在数字音频领域,常用的采样率有:
8000Hz 电话所用采样率,对于人的说话已经足够
11025Hz 获得的声音称为电话音质,基本上能让你分辨出通话人的声音
22050Hz 无线电广播所用采样率,广播音质
https://baike.baidu.com/item/采样频率/1494233?fr=aladdin
从而,计算帧时长的方法:
假设帧长=256个采样点,采样频率为:fs=16000.则一秒采了16000个样本.
一帧时长=1/16000256=0.0165625s。
写成matlab代码:
frameTime=1/fsframeLength;
二.端点检测原理
那么这个阈值要怎么选呢?这个门限的选取是遵从什么样的规则呢。
这里的E是过零率,M是平均幅度,E是能量。 S是无声,U是清音,V是浊音。 其中清音过零率最大,浊音能量最大。
由上图可以看到,
双门限法:
(1)用较高的短时能量门限Mh确保是浊音。确定为A1-A2
(2)短时能量>较低的门:M1的还是语音段。确定为B1-B2
(3)从B1开始向前搜索,短时过零率>门限Zs的是清音部分。
从B2向后搜索,短时过零率>门限Zs的是清音部分。
那这里的MH,ML,Zs怎么确定呢。