以下摘自与博客园博主@凌逆战的问答:
Q1:librosa.stft里导出的矩阵实部部分,官方描述是the magnitude of the frequency(频率的幅度), 是不是就是对应我们平时说的振幅/音量的意思呢?但是这个矩阵的值,又和我用librosa.amplitude_to_db导出的矩阵的值不一样,这让我很疑惑;
A1: 频率的幅度不代表音响,时域波形的增幅才代表音量。
Q2:有没有什么办法可以提取每一个采样点/帧的频率以及该频率对应的时长呢?我之前的想法是用stft导出频率和相位,然后用相位和频率的关系计算出时间差,但是stft似乎导出的不是频率因此也不可行。。。有什么建议吗?
A2: 一个采样点有没频率概念,频率的概念是一秒内采样点的个数,画个语谱图出来,应该就能明白了。
Q3:librosa里面有没有什么办法可以获取一段音频某一采样点/帧的基波呢?
A3: 求基频好像有,librosa.yin和librosa.pyin用于基本频率估计。你可以参考API手册。
再次感谢@凌逆战的悉心指教!
Reference: