1、安装音频录放工具“sox”:
"sox"主要包含两个命令,后续将会用到:rec(录音)和play(播放)。
sudo apt-get install sox
2、创建目录树:
为了有序组织各种中间文件,在创建如图所示目录树:
mkdir -p htk_color/{config,data/{test/{mfc,speech},train/{mfc,speech}},dict,hmm0,hmm1,hmm2,hmm3,hmm4,hmm5,hmm6,hmm7,labels,lists,results,scripts}
3、录制“训练语音文件”:
cd htk_color;(注:之后的所有命令都在此目录下执行)
录制音频文件01.wav~50.wave,并置于data/train/speech/目录中(按CTRL-C结束录音),
rec -b 8 data/train/speech/01.wav
rec -b 8 data/train/speech/02.wav
……
rec -b 8 data/train/speech/50.wav
录音的内容为:“RED"或"YELLOW"或"BLUE",总共要50个,以下给了个清单,以供参考(请按顺序录制):
(请将此清单保存至"labels"目录下,并且命名为"trainprompts")
BLUE
RED
BLUE
BLUE
BLUE
YELLOW
RED
BLUE
BLUE
RED
YELLOW
YELLOW
BLUE
BLUE
RED
BLUE
BLUE
YELLOW
YELLOW
BLUE
RED
BLUE
BLUE
BLUE
RED
BLUE
YELLOW
BLUE
BLUE
BLUE
YELLOW
RED
YELLOW
YELLOW
YELLOW
BLUE
BLUE
RED
RED
RED
RED
BLUE
YELLOW
RED
BLUE
BLUE
BLUE
BLUE
BLUE
YELLOW
4、录音试听(可选):
试听一下有没有一走神录错了的:
play data/train/speech/01.wav
play data/train/speech/02.wav
……
在一个阳光明媚的下午,因为害怕打扰到室友睡觉,我躲在月黑风高的厕所,带着满满的厕所味,英勇的录制了这50个训练音频,
以供参考(建议自行录制,以便测试时达到最好效果,毕竟最后识别的是你的声音,除非你的声音和我一样有“魅力”):
HTK Book涉及内容:
Chapter 3: 3.1.3 Step 3 - Recording the Data