一段讯飞、百度等语音识别API无法识别的语音最终解决办法

　　最近在做语音识别、字幕扒词相关的工作，遇到了一段录音（https://download.csdn.net/download/u014220286/12169183，各位有兴趣的可以下载下来试试），音质什么的和其他处理过的无二异，也是普通话，照常理说应该能识别出来，可为了类似这样的语音丢了工作机会（前一次没重视人工速录交了，后来又遇到了，琢磨了好长时间解决了，过了交稿时间，产生信任危机了，没有机会合作了。）记录下这次的解决过程，希望给你有需要的人帮助。

　　首先用ffmpeg查看该音频，发现是32是浮点数，立体声，转成16K单声道的，没有解决，后来想到是不是因为噪声的缘故，做了噪声消除后效果依旧；甚至怀疑到了和声音内容有关（两次音频都是和法律相关的），以前也做过庭审的例子，拿出来用ffmpeg查看音频信息，摸索半天发现可能是声道的问题。

　　找到了问题可能的点，于是在强大的音频处理软件audacity中进行了尝试，具体步骤如下：

　　在audacity中导入音频，在左侧面板中下拉三角的菜单中选择“分离立体声”，分离好后“禁用”一个声道，然后在菜单中选择“导出”，导出音频，导出的音频就可以识别了。

　　虽然没有尝试用程序解决，但有了方法，又不太耗时，总算解决了一个难点，下次不至于为此类问题失去工作机会了。

　　解决前讯飞的识别结果：

　　处理后的识别结果：

　　HTWCore下载：

　　链接:https://pan.baidu.com/s/1k4zjpMBbUf-Okczd6xUogQ 提取码:qs52

　　或者加QQ群：414750884

作者：Qubook
出处：http://www.cnblogs.com/hard/
版权声明：本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文链接。
联系方式: 个人QQ 1005354833;

相关阅读:
汉文博士——支持生僻古难字检索的开放式免费汉语词典
delphi 实现接口 Unsatisfied forward or external declaration
注册服务程序
递归的使用
NTLDR is missing 错误处理方法
测试
常见数据类型的存储结构
多维分析
showmodule
pos函数

原文地址：https://www.cnblogs.com/Hard/p/audio_transcript_channel.html