三、Audio To Text

三、Audio To Text
本节来概要的谈一下利用Google的Api实现将语音转换为文字

请求的URL为：http://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=zh-CN　　
　　　　　　 http://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=zh-CN&maxresults=1
参数：
1、xjerr　　???参数功能不详，值只能是0或1，去掉也能正常获得结果；
2、client　　客户端类型
3、lang　　语言类型，英文为en-US。更多参见http://msdn.microsoft.com/en-us/library/ms533052(v=vs.85).aspx
4、maxresults　　最大返回结果数量，多个结果在hypotheses(请求返回的数据项)列表中保存。

使用方式：
```
        protected void Page_Load(object sender, EventArgs e)
        {
            Response.Write(GoogleSTT());
        }
        private string GoogleSTT()
        {
            string result = string.Empty;

            string inFile = @"F:\hebeidaxue.wav";
            FileStream fs = new FileStream(inFile, FileMode.Open);
            byte[] voice = new byte[fs.Length];
            fs.Read(voice, 0, voice.Length);
            fs.Close();

            HttpWebRequest request = null;
            string url = "http://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=zh-CN";
            Uri uri = new Uri(url);
            request = (HttpWebRequest)WebRequest.Create(uri);
            request.Method = "POST";
            request.ContentType = "audio/L16; rate=16000";
            request.ContentLength = voice.Length;
            using (Stream writeStream = request.GetRequestStream())
            {
                writeStream.Write(voice, 0, voice.Length);
            }
            using (HttpWebResponse response = (HttpWebResponse)request.GetResponse())
            {
                using (Stream responseStream = response.GetResponseStream())
                {
                    using (StreamReader readStream = new StreamReader(responseStream, Encoding.UTF8))
                    {
                        result = readStream.ReadToEnd();
                    }
                }
            }

            return result;
        }
```
返回结果的格式
```
{"status":0,"id":"a44e9fab4888a7713175a07b035d49ad-1","hypotheses":[{"utterance":"大家早上好","confidence":0.7236291}]}
```
其实就是通过Http向google发送语音请求，返回的是识别的内容。
需要注意： request.ContentType
google默认的是request.ContentType = "audio/x-flac; rate=16000; 即：支持flac格式的语音。

其他的语音格式：

1、WAV格式

请求Header：Content-Type: audio/L16; rate=16000

返回结果：识别成功

2、MP3格式

请求Header：Content-Type: audio/mpeg; rate=16000

返回结果：无法识别的编码

请求Header：Content-Type: audio/mpeg3; rate=16000

返回结果：无法识别的编码

请求Header：Content-Type: audio/x-mpeg; rate=16000

返回结果：无法识别的编码

请求Header：Content-Type: audio/x-mpeg-3; rate=16000

返回结果：无法识别的编码

请求Header：Content-Type: audio/mp3; rate=16000

返回结果：无法识别的编码

3、PCM格式

请求Header：Content-Type: audio/x-ogg-pcm; rate=16000

返回结果：无法识别的编码

请求Header：Content-Type: audio/pcm; rate=16000

返回结果：无法识别的编码

4、SPEEX格式

请求Header：Content-Type: audio/x-speex-with-header-byte; rate=16000

返回结果：识别成功

请求Header：Content-Type: audio/speex; rate=16000

返回结果：识别成功

无法识别的类型，就只能转码之后在去请求了。

本机测试语音时候可以通过软件Audacity去录音(rate=16000),然后保存为想要的格式。
作者：武沛齐
出处：http://www.cnblogs.com/wupeiqi/
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。
相关阅读:
文件的打开和保存
 eclipse快捷键汇总
 FileNameExtensionFilter文件过滤
 java中文件保存、打开文件对话框
 FileInputStream（字节流）与fileReader（字符流）的区别
 Java文本编辑器中遇到的问题详解
 前端基础之 BOM和DOM
前端基础之JS
前端基础之 CSS
前端基础之 HTML
原文地址：https://www.cnblogs.com/wupeiqi/p/3064088.html