• 微信小程序语音识别


    语音识别现在已经发展的很成熟了,经过比对发现百度对开发者比较友好,提供很多种语言的SDK,对python来说直接安装 pip install baidu-aip 文档写的也不错  具体参考:http://ai.baidu.com/docs#/ASR-Online-Python-SDK/top

    也看了讯飞的语音,发现讯飞对开发者的支持不是太好,调用起来不方便

    其实最关键的是微信小程序的语音格式是silk,两家都不能识别silk,需要将silk格式转为wav或者pcm格式,音频格式的转换遇到了麻烦,搞了两天才算转换成功,测试发现将语音文件转为wav识别起来成功率高

    看到其他人的博客说是silk其实是base64加密后的webm格式,说是需要先将base64解密,还需要自己写解密的代码,参考:http://blog.csdn.net/rjliulei/article/details/77800760

    自己比较懒,总是想找成熟的解决方案,终于找到一个很棒的方案:

    需要安装FFmpeg和 silk-v3-decoder

    FFmpeg找下安装教程即可

     silk-v3-decoder的安装参考:https://www.imooc.com/article/21550?block_id=tuijian_wz

    再就是转码的命令了,参考:http://blog.csdn.net/m0_37730244/article/details/78615427

    命令转码的时候有个地方看了半天才看懂 silk/decoder  /data/test.silk  /data/1.pcm

    编译 silk-v3-decoder后会在里面生成一个silk的目录,里面有个decoder程序,这是转换的关键 用它执行音频格式转换

    测试了好几个wav和pcm识别的效果,发现还是wav识别率高,我用的是 ffmpeg -y -f s16le -ar 24000 -ac 1 -i  /data/1.pcm  -f wav -ar 16000 -b:a 16 -ac 1  /data/1.wav 

    将pcm转为wav的命令,最后调用百度的识别sdk

    下面是识别的接口

    # coding=utf-8
    from aip import AipSpeech
    import os


    class ConvertVoice(object):
    """百度语音识别"""

    def __init__(self):
    super(ConvertVoice, self).__init__()
    self.APP_ID = '用的时候需要换成自己申请的内容'
    self.API_KEY = '用的时候需要换成自己申请的内容'
            self.SECRET_KEY = '用的时候需要换成自己申请的内容'
            self.client = AipSpeech(self.APP_ID, self.API_KEY, self.SECRET_KEY)

    def get_file_content(self, filePath):
    '''
    读取文件
    :param filePath: 文件的绝对路径
    :return:
    '''
    try:
    with open(filePath, 'rb') as fp:
    return fp.read()
    except Exception as error_msg:
    print(error_msg)
    return error_msg

    def get_str_from_voice(self, filePath):
    '''
    识别本地文件
    :param filePath: 文件的绝对路径
    :return:
    '''
    try:
    if os.path.exists(filePath):
    rt = self.client.asr(self.get_file_content(filePath), 'wav', 16000, {
    'lan': 'zh'})
    return rt
    else:
    return {"err_no": 2000, "err_msg": "文件不存在"}
    except Exception as error_msg:
    print(error_msg)
    return error_msg


    if __name__ == '__main__':
    cv = ConvertVoice()
    rt = cv.get_str_from_voice("F:/19.wav")
    print(rt)
  • 相关阅读:
    CF1056G
    mysql xtrabackup 备份恢复
    linux yum源配置
    mysql 第24章 优化
    mysql 第23章 监控
    mysql 第22章 高可用MMM、MHA
    mysql 第21章 集群
    mysql 第20章 复制
    mysql 第19章 备份恢复
    mysql 第18章 导入导出
  • 原文地址:https://www.cnblogs.com/fly-kaka/p/8301741.html
Copyright © 2020-2023  润新知