• 语音识别 -- 概述


    1. 语音合成
    zhrtvc:https://github.com/KuangDD/zhrtvc

    2.离线语音识别

    vosk+kaldi:https://alphacephei.com/vosk/

    tacotron:https://github.com/keithito/tacotron

    kaldi+树莓派交叉编译:https://www.jianshu.com/p/4e74861b47e9

    mozilla deepspeech:https://github.com/mozilla/DeepSpeech

    PaddlePaddle deepspeech:https://github.com/PaddlePaddle/DeepSpeech

    deepspeech2:

    kaldi:https://github.com/kaldi-asr/kaldi

    介绍:Kaldi是一个C++实现的语音识别工具,它使用Apache v2.0开源协议。 其主要目标用户为语音识别的研究者,由Dan Povey博士和捷克的BUT大学联合开发。

    优点:

    • 代码级别集成WFST:Kaldi 将 OpenFST 作为一个库编译进来。(而不是脚本的方式集成)。
    • 广泛的线性代数支持:Kaldi包括封装了标准BLAS和LAPACK库的矩阵库。 易于扩展。
    • 完整的recipe:对于很多常见语音数据集都提供完整的recipe,从而可以完整的复现整个过程。

    缺点:

    • 由于贡献者比较多,所以会有不稳定或有问题的代码更新。
    • 对使用者的要求较高。相比于HTK那种解释透彻的文档,大部分Kaldi的文档都是给领域的专家使用的,上手较为困难。

    athena:https://github.com/didi/athena   https://github.com/athena-team/athena

    vosk api: https://github.com/alphacep/vosk-api
    传统vs深度学习

    深度学习--> 端到端

     

    语音输入:python -m speech_recognition

    sphinx是由美国卡内基梅隆大学开发的大词汇量、非特定人、连续英语语音识别系统。

     https://zhuanlan.zhihu.com/p/37083530

     

    SpeechRecognation:支持中文和与英文

    实现; https://www.jianshu.com/p/08b9c6fc6bcb

     

    3. 相关中文数据集

    thchs30:http://www.openslr.org/

    Aishell:http://www.aishelltech.com/kysjcp

      Aishell开源178小时的中文语音语料及基本训练脚本, 400个人讲,其中训练集340个人,测试解20个人,验证集40个人

    4、 在线语音识别

    1. 科大讯飞API
    • 目前需求对应的语音听写功能免费使用;
    • 讯飞语音国内的专业性,支持普通话,粤语,英语;
    • 已完成demo的集成和功能测试;
    • 网络会成为限制(有离线的)
    1. 阿里云
    2. 腾讯云
    3. 百度-AI开放平台

     参考:

    https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/79832700?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight

  • 相关阅读:
    获取图形验证码
    cmd命令操作Oracle数据库
    关于VC工程编译不过去这件事
    Boost.Asio的使用技巧
    boost 实现http断点续传
    http和ftp下载的区别
    VS2008 debug可以编译过,Release No such file or directory
    C++ 类中特殊的成员变量(常变量、引用、静态)的初始化方法
    在VC中改变TAB顺序的方法
    BCG界面库
  • 原文地址:https://www.cnblogs.com/Towerb/p/14009846.html
Copyright © 2020-2023  润新知