• 简要!语音识别


    语音识别:是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

    语音识别应用业务场景特点:

    1. 离线 /在线(又称实时)

        在线对网络要求高,存在丢数据情况,非业务数据可容忍.

    2. 长语音/短语音

         短语音的界定一般是 60秒以内.

    语音识别应用技术场景特点:

    1. 同步

       实时返回结果,达到“边说边出文字”的效果.

    2. 异步

        先上传语音录音,后台处理完成后,通过回调或轮询查询的方式获取结果.

    应用形态:

    1. 小程序+后端.

    2. 移动端.

    3. H5(webscoket)+后端.

    行业主流供应商:

    1. 科大讯飞

        专业,技术成熟度高、费用高、技术文档完善;

    2. 阿里

        支持实时识别、离线短语音、离线长语音;

    3. 百度

       目前 HTTP 形式只支持短语音模式,SDK 形式支持长语音,但只支持移动端;

    4. 腾讯

        支持实时识别,离线短语音、离线长语音、文档完善;

     

    收费方式:

    1. 年收费  

        打包一年多少时长,相当于包年,价格相对便宜.

    2. 阶梯型收费

        可以按时长量收费,适合短期内投入运营的产品,阶梯型特点用的越多越便宜.

    参考文档:

     

    1、 https://www.xfyun.cn/services/voicedictation
    2、 https://ai.aliyun.com/nls?spm=5176.12061034.1251721.9.6a9b7403je0lFG
    3、 https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre
    4、 https://cloud.tencent.com/document/product/1093/35680

    欢迎关注公众号:媛道

     

  • 相关阅读:
    linux---shell数组
    linux---shell传递参数
    Windows mysql免安装版配置。(版本号-5.6.45);
    contos 6.9 和 centos7 配置docker?
    数据库表的演化过程
    docker简单介绍。
    Linux 配置 mycat 和 分库分表配置。
    Linux 配置mysql 免安装版。
    mycat 简单介绍
    kibana 对es的简单操作。
  • 原文地址:https://www.cnblogs.com/wangzhiyong/p/12322633.html
Copyright © 2020-2023  润新知