Sphinx语音识别学习记录（六）我的目标和几个想像的方案（闲置中）

Sphinx语音识别学习记录（六）我的目标和几个想像的方案（闲置中）
CMUSphinx系列目录
http://www.cnblogs.com/yin52133/archive/2012/06/21/2557219.html - （一）基本运行测试 http://www.cnblogs.com/yin52133/archive/2012/07/12/2587282.html - （二）自然语言处理原理研究 http://www.cnblogs.com/yin52133/archive/2012/07/12/2587419.html - （三）小范围语音英文识别 http://www.cnblogs.com/yin52133/archive/2012/07/12/2588201.html - （四）小范围语音中文识别 http://www.cnblogs.com/yin52133/archive/2012/06/22/2558806.html - （五）错误调试 http://www.cnblogs.com/yin52133/archive/2012/07/12/2588418.html - （六）我的目标和几个想像的方案（闲置中）
(1)一开始只是因为英文比较差，看不懂没有字幕的公开课

然后想现在语音识别发展了那么久，能不能用语音识别先做出一套简陋的英文字幕，然后再通过google翻译（PS：别鄙视我）

翻译出简陋的中文字幕。

然后我就来研究了一阵子，目前预想的流程方案是这样的

首先是提取语音和分割，语音提取应该可以用开源库FFMPEG，提取语音流

而且记得之前还看到过语音断句工具，再把之前的语音流断句，并把时间点存到数据库，

然后每个音频流经过我们的项目，识别出英文语句。（每段音频流，经过识别后，把识别出来的文字扔到每个时间段内就是字幕了）

至于怎么训练出来那么大lm和hmm，

因为lm和hmm分别需要大量的语料库和对应的音频训练，我目前的设想是

就是用大量已有原文字幕的公开课，截图音频流，做成我们所需要的音频流，然后使用这个音频流和字幕文本，训练lm和hmm

这样，训练条件里说的，大量的人说话，很长的语料库和对应的很长的音频就出来了

目前大体是这样构想的、不过这个项目需要大量的人力。。。一个人做不来，求有想法的人一起搞

(2)windows 下用来做简单操作的小工具，语音识别并执行关闭窗口、最大化、最小化、声音提高/降低、打开我的电脑、回收站之类的操作

有什么想法可以联系我

我的邮箱 yin52133@126.com

至于有什么觉得有问题的地方也可以留言讨论啊，我喜欢讨论

因时间和人力问题，先暂时闲置
文章出处：http://www.cnblogs.com/yin52133/ 本文可自行转载，但转载时记得给出原文链接
相关阅读:
链接的思考
 反向传播算法为什么要“反向”
浅说机器学习理论
 体验一下5分钟快速迁移mysql近亿数据量大表的速度！！！
（MHA+MYSQL-5.7增强半同步）高可用架构设计与实现
 MySQL-开发规范升级版
 Mysql 优化建议
 Percona XtraDB Cluster(PXC)-高可用架构设计说明
 企业级-Mysql双主互备高可用负载均衡架构（基于GTID主从复制模式）（原创）
记一次测试环境下PXC集群问题《经验总结》
原文地址：https://www.cnblogs.com/yin52133/p/2588418.html

Sphinx语音识别学习记录 （六）我的目标和几个想像的方案（闲置中）

Sphinx语音识别学习记录（六）我的目标和几个想像的方案（闲置中）