今天实现了通过nodejs自动保存主讲人的视频生成webm文件,同时生成一个ogg音频文件。webm针对之后的视频回放,ogg针对语音转文字生成会议纪要。
关于语音转文字,阿里、腾讯的api好像都是收费的,打算使用百度正在测试的音频文件转写api,目前正在申请测试资格。
问题:1.视频回放想做成所有主讲人视频的集合,但是目前只能生成单个视频文件,而且这还是需要主持人来控制,点击开始会议则开始录制,结束会议则保存成一个文件。
2.音频倒是可以生成多个音频文件再转文字,如何对应某个主讲人。
3.目前测试资格还未申请下来,大概看了下api,好像只能识别["mp3", "wav", "pcm"]这三种,还需要调用ffmpeg把ogg转成成wav。
4.百度语音识别是在python上跑的,这样的话,系统集成为一个比较麻烦。会议管理流程是用spring boot写的,视频用的nodejs,就无法部署到我那廉价阿里云服务器。