最近在寻找比较好的可以做技术类语音识别(会议记录)的工具,主要下面几点诉求:1.比较好的支持 DICITION 自定义字典,例如很多专有名词,语音模型没有训练过2.需要能够比较好的识别中英文混合,具备识别 SPEAKER 的能力,识别正确率较高,至少能够作为 AI 润色的输入3.能够监听识别 MAC 上 APP 的语音流,例如微信,腾讯会议等个人尝试了下述方案:1.MAC WHISPER 评分 5.0使用了内置默认模型:openai-whisper-large3 600MB 版本和 Large v3 turbo ,效果不是特别好,英文勉强能识别部分,连中文都识别率不太高,支持 SPEAKER 区分,支持自定义字典,但是自定义字典貌似并未生效2.讯飞听见 评分 5.5付费使用了音频上传功能,效果比 MAC WHISPER 略好,自定义字典同样没有生效,脚本的编辑页面相对友好一些,中文仍然存在一些问题,比 MAC WHISPER 略好点3.通义听悟 评分 6.0唯一勉强能用的语音识别工具,只是勉强,自定义字典同样没有生效,界面和讯飞听见类似,中文英文效果都比上面两者好,但是离傻瓜式使用仍然有具体,文本仍然要手工调整很多看看大家有没有什么比较好的工具或者工作流,可以一起讨论一下。
技术类语音识别(会议记录)的工具推荐和讨论
内容版权声明:除非注明,否则皆为本站原创文章。