标签: ASR

2 篇文章

解决FunASR处理长音频导致后续音频处理显著变慢
博主提交的PR已合并,更新FunASR到最新版即可 太长不看,直接解决问题(覆盖安装博主Fork并打补丁的FunASR库):pip install --no-cache-dir git+https://github.com/MotorBottle/FunASR.git@main 已提交PR,该PR尚未合并,但测试有效,合并后会在此说明,如已合并,直…
实时语音对话与打断语言模型运行机制调研报告(By GPT DeepResearch)
简要概述 OpenAI ChatGPT语音交互:OpenAI通过将大型语言模型(ChatGPT)与语音输入输出模块相结合,实现了语音对话功能。用户说话时,系统利用Whisper语音识别模型将语音转录成文本供ChatGPT理解,然后由ChatGPT生成回答文本,再通过新一代TTS(文本转语音)模型将回答朗读出来。该方案本质上还是串联管线:语音->…