标签: ASR

1 篇文章

实时语音对话与打断语言模型运行机制调研报告(By GPT DeepResearch)
简要概述 OpenAI ChatGPT语音交互:OpenAI通过将大型语言模型(ChatGPT)与语音输入输出模块相结合,实现了语音对话功能。用户说话时,系统利用Whisper语音识别模型将语音转录成文本供ChatGPT理解,然后由ChatGPT生成回答文本,再通过新一代TTS(文本转语音)模型将回答朗读出来。该方案本质上还是串联管线:语音->…