《大数据百家讲坛:2026语音大模型:从语音识别到全双工语音交互报告(72页).pdf》由会员分享,可在线阅读,更多相关《大数据百家讲坛:2026语音大模型:从语音识别到全双工语音交互报告(72页).pdf(72页珍藏版)》请在三个皮匠报告上搜索。
1、语音大模型从语音识别到全双工语音交互洪青阳厦门大学智能语音实验室http:/2026.05CONTENTS目录背景介绍1端到端对话模型3语音识别大模型2全双工语音交互4落地应用51.背景介绍世界语种n 根 据 世 界 人 口 数 据 库Ethnologue第26版,目前世界上现存有7168种语言,142个语系。1 Eberhard,David M,Gary S F,et al.Ethnologue:Languages of the worldM.26th ed.Dallas,Texas:SIL International,2023世界语系分布图11.背景介绍中国方言n根据教育部2019年中国语
2、言文字概况介绍,汉语方言通常分为十大方言:官话方言、晋方言、吴方言、闽方言、客家方言、粤方言、湘方言、赣方言、徽方言、平话土话。表格和图片来源:中国语言地图集,第2版,汉语方言卷,商务印书馆,2012.1.背景介绍多语种识别基于端到端的多语种语音识别多语种语音识别模型I think so普通话音频 1英语音频 2日语音频 3風音频今天天气真不错级联式多语种语音识别语种识别语种A语音识别模型语种B语音识别模型语种C语音识别模型今天天气真不错确定语种1.背景介绍GPT-4o语音模式 2024年5月,OpenAI团队率先提出了一个结合多模态的端到端实时交互大模型GPT-4o。该模型在GPT-4的基础
3、上,增强了文本、视觉和音频处理能力,能在最快232毫秒内响应音频输入,平均响应时间为320毫秒,已接近人类水平。1.背景介绍豆包语音交互 豆包动态判停1.背景介绍豆包语音交互 豆包动态判停1.背景介绍级联式对话模型 最基础的语音对话系统包含三个核心模块:语音识别、LLM和语音合成模型。级联式SpeechLMs存在以下问题:信息丢失。语音信号不仅包含语义信息(即语音的含义),还包含副语言信息(如音高、音色、音调等),这是文本所不具备的。错误累积。级联式模型很容易导致整个流程中出现累积性错误,尤其是在ASR-LLM阶段。高延迟。由于数据需要在多个模块间传递,系统响应时间较长,复杂性高,不利于实时语
4、音交互。1.背景介绍端到端对话模型 为实现更好的人机交互体验,需要真正实现一个端到端语音对话模型,如图所示,通过语音编码器将语音离散化,由语言模型直接处理语音数据,实现多个模态实时输入输出。1.背景介绍全双工语音交互单工通信。数据仅沿一个方向流动。说话者可以发送数据,而听者只能接收数据。半双工通信。数据在两个方向上流动,但不同时流动,类似对讲机。全双工通信。允许双方同时发送和接收数据。全双工不一定是端到端对话模型!1.背景介绍全双工语音交互https:/ Realtime采用WebRTC协议进行语音交互,使得音频以连续流的形式到达,更重要的是,该协议本身支持全双工通信。关键挑战-打断和判停:用
5、户打断时,语音助手应停止回复;同时,语音助手需要准确识别用户是否讲完了,即意图判断。报告聚焦两个关键问题 如何通过大模型,实现多语种语音识别?如何通过大模型,实现全双工语音交互?目录语音识别大模型PART TWO2.语音识别大模型2.1 语音识别过程2.2 语音识别发展史2.3 Transformer2.4 Conformer2.5 大语言模型(LLM)2.6 开源模型 语音识别的任务为,找到对应观察序列的最可能的词序列。按贝叶斯准则:=max|=max|=max|要找到最可能的词序列,必须使上式右侧两项的乘积最大。第一项由声学模型决定,第二项由语言模型决定。2.1 语音识别过程特征序列状态序
6、列音素序列声学模型|语言模型 词序列今天天气很好今天天气很好jin1tian1tian1qi4hen2hao32.1 语音识别过程2.1 语音识别过程1jin1tian1今天天气很好tian1qi4hen2hao32345678今天天气很好HMM人的发音包含双重随机过程:说什么不确定 怎么说不确定词典:今天 j in1 t ian1天气 t ian1 q i4很 h en2好 h ao32.1 语音识别过程系统框架解码器特征提取声学模型语言模型识别结果发音词典语音数据文本数据2.1 语音识别过程系统框架解码器声学模型语言模型识别结果发音词典语音数据文本数据解码器识别结果E2E模型2.2 语音识