《搜狗-刘恺-搜狗多模态合成技术研究及应用 .pdf》由会员分享,可在线阅读,更多相关《搜狗-刘恺-搜狗多模态合成技术研究及应用 .pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、主办方: 搜狗多模态合成技术研究及应用 刘恺 搜狗 专家研究员 主办方: 雅妮Demo 主办方主办方: “ 刘恺 中国科学技术大学本硕 2013年毕业后加入科大讯飞研究院,从事语音合成算法研究 2017年加入搜狗,目前担任搜狗AI交互技术部多模态合成团队负责 人,专家研究员。主要研究方向包括语音合成、语音变声、数字音 效、多模态合成等,负责算法研发及产品落地。 ” 个人简介 主办方主办方: 团队简介 围绕有声内容生成和多模态交互场景的围绕有声内容生成和多模态交互场景的多模态多模态合成合成技术技术 方便用户高效的生成“高质量、高表现力“的音、视频 机器与人的交互更加生动自然、多模态化(数字人)
2、主办方主办方: 摘要 本次报告主要介绍搜狗在多模态合成方面的最新研究进展,重点分享其中的语音合成、风格/口音控制合 成、多模态合成(数字人)等技术,以及在不同场景应用的代表性案例 语音合成 1. 有声内容制作之声咖平 台 数字人合成2. 数字人之 AI 合成主播 主办方主办方: 什么是多模态? 每一种信息的来源或形式,都可以称为一种模态,例如文本、语音、图像等 人与人之间的交互通常是文字、语音和图像等多种形式同时进行 多模态技术是指利用机器学习的方法,学习并建立文本、语音、图像、视频等多个模态之间的联系,实 现对信息更好的理解或表达 主办方主办方: 多模态合成多模态合成 随着互联网和人工智能技
3、术发展,人机交互的发展趋势是让信息传递和机器表达更加丰富,接近真实 从单一模态生成的语音/图像合成,走向语音、图像、视频等多个模态联合生成的多模态合成 其中,数字人合成是目前比较热门的多模态合成技术之一,输入文本即可快速生成声音、图像同步的数 字人视频,使机器具备“拟人化”的声音和形象 文本语音/图像视频 主办方主办方: 语音合成 定义:机器将输入的任意文字快速换成清晰自然、富有表现力的音频 基本架构 文本分析文本声学建模声码器音频 文本特征声学特征 文本分析得到发音、韵 律等信息(文本正则、 分词、字转音、韵律预 测等) 规则,词典 ME,CRF DNN/LSTM/BiLSTM Bert/LightBert 文本特征预测声学特征 (mcep+lf0、mel) HMM DNN/LSTM End2end 声学特征恢复成波形 World/Straight Griffin-Lim Neural