搜狗-刘恺-搜狗多模态合成技术研究及应用 .pdf

上传人： B****

编号：28674

2021-01-31

PDF 38页 11.38MB

《搜狗-刘恺-搜狗多模态合成技术研究及应用 .pdf》由会员分享，可在线阅读，更多相关《搜狗-刘恺-搜狗多模态合成技术研究及应用 .pdf（38页珍藏版）》请在三个皮匠报告上搜索。

1、主办方：搜狗多模态合成技术研究及应用刘恺搜狗专家研究员主办方：雅妮Demo 主办方主办方： “ 刘恺中国科学技术大学本硕 2013年毕业后加入科大讯飞研究院，从事语音合成算法研究 2017年加入搜狗，目前担任搜狗AI交互技术部多模态合成团队负责人，专家研究员。主要研究方向包括语音合成、语音变声、数字音效、多模态合成等，负责算法研发及产品落地。 ” 个人简介主办方主办方：团队简介围绕有声内容生成和多模态交互场景的围绕有声内容生成和多模态交互场景的多模态多模态合成合成技术技术方便用户高效的生成“高质量、高表现力“的音、视频机器与人的交互更加生动自然、多模态化（数字人）

2、主办方主办方：摘要本次报告主要介绍搜狗在多模态合成方面的最新研究进展，重点分享其中的语音合成、风格/口音控制合成、多模态合成（数字人）等技术，以及在不同场景应用的代表性案例语音合成 1. 有声内容制作之声咖平台数字人合成2. 数字人之 AI 合成主播主办方主办方：什么是多模态？每一种信息的来源或形式，都可以称为一种模态，例如文本、语音、图像等人与人之间的交互通常是文字、语音和图像等多种形式同时进行多模态技术是指利用机器学习的方法，学习并建立文本、语音、图像、视频等多个模态之间的联系，实现对信息更好的理解或表达主办方主办方：多模态合成多模态合成随着互联网和人工智能技

3、术发展，人机交互的发展趋势是让信息传递和机器表达更加丰富，接近真实从单一模态生成的语音/图像合成，走向语音、图像、视频等多个模态联合生成的多模态合成其中，数字人合成是目前比较热门的多模态合成技术之一，输入文本即可快速生成声音、图像同步的数字人视频，使机器具备“拟人化”的声音和形象文本语音/图像视频主办方主办方：语音合成定义：机器将输入的任意文字快速换成清晰自然、富有表现力的音频基本架构文本分析文本声学建模声码器音频文本特征声学特征文本分析得到发音、韵律等信息（文本正则、分词、字转音、韵律预测等）规则，词典 ME，CRF DNN/LSTM/BiLSTM Bert/LightBert 文本特征预测声学特征（mcep+lf0、mel） HMM DNN/LSTM End2end 声学特征恢复成波形 World/Straight Griffin-Lim Neural

搜狗-刘恺-搜狗多模态合成技术研究及应用 .pdf

相关报告