当前位置:首页 > 报告详情

武执政-语音生成大模型开发中的数据处理探索.pdf

上传人: p****n 编号:614084 2025-02-19 58页 5.24MB

1、语音生成大模型开发中的数据处理探索武执政|香港中文大学(深圳)演讲嘉宾武执政香港中文大学(深圳)副教授、博导/港中大深圳-趣丸科技联合实验室主任武执政博士入选国家级青年人才,连续多次入选斯坦福大学“全球前2顶尖科学家”、爱思唯尔“中国高被引学者”榜单。他于2015年获得南洋理工大学博士学位,并在Meta(原Facebook)、京东、苹果、爱丁堡大学、微软亚洲研究院等机构从事学术研究和技术领导工作。武博士带领开发了语音合成开源系统Merlin、Amphion及开源数据库Emilia,发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测,组织了2019年语音合成国际评测(Blizza

2、rd Challenge 2019)。曾获得INTERSPEECH最佳学生论文奖、亚太信号与信息处理协会年度峰会最佳论文奖。武博士现为IEEE语音与语言处理技术委员会委员,语音领域权威期刊IEEE/ACM Transactions on Audio,Speech and LanguageProcessing的Associate Editor,IEEE Signal Processing Letters的Associate Editor,IEEESpokenLanguageTechnologyWorkshop2024的大会主席。他曾受邀在ICASSP、IJCAI 2023 DADA Worksh

3、op等权威学术会议做特邀报告。目 录CONTENTS1.语音生成大模型的最新进展2.Emilia 大规模多语种语音生成数据集3.Emilia 数据集的开发历程语音生成大模型的最新进展PART 01Rich information in speech语交互喂,喂,喂?你是个好明天下午2点您有个汇报?语音交互有情商的语对话赌博XXXX请告诉我赌博有什么样的危害?我们可以讨论这个话题,但是现在有少年在场,不太适合讨论这个话题有情商的语音对话有情商有情商Human(Happy):Kids are talking by the doorAI:Wow,really?Kids are already cha

4、tting by the door?They grow up so fast;its surprising how quickly they learn to communicate and express themselves.有情商Human(Angry):Kids are talking by the doorAI:It can be really frustrating when kids are not respecting boundaries.Maybe a gentle reminder about hallway conduct would help.有情商语音生成的挑战语音

5、包含了丰富的信息13Mom妈妈Rich information in speechContentIdentityEmo,onEnvironment语音包含了丰富信息Text-to-Speech Synthesis:Adaptation vs Zero-shotDecoderWaveform generatorEncoderTextWaveformAdditional inputReference EncoderSpeechDecoderAdditional dataAdaptation or finetuningZero-shotTTS:Finetuning vs Zero-shot语音技术发

6、展趋势16HMM-GMMDNNNeural TTSLarge-scale TTSAVM Data-parallel utts-studio quality-manual labelsAVM Data-nonparallel utts-studio quality-manual labelsPretraining Data-nonparallel utts-non-noisy data-manual labelsPretraining Data-nonparallel utts-in-the-wild data-generated labelsTalk is cheap,show me the

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,本文主要介绍了语音生成大模型的发展现状、Emilia大规模多语种语音生成数据集的构建以及语音生成模型的未来发展方向。 关键点包括: 1. 语音生成大模型的发展趋势:从传统的HMM-GMM、DNN到大规模TTS模型,语音生成技术不断进步,目前SOTA模型MaskGCT和F5-TTS均基于Emilia数据集训练。 2. Emilia数据集的特点:包含超过10万小时的音频,涵盖六种语言,经过自动化处理框架Emilia-Pipe处理后,音频质量达到3.26分,声学多样性和语义多样性均优于其他数据集。 3. Emilia数据集的开发历程:通过标准化、声源分离、说话人分离、精细化分割、自动语音识别和过滤等步骤,将“野生”音频数据转化为高质量的训练数据。 4. 未来发展方向:实时与低延迟应用、个性化语音定制、多语言与跨语言能力以及伦理/滥用考虑。 综上所述,本文详细介绍了语音生成大模型的发展现状、Emilia数据集的构建以及未来发展方向,展示了语音生成技术在自然度、类人性、多语言能力等方面的进步,同时也指出了模型在伦理和滥用方面的挑战。
语音生成大模型如何处理未知输入? 语音生成大模型如何实现跨语言能力? 语音生成大模型如何防止滥用?
客服
商务合作
小程序
服务号
折叠