《互联网多媒体内容分析中的音频处理技术-颜永红-1.pdf》由会员分享,可在线阅读,更多相关《互联网多媒体内容分析中的音频处理技术-颜永红-1.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、互联网多媒体内容分析中的互联网多媒体内容分析中的 音频处理技术音频处理技术 颜永红颜永红 中科院语言声学与内容理解重点实验室中科院语言声学与内容理解重点实验室 2020.9.62020.9.6 智能时代智能时代 前进中的语言声学前进中的语言声学 第二届全国社会舆情论坛第二届全国社会舆情论坛 2 中国科学院声学研究所中国科学院声学研究所 Institute of Acoustics, CAS v? v? v? ? 3 中国科学院声学研究所中国科学院声学研究所 Institute of Acoustics, CAS 互联网多媒体内容分析难点互联网多媒体内容分析难点 q? ? ? ? q? ? ?
2、? q? q? q? ? 4 中国科学院声学研究所中国科学院声学研究所 Institute of Acoustics, CAS 语音识别语音识别 声纹识别声纹识别 音频音频DNADNA 语音增强语音增强 丰富音频检测丰富音频检测 音频内容理解音频内容理解 语种识别语种识别 音频分析处理音频分析处理 相关技术相关技术 音频音频相关处理技术相关处理技术 5 中国科学院声学研究所中国科学院声学研究所 Institute of Acoustics, CAS 核心技术:语音增强核心技术:语音增强 v需求:语音在产生和传输过程中,易受各种各样的噪声需求:语音在产生和传输过程中,易受各种各样的噪声 干扰,严
3、重影响语音识别等技术的性能,如何从含噪语干扰,严重影响语音识别等技术的性能,如何从含噪语 音中提取尽可能纯净的原始语音?音中提取尽可能纯净的原始语音? v定义:语音增强是指当语音信号被各种各样的噪声干扰定义:语音增强是指当语音信号被各种各样的噪声干扰 、甚至淹没后,从噪声背景中提取有用的语音信号,抑、甚至淹没后,从噪声背景中提取有用的语音信号,抑 制、降低噪声干扰的技术。制、降低噪声干扰的技术。 6 中国科学院声学研究所中国科学院声学研究所 Institute of Acoustics, CAS 背景噪声背景噪声 混响混响 多说话人多说话人 远场麦克风远场麦克风 在现实生活中,很多 语音识别的情景并不 是干净的声学环境。 如右图所示,在一个 会议转录场景下,噪 声、混响、多说话人 始终干扰着识别系统 的正常工作。 短视频的背景场景更是几乎涵盖了生活中碰到的各种情况! 针对这些问题,在语音增