当前位置:首页 > 报告详情

互联网多媒体内容分析中的音频处理技术-颜永红-1.pdf

上传人: li 编号:30064 2021-02-08 39页 10.25MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了中国科学院声学研究所(Institute of Acoustics, CAS)在互联网多媒体内容分析中的音频处理技术。主要内容包括: 1. 语音增强技术:通过从含噪语音中提取纯净语音,提高语音识别等技术的性能。 2. 音频DNA技术:通过分析处理音频片段,实现音频内容的快速检索。 3. 语种识别技术:通过分析语音片段,判断其属于某个语言种类。 4. 说话人识别技术:根据语音中反映的说话人生理和行为特征,自动识别说话人身份。 5. 语音识别技术:通过对语音信号进行处理转成文字内容。 6. 关键词识别技术:识别输入语音中包含的敏感词语,并定位它们出现的位置。 7. 近期亮点工作:包括音频场景国际比赛第一、研发自主可控的语音信号处理与识别工具包、智能语音能力云平台等。 文章中提到,语音搜索准确率已达到95%以上,一般安静环境下,自然口语对话识别准确率已在85%以上。此外,声学所语音团队在音频场景分类DCASE2019比赛中夺冠,准确率达到85.2%,领先第2名1.4%。
语音增强技术如何提升语音识别性能? 音频DNA检索技术在音频内容分析中的应用有哪些? 说话人识别技术在信息安全领域有哪些应用?
客服
商务合作
小程序
服务号
折叠