“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨-王龙标.pdf-三个皮匠报告

1、数字智慧言语畅享“海河谛听”言语交互大模型及其在身份认证领域的应用探讨1天津大学/慧言科技王龙标数字智慧言语畅享言语交互：人类最自然的交互方式言语是人类最基本和最重要的交流方式它不仅能够传递字面信息，还能够传达言外之意，并影响他人的情绪、态度和行为，从而实现各种社会目的。教育办公健康金融2数字智慧言语畅享言语交互的主要挑战言语包含语言、韵律、情感和说话人等信息目前的语言大模型只利用语言（文本）信息，导致言语交互系统无法做到意图的深度理解。痛点1语音模型：模型多、维护难、效果差痛点2通用大模型：行业效果差、部署成本高痛点3语音/文本单模态模型：理解能力不足多语言交互困难形简意丰3数字智慧

2、言语畅享4打造国际领先的言语交互意图理解大模型借鉴神兽“谛听”可听人心的寓意而命名。透过声音洞察内心，透过言语理解意图。始终“以人的机理为蓝本”，将言语信息与语言学、心理学和脑科神经科学相结合，以大模型为基础实现言语意图的深度理解。支持NVIDIA 架构和国产化架构。浅层融合深度融合统一模型数字智慧言语畅享5研发资源&团队架构总负责人：党建武天大教授/国家人才/慧言CSO技术总监：王龙标天大教授/国家人才/慧言CEO天津市人工智能计算中心算力资源天津市河北区政府研发团队算法：天津大学工程化：慧言科技数据资源海量语音数据海量文本数据国产架构ModelArts：昇腾AI芯片，MindSpore

3、等2022年8月，言语交互意图深度理解大模型及应用领域合作签约仪式基于天津市人工智能计算中心打造自主可控言语交互意图理解大模型数字智慧言语畅享6通用语音大模型算法团队技术总监：王龙标天大教授/国家人才/慧言CEO总负责人：党建武天大教授/国家人才/慧言CSO团队指导：王晓宝天大助理教授博士学生王天锐解耦式自监督预训练贡诚/王天锐语音生成大模型林羽钦语音识别刘佳星语音情感识别刘猛声纹识别硕士学生崔辰瑞 Wav2vec 2.0 框架迁移李津 HuBERT框架迁移舒钰淳 WavLM 框架迁移芦皓宇语音识别下游任务微调吴晟语音情感下游任务微调朱晓电话信道数据模拟顾铭扬语音特征提取天

4、大算法团队：3位导师、5名博士学生、7名硕士学生慧言科技算法/工程化团队：数名资深算法工程师基于ModelArts的语音预训练框架新型通用语音预训练框架数字智慧言语畅享7“海河谛听”大模型技术路线打造国内领先的通用语音预训练大模型Time-2-FeatureDomain ConversationSpeaker Info ExtractorEmotion Info ExtractorSemantic Info ExtractorWeighted SumUniversal Feature数字智慧言语畅享8基于ModelArts的通用语音预训练大模型概要项目资源228Ascend 910(32G

5、B)128T磁盘空间运行环境：云上910训练云上910推理MindSpore1.7遇到并解决的难题Pytorch框架转MindSpore框架语音数据长度不定的问题与MindSpore静态图训练策略友好度较差混合精度训练梯度溢出.少量语音识别数据Self-supervisedLearningUnlabeled DataKnowledge少量语音情感识别数据少量任意语音任务数据言语交互意图理解大模型语音识别模型语音情感模型特定任务专家模型Wav2vec 2.0HuBERTWavLMD-HuBERT数字智慧言语畅享9T.Wang et al.,“Progressive Decoupling-sty

6、le Pre-training for Speech Representation Learning,”submitted to Interspeech 2024.可以大幅提升声纹识别性能，并在其他任务上保持优越的效果。基于解耦思路的语音预训练大模型结果对于说话人识别任务（SID），只有指定的解耦层（4）起作用。数字智慧言语畅享10“海河谛听”语音生成大模型技术路线打造国内领先的通用语音生成大模型BOS多语言文本/语音信息编码（Embedding）Transformer Decoder 层预测模块x NEOS解码

“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨-王龙标.pdf

相关报告