当前位置:首页 > 报告详情

“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨-王龙标.pdf

上传人: 张** 编号:161342 2024-05-05 18页 3.11MB

1、数字智慧 言语畅享“海河谛听”言语交互大模型及其在身份认证领域的应用探讨1天津大学/慧言科技 王龙标数字智慧 言语畅享言语交互:人类最自然的交互方式言语是人类最基本和最重要的交流方式它不仅能够传递字面信息,还能够传达言外之意,并影响他人的情绪、态度和行为,从而实现各种社会目的。教育办公健康金融2数字智慧 言语畅享言语交互的主要挑战言语包含语言、韵律、情感和说话人等信息目前的语言大模型只利用语言(文本)信息,导致言语交互系统无法做到意图的深度理解。痛点1语音模型:模型多、维护难、效果差痛点2通用大模型:行业效果差、部署成本高痛点3语音/文本单模态模型:理解能力不足多语言交互困难形简意丰3数字智慧

2、 言语畅享4打造国际领先的言语交互意图理解大模型借鉴神兽“谛听”可听人心的寓意而命名。透过声音洞察内心,透过言语理解意图。始终“以人的机理为蓝本”,将言语信息与语言学、心理学和脑科神经科学相结合,以大模型为基础实现言语意图的深度理解。支持NVIDIA 架构和国产化架构。浅层融合深度融合统一模型数字智慧 言语畅享5研发资源&团队架构总负责人:党建武天大教授/国家人才/慧言CSO技术总监:王龙标天大教授/国家人才/慧言CEO天津市人工智能计算中心算力资源天津市河北区政府研发团队算法:天津大学工程化:慧言科技数据资源海量语音数据海量文本数据国产架构ModelArts:昇腾AI芯片,MindSpore

3、等2022年8月,言语交互意图深度理解大模型及应用领域合作签约仪式基于天津市人工智能计算中心打造自主可控言语交互意图理解大模型数字智慧 言语畅享6通用语音大模型算法团队技术总监:王龙标天大教授/国家人才/慧言CEO总负责人:党建武天大教授/国家人才/慧言CSO团队指导:王晓宝天大助理教授博士学生王天锐 解耦式自监督预训练贡诚/王天锐 语音生成大模型林羽钦 语音识别刘佳星 语音情感识别刘猛 声纹识别硕士学生崔辰瑞 Wav2vec 2.0 框架迁移李津 HuBERT框架迁移舒钰淳 WavLM 框架迁移芦皓宇 语音识别下游任务微调吴晟 语音情感下游任务微调朱晓 电话信道数据模拟顾铭扬 语音特征提取天

4、大算法团队:3位导师、5名博士学生、7名硕士学生慧言科技算法/工程化团队:数名资深算法工程师基于ModelArts的语音预训练框架新型通用语音预训练框架数字智慧 言语畅享7“海河谛听”大模型技术路线打造国内领先的通用语音预训练大模型Time-2-FeatureDomain ConversationSpeaker Info ExtractorEmotion Info ExtractorSemantic Info ExtractorWeighted SumUniversal Feature数字智慧 言语畅享8基于ModelArts的通用语音预训练大模型概要项目资源228Ascend 910(32G

5、B)128T磁盘空间运行环境:云上910训练云上910推理MindSpore1.7遇到并解决的难题Pytorch框架转MindSpore框架语音数据长度不定的问题与MindSpore静态图训练策略友好度较差混合精度训练梯度溢出.少量语音识别数据Self-supervisedLearningUnlabeled DataKnowledge少量语音情感识别数据少量任意语音任务数据言语交互意图理解大模型语音识别模型语音情感模型特定任务专家模型Wav2vec 2.0HuBERTWavLMD-HuBERT数字智慧 言语畅享9T.Wang et al.,“Progressive Decoupling-sty

6、le Pre-training for Speech Representation Learning,”submitted to Interspeech 2024.可以大幅提升声纹识别性能,并在其他任务上保持优越的效果。基于解耦思路的语音预训练大模型结果对于说话人识别任务(SID),只有指定的解耦层(4)起作用。数字智慧 言语畅享10“海河谛听”语音生成大模型技术路线打造国内领先的通用语音生成大模型BOS多语言文本/语音信息编码(Embedding)Transformer Decoder 层预测模块x NEOS解码

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了天津大学与慧言科技合作研发的“海河·谛听”言语交互大模型,该模型旨在实现对言语意图的深度理解。言语交互是人类最自然的交流方式,但目前的语言大模型只能利用语言信息,导致言语交互系统无法做到深度的意图理解。因此,“海河·谛听”模型借鉴了神兽“谛听”可听人心的寓意,以人的机理为蓝本,结合语言学、心理学和脑科神经科学,以大模型为基础实现言语意图的深度理解。该模型支持NVIDIA和国产化架构,研发资源包括天津大学算法团队、慧言科技算法/工程化团队、海量语音数据和文本数据等。此外,该模型在语音生成、声纹识别、语音情感识别等方面有广泛应用。同时,文章也提到了言语交互主要挑战,如语音模型多、维护难、效果差,通用大模型行业效果差、部署成本高等问题,以及针对这些挑战的解决方案。
"言语交互大模型如何提升身份认证效果?" "如何利用数字智慧打造国际领先的言语交互模型?" "数字智慧言语交互模型在教育、办公、健康、金融领域的应用挑战有哪些?"
客服
商务合作
小程序
服务号
折叠