《尹辰轩-多模态+Agent 在培训与教育领域的应用.pdf》由会员分享,可在线阅读,更多相关《尹辰轩-多模态+Agent 在培训与教育领域的应用.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、AI在教培场景的应用多模态融合的思考尹辰轩北银金科 人工智能高级算法专家目录01教培领域需求痛点02技术难点与解决方案03市场前景与商业应用教培领域需求痛点主流AI陪练产品&技术分析类型类型代表产品代表产品核心功能核心功能应用场景应用场景优势优势劣势劣势备课讯飞星辰语音备课识别率 99%,数学公式生成准确,教案+课件+习题一体化中小学理科教师,需要快速备课语音识别精准,理科公式支持强,本地部署保障数据安全交互体验较传统,免费版功能有限北森 AI LearningAI 做课助手自动萃取业务知识,一键生成课程大纲+PPT+视频+习题大型企业,需要体系化内训全链路 AI 助学体系,课程制作效率提升
2、400%价格较高,中小企业负担重魔塔AI自研大模型+多模态生成(PPT+语音+结构+漫画动画)+知识结构化引擎个人学习者、知识博主、企业培训师。1.转化效率极高;2.个性化极强;3.多模态体验佳:动态 PPT+语音+交互;教育场景适配不足、企业功能薄弱、内容版权风险OpenMAIC多智能体协作+大模型驱动+两阶段生成流水线一键生成+多智能体互动+全场景覆盖+Openclaw集成高校/科研机构、教育科技团队、创新企业多智能体重构课堂、生成能力全面、开源免费、教学法融合落地门槛高、商业化功能缺失、稳定性待验证陪练数字蚂力剧本引擎+客户画像系统2000+金融剧本,50 种客户画像,48 小时内投产保
3、险、银行新员工培训,标准化产品销售开箱即用,实施快,金融 Know-how 丰富,合规性强灵活度有限,复杂场景适配不足思创AI陪练剧本模板+动态评分落地性强,可衡量效果,易迭代城商行、农商行,基层员工基础培训落地性强,可衡量效果,易迭代AI 交互深度有限,创新场景覆盖不足星火陪练星火认知大模型+多模态交互2D/3D 虚拟人,情感化语音合成,高精度口唇同步高端客户服务,品牌形象展示,服务体验提升沉浸感强,情感交互,多模态体验佳价格较高,对硬件要求高优创AI陪练模拟仿生+AI 交互+数据驱动76 个高频业务情境,客户意图模拟,情感计算银行理财、保险规划、信贷咨询、客户维护全场景全场景覆盖,仿生体验
4、好,动态评估精准实施周期较长,需定制化配置行业痛点交互体验不足交互体验不足语音、PPT、视频、视觉识别、数字人仿真等能力不足,延迟、失真明显场景覆盖度低场景覆盖度低创建流程长,对于不同类型场景盖度有限,运营成本高专业度不足专业度不足内容缺乏差异化和深度,资深者用户无感,初学用户无措2B2B商业化能力商业化能力如何适配B端需求实现商业化,当前的各类产品都没有走出一条低边际成本的商业化道路技术难点与解决方案AI课程产品的建设路径集成数字人并渲染教学视频,引入PPT和动画效果数字人与视频生成数字人与视频生成基于坐标定位+Html+Latex进行PPT排版PPTPPT排版制作排版制作生成讲解词+语音合
5、成配套生成测试题与教学评估标准补充知识形成课程内容和PPT素材,包括文生图等。进行内容分段标注引入OCR和私有知识库生成课程大纲讲解词语音合成讲解词语音合成教学评估与测试题教学评估与测试题课程内容课程内容知识库设计课程大纲知识库设计课程大纲AI陪练产品的建设路径剧本引擎剧本引擎+对话练习对话练习AgentAgent驱动驱动AIAI对练对练ASR+LLM+TTSASR+LLM+TTS多多AgentAgent协同协同数字人引入数字人引入Skill+S2SSkill+S2S1 12 23 34 45 5技术难点语音技术语音技术ASR延迟要求严格TTS要求情绪饱满PPTPPT排版排版内容分段、素材生成
6、坐标生成、渲染速度可编辑性与再优化多多AgentAgent协同协同专业性与自由度平衡专业性与自由度平衡内容抽取、生成、整合、创建场景/课程,与多模态技术的集成专业的课程/陪练场景需要更严格的知识库或剧本,但同时也需要更自由的内容和交互上的拓展以提高用户体验技术难点-语音技术解决方案方案方案ASR+LLM+TTS ASR+LLM+TTS Speech2Speech(S2S)Speech2Speech(S2S)方案介绍方案介绍基于传统语音模型和大模型进行组装,利用ASR转化成文本,然后经过大模型思考对话返回文本后,将文本转换成语音进行输出。将大模型直接进行音波解码训练,不经过文本转换。将预测下一个