1、从Copilot到Director:多模态智能体如何接管AIGC流程李云鑫计算机科学与技术学院哈尔滨工业大学(深圳)目录01AIGC智能化的挑战与路径02基座模型与核心技术突破03从 Copilot 到 Director04通用 AIGC 智能体的构想AIGC智能化的挑战与路径从工具堆砌到智能整合技术红利:单点效率飞跃文生图、文生视频等工具成熟,内容产出速度大幅提升,单点生成能力爆发。落地困境:流程繁琐反成负担工具越多,创作越复杂,手动搭建工作流耗时耗力,AIGC从“解放”变为“消耗”。核心本质:仍处于工具辅助阶段当前AIGC缺乏真正的智能主导,更多是作为辅助工具,尚未实现全流程自动化。复杂的
2、AIGC工作流:节点繁琐,操作门槛高以语言智能为核心的AIGC智能体规划无逻辑长叙事、结构化内容无整体思路,工具只会单点执行,缺乏全局规划能力。调用无统筹多模态工具各自为战,无法用统一指令协同,导致执行过程碎片化。评估无标准生成内容的连贯性、一致性不稳定,无法自主校验,人工评估成本高。核心解法:构建以语言智能为中枢的AIGC智能体,不仅能精准理解我们的创作需求,还能进行推理和规划,并向所有多模态工具发出统一指令,实现全流程的智能调度。以语言智能为核心的AIGC智能体 构建一种能够构建一种能够处理多种模态处理多种模态(如文本、图像、视频、音频等)数据的多模态(如文本、图像、视频、音频等)数据的多
3、模态智能体模型,支持智能体模型,支持复杂任务规划与长程交互式推理复杂任务规划与长程交互式推理 设计设计高效高效的多模态智能体框架,旨在驱动智能体与复杂环境进行的多模态智能体框架,旨在驱动智能体与复杂环境进行自主、自主、深度深度的交互,并实现的交互,并实现基于经验的持续学习与性能进化基于经验的持续学习与性能进化大模型智能体大模型智能体智能体智能体系统系统环境环境(应用实践应用实践)基座模型基座模型框架设计框架设计推理推理规划规划经验经验学习学习支撑 AIGC 智能体跃迁的底层能力基座模型与核心技术突破以大语言模型为核心,率先提出了多模态数据理解的多专家混合架构,突破大模型跨模态协同交互瓶颈,构建
4、了统一多模态理解大模型模型架构模型架构渐进式三阶段训练策略渐进式三阶段训练策略 Uni-MoE:Scaling Unified Multimodal Large Language Models with Mixture-of-Experts.IEEE TPAMI 2025语言智能原生的全模态大模型 Uni-MoE-1.0语言智能原生的全模态大模型 Uni-MoE-2.0-Omni从统一多模态理解,迈向理解与生成兼备的综合型多模态大模型,通过渐进式架构演进与训练,将大语言模型逐步拓展为全模态大模型Dense LLMAudio EncoderVisionEncoderTextAudio Encod
5、erVisionEncoderTextMoE-LLMAudio EncoderVisionEncoderQformerMLPCodec DecoderVAE DecoderAudio EncoderVisionEncoderCodec DecoderTextAlignmentAlignmentPretrainingPretrainingExpert WarmupExpert WarmupSFT for MLPSFT for MLPMixture-of-ExpertsMixture-of-ExpertsSFT&Annealing&RLSFT&Annealing&RLUni-MoE-2.0-Omn
6、iUni-MoE-2.0-OmniAudio&Image Training Audio&Image Training 大语言模型全模态大模型 Uni-MoE 2.0:Scaling Language-Centric Omnimodal Large Model with Advanced MoE,Training and Data,2025语言智能原生的全模态大模型 Uni-MoE-2.0-Omni从统一多模态理解,迈向理解与生成兼备的综合型多模态大模型,通过渐进式架构演进与训练,将大语言模型逐步拓展为全模态大模型模型架构语音生成图像生成 Uni-MoE 2.0:Scaling Language