《郭清沛-Ming-Flash-Omni:全模态统一大模型的关键技术与实践.pdf》由会员分享,可在线阅读,更多相关《郭清沛-Ming-Flash-Omni:全模态统一大模型的关键技术与实践.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、Ming-flash-omni:全模态统一大模型的关键技术与实践郭清沛蚂蚁集团百灵多模态基础模型技术负责人多模态大模型发展趋势:更多模态、理解生成一体化模态模态任务任务多多模模态态单单模模态态理解理解生成生成理解生成统一理解生成统一 图文理解:图文理解:Qwen-VL系列(阿里通义)、Kimi2.5(Moonshot)、InternVL系列(上海AI Lab)、Seed-VL系列(字节)语音理解:语音理解:Qwen-Audio系列(阿里通义),Whisper(OpenAI)主要覆盖图像、视频、音频等两个及以上模态,例如:Qwen-omni 系列 紫东太初(中科院)Longcat-Omni(美团
2、)语音U&G:Qwen-Omni(阿里通义),Baichuan-Omni(百川),MiniCPM-O(面壁)图像U&G:Janus-Pro(Deepseek)、Bagel(字节)、MetaQuery(Meta)视频U&G:OmniVideo(上海AI Lab)图像生成:图像生成:Qwen-Image(通义)、SD3、Midjourney 视频生成:视频生成:包括 seeddance(字节),Veo(Google),keling(快手),语音生成:语音生成:Qwen-TTS、Seed-TTS、VoiceBox(Meta)3D3D 生成:生成:Genie 3(Google)多模态生成 生成视频&音
3、频:Wan2.2-S2V(阿里通义)、HunyuanVideo-Foley(腾讯)跨模态生成 OmniHuman-1.5(字节)Gemini 3,0(Google)、GPT-4o/GPT-5(Open AI)蚂蚁 Inclusion AI:Ming系列,开源领域首个全模态理解与生成统一模型应用需求和技术发展将推动应用需求和技术发展将推动多模态模型走向全模态理解和生成统一架构多模态模型走向全模态理解和生成统一架构从应用上看从应用上看 未来超级入口的需要,未来超级入口的需要,人的自然交互形式是“认知认知”(理解)与(理解)与 “表表达达”(生成)的闭环(生成)的闭环,全模态的交互是人类感知物理世界
4、的主要方人类感知物理世界的主要方式式(除触觉外除触觉外)。从技术上看从技术上看,统一的目标是统一的目标是”协同协同”全模态统一大模型全模态统一大模型:模态统一:模态统一:音、视、图、文音、视、图、文 模态协同理解模态协同理解;任务任务统一统一::理解和生成任务协同理解和生成任务协同全模态统一大模型相关概念和定义原生多模态、全模态大模型、理解与生成统一、全模态统一大模型构建全模态统一大模型的核心挑战全模态统一大模型的每一项核心技术突破,都将引发行业范式的深层变革模态模态统一统一-原生多模态原生多模态技术突破技术突破:视觉感知成为LLM的标配,消除语言模型与多模态模型之间的界限;任务任务统一统一-
5、统一表征范统一表征范式的突破式的突破:终结理解与生成的长期割裂,实现全模态能力的真正合一Ming-flash-omni 全模态统一大模型的解决方案基础问题范式迁移Ming-flash-omni 全模态统一大模型的解决方案基础问题范式迁移Ming-flash-omni模态统一:跨模态融合架构Multi-Router1:融合模态特征,兼顾模态差异基于基于MoEMoE的跨模态融合架构:音、视、图、文协同训练的跨模态融合架构:音、视、图、文协同训练1 Jing,L.,Gao,Y.,Wang,Z.,Y.,Wang,W.,.&Guo,Q.(2025).EvoMoE:Expert Evolution in
6、Mixture of Experts for Multimodal Large Language Models.AAAI 20262 Gao,Y.,Lan,W.,Zhao,H.,Liu,S.,&Guo,Q.(2025).AnyExperts:On-Demand Expert Allocation for Multimodal Language Models with Mixture of Expert,CVPR 2026similar expert distributions for image and textAnyExperts2:按需激活,每个token重要度不同,何必强制统一K?效果对