《InfoQ:2026中国企业AI应用场景报告(30页).pdf》由会员分享,可在线阅读,更多相关《InfoQ:2026中国企业AI应用场景报告(30页).pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、目录目录CONTENT企业端 AI 应用场景分析0101重点行业分析0202AI 应用的成功范式030301 01 企业端企业端 AI AI 应用场景应用场景分析分析0101多模态模型多模态模型技术演变:开启原生模态整合技术演变:开启原生模态整合2025 年多模态模型技术迎来突破性发展。长久以来,多模态模型的理解和生成技术发展相对独立,并形成了两种不同的架构探索路径。但2025年,我们看到了以GPT-5、Gemini3、Bagel、VEO等开始探索统一理解和生成底座的多模态模型的迅速发展。同时我们也观察到了图像、语音、文字模态的技术路线的相对成熟,视频模态模型发展仍以视频理解和视频生成相对独立
2、的技术发展路线为主。扩散与自回归混合统一的扩散与自回归混合统一的多模态模型路线多模态模型路线 技术关键技术关键:融合回归的序列推理优势与扩散的视觉成优势,本令牌回归成,图像令牌多步去噪成,通过双向注意或共享络实现跨模态融合,平衡本语义控制与图像视觉保真度。优点优点:兼顾本语义可控性与图像成质量;持复杂任务 缺点缺点:架构复杂,训练与推理成本;模态融合难度,易出现本-图像对偏差;20252025年发布的代表模型年发布的代表模型:Mogao(字节、2025-05)、Bagel(字节、2025-05)以扩散架构为主的多以扩散架构为主的多模态模型路线模态模型路线 技术关键技术关键:以扩散机制为基础,通
3、过迭代去噪过程实现质量图像成,同时融多模态上下(如本、图像嵌)实现理解能。优点优点:擅成,成图像质量、细节丰富;可根据提示词进多样化创作(格、编辑等);训练过程相对稳定。缺点缺点:推理速度慢、部分模型训练时学习信号稀疏,对不同度的输出适配不好;部分模型依赖外部框架,开源持有限。20252025年发布的代表模型年发布的代表模型:MMaDA(PU&PKU、2025-05)、FUDOKI(HKU&华为,2025-05)、Muddit(PKU&中国典型&NUS&PU、2025-05)以自回归架构为主的多以自回归架构为主的多模态模型路线模态模型路线 技术关键技术关键:基于 LLM 的回归架构,将图像转化
4、为序列Token,通过预测下个Token的标统建模本与视觉模态。优点优点:和语模型结构相通,能灵活进跨模态推理;持图交错成(如边写字边插图);部分模型连续令牌,不会丢失图像原始信息。缺点缺点:模态对依赖令牌器质量,设计难度。20252025年发布的代表模型年发布的代表模型:TokLIP(腾讯 ARC Lab&中科院动化所等、2025-05)、Selftok(华为、2025-05)、UniTok(字节&CUHK、2025-02)、UniFork(上海AI实验室、2025-06)、OmniGen2(北京智能研究院、2025-06)、Qwen-Image(阿、2025-08)、Ming-Omni(蚂
5、蚁、2025-06)SkyworkUniPic(昆仑万维、2025-08)趋势预测:原生全模态加速成型,世界模型迎来首轮技术收敛周期趋势预测:原生全模态加速成型,世界模型迎来首轮技术收敛周期 我们预测,2026 年,原生多模态能力成为 AI 的标配,原生全模态模型加速落地,多模态理解与生成逐步融合。世界模型技术路线迎来首轮收敛,跨模态统底座开始形成,为具身智能、自动驾驶等应用的认知、推理与预测提供系统化基础。02040301形态1多模态模型多模态模型不同模态信息训练不同的编 码器,统一翻译成文本模态 后,再通过文本整合输出形态2原生多模态模型原生多模态模型能同步、原生地理解和生成 文本、代码、
6、音频、图像和 视频等多模态输入形态4世界模型世界模型能够理解时间、空间规律,并能对物理世界形成合理预 测形态3原生全模态模型原生全模态模型不仅能够全模态理解,还能 全模态推理和输出超级智能体将超级智能体将成为产业落地与业务重构的真正执行者成为产业落地与业务重构的真正执行者当下,多模态大模型作为企业 AI 应用的核心技术底座,在编程、医学诊断、心理咨询等多个领域,已经稳定超过大部分专业人士,智能不再是瓶颈;AI 不再只是被动回答的 Chatbot,而是具备能动性的超级智能体,会自己设定子目标、调用工具、协作完成任务。价值涌现效果涌现单模型在推理、写作、对话上的能力惊艳:会写代码、会写论文、会诊断