1、多模态模型迎来“Deepseek时刻”,供给革命将重新定义内容创作范式推荐(维持)26年mathbf1月31日,快手发布新一代视频生成模型可灵(Kling)3.0系列。涵盖图片3.0(叙事与控制深度进化)和视频3.0(自由创作,质感跃升),视频主体相似度大幅提升,对复杂文本指令响应更敏锐精准;语义遵循度提升,支持组图批量输出。可灵O1升级为视频/图片3.0Omni,可直接对视频进行编辑修改。26年2月7日,字节正式发布新一代视频生成模型Seedance2.0。Seedance2.0在基础层面显著增强,物理规律更合理、动作表现更自然流畅、指令理解更精准、风格保持更稳定;可通过“素材名”的方式指定
2、每个图片、视频、音频的用途,强化对表达的控制;通过精准控制大幅降低用户的抽卡成本。26年2月10日,字节与阿里同步更新图像生成基模。字节发布图像生成模型Seedream5.0。Capcut的官宣推文里提到,Seedream5.0可与NanoBananaPro对标,且更便宜。阿里发布新一代图像生成及编辑模型Qwen-Image-2.0,集生图和编辑于一体,在AIArena文生图评测中位列全球第三。mathbfAI视频生成正在从盲盒式娱乐向精准工业化生产跨越。区别于早期模型单纯追求画质,本次Seedance2.0(通过素材名精准控制)与可灵3.0的升级,标志着行业进入可控性大于生成能力的新阶段。强
3、逻辑:过去AI视频无法商用的核心痛点在于“抽卡导致的边际成本不可控。新一代模型通过原生多模态架构和指令对齐,将废片率显著降低,进而降低整体视频生产成本。结论:技术跨越使得AI视频从娱乐/少数人的工具辅助,正式具备了进入规模化B端工作流(如电商广告、短剧漫剧制作)的基础。产品格局推演:国内大厂的视频产品路径分化,字节走效率基建”,快手走“专业叙事”。虽然模型跑分排名竞争激烈,但我们更关注厂商的战略分野:即梦或沿袭字节超级APP的逻辑,利用原生架构的通用性,旨在打造低门槛、低成本的视频生态基建。快手可灵强化物理模拟,壁垒在于复杂场景的真实感与角色一致性,更适合影视Demo、电影剧情等对连贯性要求高
4、的专业内容。阿里千问更擅长垂直场景(电商),通过图像模型的高保真更新,强化在商品数字化的护城河。商业化推演:供给侧革命将重塑内容成本结构。随着图像与视频基座能力的双重提升,内容生产的边际成本趋向于算力成本。短期看:营销/电商服务商的素材产出效率提升将带来毛利改善;漫剧、短剧行业或将迎来产能爆发。中长期:mathrmIP的稀缺性会进一步放大,头部mathrmIP及其衍生品的价值很高,腰部mathrmIP也能通过AI视频化实现价值重估。以及拥有强算力基础设施(云)和闭环流量场景(平台)的巨头或也将吃到技术红利。风险提示:政策监管趋严;mathbfAI技术迭代发展不及预期;AI产品商业化不及预期等。
5、华创证券研究所行业基本数据相关研究报告一、多模态模型年初迎来重磅更新,视频生成模型迈入高精度、高可控阶段2026年1月31日,快手正式发布新一代视频生成模型可灵3.0系列,涵盖图片3.0、视频3.0以及视频/图片一体化的Omni模式。本次发布在模型精度、主体一致性、复杂指令理解以及视频编辑能力等方面进行了系统性升级。根据可灵官方发布说明,3.0系列在统一模型架构下实现了视频生成、图像生成及视频编辑能力的协同优化,进一步提升了内容生成的稳定性与可操作性。2026年2月6日,字节跳动正式发布新一代视频生成模型Seedance2.0。Seedance2.0在基础层面显著增强,物理规律更合理、动作表现
6、更自然流畅、指令理解更精准、风格保持更稳定。26年2月10日,字节与阿里同步更新图像生成基模。字节发布图像生成模型Seedream5.0。Capcut的官宣推文里提到,Seedream5.0可与NanoBananaPro对标,且更便宜。阿里发布新一代图像生成及编辑模型Qwen-Image-2.0,集生图和编辑于一体。全球多模态模型竞争激烈;2月国内厂商多模态模型更新频出,有望看到排名提升。截至26年2月11日,根据ArtificialAnalysis模型排名,文生图和文生视频模型的排名前列被谷歌和OpenAI占据。随着国内厂商新版本多模态模型发布,我们看到其在物理模拟真实度、视频连贯性及图生视