1、当代模型(包括开源与闭源)正快速向 多模态(Multi-modal)和 Omni 方向发展Omni 模型拥有 多种输入(文字/图像/视频/音频)与输出组合Gemini、Qwen-Omni 等模型具备更复杂的数据流与互联结构传统 LLM 架构设计不能直接处理这种 复杂且多路径的数据流什么是 Omni 模型Omni 模型同时涉及多个子模块,例如:文本编码器视觉编码器思考(Thinker)模块生成(Talker)模块解码器(Codec Decoder)等比较传统 LLM/VLM,它不仅是单一路径输入输出结果:模型内部涉及更多组件、更复杂数据路径设计考虑阶段放置是否将所有组件放到同一个进程是否要做到组
2、件拆分如何支持灵活的部署和副本扩展数据流控制Omni 模型的数据路径大幅增加调度与排队机器需要对应的高通用型调度策略组件拆分策略Inter-Disaggregation:将各组件拆分为独立进程,每个进程拥有自己的调度与执行逻辑Intra-Disaggregation:在同一阶段内部进一步细粒度拆分,比如PD Disaggregation多路径调度(Multi-Path)根据输出路径类型分类调度例如提前结束(Early End)循环流程(Cyclic Flow)多重接收路径(Multiple Receivers)多实例负载平衡不同阶段的执行时间不同最慢阶段可能成为整体吞吐瓶颈方案:使用 SGLang Router 进行负载均衡与策略调度灵活性原则由于 Omni 模型架构仍在快速演进设计必须支持用户以可配置方式指定数据流与部署模式SGLang Omni 设计提出了一个更通用的架构应对全模态模型强调模块分离、灵活部署与复杂数据路径控制兼顾性能、可扩展性与可配置性后续方向细化 API 设计实现对应的调度与路由模块验证典型 Omni 模型性能表现https:/