从 EPD 到 SGLang-Omni:图像密集场景推理加速实践与下一代全模态推理架构演进-陆扬.pdf

编号:1152890 PDF 6页 923.28KB 下载积分:VIP专享
下载报告请您先登录!

1、当代模型(包括开源与闭源)正快速向 多模态(Multi-modal)和 Omni 方向发展Omni 模型拥有 多种输入(文字/图像/视频/音频)与输出组合Gemini、Qwen-Omni 等模型具备更复杂的数据流与互联结构传统 LLM 架构设计不能直接处理这种 复杂且多路径的数据流什么是 Omni 模型Omni 模型同时涉及多个子模块,例如:文本编码器视觉编码器思考(Thinker)模块生成(Talker)模块解码器(Codec Decoder)等比较传统 LLM/VLM,它不仅是单一路径输入输出结果:模型内部涉及更多组件、更复杂数据路径设计考虑阶段放置是否将所有组件放到同一个进程是否要做到组

2、件拆分如何支持灵活的部署和副本扩展数据流控制Omni 模型的数据路径大幅增加调度与排队机器需要对应的高通用型调度策略组件拆分策略Inter-Disaggregation:将各组件拆分为独立进程,每个进程拥有自己的调度与执行逻辑Intra-Disaggregation:在同一阶段内部进一步细粒度拆分,比如PD Disaggregation多路径调度(Multi-Path)根据输出路径类型分类调度例如提前结束(Early End)循环流程(Cyclic Flow)多重接收路径(Multiple Receivers)多实例负载平衡不同阶段的执行时间不同最慢阶段可能成为整体吞吐瓶颈方案:使用 SGLang Router 进行负载均衡与策略调度灵活性原则由于 Omni 模型架构仍在快速演进设计必须支持用户以可配置方式指定数据流与部署模式SGLang Omni 设计提出了一个更通用的架构应对全模态模型强调模块分离、灵活部署与复杂数据路径控制兼顾性能、可扩展性与可配置性后续方向细化 API 设计实现对应的调度与路由模块验证典型 Omni 模型性能表现https:/

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(从 EPD 到 SGLang-Omni:图像密集场景推理加速实践与下一代全模态推理架构演进-陆扬.pdf)为本站 (表表) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠