08-aigw-tui-li-fu-wu-zhi-neng-shu-niu-de-xian-zhuang-yu-wei-lai-zhu-de-jiang-.pptx

编号:1035848 PPTX 25页 5.83MB 下载积分:VIP专享
下载报告请您先登录!

1、AIGW-推理服务智能枢纽的现状与未来,Mooncake 核心成员、Envoy Golang Maintainer,2025/11/15,蚂蚁集团/朱德江,CONTENT,目录,01,推理场景对网关的挑战,02,AIGW 技术方案选型,03,AIGW 未来发展规划,AIGW 推理服务智能枢纽,降低时延提升吞吐,智能路由过载保护多租 QoS自动故障转移,流量特征差异:长连接(单请求可能几十分钟)流式输出 token,挑战:推理服务 vs 常规服务,计算负载差异:负载均衡限流,业务要求:TTFTTPOT,稳定性要求:时延 SLO每请求排查,挑战:计算负载与请求量是非线性关系,计算量大、单点并发小请

2、求 input/output 变化很大、负载波动大prefix 语义 cache 复用,from blog of llm-d,挑战:传统经典算法不再适用,线上流量使用 Round-robin 策略回放,请求数和 Token 用量都很不均衡,计算负载:Prefill vs Decode,https:/arxiv.org/abs/2407.00079,Prefill计算 bound无并发能力(几乎)Decode组 batch小并发,计算负载:Attention vs FFN,https:/arxiv.org/html/2507.19427v1,Attention计算、访存:context leng

3、th 正相关FFN计算:Batch-size 正相关访存:基本固定,智能路由本质:request-token 调度协同优化,Request 粒度,Token 粒度,组 batch充分利用硬件资源,时延吞吐,CONTENT,目录,01,推理场景对网关的挑战,02,AIGW 技术方案选型,03,AIGW 未来发展规划,AIGW 技术架构,亮点:灵活&强大的 Golang 扩展准实时指标采集机制均衡的负载均衡策略高可用架构,亮点一:Envoy Golang 扩展机制,https:/www.envoyproxy.io/docs/envoy/latest/configuration/http/http_

4、filters/golang_filter,同进程内:Golang 代码编译为 so 文件,由 Envoy 动态加载,运行在同一个进程内全功能的 Golang 语言支持(不限制 tinygo)完善&强大的请求控制:LB 策略&请求流程控制易于维护高性能:同进程内的,对比:ext-proc 扩展机制,通过 gRPC 与外部进程通讯,多一跳网络时延多一个维护组件,亮点二:准实时指标采集机制,指标(per Instance):Prefill 请求数Prefill Prompt 长度总请求数Total Token Number(WIP),实现机制:计数器协议感知(prompt)基于灵活的 Golang

5、 扩展机制,对比:周期性从引擎采集 Metrics 指标,时效性差,容易导致出现导致更新周期内,选择同样的节点,劣势:时效性差多引擎适配成本周期性采集成本对引擎的开销,近似 cache-aware:全局近似前缀树,AIGW:Prompt 文本切成 chunk,计算 hashMetadata-center:全局索引匹配=不同引擎上匹配的长度近似:文本=token近似 GC=LRU 淘汰,目标:尽可能命中引擎侧 prefix KVCache 本地存储引擎:本地 Radix Tree:索引本地 KVCache,亮点三:多因子综合权重决策算法,score=W1*cache_ratio-W2*reque

6、st_load-W3*prefill_loadcache_ratio:prefix cache 命中率request_load:请求队列数prefill_load:处于 prefill 阶段的 prompt 长度,过滤(Lora、灰度 等匹配)每引擎节点计算得分排序 topK+选择一个,线上优化效果,KVCache 命中率提升一倍TTFT 平均值降低 50%TTFT 长尾:数量级降低,亮点四:高可用架构设计,非强一致设计:最终一致性哈希:同一模型集群固定一个主节点异步广播事件

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(08-aigw-tui-li-fu-wu-zhi-neng-shu-niu-de-xian-zhuang-yu-wei-lai-zhu-de-jiang-.pptx)为本站 (data) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠