05-chao-yue-wang-guan-ji-yu-gateway-api-inference-extension-de-tui-li-liu-liang-kong-zhi-shi-jian-ding-fei-qiu-mu-yang-.pptx

编号:1035858 PPTX 40页 41.41MB 下载积分:VIP专享
下载报告请您先登录!

1、超越网关基于 Gateway API Inference Extension 的推理流量控制实践,丁飞 邱沐阳,蚂蚁集团数字科技2025-11-15,丁 飞蚂蚁集团数字科技“算力云”训推一体平台负责人AI Infra、PaaS、服务网格、中间件、内存数据库,邱沐阳蚂蚁集团数字科技“算力云”训推一体平台研发工程师AI Infra、PaaS,让金融 AI 创新从构想到落地的最后一公里触手可及,CONTENT,目录,01,推理服务网关:机遇与挑战,02,Gateway API Inference Extension:从定义到落地,03,成果、局限与愿景,04,QA,01,推理服务网关:机遇与挑战,推

2、理服务网关:机遇与挑战,From API GW to LLM GW,KVCache感知调度,GPU负载感知调度,鉴权,Token运营,降级,Trace,协议转换,熔断,Log,高可用,高并发,低延迟,服务发现,金丝雀,会话保持/中止,LB,业务发展,能力复用,生产稳定,适配灵活,方案统一,推理服务网关:机遇与挑战,From API GW to LLM GW,业务发展,能力复用,生产稳定,适配灵活,方案统一,旁路扩展,插件机制,标准协议,研发框架,Gateway APIInference Extension,02,Gateway API Inference Extension:从 定义 到 落地

3、,02,定义,“Gateway API Inference Extension 是对标准 Gateway API的一组增强扩展,旨在将现代 AI 推理工作负载的特性深度融入服务网关的流量管理能力中。它引入了面向大模型服务的关键语义支持,并利用 Envoy 的外部处理机制(External Processing),使得任何同时支持 ext-proc 和 Gateway API 的网关,均可被扩展为具备推理感知能力的推理网关”,Gateway API Inference Extension:从定义到落地,什么是 Gateway API Inference Extension(GIE),Gatewa

4、y API Inference Extension:从定义到落地,什么是 Gateway API Inference Extension(GIE),推理网关,Gateway API,Inference Extension new,网关,扩展组件new,ext-proc,=,模型路由,服务优先级,灰度发布,请求调度,负载均衡,Gateway API Inference Extension:从定义到落地,a)定义:InferencePool&InferenceObjective,InferencePool在哪选:框定Pod选择范围谁来选:指定端点选择器,InferenceObjective(opt

5、.)怎么选:约定服务目标,Gateway API Inference Extension:从定义到落地,b)实现:EndPointPicker,一个 可扩展的研发框架一组 开箱即用的能力插件得到 推理服务流量控制能力增强,Gateway API Inference Extension:从定义到落地,Eg.Request flow(by llm-d),02,落地,Gateway API Inference Extension:从定义到落地,挑战,Gateway API Inference Extension:从定义到落地,挑战,如何替换以微服务框架/Service Mesh为核心的服务发现机制,

6、并完成对各类网关的服务注册,云原生,插件机制,Gateway API Inference Extension:从定义到落地,服务发现,ModelDeployment,watch,reconcile,Deployoperator,Modeloperator,Rolloutoperator,Adaptoroperator,Serviceoperator,Gateway,InferencePool,apply,publish,Gateway API Inference Extension:从定义到落地,服务发现,Service operator,Gateway extension layer,Wor

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(05-chao-yue-wang-guan-ji-yu-gateway-api-inference-extension-de-tui-li-liu-liang-kong-zhi-shi-jian-ding-fei-qiu-mu-yang-.pptx)为本站 (data) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠