1、超越网关基于 Gateway API Inference Extension 的推理流量控制实践,丁飞 邱沐阳,蚂蚁集团数字科技2025-11-15,丁 飞蚂蚁集团数字科技“算力云”训推一体平台负责人AI Infra、PaaS、服务网格、中间件、内存数据库,邱沐阳蚂蚁集团数字科技“算力云”训推一体平台研发工程师AI Infra、PaaS,让金融 AI 创新从构想到落地的最后一公里触手可及,CONTENT,目录,01,推理服务网关:机遇与挑战,02,Gateway API Inference Extension:从定义到落地,03,成果、局限与愿景,04,QA,01,推理服务网关:机遇与挑战,推
2、理服务网关:机遇与挑战,From API GW to LLM GW,KVCache感知调度,GPU负载感知调度,鉴权,Token运营,降级,Trace,协议转换,熔断,Log,高可用,高并发,低延迟,服务发现,金丝雀,会话保持/中止,LB,业务发展,能力复用,生产稳定,适配灵活,方案统一,推理服务网关:机遇与挑战,From API GW to LLM GW,业务发展,能力复用,生产稳定,适配灵活,方案统一,旁路扩展,插件机制,标准协议,研发框架,Gateway APIInference Extension,02,Gateway API Inference Extension:从 定义 到 落地
3、,02,定义,“Gateway API Inference Extension 是对标准 Gateway API的一组增强扩展,旨在将现代 AI 推理工作负载的特性深度融入服务网关的流量管理能力中。它引入了面向大模型服务的关键语义支持,并利用 Envoy 的外部处理机制(External Processing),使得任何同时支持 ext-proc 和 Gateway API 的网关,均可被扩展为具备推理感知能力的推理网关”,Gateway API Inference Extension:从定义到落地,什么是 Gateway API Inference Extension(GIE),Gatewa
4、y API Inference Extension:从定义到落地,什么是 Gateway API Inference Extension(GIE),推理网关,Gateway API,Inference Extension new,网关,扩展组件new,ext-proc,=,模型路由,服务优先级,灰度发布,请求调度,负载均衡,Gateway API Inference Extension:从定义到落地,a)定义:InferencePool&InferenceObjective,InferencePool在哪选:框定Pod选择范围谁来选:指定端点选择器,InferenceObjective(opt
5、.)怎么选:约定服务目标,Gateway API Inference Extension:从定义到落地,b)实现:EndPointPicker,一个 可扩展的研发框架一组 开箱即用的能力插件得到 推理服务流量控制能力增强,Gateway API Inference Extension:从定义到落地,Eg.Request flow(by llm-d),02,落地,Gateway API Inference Extension:从定义到落地,挑战,Gateway API Inference Extension:从定义到落地,挑战,如何替换以微服务框架/Service Mesh为核心的服务发现机制,
6、并完成对各类网关的服务注册,云原生,插件机制,Gateway API Inference Extension:从定义到落地,服务发现,ModelDeployment,watch,reconcile,Deployoperator,Modeloperator,Rolloutoperator,Adaptoroperator,Serviceoperator,Gateway,InferencePool,apply,publish,Gateway API Inference Extension:从定义到落地,服务发现,Service operator,Gateway extension layer,Wor