《吴杰-从烟囱到积木:基于 openYuanrong 的 AI Infra 实践.pdf》由会员分享,可在线阅读,更多相关《吴杰-从烟囱到积木:基于 openYuanrong 的 AI Infra 实践.pdf(40页珍藏版)》请在三个皮匠报告上搜索。
1、从烟囱到积木:基于openYuanrong的AI Infra实践吴杰华为 系统软件架构师目录0102Agentic AI负载对分布式系统带来的变化和挑战openYuanrong Serverless分布式计算引擎简介03openYuanrong面向Agentic AI负载的关键技术实践Agent服务的变化:从毫秒级的无状态请求到小时级的有状态session微服务实例微服务实例微服务网关请求1请求2请求3请求1请求2请求3Agent实例Agent实例Agent网关请求1请求2请求1请求1请求2Session 1请求1请求2Session 2请求2Session 1状态Session 2状态ses
2、sion状态:1.历史上下文2.内部任务状态3.Session路由Agent服务的挑战:提升长程session并发度和资源利用率Agent实例(忙)Agent实例(闲)Agent网关Session状态Session 状态Session路由Session状态Session 状态问题1.固定session并发数导致负载不均衡等待LLM推理Agent执行等待工具调用Session运行时间占比LLM推理Agent执行工具执行10%15%10%15%20%40%20%40%40%60%40%60%问题2.session运行过程中的线程cpu负载低沙箱系统的挑战:启动+回收速度提升一个数量级以上装载动态生
3、成代码的一次性沙箱,快速启动装载动态生成代码的一次性沙箱,快速启动+快速回收快速回收沙箱池Serverless计算平台沙箱LLM生成代码Agent“用后即焚”快速启动快速回收图片来源:https:/ AgentAI Agent基础设施基础设施provision(resources)execute(name,input)-String大模型推理服务:回顾分布式KV cache系统分离式推理架构下的分离式推理架构下的KV cacheKV cache点对点异步传输点对点异步传输历史缓存加速历史缓存加速Prefill实例Prefill实例Prefill实例Decode实例Decode实例Prefill
4、实例Prefill实例Prefill实例Decode实例Decode实例分布式KV cacheputputputgetgetP/D模型实例之间无法基于同步集合通信编程协调KV cache传输分布式KV cache提供异步的put/get接口实现KV cache传输分布式KV cache大模型推理服务集群DDR+SSD请求1请求2分布式KV cache池化管理集群存储介质实现历史缓存加速分布式KV cache的变化:从全局前缀共享到会话间时分共享Agent 1Agent 1第i轮推理工具执行第i+1轮推理工具执行Agent 2Agent 2工具执行第i轮推理工具执行第i+1轮推理NPU 1NPU
5、 1分布式缓存DDR+SSDAgent1推理Agent2推理Agent1推理Agent2推理Agent-1Agent-1推理历史缓存Agent-2Agent-2推理历史缓存Agent nAgent nNPU nNPU n基于前缀树全局管理基于前缀树全局管理不同请求的历史不同请求的历史KV cacheKV cacheAgentAgent会话内共享历史会话内共享历史KV cacheKV cache,会话间不共享,会话间不共享图片引用 https:/arxiv.org/abs/2312.07104强化学习推动AI Infra控制面的架构演进,Ray/openYuanrong等分布式框架成为基础组件O
6、penStack(资源平面)应用Kubernetes(微服务控制面+资源平面)微服务框架(微服务数据面)Kubernetes(AI InfraAI Infra控制面控制面+资源平面资源平面)AI框架(AI InfraAI Infra数据面数据面)AI推理服务Multi Controller AI训练Kubernetes(细粒度的异构资源平面细粒度的异构资源平面)强化学习Single ControllerAI框架(AI InfraAI Infra数据面)数据面)Ray/Monarch/Pathways/openYuanrong(AI InfraAI Infra控制面)控制面)容器即微服务容器即微