Agent时代下的全局KVCache管理架构演进-王悉宇.pdf-三个皮匠报告

1、王悉宇阿里云智能集团技术专家阿里云Tair KVCache Manager 负责人阿里云数据库 Tair KVCacheTair KVCache是阿里云数据库Tair团队面向大模型推理场景推出的KVCache缓存服务。依托Tair在内存缓存和存储领域的深厚积累，积极服务LLM Infra场景，携手SGLang、Mooncake等开源社区共同推动KVCache相关技术发展和落地，提供企业级KVCache解决方案。当前工作方向包括：开源推理引擎KVCache相关、全局KVCache缓存服务、KVCache相关算法研究等同时持续与相关团队合作开展：算力&KVCache联合性能建模、KVCache存储

2、系统研究、Attention相关算法研究等工作团队积极参与SGLang开源建设，参与贡献了HiCache HF3FS、Hybrid Attention KVCache、SparseAttention KVCache、MemCache V2等重要功能，团队当前有多名SGLang Core Developer。全局全局KVCacheKVCache管管理架构演进理架构演进03.03.前前AgentAgent时代的时代的KVCacheKVCache全局管理全局管理01.01.AgentAgent兴起带来兴起带来的新挑战的新挑战02.02.TairTair KVCMKVCM x xMooncakeMoo

3、ncake介绍介绍04.04.输入文档长文档分析长文档分析解决方案解决方案多轮对话多轮对话KVCache管理工作集中于长上下文场景，有以下几类典型场景：统一SystemPromptSystemSystem PromptPrompt复用复用KVCacheKVCache亲和性调度亲和性调度分层存储分层存储不同的用户输入轮次1轮次2轮次DRAM/HBMHiCache调度器SGLSGLSGLKVCache1KVCache2KVCache3KVCache4ModelGateway会话轮数和持续时间增加并发会话数提升会话模式差异扩大短时间低轮次-数十分钟数十轮Agent 会话贯穿任务全生命周期调度对象从请

4、求变为会话亲和性调度难度大幅提升 Prefill算力非线性增长核心问题：算力资源与KVCache存储的过紧耦合高延迟工具和复杂 MCP 广泛集成推理时间占比下降需要更多并发会话保障推理利用率行为特征五花八门的各种Agent固定的算力&KVCache存储配比模型单机Prefill KVCache 写带宽需求20GB/s下64K上下文读取耗时推理机型DeepSeek-V3/R12.79GB/s0.21sH800*8Qwen3-Coder-480B3.55GB/s0.76sH20*8结论：高性能网络使得计算资源与KVCache解耦成为可能新的查询语义和存储模式元数据性能压力分布式存储系统的复杂性

5、前缀依赖（AC,BC）反向滑动窗口（SWA、Linear)TP、PP切分KVCache 构建专注于LLM语义的适配层对上原生LLM语义接口对下遵循存储系统接口提供存储可以利用的信息短期：快速复用已有系统长期：明确需求、加快演进、透明替换协助专用存储系统设计（block_size=64）64K Token=1K Block百TB x PB存储=亿级Block存量业务场景要求接口通用性存储系统固有的高可用高可靠要求KVCache需求迫切百TBPB级KVCache池百卡千卡推理大规模部署需要企业级能力针对性补充能力模型上线模型上线模型在线服务模型在线服务 ROI评估容量估算 K

6、VCache隔离柔性容量转移可观测持续优化存储容量高可用、高可靠模型下线模型下线 Tair KVCM能力：中心化全局元数据管理推理&存储接口解耦兼容多种推理引擎和存储丰富的企业级能力支持缓存模拟和优化原生支持Mooncake：高性能分布式内存池Mooncake Store实现解耦部署Tair KVCache Manager推理服务HF3FS Cluster高带宽网络读写KVCacheCreate&DeleteTRT-LLM传输KVCache存储位置存储集群HTTPC

Agent时代下的全局KVCache管理架构演进-王悉宇.pdf

相关报告