当前位置:首页 > 报告详情

Agent时代下的全局KVCache管理架构演进-王悉宇.pdf

上传人: 表表 编号:1152892 2026-02-14 17页 2.24MB

1、王悉宇阿里云智能集团技术专家阿里云Tair KVCache Manager 负责人阿里云数据库 Tair KVCacheTair KVCache是阿里云数据库Tair团队面向大模型推理场景推出的KVCache缓存服务。依托Tair在内存缓存和存储领域的深厚积累,积极服务LLM Infra场景,携手SGLang、Mooncake等开源社区共同推动KVCache相关技术发展和落地,提供企业级KVCache解决方案。当前工作方向包括:开源推理引擎KVCache相关、全局KVCache缓存服务、KVCache相关算法研究等同时持续与相关团队合作开展:算力&KVCache联合性能建模、KVCache存储

2、系统研究、Attention相关算法研究等工作团队积极参与SGLang开源建设,参与贡献了HiCache HF3FS、Hybrid Attention KVCache、SparseAttention KVCache、MemCache V2等重要功能,团队当前有多名SGLang Core Developer。全局全局KVCacheKVCache管管理架构演进理架构演进03.03.前前AgentAgent时代的时代的KVCacheKVCache全局管理全局管理01.01.AgentAgent兴起带来兴起带来的新挑战的新挑战02.02.TairTair KVCMKVCM x xMooncakeMoo

3、ncake介绍介绍04.04.输入文档长文档分析长文档分析解决方案解决方案多轮对话多轮对话KVCache管理工作集中于长上下文场景,有以下几类典型场景:统一SystemPromptSystemSystem PromptPrompt复用复用KVCacheKVCache亲和性调度亲和性调度分层存储分层存储不同的用户输入轮次1轮次2轮次DRAM/HBMHiCache调度器SGLSGLSGLKVCache1KVCache2KVCache3KVCache4ModelGateway会话轮数和持续时间增加并发会话数提升会话模式差异扩大短时间低轮次-数十分钟数十轮Agent 会话贯穿任务全生命周期调度对象从请

4、求变为会话 亲和性调度难度大幅提升 Prefill算力非线性增长 核心问题:算力资源与KVCache存储的过紧耦合高延迟工具和复杂 MCP 广泛集成推理时间占比下降需要更多并发会话保障推理利用率行为特征五花八门的各种Agent固定的算力&KVCache存储配比模型单机Prefill KVCache 写带宽需求20GB/s下64K上下文读取耗时推理机型DeepSeek-V3/R12.79GB/s0.21sH800*8Qwen3-Coder-480B3.55GB/s0.76sH20*8结论:高性能网络使得计算资源与KVCache解耦成为可能新的查询语义和存储模式元数据性能压力分布式存储系统的复杂性

5、前缀依赖(AC,BC)反向滑动窗口(SWA、Linear)TP、PP切分KVCache 构建专注于LLM语义的适配层 对上原生LLM语义接口 对下遵循存储系统接口 提供存储可以利用的信息 短期:快速复用已有系统 长期:明确需求、加快演进、透明替换 协助专用存储系统设计(block_size=64)64K Token=1K Block百TB x PB存储=亿级Block存量业务场景要求接口通用性存储系统固有的高可用高可靠要求KVCache需求迫切 百TBPB级KVCache池 百卡千卡推理 大规模部署需要企业级能力 针对性补充能力模型上线模型上线模型在线服务模型在线服务 ROI评估 容量估算 K

6、VCache隔离 柔性容量转移 可观测 持续优化存储容量 高可用、高可靠模型下线模型下线 Tair KVCM能力:中心化全局元数据管理推理&存储接口解耦兼容多种推理引擎和存储丰富的企业级能力支持缓存模拟和优化 原生支持Mooncake:高性能分布式内存池Mooncake Store实现解耦部署Tair KVCache Manager推理服务HF3FS Cluster高带宽网络读写KVCacheCreate&DeleteTRT-LLM传输KVCache存储位置存储集群HTTPC

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **定位与方向**:阿里云Tair KVCache是面向大模型推理的KVCache缓存服务,聚焦开源推理引擎、全局缓存服务、算法研究及算力联合建模等。 2. **核心挑战**:Agent时代需解决亲和性调度难、Prefill算力非线性增长、算力与存储紧耦合问题,高性能网络推动解耦可能。 3. **技术方案**:构建LLM语义适配层,兼容多种推理引擎与存储;支持百TB~PB级缓存池,提供高可用、隔离、柔性容量转移等企业级能力。 4. **性能数据**:DeepSeek-V3/R1(64K上下文读取耗时0.21s,写带宽2.79GB/s);Qwen3-Coder-480B(0.76s,3.55GB/s)。 5. **开源与架构**:代码已开源(GitHub:alibaba/tair-kvcache),架构包括MetaIndexer、StorageManager等模块,支持Mooncake等存储系统。
**KVCache解耦?** **Agent挑战?** **企业级方案?**
客服
商务合作
小程序
服务号
折叠