Agent时代下的全局KVCache管理架构演进-王悉宇.pdf

编号:1152892 PDF 17页 2.24MB 下载积分:VIP专享
下载报告请您先登录!

1、王悉宇阿里云智能集团技术专家阿里云Tair KVCache Manager 负责人阿里云数据库 Tair KVCacheTair KVCache是阿里云数据库Tair团队面向大模型推理场景推出的KVCache缓存服务。依托Tair在内存缓存和存储领域的深厚积累,积极服务LLM Infra场景,携手SGLang、Mooncake等开源社区共同推动KVCache相关技术发展和落地,提供企业级KVCache解决方案。当前工作方向包括:开源推理引擎KVCache相关、全局KVCache缓存服务、KVCache相关算法研究等同时持续与相关团队合作开展:算力&KVCache联合性能建模、KVCache存储

2、系统研究、Attention相关算法研究等工作团队积极参与SGLang开源建设,参与贡献了HiCache HF3FS、Hybrid Attention KVCache、SparseAttention KVCache、MemCache V2等重要功能,团队当前有多名SGLang Core Developer。全局全局KVCacheKVCache管管理架构演进理架构演进03.03.前前AgentAgent时代的时代的KVCacheKVCache全局管理全局管理01.01.AgentAgent兴起带来兴起带来的新挑战的新挑战02.02.TairTair KVCMKVCM x xMooncakeMoo

3、ncake介绍介绍04.04.输入文档长文档分析长文档分析解决方案解决方案多轮对话多轮对话KVCache管理工作集中于长上下文场景,有以下几类典型场景:统一SystemPromptSystemSystem PromptPrompt复用复用KVCacheKVCache亲和性调度亲和性调度分层存储分层存储不同的用户输入轮次1轮次2轮次DRAM/HBMHiCache调度器SGLSGLSGLKVCache1KVCache2KVCache3KVCache4ModelGateway会话轮数和持续时间增加并发会话数提升会话模式差异扩大短时间低轮次-数十分钟数十轮Agent 会话贯穿任务全生命周期调度对象从请

4、求变为会话 亲和性调度难度大幅提升 Prefill算力非线性增长 核心问题:算力资源与KVCache存储的过紧耦合高延迟工具和复杂 MCP 广泛集成推理时间占比下降需要更多并发会话保障推理利用率行为特征五花八门的各种Agent固定的算力&KVCache存储配比模型单机Prefill KVCache 写带宽需求20GB/s下64K上下文读取耗时推理机型DeepSeek-V3/R12.79GB/s0.21sH800*8Qwen3-Coder-480B3.55GB/s0.76sH20*8结论:高性能网络使得计算资源与KVCache解耦成为可能新的查询语义和存储模式元数据性能压力分布式存储系统的复杂性

5、前缀依赖(AC,BC)反向滑动窗口(SWA、Linear)TP、PP切分KVCache 构建专注于LLM语义的适配层 对上原生LLM语义接口 对下遵循存储系统接口 提供存储可以利用的信息 短期:快速复用已有系统 长期:明确需求、加快演进、透明替换 协助专用存储系统设计(block_size=64)64K Token=1K Block百TB x PB存储=亿级Block存量业务场景要求接口通用性存储系统固有的高可用高可靠要求KVCache需求迫切 百TBPB级KVCache池 百卡千卡推理 大规模部署需要企业级能力 针对性补充能力模型上线模型上线模型在线服务模型在线服务 ROI评估 容量估算 K

6、VCache隔离 柔性容量转移 可观测 持续优化存储容量 高可用、高可靠模型下线模型下线 Tair KVCM能力:中心化全局元数据管理推理&存储接口解耦兼容多种推理引擎和存储丰富的企业级能力支持缓存模拟和优化 原生支持Mooncake:高性能分布式内存池Mooncake Store实现解耦部署Tair KVCache Manager推理服务HF3FS Cluster高带宽网络读写KVCacheCreate&DeleteTRT-LLM传输KVCache存储位置存储集群HTTPC

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(Agent时代下的全局KVCache管理架构演进-王悉宇.pdf)为本站 (表表) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠