《客户实践:Kimi万亿参数大模型的全球云网架构演进之路.pdf》由会员分享,可在线阅读,更多相关《客户实践:Kimi万亿参数大模型的全球云网架构演进之路.pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、AI 无界,Kimi 万亿参数大模型的全球云网架构演进之路Kimi 全球训推网络用云实践分享月之暗面 高级工程师裴丰硕AI Without Borders:The Global Cloud Network Architecture Evolution Path of Kimis Trillion-Parameter LLMCONTENT目录01020304Kimi 业务发展历程AI Infra 之网络Kimi 网络实践未来演进思考Kimis Business Development HistoryAI Infra:NetworkingKimi Networking PracticesFutur
2、e Evolution and Thinking202320252024KIMI 业务发展历程Kimi K2 取得开源模型中的 SOTA 成绩,展现出在代码、Agent等任务上的领先能力。第一个agent原生的通用模型。截止7月17号,在斯坦福大学和 LMSYS 团队组织的大模型公开竞技平台 LMArena 上,Kimi K2 位列开源模型的第一位,总体排名第五(前四均为闭源模型)。Kimi K2:全球领先的开源基础模型23 轮推理轮次74 个Search关键词数量206 个 搜索的 URL 数量10,000 生成报告字数11.6 次 Browser工具使用次数End-to-End RL端到端
3、强化学习Tool Use:Search、Browse、Code、Write工具使用:搜索、浏览、编程、写作 Kimi深度研究:模型即 AgentAI 业务系统中网络特点为什么需要注重网络的设计?海量数据海量算力多业务混跑数据集:TB-PB数据流动:高频、大规模CPU通算-GPU智算万卡、10万卡规模业务类型多:训练、推理、在线服务;数量流向复杂;网络是连接数据和算力的核心底座,一张好的网络,可以帮助我们更好的提升模型训练的效率关键衡量指标:规模、稳定性、即时弹性、路由策略丰富度、流量可视算力整合(四通八达的路网系统)易构、异地算力整合数据传输(公路质量高,车道多)高带宽、低时延的传输数据流量调
4、度(交通指挥系统)有规则、有优先级、有序网络用途分析公有云基础设施AI 任务调度、训练推理框架、监控系统大模型训练大模型推理大模型应用AI 系统概览GPU 算力、通信、高性能存储数据准备与预处理模型架构设计与预训练数据准备阶段公开数据集、互联网内容、三方合作数据获取上传依赖 EIP、NAT、OSS、专线、PrivateLink预训练阶段GPU 节点内 NVLink 互联,节点间 RDMA 通信,Checkpoint 存储搬运模型微调与对齐模型评估与部署模型部署阶段镜像传输,模型传输,推理集群分布式推理,模型应用请求推理服务Kimi 模型训推视角看网络架构设计推理场景训练场景基础大模型训练需要的
5、数据是海量的数据集整合-预处理-训练-强化学习等流量需要在多个算力集群 或者 地域之间流转PD 分离推理架构,KV cache 在不同节点池之间同步TTFT 和 TBT,用户推理请求可以在服务入口与推理模型之间快速流动规模优先时延优先训推一体算力集群共享网络底座共享具备端到端QoS能力具备高级路由过滤和隔离能力E2E差分服务带宽足够大弹性足够高成本足够低质量足够高时延足够低具备RDMA能力网络隔离专区专用,不安全的服务单独VPC部署,避免对生产网的安全威胁可观测性容量规划可靠性自动化安全性高可用稳定好用多路径冗余到每个 region 专线至少要有两个,且物理地点不同端到端可视化每条专线上的流量
6、使用率、丢包率全路径可观测,可分析带宽容量灵活调整云内跨区域带宽可灵活调整,关键业务流量优先,保障核心业务 SLASRE 视角下的网络规划指南单条线路故障能自动识别并切换到备用线路故障自愈多入口容灾单入口故障核心业务要有逃生能力自建和用云的权衡自建骨干环网阿里云Region A阿里云Region B数据中心 A数据中心 BA 公共云B 公共云POPPOPPOPPOPPOP建设成本拓扑设计复杂购买设备周期长寻找场地沟通难POP运维成本灵活扩展可靠稳定快速开通即开即用分钟配置专业性要求高改造割接投入大容灾建设复杂广域故障可控性低供应商锁定地点固定变更难文档全面实践积累多上手速度快阿里云兜底SLA有