当前位置:首页 > 报告详情

02-ma-yi-ji-tuan-da-gui-mo-kubernetes-fu-wu-zai-shu-zhi-shi-dai-de-tu-po-yu-zhong-gou-tan-chong-kang-.pptx

上传人: d*** 编号:1035846 2026-01-04 24页 15.32MB

1、蚂蚁大规模Kubernetes服务在数智时代的突破与重构,蚂蚁集团高级技术专家,2025/11/15,谭崇康(见云),谭崇康(见云)蚂蚁集团高级技术专家,个人简介:蚂蚁集团容器平台团队,负责容器实例与Kubernetes服务,主导了蚂蚁大规模Kubernetes集群架构设计,在云原生及基础计算平台领域有丰富的工作经验。,形象照,CONTENT,目录,01,在数智快车上,K8s承担什么角色,02,数智应用的K8s服务需要满足什么特性,03,怎样建设一个与之匹配的K8s服务,04,一些实践经验,几个不惊讶但依旧激动人心的数据,数智应用飞速发展,K8s是其中的重要组成部分,https:/,1509/

2、3755,智能应用在飞速发展截止2025年7月,已发布大模型数量,https:/,从常用的AI应用框架,我们能看到什么,AI应用框架如何与K8s交互,框架,Operator,+,研发这些AI框架Operator的工程师真的非常了解如何面向Kubernetes的编程吗?,一些“哭笑不得”的设计和使用问题,Kubernetes远不是一个0成本使用的服务,1 API限流及返回失败容忍2 不合适的请求模式导致请求延迟长3 资源数量/大小超出集群限制,导致服务无法正常工作4 针对证书权限等缺乏持续的观测运维能力,导致证书过期等异常,1 不合适的编码模式造成性能退化2 不合适的选主配置导致丢主频繁3 遇到

3、故障机导致不能处理时间4 性能问题导致消息处理延迟5 不合适的处理逻辑阻塞处理线程6 缺乏分片机制导致资源占用大FO困难7 缺乏计算索引导致处理性能低等等,1 缺乏错误处理逻辑,导致业务逻辑处理异常2 非面向终态设计,导致在特性逻辑下丢失消息,影响业务逻辑正确性3 业务处理逻辑性能差,处理线程配置不合理,导致持续性队列增长4 缺乏对多级缓存的时延处理及校验机制,导致业务处理逻辑异常,图片由AI生成,基础设施如何让这辆赛车更富竞争力,建设更加适合数智应用执行的Kubernetes服务,Meta宣称在训练OPT-175B模型的在两个星期的时间段内因为硬件、基础设施或实验稳定性问题而重新启动了35次

4、。在开放的日志中也可以看到,几乎整个训练过程都要面对不停地重启和中断。,https:/arxiv.org/pdf/2205.01068,为数智应用这些赛车们做好 基建和轮胎,CONTENT,目录,01,在数智快车上,K8s承担什么角色,02,数智应用的K8s服务需要满足什么特性,03,怎样建设一个与之匹配的K8s服务,04,一些实践经验,大一些,再大一些!规模是由哪些因素决定的?,卡+应用规模+效率竞争影响集群规模,模型竞速,算力供应,图片由AI生成,稳,再稳一些,别添乱,一些被热烈讨论的友商故障,为赛车搭配合适的基建和轮胎,做好一个匹配智算应用计算需求的Kubernetes服务,抓地力,排水

5、性,强度,温度,弹性,成功率,诊断自愈,资源供应,其他,图片由AI生成,重量,阻力,均衡性,其他,规模,性能,CONTENT,目录,01,在数智快车上,K8s承担什么角色,02,数智应用的K8s服务需要满足什么特性,03,怎样建设一个与之匹配的K8s服务,04,一些实践经验,怎样让大规模集群“稳”:可以是大象,但是不能臃肿,稳定=规范管控+合理的饱和度+故障自愈,-规范管控-KoM架构、多维度精细化限流-统一接入标准化管控-合理的系统饱和度-内存降低50%,CPU降低30%,ETCD存储水位降低20%-请求吞吐提升 40%-完善的自愈能力-Controller自愈,节点自愈,KCS(K8sCo

6、ntrollerStack)让Controller编程更简单,WarmCache、长尾请求管理、主动感知故障/主动自愈、观测诊断等技术-切主耗时 10min-10sWatch延迟 P99 1s请求成功率 99.9%,怎样让大规模集群“稳”:服务托管,KCS ControllerRuntime版本,应用Cell化管理,应用独立执行互不干扰,怎样让大规模集群“稳”:独立执行环境,ApiResourceLimiter:对ApiServer的API请求Quota,包含用户请求以及系统为用户提供服务发起的请求。Resourc

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
客服
商务合作
小程序
服务号
折叠