《From Computer Use to Datacenter Use for AI.pdf》由会员分享,可在线阅读,更多相关《From Computer Use to Datacenter Use for AI.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、From Computer Use to Datacenter Use for AI演讲者谈鉴锋 蚂蚁集团操作系统研发经理周天昱 蚂蚁集团高级开发工程师目录010203040605引言:AI 开发者被基础设施劝退AKernel 架构:Monorepo+AI 辅助的工程实践开发者体验:像调用本地函数一样使用数据中心一站式部署:一键从零到多云Agent 时代三大技术支柱实践验证与总结展望AI 开发者正在被基础设施劝退引言模型能力模型能力基础设施基础设施开发者体验开发者体验模型能力日趋强大大模型推理与 Agent 能力持续突破Computer Use 已经实现Datacenter Use 才是 AI
2、 基础设施的终局基础设施使用门槛居高不下从资源接入、调度器、网络配置到监控体系无论个人还是企业,都不可避免陷入Build Your Own Cluster泥潭开发者体验严重滞后依赖冲突、部署复杂、运维繁重团队间重复造轮子AI 原生基础设施的三大挑战All powered by AI,从研发到部署,再到监控和问题排查。AI Native DevOps从 single server 到公有云,一键部署Deploy anywhere面向 agent 生态设计,可拓展Friendly SDK/CLICheckpoint/restore,镜像加速,分布式数据存储Advanced FeatureAData
3、center UseFDAAKernel 的回答Monorepo+AI-poweredAKernel 架构AKernel Develop统一代码库(Monorepo)+14 个 Git Submodule从沙箱运行时、资源管理、网络到 SDK 与调度,全栈组件集中管理通过 submodule 锁定外部依赖版本,消除分布式多仓库的版本矩阵爆炸问题AI 辅助开发:=3 人全栈团队80%代码由 AI 辅助生成,覆盖 Go/Rust/Python/C+多语言栈无传统的需求/研发/测试/运维分工,一人端到端负责,打破基础设施必须大团队的固有认知AKernel on Public Cloud像调用本地函数
4、一样使用数据中心开发者体验Sandbox/FaaS/Spark/.Sandbox SDKfrom akernel_sdk import Sandboxwith Sandbox(cpu=2000,memory=4096)as sb:mands.run(python train.py)自定义镜像 checkpoint/restore 双向代理(本地 to sandbox,sandbox to 本地)多种可选的 sandbox 运行时(gvisor,firecracker 等)基于开源标准方案的监控体系(metric/log/trace)实时资源监控Sandbox 创建链路 traceTerrafo
5、rm 一键从零到多云一站式部署一站式部署:Terraform+Helm,10 分钟就绪多云 Terraform 模块化部署已支持阿里云 ACK 与华为云 CCE 仓库内置 Skill,claude code 自动部署Helm 自动编排核心组件所有集群组件 Helm Chart 一键部署极简运维闭环ak CLI:list/delete/exec/.Grafana 仪表盘与日志自动生成,开箱即用Agent 时代的核心基础设施能力三大技术支柱1核心运行时(C+/Python/Go)+函数系统+数据系统,协同构成完整分布式执行引擎2数据系统提供高性能分布式缓存,支持跨节点、跨资源类型的高效数据流动3R
6、L 训练数据高效流通Agent 多实例间状态共享Spark 分布式计算openYuanrong 分布式调度与数据系统极致冷启动:AFaaS 安全沙箱(OSDI25)性能指标10ms 节点侧冷启动,40ms 端到端延迟相较传统容器方案(秒级启动)提升 2 个数量级技术实现nanovisor(gVisor)forkdistill-fs(Rust FUSE)镜像按需懒加载Dragonfly P2P 加速镜像分发核心应用场景Agent Sandbox 高并发冷启动(蒸馏、RL、评测、