1、构建 AI 原生调度生态:通过 HAMi 释放异构 AI 算力芯片的推理性能张潇|密瓜智能张潇密瓜智能创始人及CEO拥有10余年云原生、容器、AI Infra领域研发及架构设计经验。曾带领20+研发团队主导DaoCloud容器平台架构设计及技术研发,产品多次入选Gartner容器管理魔力象限。拥有5项以上云计算相关发明专利,研究方向涵盖容器管理、多云、多集群、大规模集群高可用、AI Infra等。目 录CONTENTSI.背景与挑战II.HAMi 应对方式III.适用场景IV.用户案例V.未来展望背景与挑战PART 1GPU 算力供需两端现状 贸易禁令影响,品牌配置杂乱 规模各不相同,难以集中
2、资源 资源使用粗犷,资源利用率低 新兴行业起步,运维人才储备不足 运营缺乏规范,用户成本居高不下 算力中心 多种异构 加速器 管理成本极高供供给端需求端需求端 GPU 资源属于稀缺资源,用户难以获取 推理等碎片化需求凸显,亟需优化资源调度 人工智能行业进入门槛高,缺乏技术指导团队 市场与战略双驱动,多元异构算力成为硬需求以 GPU 为主的异构算力管理痛点无资源池,无整体调度,监控,管理平面资源分散,难以统一管理无法实现资源超分,不能指定任务所需的资源大小和种类。资源分配不灵活无虚拟化&资源池化技术,GPU使用为独占模式。市场方案偏硬件、平台型,不通用,彻底。资源利用率低由于异构算力的利用率低下
3、,所以企业必须加大采购数量才能满足需求,而异构算力本身成本高昂,为企业带来了很大负担。采购大量冗余算力满足业务需求散空重贵AI Infra Landscape异构基础设施 纳管物理机虚拟机边缘私有云公有云混合云异构算力调度GPU池化数据/镜像管理队列系统AI调度拓扑感知job任务编排容错和弹性设备/驱动管理监控和观测异构推理引擎推理编排系统DynamoKV-Cache StoreAI Gateway弹性 HPAPD分离模型训练框架任务编排kueuekubeRay存储对接智普TensorRTHAMi PART 2HAMiHAMi 异构算力调度、管理中间件,超过 15+个国家 350+开发者贡献,
4、200+的企业落地,开源 一年内 即成为 CNCF 基金会 Sandbox 项目 与 CNAI Landscape 项目,唯一关注 AI Infra 与 异构 AI 调度 的开源项目。目前已支持超过 8 款 AI 芯片统一管理、高效调度、动态观测,最大化利用率。HAMi 发展趋势HAMi 主要功能支持多种 GPU 设备,提供统一管理、高效调度能力(NVIDIA、寒武纪、沐曦、天数、摩尔线程、海光、昇腾、燧原、昆仑芯、AWS 推理芯片)弹性、按需、可靠 GPU共享,多个任务可以共享 GPU显存,算力超配任务优先级机制显存自动弹性扩缩容丰富、灵活、特定用户场景的调度策略支持指定设备型号,将任务调度
5、到指定型号的 GPU 卡上支持指定 UUID,将任务调度到指定 UUID 的 GPU 卡上节点&AI 芯片级别的 堆叠和打散调度。BinpackSpreadGPU 亲和性 拓扑感知调度Numa affinity 亲和性调度企业级配额机制&完备的可观测性体系上下游推理框架生态全支持(vLLM,Xinference,Kueue,Koordinator,Volcano)N GPU GPUGPU1GPU GPU1/N GPU*2 GPUGPU 共享与虚拟化HAMi 提供灵活、可靠、弹性、按需虚拟化能力 1%算力,1M 显存 极细粒度 强隔离,QOS 保证开箱即用(应用无侵入)$cat PCie(16G
6、B/s)通过 HAMi 内置内置 拓扑感知拓扑感知调度,能能够让应用选择更高效的多卡进行使用GPU 超配BeforeAfter23G Device MemoryCan host 1 13B inference23G Device Memory46G virtual Device memory(in memory)Can host 3 13B inferences开启 UMI 之后,Serving 任务占着的显存如果长时间不用会换回到内存中,新的任务即可使用显存典型场景:潮汐类型混部,小模型推理,OCR 识别、小语种翻译等场景(大量企业生产落地,5%-10%左右性能损失)HAMi 可观测性-调度