张潇-构建AI原生调度生态通过HAMi释放异构AI算力芯片的推理潜能.pdf-三个皮匠报告

1、构建 AI 原生调度生态:通过 HAMi 释放异构 AI 算力芯片的推理性能张潇|密瓜智能张潇密瓜智能创始人及CEO拥有10余年云原生、容器、AI Infra领域研发及架构设计经验。曾带领20+研发团队主导DaoCloud容器平台架构设计及技术研发，产品多次入选Gartner容器管理魔力象限。拥有5项以上云计算相关发明专利，研究方向涵盖容器管理、多云、多集群、大规模集群高可用、AI Infra等。目录CONTENTSI.背景与挑战II.HAMi 应对方式III.适用场景IV.用户案例V.未来展望背景与挑战PART 1GPU 算力供需两端现状贸易禁令影响，品牌配置杂乱规模各不相同，难以集中

2、资源资源使用粗犷，资源利用率低新兴行业起步，运维人才储备不足运营缺乏规范，用户成本居高不下算力中心多种异构加速器管理成本极高供供给端需求端需求端 GPU 资源属于稀缺资源，用户难以获取推理等碎片化需求凸显，亟需优化资源调度人工智能行业进入门槛高，缺乏技术指导团队市场与战略双驱动，多元异构算力成为硬需求以 GPU 为主的异构算力管理痛点无资源池，无整体调度，监控，管理平面资源分散，难以统一管理无法实现资源超分，不能指定任务所需的资源大小和种类。资源分配不灵活无虚拟化&资源池化技术，GPU使用为独占模式。市场方案偏硬件、平台型，不通用，彻底。资源利用率低由于异构算力的利用率低下

3、，所以企业必须加大采购数量才能满足需求，而异构算力本身成本高昂，为企业带来了很大负担。采购大量冗余算力满足业务需求散空重贵AI Infra Landscape异构基础设施纳管物理机虚拟机边缘私有云公有云混合云异构算力调度GPU池化数据/镜像管理队列系统AI调度拓扑感知job任务编排容错和弹性设备/驱动管理监控和观测异构推理引擎推理编排系统DynamoKV-Cache StoreAI Gateway弹性 HPAPD分离模型训练框架任务编排kueuekubeRay存储对接智普TensorRTHAMi PART 2HAMiHAMi 异构算力调度、管理中间件，超过 15+个国家 350+开发者贡献,

4、200+的企业落地，开源一年内即成为 CNCF 基金会 Sandbox 项目与 CNAI Landscape 项目，唯一关注 AI Infra 与异构 AI 调度的开源项目。目前已支持超过 8 款 AI 芯片统一管理、高效调度、动态观测，最大化利用率。HAMi 发展趋势HAMi 主要功能支持多种 GPU 设备，提供统一管理、高效调度能力(NVIDIA、寒武纪、沐曦、天数、摩尔线程、海光、昇腾、燧原、昆仑芯、AWS 推理芯片)弹性、按需、可靠 GPU共享，多个任务可以共享 GPU显存，算力超配任务优先级机制显存自动弹性扩缩容丰富、灵活、特定用户场景的调度策略支持指定设备型号，将任务调度

5、到指定型号的 GPU 卡上支持指定 UUID，将任务调度到指定 UUID 的 GPU 卡上节点&AI 芯片级别的堆叠和打散调度。BinpackSpreadGPU 亲和性拓扑感知调度Numa affinity 亲和性调度企业级配额机制&完备的可观测性体系上下游推理框架生态全支持(vLLM,Xinference,Kueue,Koordinator,Volcano)N GPU GPUGPU1GPU GPU1/N GPU*2 GPUGPU 共享与虚拟化HAMi 提供灵活、可靠、弹性、按需虚拟化能力 1%算力，1M 显存极细粒度强隔离，QOS 保证开箱即用(应用无侵入)$cat PCie(16G

6、B/s)通过 HAMi 内置内置拓扑感知拓扑感知调度，能能够让应用选择更高效的多卡进行使用GPU 超配BeforeAfter23G Device MemoryCan host 1 13B inference23G Device Memory46G virtual Device memory(in memory)Can host 3 13B inferences开启 UMI 之后，Serving 任务占着的显存如果长时间不用会换回到内存中，新的任务即可使用显存典型场景:潮汐类型混部，小模型推理,OCR 识别、小语种翻译等场景(大量企业生产落地，5%-10%左右性能损失)HAMi 可观测性-调度

张潇-构建AI原生调度生态通过HAMi释放异构AI算力芯片的推理潜能.pdf

相关报告