当前位置:首页 > 报告详情

张潇-构建AI原生调度生态通过HAMi释放异构AI算力芯片的推理潜能.pdf

上传人: 彩旗 编号:1158718 2026-03-02 50页 6.44MB

1、构建 AI 原生调度生态:通过 HAMi 释放异构 AI 算力芯片的推理性能张潇|密瓜智能张潇密瓜智能创始人及CEO拥有10余年云原生、容器、AI Infra领域研发及架构设计经验。曾带领20+研发团队主导DaoCloud容器平台架构设计及技术研发,产品多次入选Gartner容器管理魔力象限。拥有5项以上云计算相关发明专利,研究方向涵盖容器管理、多云、多集群、大规模集群高可用、AI Infra等。目 录CONTENTSI.背景与挑战II.HAMi 应对方式III.适用场景IV.用户案例V.未来展望背景与挑战PART 1GPU 算力供需两端现状 贸易禁令影响,品牌配置杂乱 规模各不相同,难以集中

2、资源 资源使用粗犷,资源利用率低 新兴行业起步,运维人才储备不足 运营缺乏规范,用户成本居高不下 算力中心 多种异构 加速器 管理成本极高供供给端需求端需求端 GPU 资源属于稀缺资源,用户难以获取 推理等碎片化需求凸显,亟需优化资源调度 人工智能行业进入门槛高,缺乏技术指导团队 市场与战略双驱动,多元异构算力成为硬需求以 GPU 为主的异构算力管理痛点无资源池,无整体调度,监控,管理平面资源分散,难以统一管理无法实现资源超分,不能指定任务所需的资源大小和种类。资源分配不灵活无虚拟化&资源池化技术,GPU使用为独占模式。市场方案偏硬件、平台型,不通用,彻底。资源利用率低由于异构算力的利用率低下

3、,所以企业必须加大采购数量才能满足需求,而异构算力本身成本高昂,为企业带来了很大负担。采购大量冗余算力满足业务需求散空重贵AI Infra Landscape异构基础设施 纳管物理机虚拟机边缘私有云公有云混合云异构算力调度GPU池化数据/镜像管理队列系统AI调度拓扑感知job任务编排容错和弹性设备/驱动管理监控和观测异构推理引擎推理编排系统DynamoKV-Cache StoreAI Gateway弹性 HPAPD分离模型训练框架任务编排kueuekubeRay存储对接智普TensorRTHAMi PART 2HAMiHAMi 异构算力调度、管理中间件,超过 15+个国家 350+开发者贡献,

4、200+的企业落地,开源 一年内 即成为 CNCF 基金会 Sandbox 项目 与 CNAI Landscape 项目,唯一关注 AI Infra 与 异构 AI 调度 的开源项目。目前已支持超过 8 款 AI 芯片统一管理、高效调度、动态观测,最大化利用率。HAMi 发展趋势HAMi 主要功能支持多种 GPU 设备,提供统一管理、高效调度能力(NVIDIA、寒武纪、沐曦、天数、摩尔线程、海光、昇腾、燧原、昆仑芯、AWS 推理芯片)弹性、按需、可靠 GPU共享,多个任务可以共享 GPU显存,算力超配任务优先级机制显存自动弹性扩缩容丰富、灵活、特定用户场景的调度策略支持指定设备型号,将任务调度

5、到指定型号的 GPU 卡上支持指定 UUID,将任务调度到指定 UUID 的 GPU 卡上节点&AI 芯片级别的 堆叠和打散调度。BinpackSpreadGPU 亲和性 拓扑感知调度Numa affinity 亲和性调度企业级配额机制&完备的可观测性体系上下游推理框架生态全支持(vLLM,Xinference,Kueue,Koordinator,Volcano)N GPU GPUGPU1GPU GPU1/N GPU*2 GPUGPU 共享与虚拟化HAMi 提供灵活、可靠、弹性、按需虚拟化能力 1%算力,1M 显存 极细粒度 强隔离,QOS 保证开箱即用(应用无侵入)$cat PCie(16G

6、B/s)通过 HAMi 内置内置 拓扑感知拓扑感知调度,能能够让应用选择更高效的多卡进行使用GPU 超配BeforeAfter23G Device MemoryCan host 1 13B inference23G Device Memory46G virtual Device memory(in memory)Can host 3 13B inferences开启 UMI 之后,Serving 任务占着的显存如果长时间不用会换回到内存中,新的任务即可使用显存典型场景:潮汐类型混部,小模型推理,OCR 识别、小语种翻译等场景(大量企业生产落地,5%-10%左右性能损失)HAMi 可观测性-调度

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **背景与挑战**:异构AI算力管理存在资源分散、利用率低(不足20%)、运维成本高等痛点,需统一调度与池化技术。 2. **HAMi解决方案**:开源异构算力调度中间件,支持8+款AI芯片,实现GPU虚拟化(显存/算力超配)、任务优先级抢占、拓扑感知调度,利用率提升40%-70%。 3. **核心功能**:支持vGPU细粒度分配(1%算力起)、弹性扩缩容、多策略调度(Binpack/Spread),与vLLM、Volcano等生态无缝集成。 4. **应用场景**:在离线推理共享资源(如银行利用率从20%→70%)、训推混部、LLM推理优化(性能提升1-8倍)、算力云租赁(收入增长超3倍)。 5. **生态与影响**:CNCF Sandbox项目,200+企业落地,全球推广,推动异构算力高效利用。
**GPU利用率低?** **异构算力如何调度?** **AI推理成本高?**
客服
商务合作
小程序
服务号
折叠