《1-高校云原生深度学习训练推理平台的实践与创新.pdf》由会员分享,可在线阅读,更多相关《1-高校云原生深度学习训练推理平台的实践与创新.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、云原生深度学习训练平台在高校的实践与创新沃天宇|北京航空航天大学教授目录01高校集群资源管理的现状与挑战CONTENTS02自研深度学习训推平台的实践与创新03平台在高校科研工作的应用成效04平台开源与未来展望集群资源管理需求深度学习应用场景广泛AI服务器占比的增长中国GPU市场规模预估(亿美元)深度学习需求的兴起深度学习技术有着广泛应用,大模型进一步增加了资源需求。研究深度学习通常需要高性能的硬件资源,例如 GPU。2025年国内GPU市场规模或将超过1200亿元。高校对集群资源管理的需求GPU成本高,搭建多租户集群是常见方法。研究机构搭建超算中心,提供 GPU 等计算资源供研究者使用。Sl
2、urm 作业调度系统在高校有着广泛的使用。01基于 modules 的环境管理方式难以满足多样化的深度学习软件包版本需求,用户习惯使用 Conda 管理环境。即使用户存在相同的任务也难以复用环境,对存储空间消耗大。环境配置复杂02Conda 中包含大量小文件,分布式存储系统在频繁小文件读写时面临性能挑战,影响深度学习数据存储和读取效率。难以遵循分布式存储系统使用的最佳实践。文件读写瓶颈03监控系统覆盖不够全面,无法实时准确地监控任务的运行状态和资源使用情况。问题排查困难,影响系统的稳定性。可观测性不足现有资源管理系统的局限性推广云原生技术面临的难题技术学习曲线陡峭,需要投入大量时间和精力进行学
3、习和掌握。实践教学案例匮乏,缺乏与高校科研场景紧密结合的云原生应用案例。高校助力云原生科研创新高校作为前沿技术研究的重要阵地,为云原生技术的理论发展与工程实践提供了丰富的创新土壤。容器化和云原生技术能够有效解决深度学习环境配置复杂、资源管理困难等问题,提升科研效率。云原生在高校的机遇与挑战深度学习训练平台设计异构硬件资源分布式存储接入异构算力资源接入(Device Plugin)作业队列模块Volcano 批处理调度器调度器模块多租户GPU动态超卖调度器交互式/批处理任务信息同步控制器模块模型/镜像/数据集管理监控运维模块集群/节点/作业多维度监控作业运行期间性能分析作业日志与调试用户界面模块
4、多类型任务提交资源状态跟踪任务运行情况分析多租户/多优先级1.多类型作业支持提供单机交互式作业、单机批处理作业、多机分布式批处理作业等多类型作业支持。网页版 Jupyter Lab通过 VSCode 连接到交互式作业1.多类型作业支持提供单机交互式作业、单机批处理作业、多机分布式批处理作业等多类型作业支持。提交批处理作业运行 Pytorch 分布式作业2.环境配置流程简化鼓励用户在容器中进行环境配置,但大部分同学不熟悉 Docker 等容器技术,为此提供了多种构建方式。2.环境配置流程简化我不熟悉 Dockerfile 编写,想要Python3.7 Cuda11.7 Cudnn8 的基础环境,
5、最好还支持 Jupyter2.环境配置流程简化我在交互式作业里运行了pip install xformers希望能保存我的改动3.多种调度策略适配支持开源的 Volcano 调度器和自研的多租户 GPU 共享调度器,满足不同场景需求。自研GPU共享调度器3.1 作业指标采集独占GPU作业数据集构建模型选取:16个常见的深度学习模型不同的超参数组合:batch size、混合精度等细粒度的硬件资源指标收集:SM相关指标、内存拷贝利用率、DRAM利用率、PCIE传输速率、显存占用、内存占用、CPU使用率等。运行速率数据收集。作业混部数据集构建显存限制:限制混部作业的显存不溢出。性能衰减率数据收集:
6、通过混部前后的运行速率计算出混部后的每个作业的性能衰减率。2-3个任务混跑数据,共7000+条数据。独占作业指标指标描述model模型dataset数据集gpu_numGPU个数batchsize批次大小amp是否开启混合精度speed迭代运行的速度iter_avg_ms每个迭代运行的时间gpu_util_avg/max/stdGPU利用率指标sm_active_avg/max/stdSM活跃度指标sm_occupancy_avg/max/stdSM占用率指标mem_copy_util_avg/max/std内存拷