当前位置:首页 > 报告详情

阿里云:2023弹性计算GPU云服务器底层技术讲解及ECS最佳实践合辑指导及场景应用(118页).pdf

上传人: AG 编号:610245 2023-01-01 118页 7.63MB

1、阿里云开发者“藏经阁”海量电子手册免费下载导论本书选自 2023 年弹性计算社区的专题分享精华,集合 GPU 云服务器底层技术及实例使用详细讲解,主要为企业的实际场景业务,带来更多专业、底层的技术解决方案,提高 GPU 使用率,提高实例性价比。本书也集合了针对开发者们的热门、好玩的实践活动。目录页第 1 章GPU 云服务器底层技术篇.51.技术改变 AI 发展:CUDA Graph 优化的底层原理分析.52.技术改变 AI 发展:RDMA 能优化吗?GDR 性能提升方案.103.Ada Lovelace 架构解读及 RTX 4090 性能测试分析.16第 2 章GPU 云服务器实例使用篇.30

2、1.单实例上运行 Linux 桌面多开解决方案.302.vGPU 资源利用率的提升、监控与告警的实现.543.vGPU 驱动自动安装和升级.604.自动安装 NVIDIA GPU 驱动和 CUDA 组件.68第 3 章ECS 四大热门场景应用.741.所以!云服务器也可以玩转大模型?.742.免费试用 ECS,轻松搭建 WordPress 博客平台使用.863.ECS 部署 2048 小游戏.934.跟着技术蛋老师动手搭建 7*24 小时直播间.105第 4 章GPU 云服务器 AIGC 热门场景应用.1071.用 AI 唤醒老照片里的记忆(GPU 版).1072.三张搞定 AI 形象照,开启

3、 GPU 即刻体验.111第 1 章GPU 云服务器底层技术篇1.技术改变 AI 发展:CUDA Graph 优化的底层原理分析简介:随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的 GPU 计算资源。CUDA 是一种并行计算平台和编程模型,由 Nvidia 推出,可利用 GPU 的强大处理能力进行加速计算。CUDA 异步执行模型对于 GPU 运算集中的 AI 应用场景,为了提升系统的性能,最大化地利用 GPU 资源是一个重要的优化方向。比较常用的方式是尽量将 GPU 运算转换为异步操作,CPU 侧负责任务提交,保证有足够的 cuda kernel 发送到 GPU,GPU 按照 CUD

4、A Stream 流队列中的 Kernel 顺序执行。只要这中间不存在同步操作,GPU 完全可以不用等待,顺序地将所有的 kernel 执行完,然后再通知 CPU。CPU 运算和 GPU 运算是相互独立的协作关系。以上的模型是一个理想化的状态,听起来合乎逻辑,而且很完美。大致的运行效果如图1。可以看到 CPU 通过 CUDA API 已经将 Kernel 提前准备好,GPU 的任务一个接一个。GPU 的利用率也比较高。图 1 GPU 异步执行的典型场景对于一般的性能优化,达到这种状态已经很好了。但如果想进一步的优化就需要知道模型的实际运行情况。随着 GPU 算力的提升,计算任务的执行时间在慢慢

5、缩小,一个 GPU 执行单元可能在 us 或者 ms 级完成。通常情况下一个好的 AI 运算框架或模型应该尽量让 GPU Kernel 的运算时间长一些,从而使得 GPU 的性能能够更好地发挥,因为有个事实是:GPU Kernel 提交到硬件也是有开销的,虽然这个时间可能只有 0.x us。这里的提交不是指的 cudaLaunchKernel而是更底层驱动和硬件之间的真正的提交。如果业务场景中有很多小的 us 级 Kernel 要执行,则整个系统的性能会随着短 Kernel的比例增加整体性能输出越来越差,GPU 资源并不能充分利用起来。CUDA Graph 性能优化效果CUDA Graph 可

6、以通过 Capture 或 Create 的方式将多个 Kernel 组合在一起生成一个Graph,与 Kernel 融合不同,在 Graph 内部仍然是多个 Kernel 的形式存在,但提交操作只需要一次,如果可以将尽量多的 Kernel 组合在一起,那么理论上可以节约很多 Kernel 提交的开销。但 CUDA Graph 也有其自身的限制,它的设计思路是将多个任务单元作为一个快照进行组合,也就意味着这个快照的参数和结构组成是固定的,不能变换,同时实例化这个快照是比较耗时的,但如果这个快照被反复执行(replay)的次数足够多,实例化快照的时间是可以忽略的。以一个简单的 Kernel 为例

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了阿里云GPU云服务器的底层技术、实例使用、热门场景应用以及AIGC热门场景应用。 1. GPU云服务器底层技术篇: - CUDA Graph通过组合Kernel的方式可以将Kernel提交频率大幅降低,提高GPU的性能输出。 - GPUDirect RDMA技术使得数据流绕过主机内存和CPU,直接走PCIe链路,降低了传输延迟,加快了数据交换速度。 - RTX 4090的Ada Lovelace架构继承了Hopper架构在AI计算方面的特性,AI性能和光追算力相比上一代RTX 3090 Ti均提升一倍。 2. GPU云服务器实例使用篇: - 介绍了如何在单实例上运行Linux桌面多开解决方案,提高GPU使用率,提高实例性价比。 - 介绍了如何提升vGPU资源利用率、监控与告警的实现。 - 介绍了如何自动安装NVIDIA GPU驱动和CUDA组件,方便用户使用。 3. ECS四大热门场景应用: - 介绍了如何使用ECS搭建大模型、WordPress博客平台、2048小游戏以及7*24小时直播间。 4. GPU云服务器AIGC热门场景应用: - 介绍了如何使用GPU加计算巢来修复老照片和生成个人的数字写真。
如何提高GPU云服务器资源利用率? 如何实现Linux桌面多开? 如何自动安装NVIDIA GPU驱动和CUDA组件?
客服
商务合作
小程序
服务号
折叠