当前位置:首页 > 报告详情

计算机行业智联汽车深度三十三暨华为系列深度之六:特斯拉Dojo+英伟达GPU+谷歌TPU+昇腾趋势是带宽与扩展性!-230918(29页).pdf

上传人: 面*** 编号:141232 2023-09-25 29页 2.18MB

1、行业及产业 行业研究/行业深度 证券研究报告 计算机 2023 年 09 月 18 日 特斯拉 Dojo+英伟达 GPU+谷歌TPU+昇腾:趋势是带宽与扩展性!看好智联汽车深度三十三暨华为系列深度之六 相关研究 鸿蒙 3.0:互联到智联,升级到升维-华为产业系列深度之四 2022年7月28日 华为盘古:对方法论创新致敬,产业落地有借鉴意义-AIGC 系列之八暨华为产业系列之五 2023 年 3 月 26 日 证券分析师 刘洋 A0230513050006 李国盛 A0230521080003 杨海晏 A0230518070003 黄忠煌 A0230519110001 王珂 A023052112

2、0002 戴文杰 A0230522100006 洪依真 A0230519060003 施鑫展 A0230519080002 林起贤 A0230519060002 胡雪飞 A0230522120002 研究支持 崔航 A0230122070011 徐平平 A0230123060004 联系人 刘洋(8621)23297818 本期投资提示:特斯拉 Dojo 芯片、华为服务器/AI 能力都是近期产业重要事件。本篇报告分析特斯拉 Dojo/英伟达 GPU/谷歌 TPU/华为昇腾等的异同,并做 AI 产业计算和通信趋势的预测。Dojo 芯片与架构的特色至少包括存算一体/扩展性强/路由便捷/带宽高。在

3、IEEE MICRO 2020 上,特斯拉发布 FSDCompute Solution for Tesla s Full Self-Driving Computer。在 2022 年 8 月 hotchips 34 大会上,特斯拉发布The Microarchitecture of Dojo,Teslas Exa-Scale Computer和Dojo Super-Compute System Scaling for ML Training。Dojo 至少有存算一体/扩展性强/路由便捷/带宽高四个特色,详见正文。英伟达 GPU/谷歌 TPU/昇腾 AI/Tesla DSA,从架构解释异同。1)

4、2010 年以来,英伟达 GPU 主要架构至少包括八类,具备衍生关系。趋势:注重互联/注重带宽和扩展性/对AI 支持与时俱进(从 Cuda Core 到 Tensor Core,增加对 INT/BF16 等 AI 新趋势的支持,结构稀疏矩阵支持)。2)根据 TPU 五代架构,趋势:注重互联/注重扩展性/对 AI 支持与时俱进(如用脉动阵列的方法支持矩阵乘法)。3)根据华为官网和机器之心等,华为昇腾(达芬奇架构)应与谷歌 TPU 有类似之处。4)共同点是扩展性/AI 甚至大模型下特殊操作,区别是 Dojo 有特殊性(不同处理器设计是“架构向后兼容”,不需要颠覆架构)。计算部分的未来趋势:1)与时

5、俱进,适应 AI 数据精度/场景特殊运算。2)带宽最大化,延展性关键化。3)核心数可能减少。正文有详细论述。通信部分:DIP 和 TTPoE 是 Dojo 的网络核心。Dojo 系统的构架过程,以 node 核心为最小单元,每 1 个 D1 包含 354 个 nodes、每 1 个 Tile 包含 25 个 D1、每 1 个 Tray 包含6 个 Tiles,每个机柜包含 2 组 Tray。Dojo Interface Processor(DIP)用于 HBM 内存扩容、PCIe 扩展、以及对外的网络连接。Tesla Transport Protocol 可以对应于 CXL、NVLink 等,

6、基于以太网提供 400Gb/s 的核心网络带宽。通信部分的未来趋势:Dojo 试图打破冯诺依曼约束,借助软件与网络,平衡系统中的时延、带宽、资源消耗量和传输距离。我们推算 Dojo 的网络设备与器件使用情况,基础BasePOD 177 个机柜的规模下,假设 fat-tree 的 2 层交换架构组网且全部使用光通信系统,总共需要 141602=28320 个光模块,对应 177 个机柜中的 53100 个 D1 芯片,另外 Host 系统预计也需要若干光模块。若 Dojo 系统与 Nvidia A100 系统对标,显著差异是网络带宽从 200Gb 网络升级至 400Gb、SRAM 与 DRAM

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要分析了特斯拉Dojo芯片、英伟达GPU、谷歌TPU和华为昇腾等AI芯片的异同,并预测了AI产业计算和通信的发展趋势。 1. 特斯拉Dojo芯片具有存算一体、扩展性强、路由便捷和带宽高等特点。Dojo芯片的每个计算核心包含1.25MB SRAM内存,354个处理单元,每个训练瓦片(Training Tile)包含25个D1芯片,可提供高达9050TFLOPS的算力。 2. 英伟达GPU、谷歌TPU和华为昇腾等AI芯片均注重扩展性和对AI的支持。例如,英伟达GPU从费米架构到赫伯架构,持续增加对AI的支持,如稀疏矩阵支持。谷歌TPU从V1到V4,持续拓展对AI操作的支持。 3. 计算部分的未来趋势是与时俱进,适配新AI场景,带宽最大化,延展性关键化,核心数可能减少。通信部分的趋势是从2D到3D组网,平衡带宽与时延瓶颈。 4. 文章还预测了相关行业的发展趋势,如光模块、AI服务器计算、华为产业链、特斯拉与智能车产业链等。
特斯拉Dojo芯片有哪些特色? 英伟达GPU和谷歌TPU的异同是什么? 华为昇腾与特斯拉Dojo有何区别?
客服
商务合作
小程序
服务号
折叠