计算机行业智联汽车深度三十三暨华为系列深度之六：特斯拉Dojo+英伟达GPU+谷歌TPU+昇腾趋势是带宽与扩展性！-230918-三个皮匠报告

1、行业及产业行业研究/行业深度证券研究报告计算机 2023 年 09 月 18 日特斯拉 Dojo+英伟达 GPU+谷歌TPU+昇腾：趋势是带宽与扩展性！看好智联汽车深度三十三暨华为系列深度之六相关研究鸿蒙 3.0：互联到智联，升级到升维-华为产业系列深度之四 2022年7月28日华为盘古：对方法论创新致敬，产业落地有借鉴意义-AIGC 系列之八暨华为产业系列之五 2023 年 3 月 26 日证券分析师刘洋 A0230513050006 李国盛 A0230521080003 杨海晏 A0230518070003 黄忠煌 A0230519110001 王珂 A023052112

2、0002 戴文杰 A0230522100006 洪依真 A0230519060003 施鑫展 A0230519080002 林起贤 A0230519060002 胡雪飞 A0230522120002 研究支持崔航 A0230122070011 徐平平 A0230123060004 联系人刘洋(8621)23297818 本期投资提示：特斯拉 Dojo 芯片、华为服务器/AI 能力都是近期产业重要事件。本篇报告分析特斯拉 Dojo/英伟达 GPU/谷歌 TPU/华为昇腾等的异同，并做 AI 产业计算和通信趋势的预测。Dojo 芯片与架构的特色至少包括存算一体/扩展性强/路由便捷/带宽高。在

3、IEEE MICRO 2020 上，特斯拉发布 FSDCompute Solution for Tesla s Full Self-Driving Computer。在 2022 年 8 月 hotchips 34 大会上，特斯拉发布The Microarchitecture of Dojo,Teslas Exa-Scale Computer和Dojo Super-Compute System Scaling for ML Training。Dojo 至少有存算一体/扩展性强/路由便捷/带宽高四个特色，详见正文。英伟达 GPU/谷歌 TPU/昇腾 AI/Tesla DSA，从架构解释异同。1）

4、2010 年以来，英伟达 GPU 主要架构至少包括八类，具备衍生关系。趋势：注重互联/注重带宽和扩展性/对AI 支持与时俱进（从 Cuda Core 到 Tensor Core，增加对 INT/BF16 等 AI 新趋势的支持，结构稀疏矩阵支持）。2)根据 TPU 五代架构，趋势：注重互联/注重扩展性/对 AI 支持与时俱进（如用脉动阵列的方法支持矩阵乘法）。3）根据华为官网和机器之心等，华为昇腾（达芬奇架构）应与谷歌 TPU 有类似之处。4）共同点是扩展性/AI 甚至大模型下特殊操作，区别是 Dojo 有特殊性（不同处理器设计是“架构向后兼容”，不需要颠覆架构）。计算部分的未来趋势：1）与时

5、俱进，适应 AI 数据精度/场景特殊运算。2）带宽最大化，延展性关键化。3）核心数可能减少。正文有详细论述。通信部分：DIP 和 TTPoE 是 Dojo 的网络核心。Dojo 系统的构架过程，以 node 核心为最小单元，每 1 个 D1 包含 354 个 nodes、每 1 个 Tile 包含 25 个 D1、每 1 个 Tray 包含6 个 Tiles，每个机柜包含 2 组 Tray。Dojo Interface Processor（DIP）用于 HBM 内存扩容、PCIe 扩展、以及对外的网络连接。Tesla Transport Protocol 可以对应于 CXL、NVLink 等，

6、基于以太网提供 400Gb/s 的核心网络带宽。通信部分的未来趋势：Dojo 试图打破冯诺依曼约束，借助软件与网络，平衡系统中的时延、带宽、资源消耗量和传输距离。我们推算 Dojo 的网络设备与器件使用情况，基础BasePOD 177 个机柜的规模下，假设 fat-tree 的 2 层交换架构组网且全部使用光通信系统，总共需要 141602=28320 个光模块，对应 177 个机柜中的 53100 个 D1 芯片，另外 Host 系统预计也需要若干光模块。若 Dojo 系统与 Nvidia A100 系统对标，显著差异是网络带宽从 200Gb 网络升级至 400Gb、SRAM 与 DRAM

计算机行业智联汽车深度三十三暨华为系列深度之六：特斯拉Dojo+英伟达GPU+谷歌TPU+昇腾趋势是带宽与扩展性！-230918（29页）.pdf

相关报告