1、行业及产业 行业研究/行业深度 证券研究报告 计算机 2023 年 09 月 18 日 特斯拉 Dojo+英伟达 GPU+谷歌TPU+昇腾:趋势是带宽与扩展性!看好智联汽车深度三十三暨华为系列深度之六 相关研究 鸿蒙 3.0:互联到智联,升级到升维-华为产业系列深度之四 2022年7月28日 华为盘古:对方法论创新致敬,产业落地有借鉴意义-AIGC 系列之八暨华为产业系列之五 2023 年 3 月 26 日 证券分析师 刘洋 A0230513050006 李国盛 A0230521080003 杨海晏 A0230518070003 黄忠煌 A0230519110001 王珂 A023052112
2、0002 戴文杰 A0230522100006 洪依真 A0230519060003 施鑫展 A0230519080002 林起贤 A0230519060002 胡雪飞 A0230522120002 研究支持 崔航 A0230122070011 徐平平 A0230123060004 联系人 刘洋(8621)23297818 本期投资提示:特斯拉 Dojo 芯片、华为服务器/AI 能力都是近期产业重要事件。本篇报告分析特斯拉 Dojo/英伟达 GPU/谷歌 TPU/华为昇腾等的异同,并做 AI 产业计算和通信趋势的预测。Dojo 芯片与架构的特色至少包括存算一体/扩展性强/路由便捷/带宽高。在
3、IEEE MICRO 2020 上,特斯拉发布 FSDCompute Solution for Tesla s Full Self-Driving Computer。在 2022 年 8 月 hotchips 34 大会上,特斯拉发布The Microarchitecture of Dojo,Teslas Exa-Scale Computer和Dojo Super-Compute System Scaling for ML Training。Dojo 至少有存算一体/扩展性强/路由便捷/带宽高四个特色,详见正文。英伟达 GPU/谷歌 TPU/昇腾 AI/Tesla DSA,从架构解释异同。1)
4、2010 年以来,英伟达 GPU 主要架构至少包括八类,具备衍生关系。趋势:注重互联/注重带宽和扩展性/对AI 支持与时俱进(从 Cuda Core 到 Tensor Core,增加对 INT/BF16 等 AI 新趋势的支持,结构稀疏矩阵支持)。2)根据 TPU 五代架构,趋势:注重互联/注重扩展性/对 AI 支持与时俱进(如用脉动阵列的方法支持矩阵乘法)。3)根据华为官网和机器之心等,华为昇腾(达芬奇架构)应与谷歌 TPU 有类似之处。4)共同点是扩展性/AI 甚至大模型下特殊操作,区别是 Dojo 有特殊性(不同处理器设计是“架构向后兼容”,不需要颠覆架构)。计算部分的未来趋势:1)与时
5、俱进,适应 AI 数据精度/场景特殊运算。2)带宽最大化,延展性关键化。3)核心数可能减少。正文有详细论述。通信部分:DIP 和 TTPoE 是 Dojo 的网络核心。Dojo 系统的构架过程,以 node 核心为最小单元,每 1 个 D1 包含 354 个 nodes、每 1 个 Tile 包含 25 个 D1、每 1 个 Tray 包含6 个 Tiles,每个机柜包含 2 组 Tray。Dojo Interface Processor(DIP)用于 HBM 内存扩容、PCIe 扩展、以及对外的网络连接。Tesla Transport Protocol 可以对应于 CXL、NVLink 等,
6、基于以太网提供 400Gb/s 的核心网络带宽。通信部分的未来趋势:Dojo 试图打破冯诺依曼约束,借助软件与网络,平衡系统中的时延、带宽、资源消耗量和传输距离。我们推算 Dojo 的网络设备与器件使用情况,基础BasePOD 177 个机柜的规模下,假设 fat-tree 的 2 层交换架构组网且全部使用光通信系统,总共需要 141602=28320 个光模块,对应 177 个机柜中的 53100 个 D1 芯片,另外 Host 系统预计也需要若干光模块。若 Dojo 系统与 Nvidia A100 系统对标,显著差异是网络带宽从 200Gb 网络升级至 400Gb、SRAM 与 DRAM