《海光信息:实现独立迭代的X86国产化服务器领军-220803(45页).pdf》由会员分享,可在线阅读,更多相关《海光信息:实现独立迭代的X86国产化服务器领军-220803(45页).pdf(45页珍藏版)》请在三个皮匠报告上搜索。
1、上市海光 8100 典型功耗 260-350W 典型运算类型 双精度、单精度、半精度浮点数据和各种常见整型数据 计算 60-64 个计算单元(最多 4096 个计算核心)支持 FP64、FP32、FP16、INT8、INT4 内存 4 个 HBM2 内存通道 最高内存带宽为 1TB/s 最大内存容量为 32GB I/O 16 Lane PCIe Gen4 DCU 芯片之间高速互连 资料来源:公司招股书、申万宏源研究 海光 8100 能够充分挖掘应用的并行性,发挥其大规模并行计算的能力,快速开发高能效的应用程序。海光 8100 采用先进的 FinFET 工艺,典型应用场景下性能指标可以达到国际同
2、类型高端产品的同期水平。表 29:海光深算一号与国际同类型高端产品核心参数比较 项目 海光 NVIDIA AMD 品牌 深算一号 Ampere 100 MI100 生产工艺 7nm FinFET 7nm FinFET 7nm FinFET 核心数量 4096(64 CUs)2560 CUDA processors 120CUs 640 Tensor processors 内核频率 Up to 1.5GHz(FP64)Up to 1.53Ghz Up to 1.5GHz(FP64)Up to 1.7Ghz(FP32)Up to 1.7Ghz(FP32)显存容量 32GB HBM2 80GB HB
3、M2e 32GB HBM2 显存位宽 4096 bit 5120 bit 4096bit 显存频率 2.0 GHz 3.2 GHz 2.4 GHz 显存带宽 1024 GB/s 2039 GB/s 1228 GB/s TDP 350 W 400 W 300W CPU to GPU 互联 PCIe Gen4 x 16 PCIe Gen4 x 16 PCIe GEN4 x 16 GPU to GPU 互联 xGMI x 2,Up to 184 GB/s NVLink up to 600 GB/s Infinity Fabric x 3,up to 276 GB/s 资料来源:中国计量科学研究院测试
4、报告(报告编号:CLzn2020-01190)、申万宏源研究 海光深算二号、三号与国际一线同类产品基本属于同一代际。根据公司 IPO 前公开发布会,海光 DCU 同时支持全精度和半精度训练,有稀缺性。预计 2023 年底量产的 DCU3性能与 NVDIA H100 性能持平。已量产的 DCU2 约等于 70%NVDIA A100,双方在模拟效率和精度都处于同一代际。表 30:海光 DCU2/DCU3 基础性能对比 5“类CUDA”:由于ROCm 和 CUDA 在生态、编程环境等方面具有高度的相似性,CUDA 用户可以以较低代价快速迁移至 ROCm 平台,因此 ROCm 也被称为“类 CUDA”公司深度 请务必仔细