当前位置:首页 > 报告详情

HotChips_tesla_dojo_uarch.pdf

上传人: 2*** 编号:136914 2023-08-03 28页 9.72MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了特斯拉的Exa-Scale计算机体系结构,重点是DOJO处理器节点及其在分布式系统中的作用。DOJO是一种高度可扩展的分布式系统,专为神经网络训练工作负载设计,同时也能适应新算法和应用。它从零开始构建,针对大规模系统设计,不是基于现有小系统演变而来。 DOJO处理器的微架构特点包括:32B fetch窗口,8-wide decode,4-wide scalar scheduler,2-wide vector scheduler,以及64B wide SIMD unit。它们支持单线程应用,同时也有虚拟内存和资源共享的限制。 DOJO系统由多个处理节点组成,这些节点通过CPU、Die、Module、Board、Rack和Cabinet等层次结构相互连接。系统采用三种模型:计算模型、通信模型和同步模型。 DOJO还支持多种数据格式,包括FP32、BFP16、CFP8和CFP16,以及特殊的矩阵乘法引擎和数据处理指令。其网络接口处理器位于系统边缘,提供连接外部世界和共享内存支持。 系统中的通信机制包括逻辑2D网格、PCIe链接和Z-plane链接。DOJO网络设计考虑到了长距离通信的特殊性,以减少资源消耗和提高效率。 最后,DOJO系统采用扁平化地址方案,暴露系统拓扑结构给软件,使用简单的2D路由方案,并通过计数和同步机制确保数据正确传输。
"特斯拉Exa-Scale计算机微架构揭秘" "DOJO节点如何优化神经网络训练工作负载?" 如何实现大规模分布式计算?"
客服
商务合作
小程序
服务号
折叠