当前位置:首页 > 报告详情

Hotchip Dojo System v25.pdf

上传人: 2*** 编号:136732 2023-08-03 45页 8.02MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了一种名为Super-Compute System Scaling for ML Training的系统,旨在提高机器学习训练的效率。该系统采用了一种分层的计算架构,其中包含了多个计算层和存储层。文章中提到了一些关键数据:例如,该系统可以支持高达9 PFLOPS的计算性能,以及11 GB的高速度ECC SRAM。此外,系统还支持视频训练数据,具有4D标签,以及高达36 TB/s的聚合I/O带宽。 在系统的设计中,采用了disaggregated system architecture,将计算和存储分离,以提高效率和灵活性。文章还提到了一种名为Dojo Interface Processor的组件,它负责处理数据加载和模型执行等任务。此外,系统还支持远程DMA over TTPoE,可以远程访问计算SRAM和DRAM。 文章还详细描述了模型的执行过程,包括数据并行和模型并行的应用。在数据加载方面,系统可以支持多种不同的模型,并根据需求进行调整。例如,对于视频-based training data,系统可以灵活地处理多摄像头、多帧模型,并支持GOP_SIZE/2帧的解码。 总的来说,Super-Compute System Scaling for ML Training是一种高效的机器学习训练系统,它通过分层计算架构、disaggregated system architecture以及灵活的数据和模型并行策略,提供了强大的计算性能和灵活性。
"超级计算系统如何实现ML训练的扩展性?" "新型模型架构如何应对参数规模指数级增长?" "如何通过 disaggregated system architecture 提高训练效率?"
客服
商务合作
小程序
服务号
折叠