当前位置:首页 > 报告详情

刘东阳-vivo大模型计算集群建设实践.pdf

上传人: s**** 编号:157164 2024-03-16 22页 1.50MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
vivo的大模型计算集群建设实践由AI架构工程师刘东阳分享,强调了算力对大模型训练的重要性。OpenAI的ScalingLaws指出,模型的效果与参数规模、训练数据集、算力规模/计算量需同步扩大。例如,Meta的OPT-175B模型需用1000多张A100卡训练近100年,或使用24K H100 GPU集群。大模型训练对计算集群的核心诉求包括高性能、高稳定的计算、网络、存储和调度。为此,vivo构建了具有高性能GPU卡、RDMA和高性能分布式存储的计算集群,并采用分级缓存机制优化读写性能。调度系统基于云原生,能快速识别和恢复故障。vivo的实践表明,大规模分布式训练需软硬一体系统工程,涉及基础设施、训练加速、平台等团队的协作和优化。
如何解决大模型训练中的通信瓶颈问题? vivo如何构建高性能的大模型计算集群? 大模型训练中存储优化策略有哪些?
客服
商务合作
小程序
服务号
折叠