曾鸣堃-小红书训推异构引擎的设计与应用0622.pdf

编号:168905 PDF 23页 3.03MB 下载积分:VIP专享
下载报告请您先登录!

曾鸣堃-小红书训推异构引擎的设计与应用0622.pdf

1、DataFunSummitDataFunSummit#20242024小红书训推异构引擎的设计与应用演讲人-曾鸣堃-小红书-训推计算引擎负责人小红书模型工程面临的挑战异构弹性引擎的设计与实践面向未来HPC训练框架AI编译技术目录 CONTENT小红书模型工程面临的挑战高速增长的业务日均曝光:数百亿互动UV占比:近50%日均搜索规模:3亿+不断复杂的模型稀疏参数量计算FLOPS多模型应用场景搜索推荐广告交易直播核心挑战:面对高速增长,如何通过引擎技术有效降低成本为业务打开迭代空间?异构弹性引擎的设计与实践核心技术点:支持超大规模稀疏特征(TB级);基于无冲突的高效稀疏Table;高性能Looku

2、p Table算子实现;支持多种参数优化器;Larc(第一代训练框架)异构弹性引擎的设计与实践技术背景:模型种类多(Workload不一样)云厂提供的GPU机型多;核心技术点:计算密集算子Place在GPU执行;支持Lookup相关算子的异步执行;主要问题:框架无法高效利用异构算力优势;第一代GPU训练框架异构弹性引擎的设计与实践异构GPU训练框架异构弹性引擎的设计与实践异构GPU训练框架异构弹性引擎的设计与实践异构GPU训练框架覆盖公司核心场景模型训练,同成本提速约70%+;异构弹性引擎的设计与实践第一代GPU推理架构主要问题:1.GPU利用率低,得不到充分使用;2.迭代不灵活,算法迭代只能

3、扩GPU机器;3.小BatchSize对GPU利用不充分;异构弹性引擎的设计与实践各场景高峰期GPU利用率提高100%+;GPU异构推理架构面临挑战:1.模块拆分引入延迟增长;2.小BatchSize无法使用GPU计算单元;3.有状态服务如何做到精细拆分;异构弹性引擎的设计与实践GPU异构推理架构-Latency优化异构弹性引擎的设计与实践GPU异构推理架构-小Batch优化异构弹性引擎的设计与实践GPU异构推理架构-有状态服务优化异构弹性引擎的设计与实践总结高性能(成本显著低于上一代引擎,CPU/GPU利用率65-95%)灵活性好(根据机型、模型选择最优算力拆分策略)迭代ROI高(业务按需申

4、请资源)伸缩性好(训推机型一致,支持潮汐)面向未来的HPC训练框架未来趋势:1)业务增长+算法迭代-更多/更大的样本-更高训练吞吐2)模型Dense复杂化(PPNET、PLE、GR)-更大的Dense模型-更旺盛的算力需求现有框架问题:1)PS/Worker随着节点数的增多,加速比会显著衰减;2)更多节点数会引入更大的异步性,影响模型收敛;3)基于PCIE+A10/A30的硬件很难高效支持复杂模型训练;面向未来的HPC训练框架面临挑战:1.显存不够用(模型无法全量换入);2.如何高效调度计算&通信;3.如何高效完成GPU内Embedding相关算子的执行;面向未来的HPC训练框架大批量Pass粒度聚合;增量式换入换出;Embedding置换和图内计算流水线并行;Table Fusion,减少算子数量;核心技术点:AI编译技术AI编译技术-前端优化 针对搜广推场景场景子图识别,高效替换改写;(MTL、MOE、PLE)核心算子针对推理场景进行高效的改写优化;(CPU Matmul)Fourier优化器AI编译技术-中后端优化AI编译技术-项目收益训练场景:核心训练场景,将计算图算子总数降低一个数量级,GPU计算效率提升30%+;推理场景:核心GPU推理场景,计算效率提升30%;核心CPU推理场景,同延迟下吞吐提升60%+;展望未来招聘邮箱:感谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(曾鸣堃-小红书训推异构引擎的设计与应用0622.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠