《申晗-快手推搜广计算引擎优化实践v2.pdf》由会员分享,可在线阅读,更多相关《申晗-快手推搜广计算引擎优化实践v2.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、快手推搜广计算引擎优化实践申晗-快手 AI 平台编译器&异构大模型推理 Tech LeadDataFunSummit#2024目录I.背景II.性能优化III.工程架构IV.多元算力背景:推荐系统进入GPU时代 深度学习推荐系统从使用简单的多层MLP 预测CTR,逐渐发展到基于GRU/Attention的用户序列建模,再到LLM For Rec大模型时代,DNN 部分的模型结构的复杂度、算力需求显著增长。业界推荐系统(精粗排)已全面进入GPU时代。1 Cheng,Heng-Tze,et al.Wide&deep learning for recommender systems.Proceedi
2、ngs of the 1st workshop on deep learning for recommender systems.2016.2 Zhou,Guorui,et al.Deep interest evolution network for click-through rate prediction.Proceedings of the AAAI conference on artificial intelligence.Vol.33.No.01.2019.3 Pi,Qi,et al.Search-based user interest modeling with lifelong
3、sequential behavior data for click-through rate prediction.Proceedings of the 29th ACM International Conference on Information&Knowledge Management.2020.4 Zhai,Jiaqi,et al.Actions Speak Louder than Words:Trillion-Parameter Sequential Transducers for Generative Recommendations.arXiv preprint arXiv:24
4、02.17152(2024).Wide&Deep,Google 20161DIEN,Alibaba 20182SIM,Alibaba 20203Hierarchical Sequential Transduction Unit,Meta 20244背景:训练耗费大量GPU资源 推荐系统训练耗费大量GPU资源 以快手某业务推荐模型在线训练为例,一个任务需耗费 150-200卡 A10 GPU 才能满足处理实时样本流的吞吐需求;算法日常迭代/AB实验,一组实验 GPU 数 x N,多组任务消耗的资源非常大 推搜广总共的资源池消耗可能到大几千上万卡,这个规模的存量卡的优化有重要的成本价值,支撑业务对
5、更大规模模型的探索也有重要的业务价值。Kafka?KAIDataset?Tensorflowauc?PS?Worker?DenseTableSparseTable?Dense?Sparse?lookuppullpushUpdate?PS?HDFSBTQGrafanaKMLKuaiBI数据IO计算(GPU)通信快手推荐典型业务:计算在全流程占比高达70%,而计算部分主要耗时在 DNN。因此,我们需要非常关注DNN部分的计算优化来降本增效。一个推荐训练系统包括数据IO、计算与通信三个主要模块。当数据IO与通信异步做的足够好之后,计算变成了主要的性能瓶颈图:快手推搜广分布式训练框架KAI背景:Ten
6、sorFlow 编译优化技术栈 快手训练计算引擎的优化围绕着编译优化展开,在AI编译器领域,编译优化的主要内涵是计算图的静态分析优化+高效的硬件代码生成(手写算子+自动Codegen)快手推搜广训练采用使用 TensorFlow 作为DNN 的计算引擎。TensorFlow 构建静态图,通过图分析+编译优化提升模型性能 Grappler:通用图优化模块 XLA:Just-In-Time 子图编译图:TensorFlow 图优化&执行流程图:TensorFlow 图编译下降到各个硬件涉及组件示意训练优化需要即时编译GrapplerXLA背景:TensorFlow 编译优化技术栈 Grappler