《杨培军-xLLM-Rec:面向生成式推荐的高性能推理.pdf》由会员分享,可在线阅读,更多相关《杨培军-xLLM-Rec:面向生成式推荐的高性能推理.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、xLLM-Rec:面向生成式推荐的高性能推理杨培军AI Infra主架构师个人简介杨培军京东零售 AI Infra主架构师“京东零售AI域主架构师,xLLM开源项目架构师/核心贡献者。曾就职于阿里妈妈负责搜索广告架构和AI Infra推理系统研发,现于京东零售智能平台部专注大模型推理及生成式推荐能力建设。”目录0102030405业务背景与挑战行业方案技术方案&创新核心成果未来展望生成式推荐的技术范式变革与核心难题业务背景与挑战传统推荐:多阶段级联架构特征工程依赖特征工程“矿山”基本被挖掘殆尽,“精心”设计的手工特征,迭代成本骤升且泛化性差模型工程天花板现有架构无法有效建模“世界知识”、“用户
2、意图Reasoning”,对多领域、多模态、用户行为等吸收、表达有限级联架构误差放大级联多阶段架构,算法目标被分散到不同阶段和不同算法团队去优化,出现了严重的目标割裂和误差传播GPU资源利用率低推荐训练、推理MFU 10%以下,LLM在H100上训练时MFU可高达40-50%生成式推荐:行业级技术升级趋势端到端生成架构业界生成式推荐正往端到端生成架构方向快速发展,初步验证了Scaling Law和Scaling Up的收益潜力多模态深度融合引入图像、文本等更多模态信息,结合MoE等模型结构设计,实现更丰富的特征表达Reasoning推理基于世界知识+全场域联动的Reasoning推理能力,提升
3、推荐的准确性与多样性DLRM vs LLM vs GRs:技术架构对比关键洞察:GRs(Generative Recommendation System,生成式推荐)模型融合了 DLRM 的稀疏特征处理能力和 LLM 的生成能力,在保持推荐系统核心优势的同时,引入了LLM模型参数规模和自回归生成范式,实现更准确、更多样化的推荐结果。核心技术挑战01系统融合挑战TB 级稀疏参数推荐系统的大规模稀疏嵌入参数十B 级稠密参数LLM 的稠密参数规模工业级部署要求端到端时延控制在百ms以内03技术范式瓶颈LLM计算Kernel和Beam Search机制在生成式推荐推理场景下,存在以下核心瓶颈:重复访存
4、Block频繁拷贝端到端时延过高LLM 的优化技术栈并不总是能在生成式推荐场景直接生效02技术生态切换挑战TensorFlow生态原有搜推体系基础Torch生态生成式推荐所需需要完成技术生态的平滑切换,确保业务连续性混合Mask计算业界主流方案与我们的差异化路径行业方案业界主流方案 生成式推荐推理A方案一编译优化路线技术路径离线训练整图导出,使用TensorRT(GPU)直接编译优化优势 充分利用硬件加速能力 静态图优化潜力大局限性 难以处理动态Beam Search逻辑 缺乏对KV Cache的精细化管理B方案二大模型框架复用技术路径直接复用大模型推理框架加速方案(FlashAttentio
5、n/PagedAttention等),基于TensorRT-LLM框架优势 成熟的Attention优化 社区生态丰富局限性 未针对推荐场景优化,Continous Batching调度成本高 Beam Search效率存在性能瓶颈xLLM-Rec:xLLM生成式推荐大模型多模态生成式推荐提升吞吐、降低时延最大2.3+倍主流模型天级适配上线智能集群调度高效Failover容错架构高性能易开发高可用文生图/视频xLLM 项目地址:https:/ https:/ 技术报告:https:/arxiv.org/pdf/2510.14686面向Beam Search和混合Mask的系统性优化技术方案&创
6、新Beam Search性能分析技术背景:在生成式推荐中,系统以自回归方式生成3个token id(代表一个商品Item)。在每个Step中,Beam Search会并行扩展并保留概率最高的多个候选序列,保证推理结束时得到整体最优的推荐商品。Beam Search流程实例重复访存各候选序列共享Prefill上下文,Decode Attention计算每个序列单独访问KV Cache造成相同数据被多次加载,内存带宽成为瓶颈Block频繁拷贝KV Cache按照Block管理且需对齐,候选序列在更新时需要拷贝旧序列的KV Cache引入了频繁的复制开销,严重影响推理效率时延过高传统Beam Sea