1、DLSlime:兼具灵活与高效的点对点 RDMA 传输工具JimyMa2025.12.12上海人工智能实验室DeepLink-org/DLSlime目目 录录CONTENTS01:背景介绍AI 场景与集群下的通信困境场景一:异构三维并行场景二:分离式推理服务场景三:异构参数服务器RDMA 及其在异构通信中的优势背景介绍背景介绍AI Infra 范式转移:负载特征与通信挑战1.任务同构任务同构:计算模式单:计算模式单一一2.设备同构设备同构:计算架构单一:计算架构单一传统传统并行范式并行范式(单程序多数据,单程序多数据,SPMD)任务异构需求:针对分离式架构的灵活拓扑任务异构需求:针对分离式架构
2、的灵活拓扑设备异构需求:统一互联协议设备异构需求:统一互联协议数据流向复杂,传统集合通信难以适配数据流向复杂,传统集合通信难以适配高并发小消息带来高昂控制面开销高并发小消息带来高昂控制面开销芯片混布需求日益增长芯片混布需求日益增长互联协议不同,生态割裂互联协议不同,生态割裂异构算力之困:负载特征与通信墙异构芯片通信通而不畅生态割裂生态割裂(Fragmentation):不同厂商(NVIDIA,Huawei,Moore Threads 等)拥有私有通信库(NCCL,HCCL,MCCL),彼此协协议不兼容议不兼容。资源孤岛资源孤岛(Resource Silos):单一集群内无法混合部署不同类型的卡
3、,导致算力池化困难,资源利用率低。开发成本开发成本(High Cost):上层框架需要针对不同硬件分别适配,维护成本极高。核心场景一 异构三维并行场景对通信系统的苛刻要求需屏蔽硬件差异需屏蔽硬件差异:作为统一的异构通信中间件统一的异构通信中间件,向下屏蔽硬件差异,向上提供标准接口。需微秒级延迟需微秒级延迟:极低开销,保证流水线间微秒级延迟。通信可以和计算异步并发通信可以和计算异步并发:计算和通信重叠,快慢节点自适应。生态现状 通信孤岛分离式推理:海量搬运与高频交互传统通信库难以应对高并发小消息低吞吐率低吞吐率(Low Throughput):传统集合通信库(NCCL/HCCL)为大包同步设计,
4、在海量小消息(Small Messages)时显存交互开销占比高,有效带宽下降。缺乏单边语义缺乏单边语义(One-Sided Semantics):双边通信强依赖接收端 CPU 参与,打断 Prefill 节点的计算流水线。核心场景二 异构分离式推理场景对通信系统的苛刻要求计算与显存解耦计算与显存解耦:Prefill,Decode 分离,提升利用率,服务质量。海量数据搬运海量数据搬运:Cache 要在不同集群间实时迁移,带宽要求极高。控制流挑战控制流挑战:除了大块 Cache 数据,还伴随着大量的小控制信令(Requests/Meta),对延迟极度敏感。xCCL 痛点 高昂控制面开销异构参数服
5、务器:多点并发与非对称通信传统方案导致 Server 端 CPU 严重过载CPU 过载过载(CPU Overload):使用 TCP/IP 或传统消息队列时,Server 端 CPU 需要耗费大量算力处理网络包(内核中断、内存拷贝),严重拖慢模型更新速度。语义不匹配语义不匹配(Semantic Mismatch):传统集合通信库(xCCL)主要针对 AllReduce 设计,缺乏高效的 Client-Server 原语支持。核心场景三 异构参数服务器场景对通信系统的苛刻要求跨架构互联跨架构互联(Cross-Architecture):Worker 与 Server 架构不同,通信协议需兼容。非
6、对称流量非对称流量(Asymmetric Traffic):存在多对一多对一 和一对多一对多流量特征,极易造成 Server 端网络拥塞。零干扰更新零干扰更新(Zero-Interference):Server 端 CPU 需专注优化器计算,通信过程不能抢占 CPU 资源。xCCL痛点:CPU瓶颈与语义缺失节点间 RDMA 进程通信基座:IBVerbs 原语IBVerbs 通信流程通信流程Step 0:注册内存区域:注册内存区域Step 1:提交请求到发送队列:提交请求到发送队列(DoorBell,数据传输),数据传输)Step 2:从完成队列中获取发送完成信号:从完成队列中获取发送完成信号R