当前位置:首页 > 报告详情

扩展和横向扩展人工智能架构:面向“系统之系统”的多态以太网架构.pdf

上传人: 明**** 编号:1011832 2025-12-21 16页 1.49MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,全文主要探讨了如何构建一个能够同时支持“Scale Up”和“Scale Out”的AI fabrics,以应对深度神经网络增长带来的挑战。以下是关键点: 1. **AI fabric需求**:随着生成式大型语言模型的发展,深度神经网络规模大幅增长,需要高效的网络架构支持模型分布式推理、KV缓存和分组查询注意力等。 2. **Scale Up fabric**:设计高速、低延迟的fabric,用于连接单个服务器或机架内的GPU/加速器,实现GPU间最低延迟通信。 3. **Scale Out fabric**:通过Scale Out fabric连接多个Scale Up fabric,实现GPU间的数据传输和聚合,但面临通信延迟、芯片面积和功耗增加等问题。 4. **挑战**:需要在同一架构中支持网络和内存语义,降低延迟,提供强健的可靠性和容错机制。 5. **理想fabric设计原则**:包括以太网合规性、高带宽、低延迟、面积和功耗效率等。 6. **技术工作**:包括SUE(用于Scale Up)、LLR(链路本地可靠性)、CBFC(避免接收端拥塞)等。 7. **软件架构**:设计能够根据fabric架构动态调整应用放置和调度的软件架构,包括拓扑感知发现、集体通信、信号采集、工作负载放置和动态调度等。 8. **工作进展**:AI-HW-SW-CoDesign项目正在推进,包括拓扑感知集体算法合成器TACOS、OCP Networking的SUE规范等。
"AI时代,如何打造弹性网络?" 挑战与机遇?" AI加速的未来?"
客服
商务合作
小程序
服务号
折叠