当前位置:首页 > 报告详情

新华三-AI大模型背景下网络人才需求202505.pdf

上传人: Fl****zo 编号:719118 2025-06-22 20页 1.97MB

1、AI大模型背景下网络人才需求新华三集团 先进技术研究院 刘锋人工智能技术整体发展阶段,开始迈向通用智能195019802000未来逻辑推理期知识工程期机器学习期1956达特茅斯会议标志AI的诞生信息系统早期专家系统专家系统广泛应用神经网络初步发展2016 AlphaGO围棋战胜人类第三次浪潮2022 ChatGPT/AI绘画等AIGC应用火热2020 GPT-3大模型发布2012 深度学习兴起,AlexNet比赛夺冠,图像识别突破第一次浪潮第二次浪潮专用智能阶段通用智能阶段人脸识别等感知类的特定任务场景取得突破,广泛应用自然语言处理取得突破,认知能力得到提升,可以像人类一样思考、决策、创作将逻

2、辑推理能力赋予计算机系统总结人类知识教授给计算机系统从数据中学习规律,语音/图像/语言方向获得成功1997IBM深蓝战胜国际象棋冠军1986BP神经网络1965专家系统出现受限于算力受限于算法和数据2025 DeepSeek r12024 DeepSeek v3提升集群算力和数据存储能力,网络性能是关键因素AI大模型以GPU集群分布式训练为基础,需要大量GPU之间、大量节点之间的通信消耗,网络性能成为集群算力和数据存储能力提升的关键因素,网络容易成为AI发展的“短板”单GPU算力*卡数*线性加速比*有效运行时时间集群算力、存储集群规模nn理论值GAP线性加速比切分方式通信操作通信量(单卡)通信

3、卡数对网络性能的需求张量并行(TP)AllReduce百GB/PP数量单机8卡机内高速互联流水并行(PP)Send/RecvMB级别多机2卡P2P 低延迟数据并行(PP)AllReduceGB级别全部卡,分多组高吞吐AllReduce1234567812356874ECMP Hash空闲1234567812356874SpineLeaf流量调度不均导致拥塞、丢包影响训练效率网络分布式训练对网络带宽性能要求极高大集群大算力集群有效算力网络正在发生以AI大模型为核心的巨大变化第一代互联网服务驱动数据中心网络第二代云服务驱动数据中心网络第三代分布式智算驱动数据中心网络以应用为中心,提供远程服务向客户

4、提供微服务应用,推进企业的产业数字化转型以多云为中心,提供云化服务公有云、5G 2B/MEC普及,推动多云互联,多云算力调度,提供泛在计算以AI为中心,提供普惠算力AIGC大算力需求呈现爆炸式增长,AI ML/HPC高速发展、超大算力中心DCN正在从 为云计算CPU提供连接 向 为AI算力提供大规模GPU集群组网连接演进-智算互联标准数据中心大规模数据中心高性能智算网络AI大模型网络人才需具备的背景知识云服务相关的背景知识虚拟化技术基于VLAN、SDN的网络虚拟化,支持多租户资源隔离与动态分配,实现物理资源逻辑分层管理弹性扩展架构通过自动化编排工具(如Kubernetes)实现计算/存储资源的

5、按需扩容,适应业务流量波动混合云与多云管理兼容公有云、私有云及边缘节点,支持跨平台统一资源调度与灾备容灾服务化接口(API网关)提供RESTful API、微服务架构,支撑SaaS/PaaS服务快速部署与调用安全与合规框架基于零信任架构(SDP)和软件定义边界,构建防火墙、加密传输与访问控制体系AI大模型相关背景知识模型训练全流程涵盖数据预处理、分布式训练(数据/流水线并行)、梯度优化与超参数调优,依赖大规模GPU集群。分布式训练框架Megatron-LM、DeepSpeed,支持三维并行(数据/张量/流水线)与显存优化(ZeRO)推理优化技术KV Cache缓存复用、Prefill/Deco

6、de阶段分离(PD分离)、动态量化(INT8/FP16),降低延迟与显存占用模型参数量与计算效能分析涉及Decoder-only架构参数公式推导、训练显存占用估算、FLOPs计算与GPU集群耗时预测,为硬件选型与成本控制提供量化依据算力-网络融合架构大规模网络集群需支持RDMA、RoCEv2协议,优化GPU间通信效率与故障自愈能力。从传统数据中心网络向智算中心网络的核心变化传统数据中心网络智算中心网络流量大小相对较小海量数据集流量流向客户/服务器的南北向为主GPU-GPU的东西向为主,流量突发相对平稳高突发数据流动存储到计算GPU-GPU,GPU-存储,双向流动带宽要求中至高很高时延要求中等容

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
全文主要内容是讨论在AI大模型背景下,网络人才的需求以及相关技术发展。以下是关键点: 1. AI大模型发展:从1950年代至今,AI经历了多个阶段,目前正迈向通用智能,以2022年的ChatGPT/AI绘画等AIGC应用为代表。 2. 技术需求:AI大模型对网络性能提出极高要求,例如GPU集群间通信消耗大,网络容易成为“短板”。 3. 网络技术演进:数据中心网络从第一代互联网服务驱动到第三代分布式智算驱动,网络架构和性能要求发生变化。 4. 关键数据:AI大模型如GPT-3的发布,以及深度学习兴起时的AlexNet比赛夺冠,标志着技术突破。 5. 网络人才需求:需要具备云服务、虚拟化技术、网络拥塞控制、负载均衡以及RDMA/ROCE协议等背景知识。 6. 技术创新:例如英伟达的NVLink、阿里自研的Solar-RDMA协议和AWS的SRD技术等,都是为了优化AI大模型训练。 7. 未来方向:网络技术将向高带宽、低时延、无损以太网和端网融合等方向发展,以支持超大规模AI集群。
"AI大模型背后的网络挑战有哪些?" "如何打造支持超大规模AI集群的网络?" "分布式训练中,网络性能的关键因素是什么?"
客服
商务合作
小程序
服务号
折叠