当前位置:首页 > 报告详情

宋志方-基于大模型应用特征分析的算力适配与应用优化.pdf

上传人: 彩旗 编号:1158748 2026-03-02 40页 4.64MB

1、基于大模型应用特征分析的算力适配与应用优化宋志方|北京并行科技股份有限公司宋志方并行科技 应用优化总监深耕高性能计算与 AI 模型优化领域,兼具底层技术研发与产业落地经验,擅长通过软硬协同优化、并行架构设计及算法创新,解决大规模计算场景下的效率瓶颈与 AI 模型推理部署难题,参与优化过CFD、石油、电力等多款大型国产工业软件,主导了公司MaaS平台推理模型性能优化,大幅度提高了模型推理效率,为公司面向具身智能、AIGC、生物医药、工业仿真等领域的算力选型和7*24小时服务提供关键技术支撑。目 录CONTENTSI.DeepSeek应用运行特征分析II.应用运行特征分析方法介绍III.大模型性能

2、优化案例IV.总结与展望DeepSeek应用运行特征分析PART 01DeepSeek成本核算关键因素1090.96 508.16 1200.76 2666.29 22282.00 4691.64 855.98 927.53 4106.36 4674.51 9874.00 14535.90 40761.18 43146.20 60664.00 1444.9319.01 8.56 1.02 4.87 40.01 36.92 8.34 7.33 3.47 2.36 0.84 0.79 0.56 051015202530354045500.0010000.0020000.0030000.004000

3、0.0050000.0060000.0070000.00H20 141G*1sglangFP8 64并发TTFT 4279.78 msTPOT 109.1 msH800 1.6T*2sglangFP8 48并发TTFT 861.34 msTPOT 45.20 msH800 1.6T*2sglangFP8 256并发TTFT 1151.67 msTPOT 102.32 msH800 1.6T*8sglangFP8 4P4D 704并发20QPSTTFT 1834.22 msTPOT 49.56 msH800 1.6T*13sglang【官方】FP8 4P9D 18432并发 2K输入100输出T

4、TFT 无TPOT 91.9 msH100*12sglangFP8 8P4D 1024并发20QPSTTFT 1467.03 msTPOT 42.62 msB200vllmFP8 44并发TTFT 420.74 msTPOT 49.87 msB200vllmFP8 48并发TTFT 491.59 msTPOT 50.58 msB200trtllm【FP4权重】192并发 10QPSTTFT 1908.27 msTPOT 47.63 msB200trtllm【FP4权重,FP8 KV Cache】224并发10QPSTTFT 1616.35 msTPOT 49.11 msB200trtllm【F

5、P4权重,FP8 KV Cache】1P1D506并发 10QPSTTFT 714.80 msTPOT 45.80 msB200trtllm【FP4权重,FP8 KVCache】3584并发TTFT 348108.25 msTPOT 246.43 msB200trtllm【FP4权重 FP8 KVCache 离线测试】7168并发 1000输入2000输出B200trtllm【官方】FP4权重FP8 KVCache 离线测试7168并发 1000输入2000输出GB200 NVL72sglang【官方】FP8 6P12D 49152并发 2000输入100输出TTFT 无TPOT 67.5 m

6、s成本(元/Mtoken)每台Decode节点输出速度(tokens/s/台)DeepSeek-R1/V3不同环境输入3500输出1500下每台Decode节点输出速度和输出成本(R1/V3/R1-0528/V3-0324成本相同)每台输出速度(tokens/s/台)成本(元/Mtoken)DeepSeek成本核算关键因素855.984106.366479.05 34770.41 4674.51 14535.90 21243.62 40761.18 40.01 8.34 5.29 0.98 7.33 2.36 1.61 0.84 0.0010.0020.0030.0040.0050.00010

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **大模型算力适配与优化**:基于DeepSeek应用特征分析,通过并行计算(数据并行、流水线并行等)和性能优化(FlashMLA、DeepGEMM等),提升推理效率,降低成本(如B200 FP4权重优化后输出速度达40761 tokens/s/台)。 2. **性能瓶颈分析**:P阶段GPU利用率低(53.41%),D阶段高(95.91%),需优化TensorCore、显存带宽利用率(如NVLink带宽不足)。 3. **硬件平台对比**:B200 FP16算力2252.8 TFLOPS,性价比优于H100(预测耗时1.13倍);昇腾910B训练Llama3-70B性价比达A800的1.36倍。 4. **国产化移植**:昇腾平台训练精度可与N卡对齐,ModelLink框架与LlamaFactory精度一致,支持国产算力部署。
算力如何优化? 成本如何降低? 性能如何提升?
客服
商务合作
小程序
服务号
折叠