宋志方-基于大模型应用特征分析的算力适配与应用优化.pdf

编号:1158748 PDF 40页 4.64MB 下载积分:VIP专享
下载报告请您先登录!

1、基于大模型应用特征分析的算力适配与应用优化宋志方|北京并行科技股份有限公司宋志方并行科技 应用优化总监深耕高性能计算与 AI 模型优化领域,兼具底层技术研发与产业落地经验,擅长通过软硬协同优化、并行架构设计及算法创新,解决大规模计算场景下的效率瓶颈与 AI 模型推理部署难题,参与优化过CFD、石油、电力等多款大型国产工业软件,主导了公司MaaS平台推理模型性能优化,大幅度提高了模型推理效率,为公司面向具身智能、AIGC、生物医药、工业仿真等领域的算力选型和7*24小时服务提供关键技术支撑。目 录CONTENTSI.DeepSeek应用运行特征分析II.应用运行特征分析方法介绍III.大模型性能

2、优化案例IV.总结与展望DeepSeek应用运行特征分析PART 01DeepSeek成本核算关键因素1090.96 508.16 1200.76 2666.29 22282.00 4691.64 855.98 927.53 4106.36 4674.51 9874.00 14535.90 40761.18 43146.20 60664.00 1444.9319.01 8.56 1.02 4.87 40.01 36.92 8.34 7.33 3.47 2.36 0.84 0.79 0.56 051015202530354045500.0010000.0020000.0030000.004000

3、0.0050000.0060000.0070000.00H20 141G*1sglangFP8 64并发TTFT 4279.78 msTPOT 109.1 msH800 1.6T*2sglangFP8 48并发TTFT 861.34 msTPOT 45.20 msH800 1.6T*2sglangFP8 256并发TTFT 1151.67 msTPOT 102.32 msH800 1.6T*8sglangFP8 4P4D 704并发20QPSTTFT 1834.22 msTPOT 49.56 msH800 1.6T*13sglang【官方】FP8 4P9D 18432并发 2K输入100输出T

4、TFT 无TPOT 91.9 msH100*12sglangFP8 8P4D 1024并发20QPSTTFT 1467.03 msTPOT 42.62 msB200vllmFP8 44并发TTFT 420.74 msTPOT 49.87 msB200vllmFP8 48并发TTFT 491.59 msTPOT 50.58 msB200trtllm【FP4权重】192并发 10QPSTTFT 1908.27 msTPOT 47.63 msB200trtllm【FP4权重,FP8 KV Cache】224并发10QPSTTFT 1616.35 msTPOT 49.11 msB200trtllm【F

5、P4权重,FP8 KV Cache】1P1D506并发 10QPSTTFT 714.80 msTPOT 45.80 msB200trtllm【FP4权重,FP8 KVCache】3584并发TTFT 348108.25 msTPOT 246.43 msB200trtllm【FP4权重 FP8 KVCache 离线测试】7168并发 1000输入2000输出B200trtllm【官方】FP4权重FP8 KVCache 离线测试7168并发 1000输入2000输出GB200 NVL72sglang【官方】FP8 6P12D 49152并发 2000输入100输出TTFT 无TPOT 67.5 m

6、s成本(元/Mtoken)每台Decode节点输出速度(tokens/s/台)DeepSeek-R1/V3不同环境输入3500输出1500下每台Decode节点输出速度和输出成本(R1/V3/R1-0528/V3-0324成本相同)每台输出速度(tokens/s/台)成本(元/Mtoken)DeepSeek成本核算关键因素855.984106.366479.05 34770.41 4674.51 14535.90 21243.62 40761.18 40.01 8.34 5.29 0.98 7.33 2.36 1.61 0.84 0.0010.0020.0030.0040.0050.00010

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(宋志方-基于大模型应用特征分析的算力适配与应用优化.pdf)为本站 (彩旗) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠