宋志方-基于大模型应用特征分析的算力适配与应用优化.pdf-三个皮匠报告

1、基于大模型应用特征分析的算力适配与应用优化宋志方|北京并行科技股份有限公司宋志方并行科技应用优化总监深耕高性能计算与 AI 模型优化领域，兼具底层技术研发与产业落地经验，擅长通过软硬协同优化、并行架构设计及算法创新，解决大规模计算场景下的效率瓶颈与 AI 模型推理部署难题，参与优化过CFD、石油、电力等多款大型国产工业软件，主导了公司MaaS平台推理模型性能优化，大幅度提高了模型推理效率，为公司面向具身智能、AIGC、生物医药、工业仿真等领域的算力选型和7*24小时服务提供关键技术支撑。目录CONTENTSI.DeepSeek应用运行特征分析II.应用运行特征分析方法介绍III.大模型性能

2、优化案例IV.总结与展望DeepSeek应用运行特征分析PART 01DeepSeek成本核算关键因素1090.96 508.16 1200.76 2666.29 22282.00 4691.64 855.98 927.53 4106.36 4674.51 9874.00 14535.90 40761.18 43146.20 60664.00 1444.9319.01 8.56 1.02 4.87 40.01 36.92 8.34 7.33 3.47 2.36 0.84 0.79 0.56 051015202530354045500.0010000.0020000.0030000.004000

3、0.0050000.0060000.0070000.00H20 141G*1sglangFP8 64并发TTFT 4279.78 msTPOT 109.1 msH800 1.6T*2sglangFP8 48并发TTFT 861.34 msTPOT 45.20 msH800 1.6T*2sglangFP8 256并发TTFT 1151.67 msTPOT 102.32 msH800 1.6T*8sglangFP8 4P4D 704并发20QPSTTFT 1834.22 msTPOT 49.56 msH800 1.6T*13sglang【官方】FP8 4P9D 18432并发 2K输入100输出T

4、TFT 无TPOT 91.9 msH100*12sglangFP8 8P4D 1024并发20QPSTTFT 1467.03 msTPOT 42.62 msB200vllmFP8 44并发TTFT 420.74 msTPOT 49.87 msB200vllmFP8 48并发TTFT 491.59 msTPOT 50.58 msB200trtllm【FP4权重】192并发 10QPSTTFT 1908.27 msTPOT 47.63 msB200trtllm【FP4权重,FP8 KV Cache】224并发10QPSTTFT 1616.35 msTPOT 49.11 msB200trtllm【F

5、P4权重,FP8 KV Cache】1P1D506并发 10QPSTTFT 714.80 msTPOT 45.80 msB200trtllm【FP4权重，FP8 KVCache】3584并发TTFT 348108.25 msTPOT 246.43 msB200trtllm【FP4权重 FP8 KVCache 离线测试】7168并发 1000输入2000输出B200trtllm【官方】FP4权重FP8 KVCache 离线测试7168并发 1000输入2000输出GB200 NVL72sglang【官方】FP8 6P12D 49152并发 2000输入100输出TTFT 无TPOT 67.5 m

6、s成本（元/Mtoken）每台Decode节点输出速度（tokens/s/台）DeepSeek-R1/V3不同环境输入3500输出1500下每台Decode节点输出速度和输出成本（R1/V3/R1-0528/V3-0324成本相同）每台输出速度(tokens/s/台)成本(元/Mtoken)DeepSeek成本核算关键因素855.984106.366479.05 34770.41 4674.51 14535.90 21243.62 40761.18 40.01 8.34 5.29 0.98 7.33 2.36 1.61 0.84 0.0010.0020.0030.0040.0050.00010

宋志方-基于大模型应用特征分析的算力适配与应用优化.pdf

相关报告