大模型训推优化与太极Turnkey智能计算软件栈-何万青博士.pdf-三个皮匠报告

1、大模型训推优化与太极Turnkey智能计算软件栈博士清程极智何万青高效普惠的人工智能解决方案关于清程极智源自清华计算机系，2023年成立，致力于实现高效、普惠的人工智能聚焦于智能算力基础设施爱评 AI Ping大模型服务评测与API调用平台赤兔 Chitu大模型推理部署解决方案太极 Turnkey人工智能性能交付优化套件服务芯片企业、智算中心、大模型企业、AI应用企业等客户关注公众号清程极智正式加入龙蜥社区我们很高兴地宣布，清程极智已成为龙蜥社区的一员，携手共建AI Infra 新生态关于清程极智清华系AI Infra创新企业，致力于通过高效、易用的智能算力解决软件，提升效率使用效率

2、，降低大模型落地成本，为AI应用提供极致算力性能支撑。关于龙蜥社区龙蜥社区（OpenAnolis）是一个平等、中立、开放的基础软件开源社区及创新平台，已经发展成为覆盖主流芯片，整机厂商，操作系统，云计算和应用生态的一个最具影响力的开源生态，在持续推动软硬件协同创新，构建繁荣生态。展望未来，我们将与龙蜥社区紧密合作，共同推进开源AI基础设施创新国产大模型AI Infra SW的挑战与因应:Bagualu面向国产算力的推理优化技术:Chitu赤兔推理引擎太极Turnkey 智能计算软件栈目录国产大模型AI Infra SW的挑战与因应:Bagualu目录AI与传统科学计算（HPC）的核心差异与技术

3、继承2025/12/156AI 大模型与HPC优化的本质差异：从静态高精度计算到动态低精度加速，从通用并行框架到领域专用优化低精度类型x高精度类型高精度类型高精度类型+可计算空间人脑擅长(FP16/BF16，FP8,INT8,INT4 代数运算）人脑不擅长（FP64，FP32，超越函数）人工智能数值计算神经计算 DL,LLM形式逻辑 Math(HPC)结构化大模型 LDMAI：在“噪声”中寻找“足够好”解的过程，不是HPC“宁静”环境中寻找“唯一精确”解传统科学与工程计算（HPC）：FP64，FP32为何科学计算（HPC）“偏爱”高精度？求解大规模的线性方程组*Ax=b*或非线性方程组，高精度

4、保证收敛性和解的有效性问题的病态性：条件数定义:(A)=|A|A|决定了误差放大效应(A).迭代过程中的误差累积:x=G.x+c人工智能（AI）与深度学习：FP32，FP16、BFloat16，FP8，INT8，FP4为何AI大模型能“容忍”低精度？AI大模型，本质是大规模、高维、非凸的随机优化问题*。对噪声和误差的容忍度高。算法的随机性：随机梯度下降（SGD）及其变体估计全局梯度，本身有很大噪声低精度引入的量化噪声(Quantization Noise)：计算噪声被视为 SGD 噪声，算法消化掉+正则化效应梯度的作用：方向比大小更重要模型的鲁棒性与冗余性：大型神经网络、激活函数的饱和（R

5、eLU），统计规律AI“容忍”低精度的本质借助算力硬件的发展实现推理性能提升硬件的峰值性能不断提升复杂的硬件功能不断被提出现状：高性能算子仍是优化瓶颈例子：Multi-Head Latent Attentio八卦炉智能算力系统软件为国产算力赋能FSDPmTunerMegatron-LMcuBLAScuDNN底层系统NCCLIntelligenIntelligenSelf CheckpointSelf CheckpointSpreadSpread-n n-ShareSharebagualu并行加速编程框架算子库编程语言通信库AI编译器内存管理存储系统HybriTEinNet通信库量化工具MixQ

6、Chitu面向国产算力的推理优化技术:Chitu赤兔推理引擎目录量化推理减少内存需求并扩增算力模型量化将张量从高精度数值表示转换为低精度数值表示，减少比特位数模型量化分类权重-激活联合量化（W8A8、W4A4）：充分利用高吞吐的低精度计算单元仅权重量化（W4A16、W2A16）：减少模型占用显存和运算访存量芯片发展聚焦低精度算力提升随着摩尔定律的失效，芯片设计转向低精度算力以获取计算性能的提升有效利用低精度算力扩展模型训练规模和加速部署，是未来大模型进一步发展的必由之路新芯片支持多种低精度数据类型的运算芯片设计为低精度运算提供更高的峰值性能混合精度量化方法几乎没有精度损失节省显存用量（模型大小

大模型训推优化与太极Turnkey智能计算软件栈-何万青博士.pdf

相关报告