模型量化训练 TensorRT 部署实践.pdf

上传人： li

编号：29467

2021-02-07

PDF 41页 2.06MB

《模型量化训练 TensorRT 部署实践.pdf》由会员分享，可在线阅读，更多相关《模型量化训练 TensorRT 部署实践.pdf（41页珍藏版）》请在三个皮匠报告上搜索。

1、腾讯优图腾讯优图实验室#page#腾讯优图模型量化训练TensorRT部署实践主讲人：郭晨阳、姚佳杰联系方式：#page#page#腾讯优图什么是量化？低比特量化（quantization）是一种常用的模型压缩方法。目前神经网络普遍存在模型较大，参数较多等问题，不适合直接部署在终端设备中。低比特量化可以通过减少原始模型的比特数来实现对内存和计算要求的降低。是一种栖性数值精度换取时间/空间部署效率提升的方法。主流的终端部署设备都已支持并极致优化了INT8计算性能，以NvidiaGPU为例：NVIDIA TESLA P40NVIDIAT4INFERENCING ACCELERATORTENSOR

2、CORE GPUGPU ArchitectureNVIDIA PascalGPUArchitectureNVIDIA TuringSingle-Precision12TeraFLOPS*Single-Precision8.1TFLOPSPerformanceINT8130TOPSInteger Operations IINT8）47TOPS*Tera-INT4260TOPSOperations perSNVDIAGPU支持int8计算，峰值性能提升416x#page#page#腾讯优图常用量化方法分类1.直接量化（Post-trainingquantizationorCalibration）：

3、常见前向框架，如TensorRT等，均支持直接量化方法，fp32模型权重直接转成INT8权重，并通过测试集校准确定activation输出区间0.0.山F中T-1271270：weight区间：fromfp32model，直接校准activationoutput区间：fromtestdataset，由KL距离计算量化区间问题：测试集样本较小，量化区间无法代表整体分布，导致模型效果下降#page#腾讯优图常用量化方法分类2.量化训练（Quantization-awaretraining）：量化训练是指在训练过程中插入“伪量化节点”，来模拟前向量化带来的误差。目前，业界主流训练框架都已支持伪量化训

4、练ReLU6act quantoutputbiasesconvinputwt quantweights#page#腾讯优圈量化训练理论分析2.1量化训练精度保持方法：量化区间：浮点数到int8整型映射的范围区间外截取，区间内8bit量化若量化区间-c，c-127127Xq=H12量化区间的大小反映int8计算的精度：大区间能表达更大范围，但精度差0.10小区间精度高，但表达范围小0.060.040.020.00大区间、小区间对量化的影响#page#腾讯优圈量化训练理论分析2.2业界方案在量化区间上存在的问题，采用min，max作为区间-模型参数分布差异较大，存在大量野点-量化区间太大，影响量化

5、精度#page#腾讯优圈量化训练理论分析2.3最优量化区间：-XmaxOverloadOverloadPBOTieAOpBof.OAO大量化区间误差分布小量化区间误差分布量化误差由离散误差和溢出误差两部分组成，量化bit固定时相互制约一般来说，区间越大，离散误差越大；区间越小，溢出误差越大#page#腾讯优图量化训练理论分析2.3最优量化区间：Xmin+-qx-（Xmin+.g-0.5)p（x)dx离散误差TaGotal）9=17x-(Xmx-0.5）p(x)dx溢出误差上x-（Xmin+0.5）p(x)dx.选取最优量化区间的方式：KS-检验（Kolmogorov-Smirnovtest）正

6、态分布先验-概率密度函数估计-正态分布参数估计由正态分布线性性质推导最优区间Vm()=（1-a）(-1）a-N（0,1）最优区间-N（u，g）最优区间im（）=（1-a）(-1）+a，mc滑动平均计算最优量化区间#page#腾讯优圈量化训练实践采用fakequant操作模拟int8量化精度损失保存fp32weight进行浮点数梯度更新采用STE算法近似计算量化函数fakequant的梯度Forward(fakequant）:x.=romd(x/s)sOoyBackward(STE）：OrOrFDHIS有BWD-ActSTE#page#腾讯优圈量化训练实践量化函数不可导、梯度不匹配问题量化Rou

模型量化训练 TensorRT 部署实践.pdf

相关报告