模型量化训练 TensorRT 部署实践.pdf

编号:29467 PDF 41页 2.06MB 下载积分:VIP专享
下载报告请您先登录!

模型量化训练 TensorRT 部署实践.pdf

1、腾讯优图腾讯优图实验室#page#腾讯优图模型量化训练TensorRT部署实践主讲人:郭晨阳、姚佳杰联系方式:#page#page#腾讯优图什么是量化?低比特量化(quantization)是一种常用的模型压缩方法。目前神经网络普遍存在模型较大,参数较多等问题,不适合直接部署在终端设备中。低比特量化可以通过减少原始模型的比特数来实现对内存和计算要求的降低。是一种栖性数值精度换取时间/空间部署效率提升的方法。主流的终端部署设备都已支持并极致优化了INT8计算性能,以NvidiaGPU为例:NVIDIA TESLA P40NVIDIAT4INFERENCING ACCELERATORTENSOR

2、CORE GPUGPU ArchitectureNVIDIA PascalGPUArchitectureNVIDIA TuringSingle-Precision12TeraFLOPS*Single-Precision8.1TFLOPSPerformanceINT8130TOPSInteger Operations IINT8)47TOPS*Tera-INT4260TOPSOperations perSNVDIAGPU支持int8计算,峰值性能提升416x#page#page#腾讯优图常用量化方法分类1.直接量化(Post-trainingquantizationorCalibration):

3、常见前向框架,如TensorRT等,均支持直接量化方法,fp32模型权重直接转成INT8权重,并通过测试集校准确定activation输出区间0.0.山F中T-1271270:weight区间:fromfp32model,直接校准activationoutput区间:fromtestdataset,由KL距离计算量化区间问题:测试集样本较小,量化区间无法代表整体分布,导致模型效果下降#page#腾讯优图常用量化方法分类2.量化训练(Quantization-awaretraining):量化训练是指在训练过程中插入“伪量化节点”,来模拟前向量化带来的误差。目前,业界主流训练框架都已支持伪量化训

4、练ReLU6act quantoutputbiasesconvinputwt quantweights#page#腾讯优圈量化训练理论分析2.1量化训练精度保持方法:量化区间:浮点数到int8整型映射的范围区间外截取,区间内8bit量化若量化区间-c,c-127127Xq=H12量化区间的大小反映int8计算的精度:大区间能表达更大范围,但精度差0.10小区间精度高,但表达范围小0.060.040.020.00大区间、小区间对量化的影响#page#腾讯优圈量化训练理论分析2.2业界方案在量化区间上存在的问题,采用min,max作为区间-模型参数分布差异较大,存在大量野点-量化区间太大,影响量化

5、精度#page#腾讯优圈量化训练理论分析2.3最优量化区间:-XmaxOverloadOverloadPBOTieAOpBof.OAO大量化区间误差分布小量化区间误差分布量化误差由离散误差和溢出误差两部分组成,量化bit固定时相互制约一般来说,区间越大,离散误差越大;区间越小,溢出误差越大#page#腾讯优图量化训练理论分析2.3最优量化区间:Xmin+-qx-(Xmin+.g-0.5)p(x)dx离散误差TaGotal)9=17x-(Xmx-0.5)p(x)dx溢出误差上x-(Xmin+0.5)p(x)dx.选取最优量化区间的方式:KS-检验(Kolmogorov-Smirnovtest)正

6、态分布先验-概率密度函数估计-正态分布参数估计由正态分布线性性质推导最优区间Vm()=(1-a)(-1)a-N(0,1)最优区间-N(u,g)最优区间im()=(1-a)(-1)+a,mc滑动平均计算最优量化区间#page#腾讯优圈量化训练实践采用fakequant操作模拟int8量化精度损失保存fp32weight进行浮点数梯度更新采用STE算法近似计算量化函数fakequant的梯度Forward(fakequant):x.=romd(x/s)sOoyBackward(STE):OrOrFDHIS有BWD-ActSTE#page#腾讯优圈量化训练实践量化函数不可导、梯度不匹配问题量化Rou

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(模型量化训练 TensorRT 部署实践.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠