当前位置:首页 > 报告详情

Faster Transformer 3.0 编码器的 INT8 量化实现.pdf

上传人: li 编号:29457 2021-02-07 36页 1.48MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了NVIDIA的Faster Transformer 3.0 INT8编码器的原理和技术细节。主要内容包括: 1. INT8量化的原理:使用8位整数表示数据并进行计算,可以减少模型大小、提高计算速度和降低功耗,但可能存在精度损失。 2. 不同的校准算法和两种量化方法:包括均匀对称量化、后训练量化(PTQ)和量化感知训练(QAT)。 3. 量化工具的工作流程:包括模型转换、校准、生成量化模型和部署。 4. BERT量化应用案例:使用Faster Transformer 3.0 INT8编码器对BERT模型进行量化,结果表明,在T4 GPU上,BERT基础模型和BERT大型模型的速度分别提高了10%~20%和15%~35%,精度损失小于0.2。 5. INT8输出GEMM的进一步改进:将GEMM操作的输出结果也转换为INT8,可以进一步提高速度,BERT基础模型在T4 GPU上的速度提高了85%,精度损失小于0.5。
INT8量化原理是什么? BERT量化有哪些方法? INT8量化在BERT中的应用效果如何?
客服
商务合作
小程序
服务号
折叠