当前位置:首页 > 报告详情

飞桨推理引擎性能优化.pdf

上传人: li 编号:29527 2021-02-07 40页 2.31MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了百度深度学习技术平台部的Paddle Inference推理引擎,以及其在性能优化、ERNIE模型优化和应用案例方面的详细信息。 1. Paddle Inference基本介绍:Paddle Inference是飞桨的核心推理引擎,支持动态图和静态图推理,以及大规模分布式训练和工业级数据处理。它具备硬件支持通用性、深度优化、简易性等特点,并提供了C++、Python API等接口。 2. Paddle Inference性能优化方法:包括内存/显存优化、OP融合、Kernel优化、TensorRT集成和混合精度推理等。例如,通过OP融合和显存池管理,可以将Resnet50模型的显存占用从500MB降低到200MB。 3. ERNIE模型优化:ERNIE模型经过OP融合和变长输入支持等优化,使得模型结构更加简洁,OP数量大幅减少,同时支持动态shape和变长输入。在NVIDIA Tesla T4上,ERNIE模型运行时延从224ms降至41.90ms。 4. Paddle Inference应用案例:百度内部各大业务如搜索、Feed、百度APP、百度地图、Apollo、AI医疗等都采用了Paddle Inference,展示了其在工业、农业、服务业等各行各业的广泛应用。 综上,本文详细介绍了Paddle Inference推理引擎的性能优化方法、ERNIE模型优化和应用案例,展示了其在深度学习领域的领先技术。
"Paddle Inference如何实现显存优化?" "ERNIE模型优化有哪些具体措施?" "Paddle Inference在实际应用中表现如何?"
客服
商务合作
小程序
服务号
折叠