当前位置:首页 > 报告详情

裴瑞光-端上大模型推理.pdf

上传人: 张** 编号:178921 2024-10-25 20页 2.65MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了基于Transformer架构的大模型在文本理解、语言生成、任务推理和多模态处理等方面的应用,强调了端上大模型推理的重要性和市场增长趋势。由于个性化、隐私保护、网络和成本等问题,端侧大模型推理逐渐成为重要角色。文章提到了一些关键数据,如不同模型的大小和性能,以及端侧和云侧模型的优缺点。同时,文章还讨论了端侧大模型推理面临的挑战,如耗电量、计算能力不强、模型能力不够等问题,并提出了相应的解决方案,如端云协同、算力优化、算法改进等。最后,文章还介绍了一种端云协同的任务调度方法,以及一些具体的优化策略,如KVcache重用、模型稀疏化、端云协同推理等。
"端侧大模型发展趋势如何?" "如何优化端侧大模型的性能?" "端云协同推理的未来前景怎样?"
客服
商务合作
小程序
服务号
折叠