王骁_端侧大模型部署:存储系统面临的挑战和优化实践.pdf

编号:1268209 PDF 42页 6.29MB 下载积分:VIP专享
下载报告请您先登录!

王骁_端侧大模型部署:存储系统面临的挑战和优化实践.pdf

1、端侧大模型部署:存储系统面临的挑战和优化实践王骁 vivo存储系统专家目 录CONTENTS02:AIOS架构03:存储系统挑战和优化实践04:未来展望01:端侧大模型发展Blue LM蓝心大模型小v记忆小V写作智能命名&总结离线消除小V电话助手小V语音对话蓝心小V定制美颜AI普惠全球vivo手机用户蓝心个人智能框架可控执行自主规划个人记忆实时感知系统架构14AI Agent框架业务&交互双指长按语音实体按键全链路个人隐私数据安全系统应用三方应用任务规划意图理解记忆管理模型引擎高效推理模型管理端云协同内核文件系统资源调度内存管理硬件UFS/ZUFSCPU/GPU/NPUDRAM/PIMBloc

2、k IO度量sensors存储系统挑战1:模型加载耗时长,3B模型接近2G文件加载耗时达10sdmabuf Admabuf B输入输出buf10.147s 完成加载模型文件A模型文件A模型文件B模型文件Bmmap+memcy访问大模型文件,因为文件不在pagecache,需要通过缺页来完成每个page的读取read+并行,从10s下降到2s,仍然不满足1s需求读模型文件A读模型文件Bdmabuf Admabuf B输入输出buf2s内全部读完挑战2:内存申请耗时波动大(14s),占用3.5GB+申请2GB dmabuf内存耗时memfree/MBavailable/GB耗时/S申请速率GB/S

3、3004GB1.941.033003GB2.110.993002GB4.140.518可用内存在4GB情况下,申请2GB dmabuf耗时约1.94S;可用内存在2GB情况下,申请2GB dmabuf耗时约4S+挑战3:随机数据占比高,影响推理速度PocketPal 使用AI Model:Phi4-O2-K推理阶段加载耗时超过1.4s,总数据量500MB,4K占比23.93%4k,23.93%8k,6.72%16k,9.65%32k,19.35%64k,=64k,12.48%挑战4:带宽仍有30GB/s+的差距,存储功耗占比超过50%存储系统原生方案机制和不足原生的dma-buf内存的文件读写

4、,数据要先从存储器读取到cache缓存,再从缓存拷贝到用户实际内存空间,需要两次数据copy和两份内存占用,读写大文件效率低两份内存占用,内存占用3GB+一次CPU拷贝,算力消耗探索1:DMA-BUF介绍和用户态无法支持 Direct IO 的原因23VM_PFNMAPDMA-BUF这个框架解决CPU和各种不同外设驱动之间buffer共享的问题。但是DMA-BUF的内存PFNMAP特性限制导致Direct IO无法使用。探索1:DMA-BUF 机制缺陷:DMA-BUF申请后才能发起 IO在内核态读取文件,struct page可管理读取完再export dma-buf,避免并发竞争内存申请和文

5、件读取在生产-消费者模式下并行,提高效率探索1:vivo的解决方案,模型加载速度提升50%+探索1:udmabuf 方案2627探索1:vivo 对 udmabuf 的提交 pre-fault加速mmap page的获取 修复udmabuf size超过2G创建失败问题(buddy alloc导致)vmap等适配HVO,避免用page struct,而是使用pfn 对于create过程的代码简化和性能提升 google后续将在安卓上开启udmabuf提交链接:https:/lore.kernel.org/all/20240918025238.2957823-1- UFS存储设备最小传输单位是4

6、KB。探索2:EROFS文件系统对 direct I/O 的支持探索2:EROFS文件系统怎么支持 Direct I/O?l EROFS:block大小对齐不是问题 当不是block大小对齐时,EROFS实现先读取到临时page中,再从临时page解压到user buffer中l buffer 地址和buffer大小:需要page大小对齐EROFS当前是以page为单位进行读取的l 性能思考 顺序读大部分情况下是就地I/O(inplace I/O)和就地解压(inplace decompression),不需要临时page探索2:Buffer I/O和D

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(王骁_端侧大模型部署:存储系统面临的挑战和优化实践.pdf)为本站 (柒柒) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠