《林玥煜-挑战 Transformer:RWKV 架构的探索与实践.pdf》由会员分享,可在线阅读,更多相关《林玥煜-挑战 Transformer:RWKV 架构的探索与实践.pdf(44页珍藏版)》请在三个皮匠报告上搜索。
1、林玥煜 RWKV元始智能算法工程VP曾任大数医达科技有限公司算法总监、阿里巴巴数据事业部系统架构师,多年来深耕大数据、人工智能在工业界应用和开发管理。对大语言模型在严肃医疗场景的应用、开发拥有丰富的实战经验。演讲主题:挑战Transformer:RWKV架构的探索与实践R RW WK KV V新新一一代代的的大大模模型型架架构构 超超越越T Tr ra an ns sf fo or rmme er r林玥煜 深圳元始智能有限公司 深圳元始智能有限公司 首席算法工程师元始智能首席算法工程师,负责模型工程化林玥煜毕业于同济大学,有着丰富的深度学习系统搭建、应用和调优的经验曾任美国TeleNav I
2、nc.高级软件工程师、阿里云高级技术专家、北京大数医达首席架构师RWKV计算效率高速度快 内存省 耗电少无限上下文适合长文本处理对芯片友好只做矩阵乘矢量全球开源开放Apache 2.0 协议项目历史成成立立元元始始智智能能第第一一个个商商业业客客户户高高通通全全球球合合作作种种子子轮轮奇奇绩绩创创坛坛全全球球首首个个R RN NN N大大模模型型微微软软在在数数亿亿台台电电脑脑中中部部署署R RWWK KV V运运行行库库2023.072023.102024.012024.042024.052024.072024.09第第一一个个t to oC C端端侧侧应应用用2020年初2022.1120
3、23.032023.05一一个个人人的的开开源源项项目目第第4 4代代7 7B B模模型型开开源源第第4 4代代1 14 4B B模模型型开开源源第第4 4代代论论文文公公开开被被E EMMN NL LP P收收录录2023.062023.082024.082023.122023.10第第5 5代代7 7B B模模型型开开源源第第5 5/6 6代代论论文文公公开开被被C CO OL LMM收收录录第第6 6代代7 7B B模模型型开开源源第第6 6代代1 14 4B B模模型型开开源源第第7 7代代预预览览版版Transformer使用模型的算力巨大Scaling-law 出现瓶颈大厂和高校纷
4、纷换方向RWKV是未来降低对算力的依赖带来新的 Scaling-law大厂和高校追随 RWKV 方向RWKVRWKV正引领大模型的架构迁移RWKV 开始于2020年初,正在研发 RWKV-7RWKV正引领大模型的架构迁移RWKV-6 是 channel-wise dynamic decay,是效果最好的设计RWKV与芯片厂商合作因 RWKV 具备高性能、内存低、耗电少的特点,与多家端侧芯片合作2023.10.25高通 骁龙8 Gen3 发布会2023.11.06MTK 天玑 9300 发布会2023.12.15Intel 酷睿 Ultra 发布会2024.03.21AMD 锐龙8040 发布会
5、RWKV效率全球最高推理成本降低10-100倍RWKV推理速度 恒恒定定时间复杂度 O(T)内存占用 恒恒定定空间复杂度 O(1)Transformer推理速度 越来越慢时间复杂度 O(T2)内存占用 越来越大空间复杂度 O(T2)RWKV模型效果超过LLaMA2英英文文能能力力超超过过 L LL La aMMA A2 2 仅次于 LLaMA3(15T Tokens),Mistral 7B(5T Tokens)多语言能力全球第一 支持全球所有100+种语言和代码 用 RWKV-6 7B(2.5T Tokens)测试RWKV模型效果/其他对比测试上下文长度ctx4k 训练的 RWKV-6可良好适
6、应到 ctx20k 以上内存占用低RWKV-6 内存占用比 Flash Attention 少 40%MQAR 优RWKV-6 在 MQAR 测试中有显著优势上下文长度ctx4k 训练的 RWKV-6可良好适应到 ctx20k 以上内存占用低RWKV-6 内存占用比 Flash Attention 少 40%RWKV模型效果/大模型压缩榜语言建模能力就是压缩能力,用新数据衡量模型的泛化能力https:/ LLaMa 的一半RWKV Scaling-law 非常好每个算力所对应的最佳模型连起来是线性横坐标是训练消耗的算力纵坐标是 loss(越低越好)不同点代表不同模型RWKV是怎么做到的100%