当前位置:首页 > 报告详情

复旦大学:2024如何提升大模型任务能力报告(39页).pdf

上传人: c** 编号:186803 2024-12-27 39页 4.08MB

下载:

1、1张奇复旦大学如何提升大模型任务能力2ChatGPT实现过程原始数据数千亿单词:图书、百科、网页等语言模型预训练基础模型预训练阶段数据集合算法模型资源需求1000+GPU月级别训练时间GPT 3.0、LLaMa、PaLM标注用户指令百万用户指令和对应的答案语言模型预训练SFT 模型1-100GPU天级别训练时间MOSS、ChatGLM6b、Vicuna-13B等指令微调标注对比对百万标注对比对二分类模型RM 模型1-100GPU天级别训练时间奖励函数用户指令十万用户指令强化学习方法RL 模型1-100GPU天级别训练时间ChatGPT、Claude强化学习3大模型的能力是如何获取的原始数据数千

2、亿单词:图书、百科、网页等语言模型预训练基础模型预训练阶段标注用户指令百万用户指令和对应的答案语言模型预训练SFT 模型指令微调标注对比对百万标注对比对二分类模型RM 模型奖励函数用户指令十万用户指令强化学习方法RL 模型强化学习知识压缩和表示学习能力注入生成式任务能力提升4所有的能力都需要精心设计A comprehensive capability analysis of gpt-3 and gpt-3.5 series models,Arxiv 2023很多任务的能力在一开始并不具备,而是不断叠加上去的5所有的能力都需要精心设计A comprehensive capability anal

3、ysis of gpt-3 and gpt-3.5 series models,Arxiv 2023任务大量叠加会造成一些任务能力下降6预训练阶段如何储存知识7人类知识如何定义Physics of Language Models:Part 3.3,Knowledge Capacity Scaling Laws,Meta FAIR Labs,arXiv 2024人类知识:(name,attribute,value)三元组(非洲,最大国家,苏丹)(中国,首都,北京)Bit Complexity:这些元组信息有效且无损地表示所需要的最小二进制位数例如,如果一个拥有1亿参数的模型存储了2.2亿比特的知

4、识,则其容量比例为2.2比特/参数8GPT2 模型的知识 Scaling LawPhysics of Language Models:Part 3.3,Knowledge Capacity Scaling Laws,Meta FAIR Labs,arXiv 2024GPT2 使用标准AdamW优化器,稳定的保持2bit/参数无论如何设置参数包括:不同大小、深度、宽度的模型,各种数据量、类型以及超参数充分训练的7B模型可以保存14B bits知识Wikipedia 包含4.5B words所有英文图书包含 16B words知识记忆不是word-by-word记忆,而是能够通过问答获取答案9需要

5、足够多的“曝光”才能完成记忆Physics of Language Models:Part 3.3,Knowledge Capacity Scaling Laws,Meta FAIR Labs,arXiv 2024达到2bit/参数 对于每个知识要达到 1000 次曝光如果只有100次曝光的话,会减少到1bit/参数图标上面数字是l,h参数选择“垃圾”数据对知识获取有显著影响Physics of Language Models:Part 3.3,Knowledge Capacity Scaling Laws,Meta FAIR Labs,arXiv 2024Wikipedia vs.Commo

6、n Crawl10预训练阶段结论1.同一个知识点必须用不同的方式大量重复,模型才能学习到2.具有高知识密度的高质量的训练数据至关重要3.经过足够的训练模型可以达到2bit/参数的知识存储能力4.如果预训练阶段模型没能学到知识,怎么微调都没有用11Physics of Language Models:Part 3.1,Knowledge Storage and Extraction,Meta FAIR Labs,arXiv 2023Physics of Language Models:Part 3.2,Knowledge manipulation,Meta FAIR Labs,arXiv 202

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文探讨了大型语言模型如ChatGPT如何通过预训练和有监督微调提升任务能力。预训练阶段,模型通过处理数千亿单词量的数据,包括图书、百科、网页等,来存储知识。关键点包括:1. 同一知识点需以不同方式重复以被模型学习。2. 高知识密度的训练数据至关重要。3. 足够训练后模型能达到每参数2比特的知识存储能力。4. 若预训练未学到知识,微调将无效。 有监督微调阶段涉及四种微调方式,并探讨了数学推理、编程和一般能力与SFT数据量的关系。实验分析指出:1. 大模型在相同数据量下表现更佳。2. 混合数据源在低资源环境下提升性能,但在高资源环境下性能可能下降。3. 数据量直接影响性能,而数据比例的影响不显著。4. DMT策略能有效缓解性能冲突。 此外,文章还讨论了知识回答与其他任务冲突的解决,大规模微调对世界知识的影响,以及LoRA+MoE和RLHF等方法在生成式任务中的应用。最后,文章指出提升任务效果需要一定数量的标注数据,多任务间的相互影响和关系需深入研究,多任务训练方法尚缺乏统一认识,强化学习对生成任务效果提升具有重要作用。
如何提升大模型任务能力? 大模型如何通过微调学习新任务? 强化学习在大模型生成任务中的作用是什么?
客服
商务合作
小程序
服务号
折叠