《特赛发-曾冠奇-特赛发LLM落地实战分享.pdf》由会员分享,可在线阅读,更多相关《特赛发-曾冠奇-特赛发LLM落地实战分享.pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、特赛发特赛发LLMLLM落地实战分享落地实战分享曾冠奇曾冠奇 特赛发创始人特赛发创始人CEOCEO个人简介个人简介曾冠奇简历:硕士毕业于武汉大学国家网络安全学院,师从教授委员会主任王丽娜教授。个人学术公众号:Agent的潜意识2015年阿里大数据竞赛15/4868 2016年上海bot大赛排面自动识别初复赛第一名。工作经历:平安科技(世界500强)资深工程师(2012-2014)国家某部委841院多媒体深度学习负责人-2016 便利蜂智能零售实验室team leader。2017-2018 敦煌网算法总监 2018-2020 蚂蚁集团数字金融线数金搜索算法负责人2020.1-2022CSDN
2、学院人工智能讲师 创新工场AI chanllege 讲师 之江实验室学术客座专家IEEE SMC2020 Adaptive Context Learning Network for Crowd Counting 第一通讯作者 ACM SIGIR2022CTnoCVR:A Novelty Auxiliary Task Making the Lower-CTR-Higher-CVR Upper 第一通讯作者目录目录03.落地基本范式04.预训练模型实战01.全栈自研垂类模型02.自研GPU资源05.RLHF内核情景06.COT的数学本质07.关键实践1 1、我们为什么要自研垂类大模型、我们为什么要
3、自研垂类大模型预训练+RLHF+COT三大核心组件全栈自研80%80%LLMLLM预训练模型预训练模型+SFT+SFT自训练(自训练(vicunavicuna、羊驼等)、羊驼等)50%基于基于chatGPTchatGPT的插件应用开发的插件应用开发(gpt-engineer,gpt-engineer,auto-gpt)20%Langchain+LLMLangchain+LLM的开发的开发30%全栈自研,才有纵深,才有张力、弹性、可伸缩性。能够深入理解技术本质,提供可定制化的深层服务力。做难而正确的事2 2、自研垂类大模型资源盘点、自研垂类大模型资源盘点彭博社GPT模型大小:50BGPU:64台
4、机器,一机8卡A100,显存40G数据交换速度:节点间600Gb/s,节点内400GB/s数据量:共700B语料库,使用569B做trainset数据来源:公有数据集+私有数据集训练时长:139200step,53天,0.8个epoch效果:NER+NED优于Bloom176b Gpt-NeoX OPT66参考文献:Wu,S.,Irsoy,O.,Lu,S.,Dabravolski,V.,Dredze,M.,Gehrmann,S.,.&Mann,G.(2023).Bloomberggpt:A large language model for finance.arXiv preprint arXi
5、v:2303.17564.特赛发LLM1、A800(100)集群不如H800(100)单机多卡。集群需要管理好网络数据同步带宽。因而单机多卡更方便。2、Nvlink 同步数据比PCIE快几倍。训练整体速度快20%左右。NVLINK和PCIE都掉卡。3、数据集要有分布多样性。模型见多识广,才不会收敛在小的局部最优解。4、一个30B左右的模型,100B tokens完全够用。5、超大规模模型,里面冗余参数(参数值趋近于0)很多。模型结构需要自行设计。模型大小:2050BGPU:1机十卡H800数据交换速度:单节点,节点内 NVlink数据量:50100B左右数据来源:公有数据集+私有数据集训练时长
6、:10 day效果:垂类数据上具有优势。3 3 实战落地基本范式实战落地基本范式Step 1预训练构建具有垂类数据理解能力的底座,底座模型训练中没有见过的业务逻辑,后续COT即使写的再好,也达不到人类推理水平。Step 2RLHF1、SFT。2、reward model3、PPO。Step 3COT如何debug,找到能学到推理能力的Prompt书写范式是核心模型结构设计优化三要点:1、弹性 2、张力3、可伸缩性1、SFT提供基本能力2、reward model 提供判别式3、PPO来训练Agent构建具有真正推理能力的LLM收集高质量垂类数据,清洗好,混搭其他数据集,提升数据分布的多样性构建