特赛发-曾冠奇-特赛发LLM落地实战分享.pdf

上传人：张**

编号：155816

2024-02-15

PDF 16页 2.67MB

《特赛发-曾冠奇-特赛发LLM落地实战分享.pdf》由会员分享，可在线阅读，更多相关《特赛发-曾冠奇-特赛发LLM落地实战分享.pdf（16页珍藏版）》请在三个皮匠报告上搜索。

1、特赛发特赛发LLMLLM落地实战分享落地实战分享曾冠奇曾冠奇特赛发创始人特赛发创始人CEOCEO个人简介个人简介曾冠奇简历：硕士毕业于武汉大学国家网络安全学院，师从教授委员会主任王丽娜教授。个人学术公众号：Agent的潜意识2015年阿里大数据竞赛15/4868 2016年上海bot大赛排面自动识别初复赛第一名。工作经历：平安科技（世界500强）资深工程师（2012-2014）国家某部委841院多媒体深度学习负责人-2016 便利蜂智能零售实验室team leader。2017-2018 敦煌网算法总监 2018-2020 蚂蚁集团数字金融线数金搜索算法负责人2020.1-2022CSDN

2、学院人工智能讲师创新工场AI chanllege 讲师之江实验室学术客座专家IEEE SMC2020 Adaptive Context Learning Network for Crowd Counting 第一通讯作者 ACM SIGIR2022CTnoCVR:A Novelty Auxiliary Task Making the Lower-CTR-Higher-CVR Upper 第一通讯作者目录目录03.落地基本范式04.预训练模型实战01.全栈自研垂类模型02.自研GPU资源05.RLHF内核情景06.COT的数学本质07.关键实践1 1、我们为什么要自研垂类大模型、我们为什么要

3、自研垂类大模型预训练+RLHF+COT三大核心组件全栈自研80%80%LLMLLM预训练模型预训练模型+SFT+SFT自训练（自训练（vicunavicuna、羊驼等）、羊驼等）50%基于基于chatGPTchatGPT的插件应用开发的插件应用开发(gpt-engineer,gpt-engineer,auto-gpt)20%Langchain+LLMLangchain+LLM的开发的开发30%全栈自研，才有纵深，才有张力、弹性、可伸缩性。能够深入理解技术本质，提供可定制化的深层服务力。做难而正确的事2 2、自研垂类大模型资源盘点、自研垂类大模型资源盘点彭博社GPT模型大小：50BGPU：64台

4、机器，一机8卡A100，显存40G数据交换速度：节点间600Gb/s，节点内400GB/s数据量：共700B语料库，使用569B做trainset数据来源：公有数据集+私有数据集训练时长：139200step，53天，0.8个epoch效果：NER+NED优于Bloom176b Gpt-NeoX OPT66参考文献：Wu,S.,Irsoy,O.,Lu,S.,Dabravolski,V.,Dredze,M.,Gehrmann,S.,.&Mann,G.(2023).Bloomberggpt:A large language model for finance.arXiv preprint arXi

5、v:2303.17564.特赛发LLM1、A800（100）集群不如H800（100）单机多卡。集群需要管理好网络数据同步带宽。因而单机多卡更方便。2、Nvlink 同步数据比PCIE快几倍。训练整体速度快20%左右。NVLINK和PCIE都掉卡。3、数据集要有分布多样性。模型见多识广，才不会收敛在小的局部最优解。4、一个30B左右的模型，100B tokens完全够用。5、超大规模模型，里面冗余参数（参数值趋近于0）很多。模型结构需要自行设计。模型大小：2050BGPU：1机十卡H800数据交换速度：单节点，节点内 NVlink数据量：50100B左右数据来源：公有数据集+私有数据集训练时长

6、：10 day效果：垂类数据上具有优势。3 3 实战落地基本范式实战落地基本范式Step 1预训练构建具有垂类数据理解能力的底座，底座模型训练中没有见过的业务逻辑，后续COT即使写的再好，也达不到人类推理水平。Step 2RLHF1、SFT。2、reward model3、PPO。Step 3COT如何debug，找到能学到推理能力的Prompt书写范式是核心模型结构设计优化三要点：1、弹性 2、张力3、可伸缩性1、SFT提供基本能力2、reward model 提供判别式3、PPO来训练Agent构建具有真正推理能力的LLM收集高质量垂类数据，清洗好，混搭其他数据集，提升数据分布的多样性构建

特赛发-曾冠奇-特赛发LLM落地实战分享.pdf

相关报告