《骆庚《如何快速搭建LLM生产级应用》.pdf》由会员分享,可在线阅读,更多相关《骆庚《如何快速搭建LLM生产级应用》.pdf(45页珍藏版)》请在三个皮匠报告上搜索。
1、如何快速搭建如何快速搭建LLMLLM生产级生产级应用应用网易云音乐 模型工程团队负责人 骆庚0303内容内容总结总结相关技术点的总结0202LLMOpsLLMOps实践实践指南指南LLMOps的基本步骤与网易云音乐的实践0101背景概览背景概览大语言模型和LLMOps背景介绍目录目录1 1背景概览背景概览大语言模型大语言模型综述综述生成式生成式AIAI迅速迅速发展发展LLMOps-LLMOps-让让LLMLLM快速应用到生产环境快速应用到生产环境什么是什么是LLMOps?LLMOps?LLMOps是大语言模型在MLOps基础上的延伸,覆盖了大语言模型的开发、部署、应用、维护和优化等一整套流程。
2、LLMLLM的的Prompt vs Prompt vs F Finetuninginetuning核心内容核心内容数据工具:数据工具:语料管理、Prompt管理。模型工具:模型工具:模型训练、模型微调。部署工具:部署工具:服务部署、Prompt编排、模型部署。迭代工具:迭代工具:评测、标注、持续监控。2 2LLMOpsLLMOps实践实践指指南南大纲大纲 模型。模型。PromptPrompt。测试。测试。部署。部署。效果评估效果评估&持续改进。持续改进。模型模型-选择适合你的模型选择适合你的模型模型效果成本服务性能安全性迭代性ChatGPT好高差(境外)中(监管)差ChatGLM中中好(私有化
3、)中(V2可商用)中(SFT)LLaMA差(中文)中好(私有化)中(V2可商用)中(SFT)伏羲玉言中中好(私有化)好(可商用)好(预训练)核心关注点核心关注点模型效果:模型效果:是否满足业务需求。成本:成本:使用成本、研发成本、部署成本。服务性能:服务性能:是否2C、QPS/RT。安全性:安全性:是否合规、是否有商业化授权。迭代性:迭代性:是否可以进行模型微调。通过开源评测排行榜发掘新模型通过开源评测排行榜发掘新模型大语言模型开源评测排行榜大语言模型开源评测排行榜SuperCLUE琅琊榜UC伯克利LLM排行榜Huggingface LLM Benchmark开源中文大模型总览开源中文大模型总
4、览Tokenizer Tokenizer 模型词表大小中文平均token数中文处理时间(s)英文平均token数英文处理时间(s)ChatGLM-6B1303440.5515.910.1920.84Bloom2506800.539.870.2215.60LLaMA320001.4512.600.2519.40Chinese-LLaMA499530.628.650.24919.12核心关注点核心关注点Tokenizer的词表大小会影响推理速度。Tokenizer的词表构成会影响模型效果。想要好的中文模型效果,得对词表进行中文词汇扩充。LLAMA LLAMA 中文化的必经之路:中文化的必经之路:扩
5、充中文词汇扩充中文词汇token-token-使用大规模中文语料库使用大规模中文语料库 pre-training pre-training 基座基座LLAMA -Instruction Fine-tuningLLAMA -Instruction Fine-tuning模型选择模型选择-案例案例模型模型-一些建议一些建议 新尝试一个业务场景,可以用新尝试一个业务场景,可以用ChatgptChatgpt来判断来判断LLMLLM能达到的效果。能达到的效果。如果你是内部的如果你是内部的2B2B业务,业务,ChatgptChatgpt往往是最简单高效的选择。往往是最简单高效的选择。开源社区发展非常快,请
6、做好准备随时更换你的模型。开源社区发展非常快,请做好准备随时更换你的模型。在垂类场景,效果差距往往提现在在垂类场景,效果差距往往提现在SFTSFT数据的积累而不是基座模型的选择。数据的积累而不是基座模型的选择。大纲大纲 模型。模型。PromptPrompt。测试。测试。部署。部署。效果评估效果评估&持续改进。持续改进。Prompt-Prompt is all you havePrompt-Prompt is all you have什么是什么是Prompt EngineeringPrompt Engineering?简单理解Prompt 就是给AI 的指令。Prompt Engineering