大语言模型高效自动对齐.pdf

上传人：哆哆

编号：186295

2024-11-01

PDF 12页 2.85MB

《大语言模型高效自动对齐.pdf》由会员分享，可在线阅读，更多相关《大语言模型高效自动对齐.pdf（12页珍藏版）》请在三个皮匠报告上搜索。

1、大语言模型高效自动对齐基于反馈学习的模型能力自动强化演进糜飞华为-诺亚方舟实验室-语音语义【盘古大模型研发研究员】YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024 可能下一阶段大模型越用越智能、商业化能力提升的重点，是数据飞轮、基于反馈的自动强化&对齐协同数据&系统工程+算法Related work1.Huawei,Aligning Large Language Models with Human:A Survey2.Alibaba,A Survey on Se

2、lf-Evolution of Large Language Models监督学习:数据反馈学习:数据+算法预训练监督学习SFT反馈学习RLHFRLAIFLLM开发周期PreliminaryYSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024lOpenAI投入20%的计算资源在超级对齐研究上，由Ilya Sutskever和Jan Leike共同领导（Anthropic）Pillar 1:在人类可以直接评估的任务上如何与人类对齐RLHFSFTPillar 2:在人类难

3、以直接评估的任务上，辅助AI高效对齐(Scalable Oversight)3.AI反馈对齐（细粒度强化）1.AI问题自动发现（突破难例发现效率）2.AI辅助反馈（高质量反馈）OpenAI超级对齐背景：分阶段实现强智能体的安全可控、自动对齐人工反馈AI辅助人工对齐（超级对齐初级阶段）AI辅助AI对齐（终极超级对齐）Step1Step 3Step 2(OpenAI)过程反馈：稠密过程奖励模型，提升数学推理精度10%(OpenAI)过程对齐：利用过程奖励模型，分步骤打分强化学习训练，精度提升6%(Apple、Google、Llama、Qwen)：多阶段/在线强化学习，显著提升模型性能(Google

4、)工具反馈：拆解规划并使用工具校验，提升高阶推理精度20%(Google)自动化红队：构建自动攻击红队模型，提升问题空间难例发现效率3倍(Google)Self-Play：多智能体强化学习，多LLM多角色协同辩论，提升解空间发现效率2倍(微软)语言反馈：LLM多维度稠密语言反馈，对齐数值反馈对齐效果提升10%问题Prompt人类反馈奖励模型RL粗粒度对齐优化123Pillar 3:AI自动完成大规模对齐进化(Weak2Strong)模型可控可解释：AI自动解释、度量神经元粒度的行为决策、对齐过程，提高模型对齐算法可控性大规模自动对齐、群体演进：基于AI问题发现+AI辅助反馈，利用大算力，自动化

5、进化模型能力。挑战1：静态问题空间，依赖人工构造挑战2：人类反馈效率低挑战3：单一数值反馈，难以精准改进，效率和稳定性低YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024高效自动对齐技术地图：E-Cube外飞轮：现网用户数据内飞轮：现有SFT、预训练数据高价值数据扩容高价值语料、难例问题空间探索解空间探索（解码策略、树搜索）数据分类别召回高价值数据挖掘 Exploration难例挖掘 Evolvement能力进化基于SFT loss的进化学习（数值、语言反馈）基于R

6、L loss的进化学习（数值、偏好反馈）Evaluation评估&改进稠密反馈数值反馈过程反馈语言反馈自演进增强的模型当前版本模型价值评估新模型定期部署迭代Exploration：分析现网数据，挖掘并扩容难例评估&改进模型：对难例评估、排序、改进基于难例和对应的反馈和改进，持续训练模型，更新模型参数YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024解空间探索解码策略树搜索(外挂、离线造数据)问题空间探索现网用户模拟合成难例举一反三 Exploration

大语言模型高效自动对齐.pdf

相关报告