报告预览

吴翼-AReaL：一个专为大型推理模型设计的灵活高效的开源强化学习系统.pdf

编号：631144

PDF 46页 13.34MB 下载积分：VIP专享

下载报告请您先登录！

吴翼-AReaL：一个专为大型推理模型设计的灵活高效的开源强化学习系统.pdf

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit清华大学交叉信息研究院助理教授，回国前曾任OpenAI全职研究员，研究领域为深度强化学习，多智能体学习，推理模型，人机交互等。2019年在美国加州大学伯克利分校获得博士学位，师从Stuart Russell教授；2014年本科毕业于清华大学交叉信息院计算机科学实验班（姚班），代表作包括强化学习泛化性早期工作 V a l u e I t

2、e r a t i o n N e t w o r k，多智能体学习最高引算法 MAPPO/MADDPG，OpenAI多智能体捉迷藏项目等，还曾获得顶级会议NIPS2016 best paper award和ICRA2024 best demo award finalist.演演讲讲主主题题：A AR Re ea aL L：一一个个专专为为大大型型推推理理模模型型设设计计的的灵灵活活高高效效的的开开源源强强化化学学习习系系统统吴吴翼翼前前O Op pe en nA AI I研研究究员员，清清华华大大学学交交叉叉信信息息院院助助理理教教授授ML-SummitML-Summi

3、t从 ReaLHF 到 AReaL面向大模型的强化学习系统演进吴翼清华大学2025/04/19ML-SummitML-Summit1.什么是强化学习？和大模型的关系？2.RLHF&RL Scaling3.ReaLHF：高效率 RLHF 训练4.AReaL：针对 RL Scaling 的高效率训练系统目录ML-SummitML-SummitSequence decision-making 序列决策What if no“correct answer”?没有标准答案AI 需要自己去寻找正答案什么是强化学习（Reinforcement Learning）ML-SummitML-Summit强化学习的

4、关键组成：环境+行动+奖励Environment 环境（任务）Observation（观测）Transition（环境变化）Reward（奖励）Agent/Policy 策略 Input:observation（输入观测）Output:action（输出动作）Objective:maximize reward（最大化奖励）ML-SummitML-Summit强化学习算法核心是最大化奖励A method to find a policy with high rewards 强化学习是找到奖励最大化策略的过程Key ideas 关键点Exploration（探索）-Trial-and-error（

5、反复尝试）Value estimation（价值学习）-Estimate expected reward for past trials-根据经验预估每个动作的收益Exploitation-Take actions with higher rewards-选价值高的动作强化学习的核心是，为了获得更高的奖励，如何在 exploration 和 exploitation 之间进行平衡和取舍ML-SummitML-Summit强化学习算法：经典实例强化学习的出圈时刻：打游戏超越顶尖人类和大模型有什么关系？DeepMind AlphaGo Series 2016OpenAI Five DotaII A

6、I,2019ML-SummitML-Summit1.什么是强化学习？和大模型的关系？2.RLHF&RL Scaling3.ReaLHF：高效率 RLHF 训练4.AReaL：针对 RL Scaling 的高效率训练系统目录ML-SummitML-Summit语言模型的核心是Next Token Prediction描述自然语言的概率模型对于任意字符序列 X，P(x1xN):X“像”一个自然语言的概率-举例：P 清华大学=0.1;P 华学清大=0.000001链式法则 P c1cN=P c1P c2c1P cNc1cN1给定自然语言数据X，最大化 P(X)的概率-熟读唐诗三百首，不会作诗也会吟核

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（吴翼-AReaL：一个专为大型推理模型设计的灵活高效的开源强化学习系统.pdf）为本站（哆哆）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。