当前位置:首页 > 报告详情

邱凯-Logic-RL:通过基于规则的强化学习释放大模型推理能力.pdf

上传人: 哆哆 编号:631174 2025-04-19 31页 18.19MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了微软亚洲研究院高级研究员邱凯在ML-Summit上的演讲内容。邱凯的研究方向包括图像与视频生成、多模态大模型的后训练和大语言模型的强化学习等。他设计了一个可复现的、可控的RL框架,用于研究LLM的推理能力。实验表明,强化学习能提升模型的推理能力和泛化能力,模型在强化学习过程中自发产生了探索、回溯、反思等复杂推理行为。邱凯还对比了PPO、GRPO和Reinforce++三种强化学习算法的效果,并发现模型在K&K数据集上经过强化学习后,在数学测试集AIME和AME上能力显著提升。然而,他也指出,强化学习方向仍面临一些挑战,比如如何将实验结论从中等规模模型扩展到更大模型和更复杂的任务上。未来,邱凯计划在大数据类型、多模态大模型的推理以及基于RL的Agent探索等方面进行研究。
"如何通过RL提升大模型推理能力?" "大模型如何自发学习复杂推理行为?" "强化学习在多模态大模型推理中的应用前景如何?"
客服
商务合作
小程序
服务号
折叠