当前位置:首页 > 报告详情

组合多变量多臂土匪及其在情景强化学习等领域的应用-李帅.pdf

上传人: 哆哆 编号:186333 2024-11-01 47页 6.17MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了组合多臂老虎机(CMAB)在处理具有状态的决策系统中的应用,以及强化学习(RL)与CMAB之间的关系。主要技术成果包括:将离散时间RL视为CMAB的一个实例,提出了一种插件CMAB算法/分析方法,该方法实现了接近最优的后悔最小化。通过整合RL结构,实现了最小最大后悔的连接。此外,文章还讨论了多臂老虎机和组合多臂老虎机的基本背景,以及如何将RL视为CMAB的一个实例,并从CMAB的角度解决离散时间RL问题。
组合多臂老虎机如何处理具有状态的决策系统? 强化学习与组合多臂老虎机之间有何关系? 组合多臂老虎机如何解决离散时间强化学习问题?
客服
商务合作
小程序
服务号
折叠