当前位置:首页 > 报告详情

Trustworthy Policy Learning under the Counterfactual No-Harm Criterion.pdf

上传人: 2*** 编号:144895 2023-10-28 34页 1.70MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
全文主要研究了在机器学习中如何确保政策学习满足“无害”准则。文章首先定义了“无害”准则,即政策在实施时不会对特定群体造成负面影响。作者提出了一种新的“无害”准则上界估计方法,并证明了其一致性和渐近正态性。文章还提出了一种基于此估计器的政策学习方法,并证明了在特定条件下,该方法学习到的政策与最优政策具有相同的风险。在模拟实验中,作者展示了所提方法在满足“无害”准则的同时,能够提高政策奖励。主要关键点包括:1)定义并分析了“无害”准则;2)提出了一种新的“无害”准则上界估计方法,并证明了其统计性质;3)提出了一种基于此估计器的政策学习方法,并证明了其与最优政策的风险相同;4)在模拟实验中验证了所提方法的有效性。
"如何实现因果推断的公平性评价?" "基于因果的推荐系统有哪些最新研究进展?" "因果推断在生物医学领域有哪些实际应用案例?"
客服
商务合作
小程序
服务号
折叠