《程引-推荐系统融合排序的多目标寻优技术.pdf》由会员分享,可在线阅读,更多相关《程引-推荐系统融合排序的多目标寻优技术.pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2024推荐系统融合排序的多目标寻优技术程引 快手科技 资深推荐算法工程师个人简介上海交通大学博研究上海滴滴出行派单算法/强化学习北京快手科技推荐算法北京BizReach推荐算法/然语处理东京SmartNews推荐算法东京/北京知乎专栏链接微信请简单介绍下自己01推荐系统中的排序公式融合排序公式在推荐系统中的地位与难点02业务夹角与多目标权衡现象分析与因应对策03排序公式离线寻参原理离线寻参的基本步骤与贝叶斯优化算法04融合排序量化寻参实战开箱即用的高效自动寻参框架目录 CONTENT排序公式:推荐系统的核心推荐系统的最终呈现形式就是排序排序公式推荐策略模型训练特征
2、程个性化先验上下分层业务意志营收留存冷启动养成体验MapDeboostBoostlistwisepointwisepairwise派特征基本特征嵌向量排序相关性推荐策略通过排序公式生效特征工程丰富排序公式覆盖面个性化差异通过排序公式表达业务意志通过排序公式嵌入模型从各种角度学习排序因子排序公式的两类融合方式:序融合序融合关注的是各推荐算法提供的项目或内容的排名,而不直接使用具体的数值。优点不受不同推荐算法输出尺度的影响,因为它只关心排名。更适合处理那些只能输出排名而无法输出精确评分的推荐算法。缺点忽略了评分的具体信息,可能会丢失某些推荐系统的敏感度。对于项的数量和排名的一致性要求较高。适用条件
3、:各推荐系统的输出质量差异较大,但都能提供可靠的排序。需要整合不同类型推荐系统的结果,这些系统可能基于不同的用户交互数据和反馈机制。排序公式的两类融合方式:值融合值融合指的是直接在推荐算法的输出值上进行操作。优点直观且易于实现,尤其是在各个推荐器输出具有相似尺度和解释性的情况下。在数据丰富且各来源差异不大的情况下效果较好。缺点对不同尺度或分布的值需要先进行归一化或标准化。对异常值较为敏感,特别是采用简单平均等方法时。适用条件:各数据来源的可信度相近或已知。推荐算法的输出为直接可比较的评分或概率值。什么是好的融合排序公式融合公式至少要满足以下几个基本要求:1.具有区分度:区分是排序的核心功能,较
4、弱的区分度意味着排序机制的失效。2.尽可能保留排序队列的信息量:排序队列理应向融合分施加影响,否则就没有实现融合。3.尽可能少的冗余超参数:超参数应该能直接体现业务意志,过多的超参数会让融合公式丧失调整(不论是人工或自动)的指向性与被理解的能力。扩展阅读:值融合排序公式设计哲学的数学原理业务夹角现象与多目标权衡随着版图扩张,一定会产生相互龃龉的业务每个业务都会有自己的核心/重点指标帕累托改进在多数的迭代优化中几乎是不可能的多目标权衡的核心:价值判断与事实判断价值判断:业务之间的折算比事实判断:业务置换的难易度短视频商城告指标指标指标直播指标指标指标指标指标指标指标指标指标指标指标指标指标指标指
5、标指标指标指标指标指标指标指标指标排序公式离线寻参的技术原理为什么寻参,为什么要离线?调公式、调参数在各个公司都是效果显著、需求量巨大,而又费时费心费力的工作。目前多数自动化寻参工具的有效迭代需要生成大量的样本进行评估。这将在实践中带来以下几个困难:难以保证寻参质量:在线寻参需要大量的样本进行评估,线上小流量寻参无法有效覆盖样本空间。造成寻参质量不稳定,波动大的问题。难以提升寻参效率:在线寻参算法无法实现快速收敛,白白浪费大量的真实流量迭代生成样本,且难以实现并行化。难以解多目标优化:实践中我们的对于不同业务指标的优化难度,以及相关取舍是反复调整的过程中才能确定的,事先确定的融合目标一定不是最
6、终我们落地的融合目标。排序公式离线寻参的技术原理离线寻参的基本步骤1.给定一个融合公式的权重 ,可以计算出一个 ensemblescore2.在一个离线样本里,用 ensemblescore 和用户的行为,如 click,watch,follow,gift 等计算出离线指标,比如 AUCclick,AUCfollow3.将各种行为的离线指标融合成一个离线目标,比如:target=AUCclic+AUCfollow4.找出使得离线指标最大的权重 由此可知,离线寻参框架至少需要以下功能:计算融合分、评估子目标、融合子目