《3.钱英男-广告业务中大模型特征入模建设应用实践.pdf》由会员分享,可在线阅读,更多相关《3.钱英男-广告业务中大模型特征入模建设应用实践.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、演讲嘉宾:钱英男商业化业务商业化业务LLMforRECLLMforREC数据特征进阶之路数据特征进阶之路0 1传统推荐模型传统推荐模型-数据基建的数据基建的“精耕细作精耕细作”0 2LLM4REC-LLM4REC-数据基建数据基建的的“语义化跃迁语义化跃迁”0 3未来规划未来规划0 1 传统推荐模型传统推荐模型-数据基建的数据基建的“精耕细作精耕细作”商业化场景下-一条广告的分发链路 核心逻辑:“匹配”与“排序”。基于海量“用户-物品”交互历史,学习一个高效的排序函数 优势:技术栈成熟、可解释性强、在成熟场景下效果稳定、工程性能优化空间大 适配场景:拥有稳定流量和丰富用户行为的成熟业务(如电商
2、主站、信息流)FM、DeepFM、DIN、DIEN模型代表模型代表商业化场景下-传统推荐模型架构以及数据特征“精耕细作”数据特征核心诉求:特征决定了模型能“看见”多远、多细 广度与密度:用户/物品ID、画像、上下文、统计特征 组合与交叉:显式/隐式特征交叉,挖掘二阶、高阶信号 序列行为:短期兴趣、长期兴趣的序列化建模 重点方向:覆盖率、实时性、精准度商业化场景下-传统推荐模型存在的问题传统的多阶段推荐系统,存在两种自闭环由级联多阶段推荐系统产生的内容,经过用户的曝光、完播、点击、转化等,作为样本又重新进入到召回、精排粗排中进行学习,形成推荐与用户自闭环召回和粗排通过Learning to Ra
3、nk学习精排、混排部分的打分排序,形成多阶段级联模块内部的自闭环0 2 LLM4Rec LLM4Rec 数据基建的数据基建的“语义化跃迁语义化跃迁”LLM4REC解决问题一内容冷启-ITEM聚簇-短剧 我们希望能够回归到内容和商品本身,在内容和商品维度进行分发来提升投放的确定性,同时缓解物料膨胀带来的资源和效率问题。主要解决素材的重复问题,保障新内容、素材能够冷启成功。方案思路 广告主或作者在内容上传初期,为迅速起量,往往会重复创建非常多类似甚至相同的商品和素材,通过概率来博取更好的分发效果 但卷基建导致的冷启商品长尾素材和商品使得模型样本稀疏,预估就会变的不准确且不稳定。这种不确定性又会进一
4、步的刺激广告主陷入到卷素材的过程中。这种负向循环对于广告主、平台、用户三方来说都是非常不友好的情况LLM4REC解决问题一内容冷启-ITEM聚簇-短剧 Case 1Case 1同剧不同名,肉眼看剧名以为不是一部剧,实际经过大模型内容理解后、是一部剧 Case 2Case 2剧名不同,且剧集经过重新剪辑换序、抽帧画面不完全一致,提高了识别难度,大模型依然能判断出讲的是同一个故事剧情、识别为一部剧 Case 3Case 3短剧名字完全一致,但经大模型理解后,判断是不同的剧LLM4REC解决问题一内容冷启-ITEM聚簇-短剧方案思路升级相似召回构建pair对Minhash用于高效估算集合间的Jacc
5、ard相似度避免直接计算高维数据的复杂度文本-EMB借助向量检索直接计算相似结果缺点:不同平台是否支持,并且计算量也是有上限精确计算:得到的pair对必须是置信的,所以对pair对进行精确计算保证相似结果Minhash:漏召回低,但是过于严苛向量检索:召回尺度依然不好掌控多模态Embedding+GraphFrame分布式图计算优点:支持深度搜索和广度搜索实现聚类结果方法思路:通过图进行遍历,直到图不连通,认为是一个簇,将数据集分开归一结果阈值在0.78时,准确率97%,召回率新版本86%,相对老版本提升13%LLM4REC解决问题一内容冷启-ITEM刻画面向的业务问题:用户广告场景行为稀疏,
6、推荐系统能捕获的信号少,预估难度大面向的业务问题:用户广告场景行为稀疏,推荐系统能捕获的信号少,预估难度大方案思路方案一:通过对各种内容进行识别、抽帧、多模态理解,对冷启的内容商品进行标签和信息的扩充增强方案二:除了直接数据特征入模,还可以将冷启内容或商品信息进行相似扩展,召回相似的高频内容商品表征,做成用户序列特征传统物找人协同过滤双塔召回lookalikeITEM找人破圈传统思路都需要有item丰富的交互信息,因此在冷启方面表现都不好LLM4REC解决问题一内容冷启-ITEM刻画-方案一线索LLM4REC解决问