《京东广告受众属性预估.pdf》由会员分享,可在线阅读,更多相关《京东广告受众属性预估.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、京东零售 标签研发部 王贺 广告受众基础属性预估 DataFunTalk IT人如何通过竞赛来提升自身价值 01 赛题理解 02 03 04 特征工程 方案演变 总结与思考 02 本次分享的内容 赛题理解 Day1 点击序列 Day2 点击序列 Day n 点击序列 用户浏览广告,产生用户的广告序列 性别? 年龄? 产生数据 预 测 根据用户点击的日志,预测 用户的性别、年龄信息 准确率(accuracy)= 年龄准确率 + 性别准确率 赛题理解-赛题特点 实际业务中我们常通过用户各类属性信息为用户进行精准推荐,广告投放等。 然而本赛题是逆序建模思路,也就是说,用户通过点击经过系统推荐的广告,
2、 再通过点击的广告行为数据反推推荐的逻辑。 广告推荐系统 曝光 点击获得数据 赛题理解 1010分类 2 2分类 2 20 0分类 用户行为序列预测用户人口统计学属性 91天用户行为序列 = Age & Gender Train: 300W用户 Test: 100W用户 赛题理解-稀疏性 用户行为稀疏广告投放稀疏 id长尾特性+为现实意义明确的实体的场景下:相似度流派完胜统计流派 id为现实意义明确的实体时,往往具有很丰富的信息,在分布较为稀疏时, 往往基于低频特征无法很好的学习到id的具体信息。所以需要稠密化转化。 特征工程-统计特征 1) 用户出现的总次数和天数 2) 用户点击广告的总次数
3、 3) 用户点击不同广告、产品、类别、素材、广告主的总数 4) 用户每天每条广告点击的平均次数,均值和方差 交互行为兴趣范围 种子人群 统计每个广告 受众人群的性 别年龄分布 该用户性别年龄的概率分布 平均 广告ID 属性ID 特征工程-概率分布特征 方案演变-传统方案 TFIDFTFIDF统计特征概率分布. ad_idtime TFIDF creative_i d . LightGBM/XGBoost 向量相关 思考:TFIDF的效率 和维度 方案演变-传统方案 advertiser id1 advertiser id2 ad_id1 ad_id2ad_id3 creative id1 creative id2 creative id3 creative id4 广告主分层 广告稀疏属性具有层级结构,为一对多的关系。 分层编码:将一对一的词使用同一个id进行编码。 可以无损的降低一半词表