《1-1用户画像在阅文的实践和探索.pdf》由会员分享,可在线阅读,更多相关《1-1用户画像在阅文的实践和探索.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、用户画像在阅文实践和探索 阅文集团智能业务中心高级总监陈炜于 阅文智能业务中心 数据层日志数据AGC内容UGC内容 大脑层阅文用户画像文本内容理解书籍图谱 应用层 助力用户找书 推荐搜索 助力内容衍生 内容风控内容理解 PGC内容 思考和方法 实践和探索 展望 分享大纲 思考和方法 思考:画像为何存在 需求 精细化 时代 用户价 值 能力 大数据 智能 发展 数据资 产 潜在壁 垒 思考:画像如何来做 业务 驱动 数据 驱动 方法:数据驱动+业务驱动 画像 洞察 业务 行动 基础 数据 画像洞察决定 业务行动效率 基础数据驱动 深入画像洞察 业务迭代反馈 基础行为数据 验证效果 实践和探索 背
2、景 应用少,case型数据不完备 业务标签分散系统建设薄弱 方法:收敛,基建,应用,反馈 标签在线服务发布 项目启动 标签收敛 标签建设&应用拓展 离线挖掘引擎集群 实时集群建设&实时数据流 用户理解平台 全貌 RTBatch/EMR 数据收集 logserver 实时框架 Flink + kafka 算力 spark 存储 tdw/hive/hdfs 基础设施 数据层 实时流离线统一数据第三方数据 用户理解 标签事实标签规则标签模型标签 行为 实时session行为关键行为 实时标签 应用层 服务层在线服务YUDS标签管理(元信息)用户理解平台标签质量监控 智能内容分发精细化运营群体分析广告
3、精准投放 基础:不可忽视的数据建设 覆盖面/准确率情况 数据监控体系完善 数据质量 线上延迟 实时数据流建设 数据时效 数据统一/ID贯通 数据体系统一,埋点统一 数据平台化 支撑:架构建设 实时数据SpeedLayer BatchLayer ServingLayer Query 增量数据 离线标签 实时标签 全量数据标签表 源 数 据 redis hbase hive hdfs/hive spark flink kafka 实时层 建立统一的logserver Kafka统一收敛数据 服务层 统一收敛服务调用 解决性能匹配,Id转化问题 离线层 大数据挖掘算力建立 保证数据回溯 规 整 数 据 源 logserver 血肉:标签建设 事实标签 统计标签 账户信息 国家性别 余额注册时间 渠道ID渠道类型 渠道属性 社会属性 行为RFM付费阅读 人书标签阅读进度阅读日期 模型标签 阅读偏好