《【OPPO】Data_AI一体湖仓的实践.pdf》由会员分享,可在线阅读,更多相关《【OPPO】Data_AI一体湖仓的实践.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、Data&AI一体湖仓的实践付庆午OPPO数据架构组大数据架构师目录 Data&AI一体数据湖仓架构 Alluxio在湖仓架构中的实践 Alluxio在公有云/混合云上实践 展 望Data&AI一体数据湖仓架构PART 1Data&AI一体数据湖仓架构Data:结构化数据自动化服务秒级实时AI:非机构化数据版本管理统一元数据Data&AI一体数据湖仓架构DAA-CatalogData and AI CatalogMetastoreManagementData&AI一体数据湖仓架构结构化数据加速:索引 常规索引 Dynamic Clustering热表Pre-fetchData&AI一体数据湖仓
2、架构非结构化数据管理:元数据数据转换湖仓Dataset APIData&AI一体数据湖仓架构Data&AI一体数据湖仓架构非结构化数据 元数据管理示例Data&AI一体数据湖仓架构DataPrompter让LLM更方便理解湖仓数据入湖自动生成范例promptInputCommand SQL遵循的通用规则Context 表、字段、业务说明OutputCommand 关注点和格式要求Alluxio在湖仓架构中的实践PART 2Data&AI一体数据湖仓架构Alluxio助力秒级实时入湖:Real-dataBase-dataDump Service文件流式读写Alluxio在湖仓架构中的实践Allu
3、xio与Spark RSS结合:Shuttle介绍Shuttle+RSSAlluxio在湖仓架构中的实践Alluxio与Spark RSS结合:内存shuffle分布式排序自适应广播Alluxio在湖仓架构中的实践分布式排序广播优化Alluxio在公有云/混合云上实践PART 3Alluxio在公有云/混合云上实践大数据极致弹性架构Yarn on K8sShuttle+Alluxio 助力计算极致弹性化 自身资源的弹性化 Alluxio在公有云/混合云上实践公有云对象存储在大数据计算上的问题Spark Commit阶段性能慢Request API成本高基于Alluxio的解决方案Alluxio缓存commit路径S3 multi uploadAlluxio数据缓存混合云场景下Alluxio应用高性能cache助力模型训练加速展 望PART 4展 望充分利用起来大数据集群闲置的内存资源大数据和机器学习融合,从数据到计算资源Alluxio与数据湖深入融合开发Alluxio助力降低公有云成本(存储、计算)THANKS