当前位置:首页 > 报告详情

Java与大数据架构:3. Large-scale near-real-time (NRT) data analytics platform empowered by Apache Flink - Ying Xu & Kailash Hassan Dayanand, Lyft.pdf

上传人: li 编号:29718 2021-02-07 31页 2.31MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了Lyft公司使用Apache Flink构建的大规模近实时数据分析平台。该平台能够处理高达数百亿的事件/天,支持小于5分钟的数据新鲜度、至少一次的数据完整性和ETL去重保证。平台采用分层ETL设计,包括高效的流式数据持久化、支持交互式查询的Parquet数据格式、以及分阶段ETL以提高性能和数据质量。 关键点如下: 1. Lyft的数据分析平台支持流式数据场景,如实时定价、欺诈检测和机器学习特征工程。 2. 平台克服了传统数据平台的限制,如数据无法近实时查询、KCL流式持久化性能有限、S3操作受小文件限制等。 3. Flink的Kinesis源连接器(watermark和源同步)和StreamingFileSink功能用于解锁批量编码数据的Parquet写入。 4. 平台设计考虑了性能、容错和可扩展性,采用事件时间驱动的分区感知和成功文件驱动的分区感知。 5. Lyft通过影子模式和原子交换方式,实现了从每日分区到每小时分区的迁移,同时保持了与下游ETL的兼容性。 6. 未来方向包括在Kubernetes环境中运行Flink作业、智能压缩、通用的流式数据持久化框架以及存储管理改进。 本文分享了Lyft在构建和迁移近实时数据分析平台方面的经验教训和未来规划。
"Flink如何提高数据处理性能?" "实时数据分析平台如何保证数据完整性?" "Lyft如何通过Flink实现近实时数据摄取?"
客服
商务合作
小程序
服务号
折叠