当前位置：首页 > 报告详情

Java与大数据架构：3. Large-scale near-real-time (NRT) data analytics platform empowered by Apache Flink - Ying Xu & Kailash Hassan Dayanand, Lyft.pdf

上传人： li 编号：29718 2021-02-07 PDF PDF 31页 2.31MB

该报告所属合集： 2020年Java与大数据架构会议嘉宾演讲PPT合集

打包下载报告合集

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载报告到电脑，查找使用更方便

VIP专享文档

书签

分享

收藏

已收藏

版权投诉

/31

立即下载

word格式文档无特别注明外均可编辑修改，预览文件经过压缩，下载原文更清晰！

三个皮匠报告文库所有资源均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

《Java与大数据架构：3. Large-scale near-real-time (NRT) data analytics platform empowered by Apache Flink - Ying Xu & Kailash Hassan Dayanand, Lyft.pdf》由会员分享，可在线阅读，更多相关《Java与大数据架构：3. Large-scale near-real-time (NRT) data analytics platform empowered by Apache Flink - Ying Xu & Kailash Hassan Dayanand, Lyft.pdf（31页珍藏版）》请在三个皮匠报告上搜索。

1、Apache Flink empowered large-scale near real-time (NRT) data analytics platform Ying Xu, Streaming Platform, Lyft Inc Kailash HD, Streaming Platform, Lyft Inc Streaming data scenarios at Lyft Architecture of near real-time data analytics platform Deep dive on platform design and fault tolerance Summ

2、arization and future directions Agenda Streaming data scenarios at Lyft About Lyft MISSION: Improve peoples life with the worlds best transportation Streaming data scenarios at Lyft Streaming Events Enrichment Real-time Adaptive Pricing Fraud and Anomaly Detection minute ML Feature Engineering secon

3、ds minuteminute Near Real-time Interactive Query 5 minutes Lyfts data analytics platform architecture Backend Services Mobile app PubSub Events KCL PERSISTENCEBatch ETL Presto, Hive Client, and BI Tools Issues of the legacy platform Persisted data cannot be ready for query in near real-time Streaming persistence using KCL exhibit limited performance Presence of too many small fi les limits perform

本文介绍了Lyft公司使用Apache Flink构建的大规模近实时数据分析平台。该平台能够处理高达数百亿的事件/天，支持小于5分钟的数据新鲜度、至少一次的数据完整性和ETL去重保证。平台采用分层ETL设计，包括高效的流式数据持久化、支持交互式查询的Parquet数据格式、以及分阶段ETL以提高性能和数据质量。关键点如下： 1. Lyft的数据分析平台支持流式数据场景，如实时定价、欺诈检测和机器学习特征工程。 2. 平台克服了传统数据平台的限制，如数据无法近实时查询、KCL流式持久化性能有限、S3操作受小文件限制等。 3. Flink的Kinesis源连接器(watermark和源同步)和StreamingFileSink功能用于解锁批量编码数据的Parquet写入。 4. 平台设计考虑了性能、容错和可扩展性，采用事件时间驱动的分区感知和成功文件驱动的分区感知。 5. Lyft通过影子模式和原子交换方式，实现了从每日分区到每小时分区的迁移，同时保持了与下游ETL的兼容性。 6. 未来方向包括在Kubernetes环境中运行Flink作业、智能压缩、通用的流式数据持久化框架以及存储管理改进。本文分享了Lyft在构建和迁移近实时数据分析平台方面的经验教训和未来规划。

"Flink如何提高数据处理性能？" "实时数据分析平台如何保证数据完整性？" "Lyft如何通过Flink实现近实时数据摄取？"

全行业研究报告分享下载平台

0731-84720580
商务合作：really158d
友链申请 (QQ)：1737380874

关于我们

更多

关于我们

三个皮匠报告微信公众号

三个皮匠报告微信小程序

扫码咨询网站充值下载问题

友情链接：

营销自动化亿欧智库微播易阿里妈妈

copyright@2008-2013 长沙景略智创信息技术有限公司版权所有网站备案/许可证号：湘B2-20190120 | 工信部备案号：湘ICP备17000430号-2 | 公安备案号：湘公网安备43010402001071号

客服

小程序

服务号

折叠