当前位置:首页 > 报告详情

2020Flink峰会报告:7-FFA2020_李畅_英语_compressed.pdf

上传人: li 编号:29326 2020-12-01 39页 1.52MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
ByteDance 开发了一站式的数据中台 Dataleap,用于数据开发、集成、运维等,支持多样化的业务场景。面临数据集成挑战,ByteDance 基于 Flink 实现了 MQ-Hive 实时数据集成,解决了传统数据集成方案中存在的延迟高、重复存储处理、成本高昂等问题。MQ-Hive 技术经历了从基于 Spark Streaming 和 HDFS 到 Hive ETL 的演进,到基于 Flink 的实时数据集成。Flink 的特性如 Exactly Once 语义、类型系统、事件时间等,使得 MQ-Hive 能够直接写入 Hive,减少中间计算和存储,并优化了作业隔离、故障恢复等功能。此外,Flink 的区域检查点机制提高了大规模并发场景下的检查点成功率,而基于事件时间的归档策略解决了数据偏移问题。为了提升性能,优化了数据解析、序列化等过程,并引入了中间类型系统以兼容不同数据源的类型转换。同时,Messenger 框架和 Dirty Data 监控等优化了作业运行状态的收集和监控。目前,MQ-Hive 稳定运行超过半年,支持 4000+ 在线任务,每天处理万亿行数据和数 PB 数据,QPS 峰值超过 10 亿。未来的工作将包括数据源扩展、操作可视化、支持更多部署环境等。
"Flink在数据集成中的优势是什么?" "MQ-Hive技术如何实现数据实时集成?" "ByteDance如何优化MQ-Hive数据写入性能?"
客服
商务合作
小程序
服务号
折叠