当前位置:首页 > 报告详情

3-4 字节跳动全域数据集成演进历程.pdf

上传人: 云闲 编号:102529 2021-01-01 27页 3.27MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了字节跳动全域数据集成演进历程。李畅,字节跳动大数据工程师,自2016年加入字节跳动开发套件团队,从0到1设计研发了面向字节各业务线的数据集成服务。文章首先阐述了数据集成的背景,指出数据集成是数据中台建设的基础,主要解决异构数据源间数据传输、加工和处理问题。Dataleap是字节跳动自研的一站式数据中台套件,服务于字节内部各业务线数据建设场景。文章详细介绍了数据集成演进历程,从2018之前的每个通道各自实现,到2018-2019年统一架构覆盖批式场景,再到2020-2021年覆盖流式场景,最后到2021-2022年覆盖CDC场景。同时,文章还介绍了基于Flink的异构数据源传输架构的初始架构和主要升级点,以及湖仓一体的架构优化。在通用能力改造部分,文章提出了对外能力输出,降低数据建设成本的目标,并提出了相应的解决方案。最后,文章展望了未来多引擎架构、流式数据湖、统一CDC数据入湖解决方案等方向。
"字节跳动数据集成如何演进?" "如何通过Flink实现湖仓一体?" "如何降低数据集成建设成本?"
客服
商务合作
小程序
服务号
折叠