《EtLT场景下的数据集成平台Apache SeaTunnel-高俊.pdf》由会员分享,可在线阅读,更多相关《EtLT场景下的数据集成平台Apache SeaTunnel-高俊.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、EtLT架构下的数据集成平台Apache SeaTunnel白鲸开源/高俊开源爱好者开源爱好者白鲸开源:数据集成产品负责人10年大数据相关工作,主要从事大数据平台建设、OLAP引擎设计研发工作。开源爱好者,参与多个开源项目的贡献。Apache DolphinScheduler PMCApache SeaTunnel(incubator)PPMCTrino ContributorApache Arrow-DataFusion ContributorETL到EtLT架构演进Contents010203040506数据集成领域的痛点&常见的解决方案下一代数据集成平台Apache SeaTunnel
2、SeaTunnel的核心架构及设计下一代数据集成引擎SeaTunnel Zeta近期规划&如何快速参与社区建设ETL到EtLT架构演进01ETL时代(1990-2015)数据源主要是结构化数据,MySQL、SQL Server、Oracle、ERP、CRM等 数据仓库由OLTP时代的Oracle,DB2来承担 Informatica、Talend、Kettle出现ELT时代(2005-2020)MPP技术、分布式技术流行(Hadoop,Hive)数据源中的数据只做简单标准化写入数仓 无法处理复杂数据源,EL过程需要写Spark、MapReduce程序来实现CDC 读取读取Cloud API文件
3、抽取文件抽取数据库抽取数据库抽取类型转化类型转化数据过滤数据过滤SaaS API结构转化结构转化脏数据清洗脏数据清洗业务业务ETL设计设计Bulk Load表结构变化表结构变化日志同步日志同步数据数据JDBCAPI加载加载Data ScientistData Security EngineerDataOps EngineerETL/ELT DeveloperArchitectExtract抽取抽取transform 轻量级清洗轻量级清洗Load 加载加载Transform 数据业务级转化数据业务级转化数据业务逻辑处理数据业务逻辑处理数据数据Join、聚集聚集数据数据ETL开发开发SQL编写与管
4、理编写与管理协同开发协同开发数据钩稽关系检查数据钩稽关系检查Ops处理处理调度调度&协同协同Marketing AnalystSQL DeveloperSales Analyst数据源迅速复杂,数据糊和实时数仓的出现让数据写入的目标端也变的更加复杂。需要:更加专业的团队和专业的项目来专门负责EL过程的处理。软件软件 APIReverse ETL数据工程人员数据工程人员业务分析业务分析、数据应用人员数据应用人员EtLT时代(2020-未来)02数据集成领域的痛点&常见的解决方案数据集成领域面临的需求痛点有限资源下如何实现高有限资源下如何实现高吞吐吞吐、低延时低延时同步场景复杂:离线、实时,全量、
5、增量,CDC,多表同步如何做到数据一致性如何做到数据一致性、不丢失不丢失、不重复不重复数据源多,增长迅速、版本不兼容、长尾效应如何降低对数据如何降低对数据源的影响源的影响过程如何监控过程如何监控、指标如何量化指标如何量化技术栈要简单技术栈要简单易管理易管理易维护易维护易使用易使用易扩展易扩展常见的数据集成方案探索03下一代数据集成平台Apache SeaTunnel 简单易用简单易用通过简单的配置和命令即可创建同步任务和运行同步任务下一代数据集成平台下一代数据集成平台、数据集成数据集成(同步同步)一站式解决方案一站式解决方案同步过程可监同步过程可监控控、指标可量指标可量化化同步过程中自动统计任
6、务读取写入的数据量,性能指标,数据延时等信息丰富的数据源丰富的数据源生态生态国内外数据库消息队列云存储、云组件数据湖、仓SaaS服务支持用户自定义数据源全场景支持全场景支持支持所有数据集成场景:离线、实时、全量、增量、CDC、CDC整库同步、DDL变更、动态加表数据一致性保数据一致性保障障数据不丢失、不重复、精确处理一次。支持断点续传资源使用少资源使用少内存优化CPU线程优化多表同步数据库连接共享SeaTunnel的设计目标SeaTunnel的发展历程项目发展历程与规划20172021.112021.122022.032022.102022.11 首个首个Apache版本版本发布发布进入进入A