《【04】李劲松&胡争-Flink如何实时分析Iceberg数据湖的CDC数据.pdf》由会员分享,可在线阅读,更多相关《【04】李劲松&胡争-Flink如何实时分析Iceberg数据湖的CDC数据.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、Flink如何实时分析Iceberg数据湖的CDC数据 阿里巴巴 李/松/胡争 23选择 Flink Ic+b+1g #2 常DCCDC 分析方案 #1 如3实时写 4F取 # 未来规划 #4 #见的CDC分析方案 #1 离线 HBase 集u分析 CDC 数a 、CDC记录实时写入HBase。高吞P + 低延迟。 2、小vSg询延迟低。 3、集u可拓展 ci评C B点 、行存o引不适O分析A务。 2、HBase集ur护成e较高。 3、通过Re12o4Server定DHF23e, ServerlB化Rs存完H用不上。 4、数a格式q定HF23e,不cF拓展到 +arquet、Avro、Orcn
2、。 t点 A3a/21 Kudu 维护 CDC 数据p 、支持L时更新数据,时效性佳。 2、CK加速,适合OLAP分析。 方案评估 优点 、cedKudup群,a较小众。维护 O本q。 2、H HDFS / S3 / OSS 等D裂。数据c e,且KAO本不如S3 / OSS。 3、Kudud批量P描不如3ar4u1t。 4、不支持增量SF。 h点 直接D入CDC到Hi2+分析 、流程能E作 2、Hi2+存量数据不受增量数据H响。 方案评估 优点 、数据不是CR写入; 2、每次数据D致都要 MERGE 存量数据 。T+ 方GT新3R效性差。 3、不M持CR1ps+rt。 缺点 SCaDk +
3、)=AFa IL()(数据 MER,E .NTO GE=DE US.N, chan=E ON GE=DE.GE=D.=E.GE=D. WHEN MAT(HE) AN) +LA,=H)H THEN )ELETE WHEN MAT(HE) AN) +LA,H)H THEN UP)ATE a=E.aD=EE=E WHEN NOT MAT(HE) THEN .NSERT (GE=D., a=E.GE=D.=E.a实时l入daGa Aak=W数t分析。 示V U2,)TE G=FG SET a = a + 1 W0ERE a (100 U2,)TE G=FG SET (1,2 W0ERE a=0 )1, b=0 QH=Ey特点 1. b携带S意过滤条R; 2. 不依赖k=y; 一般uWkn行的r有列y值e新值; 数t量 a条QH=Ey更新i量数t集a条QH=EyQ更新一行数t 计算模g 长耗时的sU