1、演讲人:徐榜江(雪尽)阿里云-开源大数据平台-Flink 数据通道负责人 Apache Flink PMC Member&Flink CDC LeadFluss 湖流一体架构:详解 Fluss Lakehouse StorageFluss 简介01Fluss 湖流一体架构设计02Fluss 湖流一体最佳实践03未来规划04目 录CONTENTSFluss 简介聊聊 AI 对 Data Infra 的需求数据质量影响模型训练和应用效果需要提供高质量的数据和元数据数据质量数据质量RAG 对数据时效性要求更高需要处理历史数据+实时数据数据时效性数据时效性1234海量数据对大模型有正反馈效应需要准备和
2、管理海量数据集数据规模数据规模非结构化数据场景更有想象空间需要高效地处理非结构化数据多模态数据多模态数据介绍下 FlussTiered Storage(OSS,S3,HDFS)Fluss ClusterServerKV TableCDC LogServerKV TableCDC LogServerKV TableCDC LogDatabasesMQsStreaming QueryAd-hoc QueryPoint QueryFluss:Flink Unified Streaming Storage实时流读流写离线批读批写实时CDC数据探查分析下 Fluss 的定位Fluss:为(实时)分析量身
3、定制的流存储毫秒级延迟OSS冷存数据探查支持更新消息队列增强针对分析场景支持schema实时CDC列裁剪支持表达式下推流读流写批读批写全增量一体湖流一体一体化设计分享下 Fluss 一体化设计 流批一体化(性能+成本)实时链路:高效流读流写,增强版消息队列体验 离线链路:支持批读批写,数据湖离线分析体验 全增量一体化(延迟+性能)全量数据从OSS离线读取,增量自动切换为实时读取 支持列裁剪,filter下推,降低IO,提升吞吐 湖流一体化(延迟+成本)Fluss 降低数据链路延迟,提升结果时效性 Fluss 只存实时数据,湖上数据开放复用,成本更低Trade-off:框架多做,用户少做;源端多
4、做,末端少做性能成本延迟聊聊 Fluss 对 AI 的价值数据规模支持万列schema,数据准备左移数据持续积累,简化离线数据集构建数据实时性提供长周期历史数据+实时新鲜数据内置湖流通道服务,开发运维简单数据质量元数据统一管理,元数据强一致全增量一体化读取,数据强一致海量数据集=训练更好的AI模型高质量数据=提升AI模型的效果实时性数据=构建更好的AI应用(Agent)Fluss 湖流一体架构设计为什么需要湖流一体?服务(BI/OLAP)(BI/OLAP)流存储离线存储实时加工T+1 viewT+2 viewKafka离线加工T+0 view业务数据两套存储,存储成本高两条链路计算结果不一致两
5、套服务,开发运维成本高业界湖流一体趋势AutoMQ AutoMQ 湖流一体设计湖流一体设计Redpanda Redpanda 湖流一体设计湖流一体设计Kafka(Confluent)Kafka(Confluent)湖流一体设计湖流一体设计StreamNative StreamNative 湖流一体设计湖流一体设计Fluss 湖流一体服务(BI/OLAP)(BI/OLAP)流存储离线存储实时加工T+1 viewT+2 viewKafka离线加工T+0 view业务数据业务收益:一份存储,流存:7X24h-1h 延迟更低,存储开放 链路简化,开发运维成本更低为什么需要湖流一体?两套存储,存储成本高
6、两条链路计算结果不一致两套服务,开发运维成本高Fluss 解决方案:内置湖流通道服务,流存储数据直接入湖数据格式高效转换,Arrow 到 Parquet深度集成Flink引擎,Filter&Projection下推 Union Read统一元数据,数据共享Tiering ServiceLakehouse Analytics实时数据层(短周期,毫秒级延迟)历史数据层(长周期,分钟级延迟)Lakehouse(Paimon,Iceberg*)Fluss ClusterFluss 湖流一体:Metadata FederationFluss ClusterTabletServerCoordinatorT