《OLAP 在火山 EMR 的实践.pdf》由会员分享,可在线阅读,更多相关《OLAP 在火山 EMR 的实践.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit2023OLAP火山EMR的最佳实践演讲人:琚克俭-火山引擎-研发工程师EMREMR产品概述产品概述 EMR OLAP云原生 EMR OLAP客户案例分析 EMR OLAP未来规划DataFunSummit2023!#$%&()*+,-!#$%&%()使用EMR产品,延续开源架构技术栈,并协同开源大数据生态与火山生态%*+,-./0,12.1345678&9:;Flink-DorisDataFunSummit2023客户案例:某新广告客户(实时场景)客户背景n使用开源的Greenplum,存放近3个月的数据,用于在线报表查询。n在线和离线数据存储在不同地方,读取离线数
2、据需要先读取到在线存储中。核心痛点n保障查询性能,牺牲实时性,每15分钟批量写入最新数据到在线数据存储n实时更新能力n在线报表业务的联合多维分析性能不佳。产品方案nEMR Doris统一对外提供查询nEMR OpenSearch保证数据高QPS的实时更新能力n通过Datasail实时同步MySQL CDC和Kafka数据到Doris和OpenSearch中,保证数据实时性。高频更新高性能查询全域数据集成 DataSail业务库媒体平台数据存储和查询计算DataSail:全量增量一体数据同步Doris:向量化查询应对多表Join、聚合分析ES:高频更新与索引查询DataFunSummit2023
3、ES连接器优化-catalog建表优化无需建表n Catalog方式只需要定义源端资源,即可实现对源表使用Doris on ES能够综合OLAP的分析优势和ES的更新能力及全文索引能力,提供更加完善的分析解决方案强强联合n ES实时高QPS更新能力n 实现ES多索引关联查询n Doris、StarRocks与ES外表实现更复杂的全文索引过滤ES IndexES Index1ES Index1ES Index1EsExternal Table3EsExternal Table2EsExternal Table1ESCatalog方式二Catalog推荐方式一:外表方式,事先创建外表DataFun
4、Summit2023ES连接器优化-下推优化ElasticSearchDorisAgg PushdownOuter join-Inner JoinRunTimeFilterPushdownProject PruneFilter PushdownProject Prunen 减少输出列Filter Pushdownn 利用ES本身aggregationRuntimeFilter join优化n Join的条件在where表达式中同时满足条件列is not null,outer join可转换成inner joinn Runtime filter 下推的场景更丰富Agg Pushdownn 利用E
5、S本身aggregationDataFunSummit2023资源隔离(读写分离)BEgroupAreplica1BEBEgroupBreplica3replica2Load dataUser AUser BUser C生成三副本落到两个资源组中User A 只能使用 groupAUser B 只能使用 groupBUser C 只能使用 groupB,且限制query使用的内存和CPU个数采用内存和CPU资源进行资源限制,超过阈值时,查询直接终止n 单query级别细粒度资源限制相同标签的BE属于同一个资源组件限制各类查询任务对计算资源的消耗,降低任务间资源降低影响n 按照资源组实现物理隔离
6、用户需求:轻量ETL+OLAP查询能够在统一在一个系统(主要是读写分离),但资源隔离(尤其是MEM的使用)是个比较大的问题针对用户设置内存使用n 支持租户级别的Query资源限制QueryDataFunSummit2023数据迁移:MySQL Load 本地文件导入特性说明n MySQL Load是标准的MySQL语法,通过SQL方式导入文件n LOAD语法常用各个引擎之间的数据同步:1、TP系统例如MySQL或者PG,将表中数据导出为文本格式2、再通过LOAD语法导入其他引擎之中n 支持MySQL Load语法,实现无缝对接从TP到AP的数据传输MySQLPostgreSQLSQLServe