《Hologres Serverless之路:揭秘弹性计算组.pdf》由会员分享,可在线阅读,更多相关《Hologres Serverless之路:揭秘弹性计算组.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、Hologres Serverless姜伟华阿里云计算平台事业部资深技术专家 阿里云实时数仓Hologres研发负责人?11 GMV?Hologres:一站式实时数仓数据应用OLAP多维分析(Analytics)实时数仓 Hologres离线数据:批量导入(Batch)实时数据:实时更新(Streaming)数据湖数据:加速查询(Lakehouse)在线服务(Serving)湖仓一体向量计算&大模型亚秒级交互式分析高吞吐实时写入Proxima向量引擎弹性高可用,负载隔离HSAP,Hybrid Serving/Analytics ProcessingHologres?Multi Workload
2、?MaxCompute?PG?BI?Presto?!?!?!?!?!?Clickhouse?Doris?OLAP?Serving)?QPS KV SQL?QPS?Hbase?Redis?PostgreSQL?Hybrid Serving/Analytics Processing,HSAP?实时数仓成大数据趋势,Serverless定义数仓新形态一站式实时数仓成为业务标配,一站式实时数仓必然要求Serverless化高可用满足业务连续可用性不同负载隔离弹性伸缩,适应各种流量洪峰开箱即用更简单的资源管理按需付费,省钱省力不为没用到的资源付费Serverless会极大简化实时数仓的使用体验,降低成本
3、,更好满足业务的快速发展Serverless实时数仓核心需求:稳定性业务/任务之间如何隔离扩缩容、启停怎么样不影响业务可以随意启停、迁移 快速拉起能力 Gateway接入能力,流量自动转发任务隔离 读写隔离、写写隔离、读隔离 不同部门资源隔离动态扩缩容 水平扩展,实现QPS简单增加 对业务影响最小资源使用如何有效利用Serverless实时数仓核心需求:成本优化运维成本(集群资源)开发成本(上线新业务)对同一份数据,使用新的计算资源来计算弹性伸缩,应对洪峰与日夜变化 每天ETL任务,弹出资源来执行,用完即销毁 Endpoint保持不变开发接口标准简单,降低学习成本兼容主流BI人力成本(学习&招
4、聘成本)Serverless?CRUD?5?shard,?shard mem table+LSM tree CRUD?CRUD?delta?CRUD?In-mem PK Index?+?CRUD?Shard+mem table+LSM Tree?Shard Replica?Serverless?Serverless?MEMCPUMEMCPUMEMCPUNode1Node2NodeKInterconnection Network?Serverless实时数仓关键技术挑战(二):Shard ReplicaShard Replica 每个Shard可以配置0-N个只读的Replica。Replica
5、会自动同步并回放主Shard的WAL(write ahead log),从而构建mem table,Replica不flush数据,也不做compaction,而是直接复用主Shard的存算分离数据。这样,Replica通过自己的mem table与主Shard的存算分离落盘数据,就可以完整的访问所有数据了;Replica与主Shard之间毫秒级的数据延迟,资源消耗4:18:1Shard Replica是实时数仓存算分离、高可用、容灾等的基础 存算分离:新拉起的计算资源配置其为主计算资源Shard的Replica,这样新计算资源就能访问到最新的所有数据 高可用:通过查询在多个Replica之间
6、路由,实现一个Replica下线时,查询依然正常 容灾:Shard Replica+数据文件复制就可以在多AZ之间的容灾Serverless实时数仓关键技术挑战(三):隔离和弹性有了存算分离,计算资源的隔离和弹性就容易了资源强隔离能力 资源需要强隔离,以满足不同负载的隔离需求 同时隔离能力需要非常灵活和简单易用,以应对不同场景的需求 读写隔离、读读隔离 资源弹性伸缩,自适应负载能力 根据业务负载情况资源弹性伸缩,无需考虑资源,真正做到按需使用,按量付费 按时间弹性、按负载弹性 在延迟不变的情况下,简单增加QPS 要能缩的回去,也能弹的回来Serverless实时数仓关键技术挑战(四):高可用自