1、DataFunConDataFunCon#20242024数仓新篇章数仓新篇章云原生实时数仓云原生实时数仓 SelectDBSelectDB姜国强-飞轮科技-产品副总裁ContentsContents目录目录SelectDB 简介数据分析的痛点与机遇SelectDB的探索与创新用户案例SelectDB SelectDB 简介简介累计贡献者月度活跃贡献者在全球大数据开源项目排行中活跃贡献者数连续 10 个月位列 Top1,已超越 Spark 最活跃时期。Top1Top1Apache Doris:开源实时数据仓库20132013项目建立20172017项目开源11.2K+11.2K+GitHub
2、Star4000+4000+使用企业20222022商业化公司Apache Doris 是一个基于 MPP 架构的开源数据仓库,支持对大规模实时数据上的极速分析。当前全球最活跃的大数据项目之一当前全球最活跃的大数据项目之一Apache Doris累计贡献者超过 622+人,同比新增贡献者超过 70%,并仍处于持续上升的态势。622+622+获得全球超过 4000 家大型企业的信赖互联网互联网金融金融游戏游戏电信电信游戏游戏交通物流交通物流零售快消零售快消能源制造能源制造互联网互联网SelectDB:基于Apache Doris的云原生实时数仓全托管在阿里云、华为云、腾讯云、AWS、GCP,并提
3、供 SaaS、BYOC 产品形态SelectDB CloudSelectDB Cloud阿里云直接提供的 SelectDB 服务,类云厂商和 MongoDB、Elastic 的合作模式阿里云数据库阿里云数据库 SelectDBSelectDB私有化部署在物理机/虚拟机、K8S、公有云/私有云上SelectDB SelectDB EnterpriseEnterprise数据分析的痛点与机遇数据分析的痛点与机遇数据分析的痛点实时性实时性 Real TimeReal Time 服务实时化 数据处理实时化 数据分析实时化成本成本 CostCost 落后的技术栈 冗余的资源成本 大量的人力投入数据分析数
4、据分析痛点痛点数据分析的机遇云原生云原生 Cloud NativeCloud Native统一化统一化 UnifiedUnified 湖仓一体 在离线一体 流批一体 结构化、半结构化统一 全新的软硬件技术栈 极简的使用和运维体验 多云中立:容灾、随时随地可用数据分析数据分析机遇机遇SelectDB SelectDB 的探索与创新的探索与创新SelectDB 四大核心设计理念数据实时写入与极速查询湖仓一体与多分析负载支持极致性价比与灵活弹性能力开放设计简化周边生态集成Real-TimeReal-Time实实 时时 极极 速速实时分析即未来数据随着时间的推移而价值降低。大规模实时数据分析日益成为各
5、个企业的核心竞争力。从跑批报表到实时仪表盘,从预置报表到交互式即席查询,从面向内部的分析到面向外部客户的分析,从面向人的分析到算法自动决策,企业正全面进入实时分析的时代。数据延迟和查询延迟是实时分析的核心指标实时的数据导入和数据存储,确保分析数据的新鲜性。极速、高并发的数据查询以便满足响应的及时性。实时数据:数据的实时导入与实时存储数据源:数据库、数据流、数仓、数据湖等实时 API:Stream Load、Routine Load、Insert Into数据生态:Flink/Spark/Kafka Connector、DataX 等全面的秒级数据导入全面的秒级数据导入 API API 和生态和
6、生态支持高效实时更新:主键模型(Unique)秒级加减列等表模式修改:Light Schema Change服务端攒批:Group Commit多种实时存储模型和轻量化表模式修改多种实时存储模型和轻量化表模式修改Stream loadBroker LoadRoutine loadInsert IntoS3 LoadMySQL LoadDTSFlink ConnectorSpark ConnectorKafka ConnectorDataX实时和离线导入方式及工具X2Doris对象存储HDFS离线数仓离线数仓FlinkKafka流式数据流式数据IcebergHudi数据湖数据湖MySQLPG关系