《企查查-任何强3-全球视野下的多云与混合云构建.pdf》由会员分享,可在线阅读,更多相关《企查查-任何强3-全球视野下的多云与混合云构建.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunConDataFunCon#20242024企查查的数据降本增效之路任何强-大数据架构负责人企查查科技股份有限公司ContentsContents目录目录企查查的数据架构混合”云“架构的形成多云下的统一架构扩展一下0101、企查查的数据架构、企查查的数据架构HDFSHDFSMapReduceMapReduceYARNYARN原始数据原始数据Flume/Flume/LogStashLogStash日志数据日志数据其他数据其他数据业务数据业务数据DWS/DIMDWS/DIMODSODSDWDDWDAPP/ADSAPP/ADS数据分析数据分析HiveHive业务应用业务应用用户画像用户
2、画像业务报表业务报表离线数据仓库:离线数据仓库:ETLETL业务应用业务应用YARNYARNSqoop/Sqoop/FlinkxFlinkxSQLSQL自由自由原始数据原始数据Flume/Flume/LogStashLogStash日志数据日志数据其他数据其他数据业务数据业务数据DWS/DIMDWS/DIMODSODSDWDDWDAPP/ADSAPP/ADS数据分析数据分析HiveHive业务应用业务应用用户画像用户画像业务报表业务报表离线数据仓库:离线数据仓库:ETLETL业务应用业务应用YARNYARNSqoop/Sqoop/FlinkxFlinkxHiveHive2 2KyuubiKyu
3、ubiTrinoTrinoHive的升级姿势原地飞升摩托 跑车 同时跑mysqlmysqlHiveHivemysqlmysqlHive2Hive2mysqlmysqlHiveHiveHive2Hive2结构对比Hive2的元数据结构完全兼容hive1的元数据结构hive2hive2的升级的升级 mysqlmysql表结构表结构 同步同步 统一元数据底层统一元数据底层TrinoTrino hive2hive2的的catalogcatalogKyuubiKyuubi SparkSQLSparkSQL 的的catalogcatalogSparkSQLSparkSQL hive2hive2的的cata
4、logcatalog应用层应用层数据API数据报表Other沙箱B B端端业务数据推荐系统Other用户画像C C端端计算存储层计算存储层KyuubiTrinoHive2TiDBCephHiveHDFS离线计算离线计算存储存储SparkFlink实时计算实时计算MB自研FlinkxsqoophiveRDS离线同步离线同步CanalFLUMEKAFKA实时同步实时同步hiveGPhivekafkahiveHBhiveEShiveMBESODPSRDSFTPKAFKA同步工具层同步工具层数据源层数据源层CDCOtherKubernetesKubernetesYARNYARN中间件中间件-服务熔断和
5、限流服务熔断和限流S3MongoDB用户行为轨迹用户行为轨迹-内部维护内部维护Alluxio中间层中间层Iceberg0202、混合、混合“云云”的形成的形成离线集群离线集群实时集群实时集群拆集群:1、资源申请方式不同1.1、实时资源固定;1.2、离线资源有多少用多少,会互相影响;2、调优参数不同,可以最大的化的压榨集群性能原始数据原始数据流流式通道式通道日志数据日志数据其他数据其他数据业务数据业务数据TiDBTiDBMongoMongo数据分析数据分析FlinkFlink/Spark/Spark业务应用业务应用用户画像用户画像业务报表业务报表实时数仓存储实时数仓存储业务应用业务应用YARNY
6、ARN消息队列:kafka、pulsar等实时数仓:以前很多都是选择hbase;现在新型数据库都是分布式020103存储问题存储问题解决方案解决方案元数据问题元数据问题1、实时服务器的存储利用率怎么办;再部署一套hive?上游对接hive又是多个?方案:最终咱们是想利用存储,是不是hdfs能互通,利用hive可以location到对应的hdfs地址即可。统一元数据统一元数据HDFS1HDFS1HDFS2HDFS2?。HiveHiveHive2Hive2KyuubiKyuubiTrinoTrino最终形成了 跨集群下