1、TEZ引擎+LAKEHOUSE 金融级数据中台重构创新实践郁 敏 总 经 理 助 理常 熟 农 商 银 行统 计 与 数 据 资 产 部数据中台演进之路数据仓库面向主题数据ETL决策分析2014年(TD)数据中台雏形数据底座能力提升海量数据处理实时交易场景2018年(CDH)数据中台全行业务跑批提速数据API服务化数据实验自助化企业级指标库支撑360客户视图及旅程2025年(MRS+DWS)数据的十年演进之路解决痛点:u平台EOS且升级成本高;u数据底座非自主可控;u平台性能日益趋慢;u数据中台能力待提升;第三代数据中台系统架构湖仓一体数 据 交 换 平 台 (Spark引擎)信贷系统手机银行
2、核心账务聚合收单信用卡二代征信源系统智能报表审计系统风险预警监管报送实验分析进件风控营销中台备用链路(DataX)NAS湖仓一体架构湖仓一体架构数仓(主集群)数仓(主集群)(监管+绩效)集市全文检索ElasticSearch数据湖(主集群)数据湖(主集群)离线跑批Hive on TEZ加速归档元数据外表统一数据分析(统一数据分析(HETU)数仓(备集群)数仓(备集群)预发布验证数据湖(备集群)数据湖(备集群)数据实验Hive同步集群同步基础环境文件传输-GTP华为Dorado麒麟-KylinOS消息队列Kafka数据采集-CDC统一调度-Moia鲲鹏服务器MPPDB只读查询MPPDB实时数据湖
3、HudiHive on TEZHive on TEZDC1DC1DC2DC2dr实时计算-Flink驾驶舱ACRM飞燕数海绩效管理风险预警实时服务反洗钱100+.存储压缩跑批引擎MapReduce引擎MMRMMRMRHDFSHDFSHDFSTez引擎MMMRRRMMR+Snappy+Zlib存储节省:服务器&软件授权节省28例,总预算节省19.5%老平台3.64PB,新平台2.08PB,节省1.56PBTez新引擎积累30参数项调优:跑批时效提升 2.4倍老平台作业跑批总累计耗时2311小时新平台跑批总累计耗时963小时主干链路跑批提升 2.3倍老平台主干链路作业跑批总耗时161小时新平台主干
4、链路跑批总耗时68小时DAG有向无环图高效调度减少不必要的HDFS写入变小了,也变强了在业务上释放数据价值新数据中台上线不仅是技术升级,更是业务效能的革命。关键业务报表出数时间最高提速649,绩效研发效率提升400%,为敏捷营销和快速决策提供了“小时级”数据支撑。提速提效应用系统应用系统提速小时提速小时原原现现绩效考核713:0406:00移动驾驶舱3.907:2703:32重要报表小微贷款审批明细表2.509:5207:19一表通6.110:4104:35事项事项提效提效原原现现绩效研发400%8天2天指标研发60%从头研发60%可复用数据入仓200%2周1周驾驶舱研发600%3天0.5天总
5、人数人300+业务人员人100+技术人员人190+涉及数据量1PB70000张表40000作业系统184套跑批整体提速9个小时湖2.4倍作业最高649倍仓10.6倍效能革命:新数据中台赋能全栈业务与研发效率倍增跑批效率,绿皮火车换乘高铁作业中文名所属系统新平台耗时/秒老平台耗时/秒提速倍数投保机构存款账户统计表存款保险系统127799649常熟金融机构旬报计财基础数据系统31692563个人贷款发生明细人行金融基础数据报送系统61974328校验结果表省联社数据整合系统113542322个人贷款分析_个体工商户省联社数据整合系统112706245利率总分校验表人行金融基础数据报送系统19431
6、9227总分校验表存款保险系统193075161集团客户基础表客户风险统计报送系统101492149关联关系表EAST报送系统202783139零售客户分析省联社数据整合系统111379125代理代销交易信息表EAST报送系统121376114表内外业务抵质押物EAST报送系统151525101新平台作业级耗时DWS数据仓 提速10.6倍MRS数据湖 提速2.4倍-其中监管报送提速16.5倍新平台实时风控提效,小微展业放开手脚征信外部数据大数据平台.数据源大数据风控风控端业务系统信贷系统信用卡进件进件审批辅助决策.接入端渠道端授信大贷审批小微渠道审批进件