《关涛-AI时代下_数据架构的变与不变_2025DataAISummit北京站_关涛Tony_云器科技_v2.pdf》由会员分享,可在线阅读,更多相关《关涛-AI时代下_数据架构的变与不变_2025DataAISummit北京站_关涛Tony_云器科技_v2.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、AI 时代下,数据架构的变与不变关涛 云器科技联合创始人 CTO云器科技版权所有yunqi.tech个人介绍 2006年,微软亚洲研究院,构建微软第一代分布式KV系统SearchRepository(7000台物理服务器规模)和 Bing搜索的分布式存储后台Kirin Store(4万台规模)。之后加入微软美国云计算和企业事业部,主持和参与开发了包括Cosmos/Scope(20万台规模),iScope,Azure Datalake 2016年回国加入阿里云,前阿里云 计算平台事业部 研究员,阿里巴巴通用计算平台负责人,负责阿里巴巴主线大数据平台(飞天MaxCompute,Dataworks,
2、10万+规模)。前阿里和蚂蚁集团技术委员会计算平台领域组长、阿里云架构组大数据组组长。2021年,代表阿里云主持Forrester 云数仓评测,并首次入选全球榜单“卓越表现者象限”。2021年,创立云器科技(“基于增量的云湖仓”数据基础设施提供商,yunqi.tech),担任CTO17年分布式系统和大数据平台开发经验,并著有多篇国内外会议论文和专利。2018浙江省科技进步一等奖,2021 USENIXATC best paper award特别的:数据平台领域仍然处于发展期,部分技术收敛,但新方向和新技术层出不穷。本文内容和个人经历相关,洞察来自个人视角,难免有缺失或者偏颇,同时限于篇幅,也很
3、难面面俱到。仅作抛砖引玉,希望和同业共同探讨。云器科技版权所有yunqi.tech目录01当前数据平台架构的挑战和演进02AI时代D+A架构选型云器科技版权所有yunqi.tech当下的主流数据平台架构是怎样的?上述内容来源于络公开信息DataLake存储系统DataWarehouseBatchProcessingStreamingProcessingReal-TimeAnalytics结构化数据 处理/分析存储存储存储存储数据源数据应用AI Processing/ServingTraining PlatformOLTP DatabaseVia CDCOperational log(App、W
4、eb)IoT Data(Sensor、Agent)Files(Unstructured)ReportingAd hocAnalyticsApp(OperationalAnalytics)AI处理/训练/服务云器科技版权所有yunqi.tech当下的主流数据平台架构是怎样的?云器科技版权所有yunqi.tech当下数据平台,第一个问题 Lambda架构依然待改进典型的结构化数据分析架构图Data Lake存储系统DataWarehouseBatch ProcessingStreamingProcessingReal-TimeAnalytics结构化数据 处理/分析存储存储存储存储1.存储层,数据
5、湖和数据仓库尚未真正统一2.计算层,离线计算低实效性,实时计算高成本的矛盾3.组装式数据架构仍然复杂,异构存储,多套元数据,带来大量的计算和存储冗余和管理成本。极高的数据管理成本和开发成本4.组装式数据架构缺乏满足业务变化的灵活性。云器科技版权所有yunqi.tech当下数据平台,第二个问题 高成本、高的TCO1.当更多规模(AI带来大量半非结构化数据),更低价值密度的数据成为主流,成本矛盾会更明显2.从创新驱动到通用平台,“降低成本”已经成为当前用户*最普遍*的关切3.Total Cost of Ownership(TCO)!=硬件成本Total Cost of Ownership(TCO)
6、=硬件+软件成本+(开发人员成本)+维护人力成本+治理优化成本4.成本高企的主要原因:=Lambda架构(带来的数据和计算冗余)=开源数据平台不再流行(主因是领域发展阶段),与主流商业平台差距巨大(图:perf DBR and photon,by Databricks)云器科技版权所有yunqi.tech当下数据平台,第三个问题 面向AI负载的转型与AI原生(图:perf DBR and photon,by Databricks)Lakehouse architectureLakehouse architectureDatabase/Data WarehouseLakehouse to sto