《【对外】【多模论坛-深算院】YashanDB:AI时代数据底座的思考0714.pdf》由会员分享,可在线阅读,更多相关《【对外】【多模论坛-深算院】YashanDB:AI时代数据底座的思考0714.pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、欧伟杰深圳计算科学研究院 YashanDB技术总监Y Ya as sh ha an nD DB B:A AI I时时代代数数据据底底座座的的思思考考迎迎接接A AI I挑挑战战:构构建建下下一一代代数数据据库库系系统统云云计计算算场场景景云云数数据据仓仓库库互互联联网网应应用用文文档档型型数数据据库库传传统统行行业业应应用用关关系系型型数数据据库库 功能全面、性能优异、可靠性高 1979年发布第一个基于SQL的商用关系数据库管理系统 文档型数据库具备高可用,易扩展、灵活访问 2009年发布第一稳定版本1.0 云原生存算分离的数据库仓库,实现按需付费 2012年成立,2020年上市纽交所。A A
2、I IG GC C场场景景下下A AI I+D DB B=?Databricks以约10亿美元的价格收购云原生数据库初创企业Neon科技领域投资公司Haveli15亿美元收购NoSQL公司Couchbase超大规模2028年全球数据量 393.8ZB(IDC 预测)更新速度数据实时变化,模型重新训练成本高、滞后性强多模态语义割裂(文本、图像、语音),扩展效率低,毫秒级响应难A AI I时时代代的的数数据据管管理理新新挑挑战战A AI I时时代代的的数数据据管管理理挑挑战战-“3 3V V”+1 1S S IDC预测2028年全球数据量达393.8ZB(较2018年增9.8倍),每秒产生12.5
3、PB数据。超80%为非结构化数据 IDC,Revelations in the Global DataSphere,2024:Key Trends and Takeaways 海海量量数数据据(V Vo ol lu umme e)存存储储成成本本激激增增高高维维向向量量计计算算复复杂杂度度飙飙升升A AI I时时代代的的数数据据管管理理挑挑战战-“3V”+1S 需“博古通今”又“瞬息万变”。传统重训练滞后且昂贵,需动态知识注入与高效向量数据库支持,以应对金融、医疗等行业实时需求。数数据据实实时时变变化化(V Ve el lo oc ci it ty y)数据时效性:外部知识库需高效注入模型,避
4、免信息延迟。系统扩展性:向量数据爆发式增长,要求数据库具备弹性扩展与高性能。资源效率:实时更新对计算、存储的优化提出更高要求。技技术术挑挑战战大模型知识有“截至日期”n 很长一段时间内,ChatGPT知识截止于2021年9月,到2023年上半年实时性差距近2年A AI I时时代代的的数数据据管管理理挑挑战战-“3 3V V”+1 1S S 文档/语音/图像/传感器难关联。CLIP等对齐技术不足,扩展性差、响应慢。亟需统一管理框架实现跨模实时查询。多多模模态态数数据据的的语语义义鸿鸿沟沟(V Va ar ri ie et ty y)表征对齐不彻底:依赖CLIP等单点技术,缺乏统一数据管理框架。系
5、统能力不足:传统数据库无法兼顾语义对齐、扩展性、实时性。技技术术挑挑战战A AI I时时代代的的数数据据管管理理挑挑战战-“3 3V V”+1 1S S 大模型数据需求与隐私保护矛盾突出,开放环境需可用不可见技术,实时脱敏要求超越传统加密能力,亟需新型安全系统。数数据据安安全全的的隐隐私私困困境境(S Se ec cu ur ri it ty y)技术局限:私有化部署仅缓解部分问题,公共场景仍存在隐患数据可用不可见技术尚未成熟 实时性挑战:监控等特殊数据需即时脱敏传统批处理加密延迟高,难满足实时需求技技术术挑挑战战崖山数据库:构建AI时代的数据基础设施从从底底层层理理论论到到系系统统工工程程实
6、实现现全全链链条条创创新新。从零构建,融合细粒度多版本并发、自适应异步事务调度等创新技术,在数据处理规模、吞吐量及高可用性方面实现国国际际领领先先突突破破。核核心心技技术术突突破破与与理理论论创创新新2 20 02 24 4-2 20 02 23 32 20 02 21 120172013Making queries tractable on big data with preprocessing(VLDB)奠定颠覆传统复杂性的理论研究基础Bounded Evaluation(SIGMOD)资源受限计算理论突破Linking entities across relations and grap