当前位置:首页 > 报告详情

Big Data:From Theory to Systems 樊文飞.pdf

上传人: 张** 编号:153179 2024-01-15 35页 3.81MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了大数据的五个V特性:体积、速度、多样性、真实性和价值,以及深圳计算科学研究院在大数据处理方面的研究成果。 1. 体积:数据量快速增长,2022年中国产生了23.9ZB的商业数据,预计2027年将达到76.6ZB。 2. 速度:决策不能基于昨天的数据,如医疗、零售、金融服务等领域。 3. 多样性:数据类型多样,包括关系数据库和事务图等。 4. 真实性:真实数据往往存在语义不一致、重复、陈旧和缺失链接等问题。 5. 价值:大数据分析的实际价值,如杀手级应用。 深圳计算科学研究院开发了YashanDB数据库管理系统,支持混合工作负载,比ClickHouse快18%,比Oracle和MySQL快60倍。此外,还开发了Rock数据质量系统,通过规则学习和逻辑推理提高数据质量。Fishing Fort通过逻辑推理和机器学习进行大数据图分析。MedHunter用于帕金森病的药物再定位,Dream Creak用于锂铁电池制造,Mirror用于在线推荐,Dasan Pass用于预测网络攻击。
如何在大量数据中进行有效查询? 如何处理异构数据模型之间的查询? 如何提高机器学习模型的准确性和可解释性?
客服
商务合作
小程序
服务号
折叠