《清华大学:大数据与云计算(110页).pdf》由会员分享,可在线阅读,更多相关《清华大学:大数据与云计算(110页).pdf(110页珍藏版)》请在三个皮匠报告上搜索。
1、大数据与云计算 清华大学? 自动化系 范玉顺 2020年8月11日,深圳 提纲提纲 大数据的产生背景大数据的产生背景 大数据的特征与思维转变大数据的特征与思维转变 大数据产业发展大数据产业发展 大数据应用大数据应用 云计算及其产业发展情况云计算及其产业发展情况 云计算应用云计算应用 2 3 数据增长的速度 保险公司 美国航空 联邦快递 花旗银行 沃尔玛 谷歌 脸谱网站 信息技术的发展催生大数据热 基础基础:计算机存储、计算能力的提升,数据存储成本下降 19551955年,年,1MB1MB的存储器,的存储器,60006000美元美元 19931993年,年,1MB1MB的存储器,的存储器,1 1
2、美元美元 20102010年,年,1MB1MB的存储器,的存储器,1 1美分美分 大数据的来源 1.交易数据,包括电子商务 2.移动互联、社交网络 3.物联网感知数据:海洋、天气、工业设备监控、物流跟踪 4.政府开放数据 离散制造业离散制造业 政府政府 传媒业传媒业 流程制造业流程制造业 银行业银行业 医疗业医疗业 投资证券业投资证券业 专业服务业专业服务业 零售业零售业 教育业教育业 保险业保险业 交通业交通业 批发业批发业 共用事业共用事业 服务资源行业服务资源行业 消费娱乐业消费娱乐业 建筑业建筑业 美国各行业数据存储量 (PBPB) 966 848 715 694 619 434 42
3、9 364 411 269 243 227 202 194 116 106 51 沃尔玛沃尔玛2010数据库的大小数据库的大小 为为2500TB,大约,大约2PB 1. 交易数据 淘宝1个月增加 1.5PB数据 Google 从单纯的搜索引擎公司发展为目前包括blog、 EmailEmail、网络分析、新闻、问答、数字图书、网络分析、新闻、问答、数字图书、日 历、SaaS、云计算、地图、广告、阅读、图片、 视频等数十种服务的综合IoS服务提供商; 搜索:至少拥有10亿用户;在线视频:每月5 亿的访问量; 博客:4亿读者;Gmail:2亿用户; Android:智能手机OS的25%市场份额;Ch
4、rome: 17%的市场份额。 6 Facebook 14亿:注册用户 100亿:分享的内容条数 45亿:“赞”的数量, 3.5亿:上传照片数 600+TB:新产生的数据 105TB:每半小时通过Hive扫描的数据 300+PB:数据容量 1.网络用户数据 30亿互联网用户 6.34亿个网站 12000亿次谷歌搜索(2012年) 14亿位Facebook用户 2亿位Twitter用户 2亿位LinkedIn用户 1.35亿位Google+活跃用户 2.社交媒体交互数据 2012年共发布了1.75亿条Tweet信息 全球90%的数据产生于过去两年 3.移动端和影像 20亿智能手机用户 50亿手机
5、用户 2. 社交网络 由于传感器大规模全方位的布网和高速高精度传感器的使用,物联网将产生 海量的数据。 截至2010年,全球RFID数量已经超过了300亿个。 一个大型城市电力物联网每天产生的数据可达TB级,一个大型城市交通物联 网每天产生的数据可达10TB。 各种记录、通信和可穿戴设备。 智能手环 谷歌眼镜 智能手机 行车记录仪 3. 物联网感知数据 Source:Siemens AG. 2013. 每台燃机24小时 运行信息约2TB 产品使用服务过程中的技术状态管理 监测变量数目5000个/每秒 计算1000个以上的中间模型 实时诊断故障,优化运行状态 减少故障、提高效率、降低废气排放 4
6、. 政府开放数据 9 www.data.gov,截止到2019年5月,data.gov平台上已经包含了25万个数据集,这些 数据集涵盖了农业、天气、教育、能源、制造等近50个公共管理和生活领域。 美国人的时间花费、小时工资、劳动力统计和失业人数统计 10 经济与人口 20002000年,新产生的数据年,新产生的数据1000PB1000PB 20102010年,全球企业新存储的数据超过年,全球企业新存储的数据超过 7000PB7000PB。 Jim GrayJim Gray提出提出“新摩尔定律”“新摩尔定律” 大数据的意义是人类可以分析和使用的数据大数据的意义是人类可以分析和使用的数据 大大增加