当前位置:首页 > 报告详情

8-5 美团 Spark Shuffle 架构演进.pdf

上传人: 云闲 编号:102518 2021-01-01 28页 2.52MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了美团在Spark Shuffle方面的优化实践。美团Spark日作业数达60万+,97%的ETL任务使用Spark,shuffle量达70PB+。针对Spark 1.x 2.x Shuffle问题,如热点读、Stage调度机制、资源调度等,业界提出了多种优化方案,如升级存储、重新组织数据等。美团提出了RSS(Remote Shuffle Service)方案,旨在提高Shuffle稳定性,实现Shuffle成功率100%,并具备负载均衡、流控等功能。RSS通过Reducer请求RSS节点merge后的数据,降低请求数,采用一致性Hash解决负载不均衡问题,并通过CRC32校验、元数据校验等保证数据一致性。此外,美团还提出了Push-based Shuffle方案,主要解决随机读问题,但受作业资源、Reduce并发数等因素影响。后续计划包括优化RSS读放大问题、提高Shuffle独立集群资源利用率,以及实现Shuffle模式的自动选择等。
"美团Spark Shuffle如何优化?" "业内Shuffle优化方案有哪些?" "美团RSS如何解决Shuffle问题?"
客服
商务合作
小程序
服务号
折叠