当前位置:首页 > 报告详情

使用 RAPIDS 加速 APACHE SPARK 3.0.pdf

上传人: li 编号:29488 2021-02-07 51页 30.67MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了NVIDIA的RAPIDS Accelerator for Apache Spark,这是一个可以让Spark利用NVIDIA GPU进行加速的插件。主要内容包括: 1. RAPIDS Accelerator 0.2版本要求Spark 3.0.0或3.0.1,RAPIDS cudf 0.15,CUDA 10.1及以后,NVIDIA GPU with Pascal 构架及以后,Ubuntu 16.04+或CentOS 7+。 2. RAPIDS Accelerator可以加速Spark的ETL、SQL查询、DataFrame操作等,如GPU加速的Shuffle、读写Parquet文件、支持Scala和Pandas UDF等。 3. 在TPC-DS基准测试中,使用RAPIDS Accelerator可以将某些查询的性能提升55%,节省成本61%。 4. RAPIDS Accelerator 0.3版本计划支持Spark 3.1.0,DataFrame caching 加速,ArrayType、StructType、MapType,collect_list aggregations,DecimalType精度<= 18等。 5. RAPIDS Accelerator可以在云上运行,只要虚拟机满足最低要求。 6. 使用RAPIDS Accelerator时,需要确保所有运行加速器的节点都有自己的GPU,Spark Driver节点不需要。 7. RAPIDS Accelerator提供了配置选项,如spark.rapids.sql.enabled是主开关,spark.rapids.sql.explain用于打印未被支持的算子等。 8. RAPIDS Accelerator与Spark社区合作,通过Spark Plugin机制添加相应的AQE规则,以提供更好的加速。初步结果显示,GPU加速可以将性能提升至50%,而CPU为30%。
"GPU加速如何提升Spark性能?" "RAPIDS Accelerator有哪些最新特性?" "如何判断我的Spark作业是否适合GPU加速?"
客服
商务合作
小程序
服务号
折叠