当前位置:首页 > 报告详情

宋顾杨-Ray-os2atc2023-v3.pdf

上传人: 2*** 编号:129208 2023-05-01 33页 2.46MB

1、2023年3月OS2ATC宋顾杨 蚂蚁集团通用分布式计算引擎RAY云原生环境下如何快速构建分布式系统2020-今Ray开源社区Committer C+分布式框架 作者 Runtime Environments 维护者2017-今蚂蚁集团-新计算引擎团队 参与和推动了Ray在蚂蚁集团从0到1再到万台服务器规模的落地2015-2016蚂蚁集团-应用网络团队 7层网关,支付宝钱包网络自研协议About me目录分布式系统复杂性1Ray简介2利用Ray快速构建分布式系统3Ray开源现状401分布式系统复杂性一个AutoML的caseclienttrainerworkerworkerworkerKube

2、rnetesproxyAutoMLservice1.Requestdatamodels2.Deploy trainer3.start training4.Deploy workers5.training6.Monitorresults7.Delete trainer8.Query result云原生多角色高弹性动态化有状态频通信技术栈技术栈分析clienttrainerworkerworkerworkerKubernetesproxyAutoMLserviceasyncio编程语言分析通信协议应用服务原生运维原生部署实现了在线支付业务、离线计算等的强隔离容器定制分布式系统通用能力02Ray简介

3、 由加州大学伯克利分校RISELab发起并开源 通用分布式计算引擎 新一代计算基础设施Ray是什么KeyKey ideaidea:不绑定计算模式,:不绑定计算模式,把单机编程中的基本概念分布式化把单机编程中的基本概念分布式化通用分布式编程APIFunctionFunctionClassClass-Task Task-Actor Actor单机(Function)分布式(task)把普通 function 变成remote task异步调用,远程执行获取结果通用分布式编程API:无状态计算单元Task Object storeRaylet2.Save objectObject storeRayl

4、et4.fetch object3.Notify5.Fetch object6.Get objectObjectRef 多节点之间Object传输 同节点内shared memory 自动垃圾回收 Object spilling分布式object storeheavy_compute.remote(i)heavy_compute()1.Task requestNode 1Node 2通用分布式编程API:分布式object 单机(Class)分布式(Actor)把普通Class变成Actor Class创建远程Actor对象,返回Actor Handle远程调用Actor方法通用分布式编程AP

5、I:有状态计算单元Actor 03利用Ray快速构建分布式系统AutoML Service部署Ray集群自定义部署$ray start-head$ray start address$HRAD_ADDRESS部署head节点:部署worker节点:一键云上部署$ray up-y config.yamlclienttrainerworkerworkerworkerKubernetesproxyAutoMLserviceAutoML ServiceRay ActorRay ActorRay TaskRay TaskRay TaskRayRay ClientAutoML Serviceworker(R

6、ay Task)AutoML ServiceTrainer(Ray Actor)动态创建分布式taskAutoML ServiceProxy(Ray Actor)动态创建分布式 actor部署并设置 nameAutoML ServiceClient服务发现异步获取结果服务访问AutoML Service定制资源设置资源支持的资源类型:CPUGPUMemory自定义高级功能资源组亲和性&反亲和性AutoML Service运行时环境定制python环境 通过代码灵活配置Job/

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了蚂蚁集团通用分布式计算引擎RAY在云原生环境下的应用和实践。作者宋顾杨分享了他在分布式系统复杂性、Ray简介、利用Ray快速构建分布式系统和Ray开源现状等方面的经验和见解。 关键点如下: 1. 分布式系统复杂性:以AutoML为例,介绍了在分布式环境下构建系统的关键步骤,如请求、部署、训练、部署 workers、监控结果等。 2. Ray简介:Ray是由加州大学伯克利分校RISELab发起并开源的通用分布式计算引擎,具有不绑定计算模式、分布式化单机编程基本概念等特点。 3. 利用Ray快速构建分布式系统:以AutoML Service为例,介绍了如何利用Ray进行集群部署、动态创建分布式task、部署并设置name、服务发现等。 4. Ray开源现状:Ray自2017年开源至今,已有700+ Contributor、24k+ stars、16k+ commits等,广泛应用于企业应用生态系统。 5. Ray的架构:介绍了Ray的架构特点,如分布式object store、shared memory、自动垃圾回收等。 6. Ray中文社区:作者欢迎试用和合作,并表示愿意与更多伙伴共同推动Ray在中国的发展。
"Ray是什么?有何特点?" "如何利用Ray快速构建分布式系统?" "Ray开源现状如何?有哪些应用场景?"
客服
商务合作
小程序
服务号
折叠