当前位置:首页 > 报告详情

GCOS去哪儿旅行混合云基建优化实践-v3.pdf

上传人: 2*** 编号:147919 2023-12-05 29页 5.85MB

1、邹晟 基础平台技术专家 GCOS 2023 全球云原生及开源峰会个人简介个人简介2017年加入去哪儿旅行,云原生 SIG 成员,主要负责 DevOps 平台的规划和实施、研发效能的提升,近期一直在做混合云的容器稳定性治理、根因分析、预案系统等工作邹晟邹晟基础平台技术专家基础平台技术专家 GCOS 2023 全球云原生及开源峰会1 13 32 24 4去哪儿旅行混合云背景与挑战单应用1000+pod发布优化实践混合云下的应用级容灾实践混合云下的可观测性优化实践03040102混合云背景与挑战 GCOS 2023 全球云原生及开源峰会混合云混合云背景背景010203 GCOS 2023 全球云原生

2、及开源峰会混合云混合云策略策略冷数据上云冷数据上云 动作动作:数据库备份、及部分数仓数据上 云长期备份 效果:效果:20+P本地存储释放,节省了成本业务混合上云业务混合上云 动作动作:业务优先 IDC 部署,超过 阈值自动弹公有云 效果:资源利用率提升到 60%60%,业务高峰无需人工扩容 动作:动作:完成1P数据上云,本地做灾备。包括 对象存储和镜像仓库等 效果:效果:稳定性 99.995%存储上云存储上云 GCOS 2023 全球云原生及开源峰会混合云混合云挑战挑战大应用发布效率大应用发布效率挑战:1000+pod 发布耗时1-2个小时 0101应用级容灾应用级容灾挑战:单机房挂掉应用如何

3、保障可用性0202挑战:故障期间如何降低处理时长0303可观测性实践可观测性实践03040102 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-数据数据分析分析发布总时长发布总时长=max(=max(单批次应用启动时长单批次应用启动时长)x)x 发布批次发布批次数数发布批次数发布批次数=pod =pod 总数总数/单批次最多单批次最多 pod pod变量应用启动时长批次数pod总数 应用启动加速 减少发布批次数 pod 纵向扩容降低pod总数 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-应用启动应用启动加速加速定义定义spring、tomcat

4、 初始化应用初始化应用启动应用预热应用上线测量测量各个阶段埋点统计时长评估评估spring、tomcat 初始化秒级,spring 初始化和 bean 数量有关应用初始化和启动 1min应用预热2-3min瓶颈主要在预热数据,这部分数据优化性价比不高动作动作无 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-减少发布批次减少发布批次数数定义定义动态评估系统容量水位确保服务稳定,包括mysql、redis 连接数、dubbo zk 连接等测量测量业务吞吐和延时服务的后端资源容量变化(mysql、rediis 等)评估评估mysql 大量并发授权批量写 user 权限表会导致

5、 db 有延时抖动业务指标延时增加,不能直接降低发布批次数动作动作减少并发授权 db 抖动:动态授权改为网段授权,不直接写 user表,通过token 获取账户信息 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-pod-pod 纵向扩容降低纵向扩容降低 pod pod 总数总数定义定义系统吞吐不变,通过提高实例规格来减少总的实例数,提高发布效率测量测量业务吞吐与延时不断优化调整线程池数量、gc 策略并关注系统和业务指标评估评估pod 资源改为16/32c,32/64/128/256G 大规格 pod 后,效果明显动作动作成本考虑,发布系统支持先缩后扩应用切换大规格 po

6、d 并计算资源比例 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-效果效果资源节省20%发布效率提升70%04010203 GCOS 2023 全球云原生及开源峰会应用级容灾应用级容灾私有云多机房部署默认应用对机房无感知,自动向多个集群调度分布公有云多AZ公有云 AZ 级别故障自动切换应用级容灾 GCOS 2023 全球云原生及开源峰会应用级容灾应用级容灾-部署部署架构架构0102添加简介0304 GCOS 2023 全球云原生及开源峰会可观测性实践可观测性实践-22-22年故障数据年故障数

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
邹晟是去哪儿旅行的基础平台技术专家,自2017年加入该公司以来,他致力于DevOps平台的规划和实施,以及研发效能的提升。近期,他的工作重点是混合云的容器稳定性治理、根因分析以及预案系统。邹晟在混合云背景下,针对应用发布效率、应用级容灾和可观测性优化等方面有深入研究和实践。他提出了一系列优化措施,如通过数据上云、应用混合上云和存储上云等策略,实现了成本节省和资源利用率提升。在应用发布方面,他通过优化应用启动加速、减少发布批次数和纵向扩容等措施,显著提升了发布效率。此外,邹晟还参与了私有云多机房部署和公有云多AZ级别的应用级容灾实践。他在可观测性实践方面也有所贡献,包括故障平均发现时间的缩短和根因定位模型准确率的提高。
邹晟在去哪儿旅行负责哪些技术工作? 混合云背景下,应用级容灾如何实现? 可观测性实践对故障排查有哪些帮助?
客服
商务合作
小程序
服务号
折叠