2-兰钢临-快手大数据SRE技术运营体系建设之路.pdf

编号:152136 PDF 45页 30.63MB 下载积分:VIP专享
下载报告请您先登录!

2-兰钢临-快手大数据SRE技术运营体系建设之路.pdf

1、快手大数据SRE技术运营体系建设之路2023 深圳站兰钢临从15年在360公司到18年加入快手至今,一直从事大数据SRE相关工作。目前主要负责快手大数据和云存储相关服务的保障工作,保障超大规模集群的稳定与高效运行,以及相关引擎服务迭代效率。快手 大数据SRE服务保障团队负责人嘉宾照片2023 深圳站目录CONTENTS大数据SRE技术运营体系演进01 当前面临的痛点和挑战02 大数据SRE技术运营体系建设03 未来规划04 2023 深圳站01大数据大数据SRE技术运营体系演进技术运营体系演进2023 深圳站大数据大数据SRE技术运营体系演进技术运营体系演进2017 2018 2019 202

2、0 2021 2022机器增长趋势机器数2017 2018 2019 2020 2021 2022CPU增长趋势CPU数2017 2018 2019 2020 2021 2022存储增长趋势存储量2023 深圳站大数据大数据SRE技术运营体系演进技术运营体系演进201720182019202020212022资源规模增长趋势机器增长趋势CPU增长趋势存储量增长趋势2023 深圳站大数据大数据SRE技术运营体系演进技术运营体系演进混部 存算混合机型 部署关系复杂 资源利用率低 服务互相影响存算分离 高密度存储、计算机型 存算分离部署统一调度 计算统一调度 底层统一存储2023 深圳站大数据大数据

3、SRE技术运营体系演进技术运营体系演进202320182019202020212022适应增长(规模年均增长1倍+)高质量发展(夯实基础,面向未来)运维脚本化运维平台化,实现服务平台化管理,通用流程平台化操作1、平台化升级,定制复杂操作流程、故障自动化维修2、运维数据化,建设运维元数据、指标数据、事件数据、知识库1、运维平台化,重构实现超大规模集群管理、支持操作流程编排2、成本账单化1、稳定性运营体系建设2、资源体系建设3、标准化建设4、成本优化专项1、稳定性体系二期2、资源体系二期3、标准化二期4、成本优化专项2023 深圳站02当前面临的痛点和挑战当前面临的痛点和挑战2023 深圳站当前面

4、临的痛点和挑战当前面临的痛点和挑战2023 深圳站当前面临的痛点和挑战当前面临的痛点和挑战超大规模部署复杂变更频繁9个引擎服务300+集群数万机器规模日均变更单数量100+10+机房机型不统一系统环境不统一部署不规范稳定性效率成本故障频率高故障召回率低抗风险能力弱维护难度高变更效率低资源管理效率低机器利用率低2023 深圳站03大数据大数据SRE技术运营体系建设技术运营体系建设2023 深圳站大数据大数据SRE技术运营体系建设技术运营体系建设稳定性稳定性体系建设核心指标:90-2-5-10成本大数据资源体系建设核心指标:资源准时交付率、资源利用率效率大数据运维平台建设,提高研发效率核心指标:研

5、发运维分离比2023 深圳站大数据大数据SRE技术运营体系建设技术运营体系建设2023 深圳站稳定性体系建设稳定性体系建设/规划大图规划大图2023 深圳站稳定性体系建设稳定性体系建设/主要问题主要问题开发域变更域加固域检验域发现域处置域标准化问题突出标准化问题突出标准化问题故障占比27%演练覆盖度不足演练覆盖度不足服务性能容量、基础设施故障导致的服务故障占比为17%故障发现时间长故障发现时间长故障召回率43%,平均发现时长131分钟2023 深圳站稳定性体系建设稳定性体系建设/解决思路解决思路系统性的进行标准化治理工作,使得标准化治理成果可持续标准化问题突出标准化问题突出定义稳定性能力模型保

6、障演练覆盖的全面性,并对线上稳定性能力进行盘点与演练演练覆盖度不足演练覆盖度不足系统性的建设报警能力以提升故障召回率,从而降低平均故障发现时长故障发现时间长故障发现时间长2023 深圳站稳定性体系建设稳定性体系建设/标准化治理方案标准化治理方案梳理线上标准化问题,对标准化问题进行分层治理通用标准化层变更规范SOP标准基础环境准化层装机标准化内核参数标准化系统环境标准化服务准化层服务部署标准化服务配置标准化服务操作标准化新增治理存量治理2023 深圳站稳定性体系建设稳定性体系建设/标准化治理案例标准化治理案例存算混合机型3W+规模7%混部dn配置版本30+nm配置版本40+机器CPU利用率低DN

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2-兰钢临-快手大数据SRE技术运营体系建设之路.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠