当前位置:首页 > 报告详情

4、孙梦瑶-美团Flink可用性建设实践-终稿-2020-12-09.pdf

上传人: li 编号:29334 2020-12-01 31页 62.27MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了美团在实时计算中,针对Flink作业的可用性建设实践。可用性是实时计算中非常重要的一个指标,它表示了一个功能个体在给定时间区间内正常工作的时间比例。美团通过对Flink作业的可用性进行定义和衡量,提出了可用性优化方案和实践。 文中提到,实时作业的可用性需求非常强,因为作业依赖复杂业务逻辑,产出数据对业务至关重要,且不可用风险高。美团将可用性定义为作业正常工作时长与服务总时长的比例,并提出了可用性优化的关键点,包括减少故障时长、容错和容灾、减少故障影响面以及减少故障持续时间等。 具体优化措施包括:依赖服务的容错,异常重试机制和自动降级策略,物理资源冗余和故障容错,以及业务解耦和状态存储隔离等。此外,美团还提出了减弱对ZooKeeper依赖的HA方案,以及状态容灾设计,如定时制作Savepoint和跨集群状态恢复等。 文中还提到了不同业务场景下的可用性需求和运营策略,如月度报表、数据分析、算法特征生产等,并指出可用性的运营需要根据不同作业的重要性进行分级处理。 美团目前的实时作业可用性建设现状显示,重要作业的月度可用性达到99.983%,但仍然存在技术原因和业务原因导致的作业不可用。未来,美团计划进一步提升全链路的可用性,并覆盖各个维度的自动扩缩容,以提升作业的实时可用性。
如何定义并提高Flink作业的可用性? 美团如何实践Flink作业的可用性建设? 实时计算中可用性对业务影响有多大?
客服
商务合作
小程序
服务号
折叠