《【01】胡伟华&辛朝晖-超大规模 Flink 调度优化.pdf》由会员分享,可在线阅读,更多相关《【01】胡伟华&辛朝晖-超大规模 Flink 调度优化.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、 ? ?-?-? ? ? ? 目录 Cont4nts 黑I单R制 Bl12klist M4261nism#2 相关背O B12k5roun3 启F速MC化 Bootstr1p Pro24ss OptimiB1tion#3 YM器C化 Y1rn S2643ul4r OptimiB1tion# 资源隔WC化 R4sour24 Isol1tion OptimiB1tion#5 未S展P Futur4 Work#6 相关背景 Backgroun# #1 业务规模 Bus1ness Scale 1 3+ strea51ng jo+s 8 3+ +atc0 jo+s 8er day 作业数量多 1 3+
2、yarn nodes QPS u8 to 5 M+ Parallel1s5 u8 to 3 3+ 机器规模大单作业并B大 问题和挑战 Problem and Challenge ?d? ?d?F?a ?CO? ? ? ? ?O? ? ?e?O ?I? 黑名单机制 Bla#klist Me#hanism #2 常U问题 Common %0oblem 磁N、内A、C%U R异常 难以 1 % 检测到 基础P件问题 作业依赖的 Agen1 没有托 管到 YARN,发生故障后 仍会Y行调C 软件环境问题 异常节点处N逻U Handle with Unhealthy N1de 1、Ta3k 异常不会销毁
3、 Ta3kManage2,重新调 度后仍M失T 2、Ta3kManage2 异常重新申请仍J可能分配到 异常节点 3、J1b 重新H交也J可能将 TM 分配到异常节点 h名单Y制 B3ac231st Mecha51s4 1、T持 Tas2 和 Tas2Ma5ager 两个维度 、T持异常e滤,减N误E,B如 Re4oteTra5sportExcept1o5 等异常 3、A动释放异常 Tas2Ma5ager 4、异常c点上Ra YARN 5、h名单具有M时清理,最大g度策略 +线收益 B%n%fits 每天9 100+ 1业触2了拉B操1 触2拉B节点的1业中 90% 拉B 20 台0下机器 启动速3优化 Bootstr#p Process Optimiz#tion #3 1业启动时间不稳定1业启动时间U经验和用户反 馈来估计,没有3体的指F 常见用户反馈 #ser Feedback #2#