《track3-小红书服务器选型技术分享-小红书-任晓磐.pdf》由会员分享,可在线阅读,更多相关《track3-小红书服务器选型技术分享-小红书-任晓磐.pdf(11页珍藏版)》请在三个皮匠报告上搜索。
1、小红书服务器选型技术分享Practice of Xiaohongshu IDC Server Selection:Building from the ground up任晓磐行吟信息科技(上海)有限公司(小红书)小红书服务器选型技术分享Practice of Xiaohongshu IDC Server Selection:Building from the ground up任晓磐行吟信息科技(上海)有限公司(小红书)1,流程规划2,技术选型3,开发测试4,趋势挑战5,思考总结小红书自建云服务器选型流程规划交付立项开发运维战略目标技术路线业务规划机型规划选型测试厂商入围交期跟进上架规划变更评
2、审线上故障处理质量问题跟踪运管平台建设技术选型机型选择需求收集平台选型业务分类特征标记过往问题CPU 架构选型CPU 厂商选型CPU 代次选型配置分类机型规划扩配要求避免单一供应厂商品牌独立多维打分考核厂商选择规划的越详细,后续的测试及运维问题就越少技术选型产品稳定性;爆炸半径;业务特性匹配;单核心性价比;IO 扩展能力;CPU业务网卡:双上行;多厂商备份;网关LB机型:落后通用计算半年;网络GPU的互联带宽;匹配CPU;单卡内存带宽;显存容量;GPU高性能存储:延时,带宽,容量与带宽之间的平衡;高密度存储:容量,性能均衡,故障率;存储机型复用,可扩展性强,主流产品(Main Stream),
3、性价比高机型选择配置规划前置;设计方案指导;交付配置统一;固件仅做选项定制;厂商选择技术选型 CPU算力+GPU算力高内存带宽,PCIe带宽KV类,索引类低延迟,高IO高核存比,全闪AI推理(2U 双路+4 L20)工具机型(2U双路)高性能存储(2U单路12NVMe)通用计算(2U单路)带外管控YUM,NTP实时计算,Redis,网关,LB多核存比机型共存;对象存储热维护高密度存储(4U60)开发测试标后测试预研测试POC上线压测新厂商,新代次基础功能及性能业务功能性能多厂商性能及稳定性严重问题处理引入风险评估跨部门全链路多数量,高时长重压力新固件定制化部件PN引入交付最后一道防线模块化自动
4、化趋势及挑战多平台共存,既要保证规格统一,又要形成互补,充分利用计算资源与IO资源,物尽其用,将是一个比较值得探讨的话题;平台的演进存储介质的替代,随着新存储介质的快速发展,大容量QLC挤占一部分HDD的空间,如何平衡容量与带宽的成本占比;新产品革命新部件厂商的引入带来更灵活的供应,更优的成本以及更快速的服务响应;同样也面临长期稳定性风险的未知,如何有节奏的引入,也需要仔细思考;新势力厂商超节点集群的集群配置;PD 分离的配比关系;现存CPU+GPU 算力模型下的AI服务器产品支持支持等;AI产品演化+要与时俱进,也要把控节奏;要大胆尝试,更要实事求是总结没有标准答案:在这个分享中,没有进行数据展示,这些数据本来应该包括我们截止目前总的建设规模,包括我们在选型过程中,通过调整硬件配置,带来基础性能提升的百分比,也包括我们制定了多少测试用例,在这一年半的时间发现了多少BUG;但最后都做了删减,因为这次的分享,我想要更多的是从流程跟方法论上介绍,我们是从哪些角度出发去考虑一款机型的设定,因为技术是一直迭代发展的,没有一个一成不变的标准答案。我们需要做的,就是基于硬件的发展创新,结合业务的特性,持续做出更优的技术方案,不给未来设限,不断的为实现时间,成本,质量不可能三角平衡的目标:开放、交流、分享THANKS