《刘杨-让推理引擎可被“看见”:大模型推理端到端 Token 级可观测工程实践.pdf》由会员分享,可在线阅读,更多相关《刘杨-让推理引擎可被“看见”:大模型推理端到端 Token 级可观测工程实践.pdf(40页珍藏版)》请在三个皮匠报告上搜索。
1、让推理引擎可被“看见”大模型推理端到端Token级可观测工程实践蚂蚁集团可观测架构师刘杨目录010203040605推理全链路可观测体系传统Trace的局限Token为中心的可观测方案经典案例社区贡献与展望QA推理全链路可观测体系总览以推理为核心的统一观测解决方案推理云服务推理云核心组件全覆盖AI应用多语言跨协议端到端链路追踪推理云服务:混合云架构 核心组件覆盖蚂蚁主站MetricsLogsTracesAntCollector(DaemonSet)蚂蚁主站DataGW清洗 转换 聚合CeresDB/SLS等推理核心组件监控覆盖网关/模型服务层AIGWModelService引擎层(多种部署架构
2、)单机PD分离基础设施层存储/KV Pool云网络组件通算CPU系统指标智算XPU系统指标蚂蚁其他站点MetricsLogsTracesAntCollector(DaemonSet)推理混合云架构otlpotlp推理云服务:标准化-统一口径 消除孤岛统计/链路指标标准化 核心性能指标TTFTTime to First Token首 Token 延迟用户等待体验核心指标覆盖排队+Prefill 计算P99TPOTTime Per Output Token单 Token 生成时间流式输出流畅度指标Decode+KV Cache 效率AVGE2EEnd-to-End Latency端到端时延全链路服
3、务质量指标网络+排队+推理全覆盖SLA严格成功率 超越 HTTP 200非严格成功的异常类型:RequestError请求失败EmptyOutput模型输出为空ErrorCode80%乱码超阈值Repeat80%重复超阈值TTFT/TPOT延迟超阈值规范统一收益 打破数据孤岛统计&链路指标规范精准 FO 支撑标准化指标为引擎实例/AIGW 节点故障自愈提供决策依据弹性扩缩容基于排队数/TPOT 等弹性策略,实现资源按需使用统一监控大盘SRE 与业务方共享同一视角,全平台横向对比AI应用:端到端分布式追踪ClientAppSOFATracerAIGWOTLPEngineOTLPSOFAOTel
4、协议映射OTel 原生链路request_id 精准关联解决问题单 TraceId 关联多笔推理请求时的精准定位AIGW 生成全局唯一 ID下游组件日志+Span 统一透传监控指标 链路详情一键跳转打通指标 明细 Trace 完整闭环异构协议串联解决问题SOFATracer 与 OpenTelemetry 两种协议 Span 串联SOFA-TraceId Parent-TraceIdSOFA-RpcId Parent-RpcId 映射查询时自动扫描跨协议关联双向可追溯 语义一致性保障多语言接入接入策略日志转 Span+原生 OTLP 并行,按场景选择JavaSOFATracer 日志 AntC
5、ollector SpanGo原生 OTLPPython原生OTLP渐进式 OTel 覆盖 最终全链路统一SOFATracer端到端推理链路产品效果:指标下探Trace,快速定界6/33AIGW视角推理服务统计指标单Trace链路引擎黑洞?Token生产不可见传统Trace的局限大模型推理的核心体验指标T1TTFTTime To First Token首字响应时间用户等多久看到第一个字输出TnTPOTTime Per Output Token每Token平均输出时间后续字输出快不快,有无卡顿Acc精度指标Accuracy Metrics回答好不好答非所问/乱码/复读等异常!核心论点Key In
6、sight衡量大模型服务性能看Token速度,质量看Token分布与选择6/33性能异常:请求变慢,慢在哪引擎黑盒传统Trace到请求粒度截止,而回复是由Token构成,逐次吐出来并发干扰不可见不知道本请求被谁阻塞、怎么阻塞,大请求对小请求的拖累完全不透明关键拆解:慢在哪些Token 其他请求的干扰性能问题的难点精度难题:答非所问、乱码、复读为什么精度问题难排查?随机性导致不可复现同一Prompt,两次调用可能结果迥异,无法稳定复现错误从某Token蔓延一旦某Token出错,后续Token受其影响,像多米诺效应采样参数是黑手Temperature过高乱码,过低复读;错误参数隐匿其中BOS等特殊