《钱世俊-给 Agent 做“CT”:大规模 Agent 的可观测与质量保障体系.pdf》由会员分享,可在线阅读,更多相关《钱世俊-给 Agent 做“CT”:大规模 Agent 的可观测与质量保障体系.pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、构建大规模 Agent 的 CT 系统:火山引擎 Agent 可观测实践钱世俊火山引擎 应用观测技术负责人目录010203040605背景与挑战 Agent时代 的黑盒困境破局之道 构建统一观测底座深水区探索:AgentKit 深度观测工程化闭环 从可观测到可迭代落地为王 OpenClaw 观测实践总结与展望Agent的“黑盒”困境背景与挑战构建大规模 Agent 的“CT 系统”Agent 正在重塑我们与软件、乃至与数字世界的交互犯错、变慢、甚至“发疯”?问题出现在哪里?亟需“CT系统”来看请它每一步的决策可见可解释可行动背景:大模型 Agent 时代的黑盒困境1复杂性剧增Agent 的能力
2、源于其包含规划(Planner)、工具调用(Tool)和记忆(Memory)的复杂工作流,而非单一的 LLM 调用黑盒状态2内部决策过程不透明,导致问题排查困难成本失控3复杂的调用链使得 Token 消耗的归因变得极其困难挑战:横跨基础设施到应用层的监控断层GPU显存利用率网络RDMA延迟K8s Pod 重启次数云基础设施DAU业务应用Agent框架Planner延迟Tool Error RateRAG 检索耗时Memory负载大模型服务TTFTTPOTToken成本用户反馈E2E延迟业务转化率模型幻觉率API稳定性节点 OOM 驱逐次数链路断:TraceID 丢失/业务上下文断裂语义断:跨供
3、应商链路孤岛/语义对齐失效因果断:硬件指标与推理逻辑脱节构建统一观测基座破局之道破局之道:构建统一观测基座破局的关键在于构建一个统一观测基座,通过融合多维数据和协同五大支柱,拉通端到端的监控链路全栈观测门户:一站式工作台统一集成中心:海量异构数据一键接入广泛兼容支持市面上主流的技术栈、云服务、中间件以及国内外知名的大模型 API拥抱标准原生兼容 OpenTelemetry(OTel)开放标准,保证了平台未来的扩展性和互操作性便捷接入零代码无感接入+轻量配置管理+统一采集器 OneAgent统一集成中心的核心:OneAgentOneAgent 是字节可观测团队提供的新一代可观测性数据M.T.L.
4、E采集和处理管道(DataPipeline)统一集成中心的核心:OneAgent 性能优化实践将计算与 I/O 分离,在数据发送阶段采用基于 RTT 的自适应调节算法。该算法能根据每个请求的 RTT 动态调整数据发送的并发度。后端状态好、RTT 低时:自动调高并发度阈值,充分利用带宽,提高吞吐量,防止数据积压。后端异常、RTT 升高时:主动降低并发度阈值,利用本地队列缓冲数据,避免对后端造成过大压力。发送并发度自适应调整指标的标签原先使用 map 结构存储,由于许多后端要求标签有序,这导致每次处理数据时都需要对 map 的 key 进行动态排序。由此带来的连锁效应:遍历、插入、合并效率大幅提升
5、:切片的顺序访问对 CPU Cache 更友好。编码器性能提升 30%以上:如 flusher_prometheus 等编码器不再需要内部排序。高频核心方法性能提升一个数量级:GetSize()、Clone()、SortTo()等方法的性能得到大幅改善。预排序:从 map 到 SortedSlice 的改进 预分配大块内存:用于连续的 string 创建,以减少小块内存分配。尽可能使用栈内存:通过分析减少对象逃逸到堆上。使用对象池和引用计数:复用高频创建和回收的临时对象。优化日志打印:通过判断日志级别和延迟求值(lazy-evaluation),避免在低级别日志下不必要的字符串拼接和函数调用开
6、销。其他代码细节优化统一集成中心的核心:OneAgent 性能优化实践2.OneAgent 负载整体降低了 50%以上,部分重载节点性能提升了 3 倍OneAgent CPU Usage(200k dps)OTELCOL CpuUsage(200k dps)HTTP Logs 转 OTLP,HTTP 上报110.55%270.05%HTTP Metrics 转 OTLP,HTTP 上报96.80%269.75%HTTP Traces 转 OTLP,HTTP 上报83.17%165.15%1.重载场景下OneAgent数据吞吐可以比 OtelCollector高一倍统一数据加工:流转间的“提纯与