钱世俊-给 Agent 做“CT”：大规模 Agent 的可观测与质量保障体系.pdf

上传人： b****

编号：1209408

2026-04-20

PDF 48页 10.03MB

《钱世俊-给 Agent 做“CT”：大规模 Agent 的可观测与质量保障体系.pdf》由会员分享，可在线阅读，更多相关《钱世俊-给 Agent 做“CT”：大规模 Agent 的可观测与质量保障体系.pdf（48页珍藏版）》请在三个皮匠报告上搜索。

1、构建大规模 Agent 的 CT 系统：火山引擎 Agent 可观测实践钱世俊火山引擎应用观测技术负责人目录010203040605背景与挑战 Agent时代的黑盒困境破局之道构建统一观测底座深水区探索：AgentKit 深度观测工程化闭环从可观测到可迭代落地为王 OpenClaw 观测实践总结与展望Agent的“黑盒”困境背景与挑战构建大规模 Agent 的“CT 系统”Agent 正在重塑我们与软件、乃至与数字世界的交互犯错、变慢、甚至“发疯”？问题出现在哪里？亟需“CT系统”来看请它每一步的决策可见可解释可行动背景：大模型 Agent 时代的黑盒困境1复杂性剧增Agent 的能力

2、源于其包含规划（Planner）、工具调用（Tool）和记忆（Memory）的复杂工作流，而非单一的 LLM 调用黑盒状态2内部决策过程不透明，导致问题排查困难成本失控3复杂的调用链使得 Token 消耗的归因变得极其困难挑战：横跨基础设施到应用层的监控断层GPU显存利用率网络RDMA延迟K8s Pod 重启次数云基础设施DAU业务应用Agent框架Planner延迟Tool Error RateRAG 检索耗时Memory负载大模型服务TTFTTPOTToken成本用户反馈E2E延迟业务转化率模型幻觉率API稳定性节点 OOM 驱逐次数链路断：TraceID 丢失/业务上下文断裂语义断：跨供

3、应商链路孤岛/语义对齐失效因果断：硬件指标与推理逻辑脱节构建统一观测基座破局之道破局之道：构建统一观测基座破局的关键在于构建一个统一观测基座，通过融合多维数据和协同五大支柱，拉通端到端的监控链路全栈观测门户：一站式工作台统一集成中心：海量异构数据一键接入广泛兼容支持市面上主流的技术栈、云服务、中间件以及国内外知名的大模型 API拥抱标准原生兼容 OpenTelemetry(OTel)开放标准，保证了平台未来的扩展性和互操作性便捷接入零代码无感接入+轻量配置管理+统一采集器 OneAgent统一集成中心的核心：OneAgentOneAgent 是字节可观测团队提供的新一代可观测性数据M.T.L.

4、E采集和处理管道（DataPipeline）统一集成中心的核心：OneAgent 性能优化实践将计算与 I/O 分离，在数据发送阶段采用基于 RTT 的自适应调节算法。该算法能根据每个请求的 RTT 动态调整数据发送的并发度。后端状态好、RTT 低时：自动调高并发度阈值，充分利用带宽，提高吞吐量，防止数据积压。后端异常、RTT 升高时：主动降低并发度阈值，利用本地队列缓冲数据，避免对后端造成过大压力。发送并发度自适应调整指标的标签原先使用 map 结构存储，由于许多后端要求标签有序，这导致每次处理数据时都需要对 map 的 key 进行动态排序。由此带来的连锁效应：遍历、插入、合并效率大幅提升

5、：切片的顺序访问对 CPU Cache 更友好。编码器性能提升 30%以上：如 flusher_prometheus 等编码器不再需要内部排序。高频核心方法性能提升一个数量级：GetSize()、Clone()、SortTo()等方法的性能得到大幅改善。预排序：从 map 到 SortedSlice 的改进预分配大块内存：用于连续的 string 创建，以减少小块内存分配。尽可能使用栈内存：通过分析减少对象逃逸到堆上。使用对象池和引用计数：复用高频创建和回收的临时对象。优化日志打印：通过判断日志级别和延迟求值(lazy-evaluation)，避免在低级别日志下不必要的字符串拼接和函数调用开

6、销。其他代码细节优化统一集成中心的核心：OneAgent 性能优化实践2.OneAgent 负载整体降低了 50%以上，部分重载节点性能提升了 3 倍OneAgent CPU Usage（200k dps）OTELCOL CpuUsage（200k dps）HTTP Logs 转 OTLP，HTTP 上报110.55%270.05%HTTP Metrics 转 OTLP，HTTP 上报96.80%269.75%HTTP Traces 转 OTLP，HTTP 上报83.17%165.15%1.重载场景下OneAgent数据吞吐可以比 OtelCollector高一倍统一数据加工：流转间的“提纯与

钱世俊-给 Agent 做“CT”：大规模 Agent 的可观测与质量保障体系.pdf

相关报告