1、构建 Coding Agent 的飞轮:Feedback Loop、Benchmark、Agent Engineers牛万鹏百度 Comate 研发经理目录0102030405Coding Agent在百度落地的效果Agent Loop的基本框架和问题Feedback Loop:让 Agent 的行为可观测Benchmark:挖掘评测集和发现异常值Agent Engineers:把人放到Loop里Coding Agent在百度落地的效果Coding Agent深入人心,从研发扩散到全员Comate全员落地,人人使用人均Query次数增长5倍相对于人均Tokens统计,我们更专注与人均Query
2、次数统计,有效、合理的Query更能代表用户对Coding Agent的使用情况。全员Coding不仅仅是研发,产品经理、项目经理、交互&视觉设计师、测试工程师、售前工程师、销售等全员Coding。Comate IDE成为主要入口Comate IDE已经成为百度内Coding Agent的基础设施,唤起时长占所有IDE的60%以上,JetBrains、VSCode等传统IDE逐渐退潮。Vibe Coding不再是纸上谈兵,古法编程渐行渐远类型一:解决之前大量可以用研发解决,但不会被纳入研发排期的工作Coding Agent会成为类似俄乌战争中无人机的作用,深刻的改变战场形态。发现战情:战线十公
3、里外发现2个敌人传统战场:这两个敌人十分安全决策链路:远程火力需要上报到师级首长决策。时效性:等远程炮兵做好准备敌人可能已经跑了。风险:炮兵阵地暴露可能遭致敌人反击俄乌战场:一线战士直接操作无人机发动攻击类型二:需求开发、问题排查、自动化测试等真实软件研发活动Coding Agent加速推动开发者转型,深刻影响研发团队的协作模式。针对开发者个人:从 执行者 到 问题提出者,制约效率的不是Tokens消耗速度,而是提出好问题的能力针对研发团队:从 大Feature要拆小Task分给多人执行 转变为 直接交给一人+Agent 完成,效率跟高使用Coding Agent完成的任务类别统计Coding
4、 Agent覆盖所有环节 代码探索、问题排查和新功能实现是Coding Agent的主要场景 代码重构、文档撰写以及DevOps相关代码生成也是高频场景Agent Loop的基本框架和问题Agent Loop的基本框架核心Loop:驱动Agent运转,感知外部环境变化包含模型、工具以及Agent所运行的环境。很多Agent框架忽略模型本身特性的变化,尝试打造统一的框架适配所有模型,Comate的实践让我们清醒认识到这是错误的。因此,Agent框架必须能够发现模型的变化。外层Loop:为Agent提供扩展性、鲁棒性通过记忆、Skills等Context来为Agent提供更多接触环境、感知环境的手
5、段,从而大幅延长Agent的触角。通过压缩和Edges(边界情况处理)来让Agent具备自愈能力。Skills记忆EdgesEnvToolsModel压缩RulesMCP.打造一个通用Agent产品时,构建Agent Loop面对的核心问题对模型解题能力的持续观测,动态调整Agent框架。1.随着模型的解题能力越来越强,构建Agent核心原则从流程定义变为状态感知,不再需要教模型怎么做,只需要告诉模型现在发生了什么2.针对Claude 4.6系列、GPT-5.3/5.4系列模型对与编码的细节处理已经足够优秀,完全不需要Spec Driven Development、Superpowers等开发
6、模式/脚手架,反而拖累模型效果,浪费上下文构建有效的评测级,重点不再是解题分数而是发现异常值。1.单纯做面向SWE-Bench等通用方法的评测无法真正体现Agent的效果,评测集和对应的评判标准体现了Agent的调性2.评测单纯看分数是不够的,需要发现异常值,通过异常值发现模型的偏好人也是Agent的Tool、Context,需要打破角色分工。1.传统软件研发协作流程将开发者分成前端、后端、测试等各个角色,这种协作适用于稳定态的软件,而基于模型构建的Agent应用是混沌态,无法有效适用Feedback Loop:让 Agent 的行为可观测构建线上Agent执行数据的观测体系1工具2上下文3执