牛万鹏-构建 Coding Agent 的飞轮:Feedback Loop、Benchmark、Agent Engineers.pdf

编号:1209316 PDF 30页 5.16MB 下载积分:VIP专享
下载报告请您先登录!

牛万鹏-构建 Coding Agent 的飞轮:Feedback Loop、Benchmark、Agent Engineers.pdf

1、构建 Coding Agent 的飞轮:Feedback Loop、Benchmark、Agent Engineers牛万鹏百度 Comate 研发经理目录0102030405Coding Agent在百度落地的效果Agent Loop的基本框架和问题Feedback Loop:让 Agent 的行为可观测Benchmark:挖掘评测集和发现异常值Agent Engineers:把人放到Loop里Coding Agent在百度落地的效果Coding Agent深入人心,从研发扩散到全员Comate全员落地,人人使用人均Query次数增长5倍相对于人均Tokens统计,我们更专注与人均Query

2、次数统计,有效、合理的Query更能代表用户对Coding Agent的使用情况。全员Coding不仅仅是研发,产品经理、项目经理、交互&视觉设计师、测试工程师、售前工程师、销售等全员Coding。Comate IDE成为主要入口Comate IDE已经成为百度内Coding Agent的基础设施,唤起时长占所有IDE的60%以上,JetBrains、VSCode等传统IDE逐渐退潮。Vibe Coding不再是纸上谈兵,古法编程渐行渐远类型一:解决之前大量可以用研发解决,但不会被纳入研发排期的工作Coding Agent会成为类似俄乌战争中无人机的作用,深刻的改变战场形态。发现战情:战线十公

3、里外发现2个敌人传统战场:这两个敌人十分安全决策链路:远程火力需要上报到师级首长决策。时效性:等远程炮兵做好准备敌人可能已经跑了。风险:炮兵阵地暴露可能遭致敌人反击俄乌战场:一线战士直接操作无人机发动攻击类型二:需求开发、问题排查、自动化测试等真实软件研发活动Coding Agent加速推动开发者转型,深刻影响研发团队的协作模式。针对开发者个人:从 执行者 到 问题提出者,制约效率的不是Tokens消耗速度,而是提出好问题的能力针对研发团队:从 大Feature要拆小Task分给多人执行 转变为 直接交给一人+Agent 完成,效率跟高使用Coding Agent完成的任务类别统计Coding

4、 Agent覆盖所有环节 代码探索、问题排查和新功能实现是Coding Agent的主要场景 代码重构、文档撰写以及DevOps相关代码生成也是高频场景Agent Loop的基本框架和问题Agent Loop的基本框架核心Loop:驱动Agent运转,感知外部环境变化包含模型、工具以及Agent所运行的环境。很多Agent框架忽略模型本身特性的变化,尝试打造统一的框架适配所有模型,Comate的实践让我们清醒认识到这是错误的。因此,Agent框架必须能够发现模型的变化。外层Loop:为Agent提供扩展性、鲁棒性通过记忆、Skills等Context来为Agent提供更多接触环境、感知环境的手

5、段,从而大幅延长Agent的触角。通过压缩和Edges(边界情况处理)来让Agent具备自愈能力。Skills记忆EdgesEnvToolsModel压缩RulesMCP.打造一个通用Agent产品时,构建Agent Loop面对的核心问题对模型解题能力的持续观测,动态调整Agent框架。1.随着模型的解题能力越来越强,构建Agent核心原则从流程定义变为状态感知,不再需要教模型怎么做,只需要告诉模型现在发生了什么2.针对Claude 4.6系列、GPT-5.3/5.4系列模型对与编码的细节处理已经足够优秀,完全不需要Spec Driven Development、Superpowers等开发

6、模式/脚手架,反而拖累模型效果,浪费上下文构建有效的评测级,重点不再是解题分数而是发现异常值。1.单纯做面向SWE-Bench等通用方法的评测无法真正体现Agent的效果,评测集和对应的评判标准体现了Agent的调性2.评测单纯看分数是不够的,需要发现异常值,通过异常值发现模型的偏好人也是Agent的Tool、Context,需要打破角色分工。1.传统软件研发协作流程将开发者分成前端、后端、测试等各个角色,这种协作适用于稳定态的软件,而基于模型构建的Agent应用是混沌态,无法有效适用Feedback Loop:让 Agent 的行为可观测构建线上Agent执行数据的观测体系1工具2上下文3执

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(牛万鹏-构建 Coding Agent 的飞轮:Feedback Loop、Benchmark、Agent Engineers.pdf)为本站 (brown) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠