王哲-前端测试新范式从用例生成与自愈到端到端智能化.pdf-三个皮匠报告

1、前端测试新范式从用例生成与自愈到端到端智能化王哲|百度王哲百度资深工程师2017年毕业加入百度，先后负责百度基础架构、AI 产品等多个核心业务的质量保障工作、并负责百度技术中台群组测试环境治理等工作、目前主要负责 AI 驱动的智能化测试解决方案的设计与实施落地。在测试智能化、自动化测试、测试工具建设以及云原生等方面有着深刻的见解和丰富的实践经验。目录CONTENTSI.AI时代的前端测试挑战II.用例生成与自愈III.人机协同的端到端测试IV.应用与落地V.总结与未来展望AI时代的前端测试挑战PART 01一个新时代的黎明：AI 正在重塑软件开发“软件工程的每一个角落，都在被 AI 的浪潮所

2、触及。”以 Cursor,Comate Zulu 为代表的 AI IDE 已经可以理解整个代码库，并直接基于自然语言的需求实现复杂代码的开发，从编码辅助进化到功能共创。AI 正在设计领域也大放异彩。Galileo AI则能根据文本在Figma中生成专业设计稿，Vercel v0甚至能将文字或草图直接转换成生产级前端代码。AIOps 平台如 Datadog等正从被动救火转向主动预防。它们能自动诊断根因、预测故障，甚至生成修复代码。同时，AI 也在赋能测试，自动生成单测用例等。关键变量：Computer/Browser Use 能力的范式演进2024年10月 Claude 3.5 Sonnet 发

3、布 Computer Use 能力大模型首次内部原生理解图片像素，可以通过基于截图，自动分析浏览器元素坐标位置并输出操作元素动作和坐标，简化浏览器控制难度。2025年10月 Gemini 2.5 Pro 推出 Computer Use Model至此为止，Claude,OpenAI,Gemini 3 家世界最领先的模型都针对 Computer Use 场景进行了专项支持。2024年下半年开始，基于大模型操作浏览器的探索开始了从 2024 开始，模型不仅仅满足于问答等场景，更多的面向 Agent 场景(工具调用等)场景发展，下半年开始，人们已经逐步开始通过截图、DOM 表示等方式尝试让模型理解并

4、操作浏览器了。2025年1月 OpenAI Operator 发布OpenAI 正式发布支持操作浏览器来执行任务的 Agent 模式，面向美国 Pro 用户提供服务。2025年7月 ChatGPT Agent 上线OpenAI ChatGPT Agent 结合了 Operator 的浏览器操作能力和深度研究模式，在自动操作上网的基础上可以产出详细的分析和报告。2025年3月微软发布 PlayWright MCP 服务微软发布的 PlayWright MCP 将浏览器页面表示为一个简洁且有语义的 DOM 结构树，并为元素增加唯一标识，从而支持纯文本模型可以理解网页状态并实现浏览器控制。国内模型厂

5、商不甘落后，百花齐放在模型原生理解电脑、浏览器的控制领域上，国内的模型厂商也纷纷发力，包括字节的 UI-TARS 模型、阿里的 Qwen VL 系列模型等纷纷发布相关支持的专用&通用模型。理想丰满，现实骨感：前端测试的复杂性模型每操作一步浏览器都需要进行一次推理，操作执行效率低，难以满足快速迭代中的快速验证&高效反馈的诉求。效率要求测试是一个精细的过程，容错率相对较低，对于准确性的要求较高，而目前模型的浏览器操作成功率相对有限。准确率要求测试的过程不仅关注最终的执行目标是否达成，更重要的是发现过程中的异常状态。过程状态检测测试过程中，需要理解什么是Bug，从而才能做到有效的识别Bug。理解&发

6、现问题和操作网页浏览 Google、百度、淘宝不同，业务系统的操作不像主流网站一样标准，需要对业务的更多理解才能进行有效执行。业务背景理解能力与落地的鸿沟：AI Agent 的“最后一公里”AI Agent真正解决真正解决业务问题的业务问题的测试助手测试助手模型能力模型能力业务场景业务场景专家经验专家经验强大的AI基础能力多模态理解、规划、推理、生成等具体的业务测试场景真实的业务需求领域专家的知识和经验将业务场景痛点与模型能力有机结合用例生成与自愈PART 02切入点选择：为何是用例生成与自愈？大模型的领域优势业务依赖低成本痛点突出代码领域是模型证明其生产价值最多的领域之一自动化用例生成相关场

王哲-前端测试新范式从用例生成与自愈到端到端智能化.pdf

相关报告