《崔宸-AI生成checklist——QUNAR测试域结合AIGC提效实践.pdf》由会员分享,可在线阅读,更多相关《崔宸-AI生成checklist——QUNAR测试域结合AIGC提效实践.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、AI ChecklistQUNAR测试域结合AIGC提效实践崔宸 去哪儿旅行演讲嘉宾崔宸去哪儿旅行 高级开发工程师2022年加入去哪儿旅行基础架构-基础平台团队,主要负责测试域工具的研发。参与过自动化测试、联调平台、写压测等项目,对录制回放场景有深入了解。熟悉AI大模型通识,23年开始主攻AI大模型应用方向,完成AI在测试域、需求域提效的应用落地。在去哪儿AIGC HACKATHON大赛获得冠军。目 录CONTENTS1.背景2.设计思路和方案3.效果评估方案4.成果及未来计划背景PART 01全流程结合AIGC提效需 求 域开 发 域测 试 域运 维 域通过AI生成代码流程图AI代码可视化A
2、I生成测试点列表AI生成ChecklistAI chat代码生成,代码CRAI IDE插件根因分析工单自动化AIOPSAI agent 智能体平台现有痛点1432PM/DEV/QA 三方沟通平均耗时30min-1h需求沟通效率低开发自测可能不充分机票自测自发比例 86%自测自发不写case平均耗时:5pd以下需求1-2h5pd以上需求3-5h写checklist耗时逻辑清晰,沟通效率高逻辑混乱,沟通效率低无评估标准,只能凭感觉需求文档质量参差不齐用大模型生成checklist的好处质量好:质量差:可以检查需求文档的质量提 升 自 测 自 发 需求 质 量from to提升QA写checklis
3、t的效率from to设计关键点准确度提升01覆盖度推广02效果度量方案03设计思路和方案PART 02业界参考样例门槛高、成本高、需要数据积累有迁移、整理成本基于自有大模型及微调的一键生成方式基于通用大模型多轮问答的方式Qunar探索的解决方案主要(便捷):基于通用大模型+聚焦于需求点+集成项目研发流程中的一键生成方式辅助(灵活):智能体多轮问答系统架构执行流程1.获取需求文档,对文本进行拆分2.结构化文档+prompt向大模型提问3.将AI返回的测试点进行转换,渲染为脑图4.归档AI生成与手动修改完的case,分析数据产品文档预处理原因分析:需求文档无固定模板,规范性较低需求文档中的无关内
4、容影响生成效果解决方案:需求文档预处理,提取需求正文拆分需求正文,获得结构化需求点文本解析模块符合标准格式:工程化解析需求正文及需求点列表生成准确率高问题:对产品角色要求变高QA角色获益推进受阻文本解析模块圈定需求正文:大模型解析需求点列表预处理成本低生成准确率高文本解析模块完全无格式:大模型解析需求正文大模型解析需求点列表生成准确率取决于文档内容密度句话需求需求分析模块keyMessage:需求点关键信息testPoints:测试点列表testDescription:测试点概述example:示例需求分析模块prompt设计能力1,提取需求点文本的关键信息2,给出测试点列表和示例规则1.关键
5、信息只保留一句精炼的概括信息2.每个测试点对应一个示例3.以JSON格式输出角色测试专家&语言分析专家样例通过history模拟Few shot的方式来提升回答的准确率需求分析模块LLM选择指标LLMGPT-4-turboGPT-3.5chatGLM3-6B采纳率(采纳case数/成case数)60%-70%50%-60%30%-40%召回率(采纳case数/终版case数)30%-40%25%-30%20%-30%成本0.0100$/1K tokens0.0015$/1K tokens0微调机器显卡有限缺少标准数据集内部大模型小参数的开源大模型外部大模型安全审核接口统一化AI基建情况项目流程
6、集成融入原本的通用case模板触发方式 项管理流程触发qschedule checklist平台内动触发 定时扫描第天进开发中的需求,触发动成checklist样例展示自测自发case前后对比使AI Checklist前使AI Checklist后效果评估方案PART 03效果评估模块采纳率原始生成结果中用户选取自动生成节点的概率采纳率:(T+0.5*P)/A0覆盖率按照项目维度统计用户使用情况项目覆盖率:使用的项目数/全部项目数召回率用户进行修改之后采用的自动生成节点与总结点数的比率召回率:(T+0.5*P)/A