1、符敬伟微众银行符敬伟微众银行 测试专家2013年-2015年 上海通联股份有限公司职位:测试工程师主要负责:信用卡金融、账务模块的测试2015年-至今 微众银行职位:测试专家主要负责:初期贷款系统金融和账务模块测试,后面负责相关模块的测试管理。期间对对应的模块做自动化平台建设、流量回放方案实施。现在负责AI AGENT设计和开发以及评测体系探索和实施。目录CONTENTS背景0102智能评测定义和目标现状和问题03解决思路和方案04效果与收益05借鉴与展望06PART 01评测背景、定义、目标以及现状和问题背景 随着AI技术的快速发展,各类智能应用Agent层出不穷,其中Text2SQL和Ch
2、atBI等专业领域AI解决方案已在金融、银行等高要求行业落地应用。这些场景对系统的准确率、执行效率、稳定性及安全性提出了极高的标准智能体评测定义和目标 量化智能体是否实现期目标 评测不只是最后的“守门员”衡量智能体的性能、追踪优化目标达成度智能体评测定义目标:以评测驱动智能体按指定方向“进化”进化版智能体初代智能体设计评测体系并确定方向执行评测分析反馈指引迭代进化智能体评测定义和目标-指标指标大类指标说明Text2SQLRAG准确性上下文相关性检索的内容是否与问题相关上下文召回率检索的内容是否无遗漏(KPI)上下文精度检索内容越与问题相关,排名越前,精度越高忠实度生成的内容是否忠实使用检索到的
3、内容(KPI)召回率正确可用数/预期应生成总数(KPI)(KPI)逻辑合理性评估生成的内容是否与问题中心思想相符,逻辑一致采纳率正确可用数/实际生成总数(KPI)(KPI)数据时效性评估检索内容是否实时有效可执行性输出内容可以执行,无语法错误性能效率耗时响应耗时(流式和非流式响应耗时)(KPI)(KPI支持并发可支持并发数输出稳定性多次问询答案正确性多次问询输出的答案都正确多次问询答案一致性多次问询输出的答案一致(KPI)(KPI)安全性(底线)内容合规内容符合法律、法规、企业规范(底线)(底线)信息安全权限控制、信息脱敏等(底线)(底线)符合伦理符合伦理、公平无偏见(底线)(底线)模型安全防
4、攻击性、防泄漏性(底线)(底线)选择合适的指标,准确衡量智能体追踪优化目标的达成度(非MECE)安全性:是智能体评测的首要准则,必须严守的底线指标。KPI指标:为核心指标,直接决定智能体优化方向和上线推广可行性。其他:非核心指标达标后可进一步完善智能体性能与用户体验现状和问题不同类型测评集构造方式不同智能体种类多样,标准各异不同标准评测各异应该覆盖哪些维度达成目标评测集本身质量和规模的评估如何定标准?如何执行?如何设计评测集?评测集规模大,人工验证效率低不同评测集,验证目标不一样如何快速出测评报告,给出优化建议PART 02整体思路和详细方案整体思路评测集评测执行行业评测确定下限智能生成专业领
5、域测评集,拓展上线自动化执行智能化校验人工加持增强测评集可靠性评测结果分析评测结果智能分析归类开发测试介入分析智能报告总结、指引竞品、基线对比优化优化执行断言、归因智能化评测集生成、自动化执行智能化校验、科学指标下智能化结果分析,三轮驱动,搭建智能化评测体系方案-智能生成评测集-通用范式依赖知识评测集生成智能体核心 项目知识 通用知识 案例类型:问题、追问、澄清 案例复杂度 问题描述和预期答案 M-A-2-Q(Mode to Answer to Question)基于问式模板到答案到问题复杂度、分类 问式模板生成预期答案生成问题描述方案-智能生成评测集-Text2SQL示例依赖知识生成智能体核
6、心PROMPT容易容易中等中等困难困难直述(单、双表)曲述(单、双表)模糊(双、多表)字段个数条件个数算子个数字段个数条件个数算子个数字段个数条件个数算子个数1-2个0-2个0-2个3-4个3-4个3-4个4个4个4个 Text2SQL案例复杂度维度举例 评测案例复杂度和分类的构建 配置该项目的问式模板 表结构、枚举等确定复杂度和案例分类的计算因子1.SQL的要素表个数字段个数条件个数分组排序个数算子个数2.问题描述方式直述:清晰表维度字段、值和逻辑关系曲述:优先描述值,以值覆盖维度表述模糊:用通用用语、专业术语模糊化组合因子确定案例分类:1.正常问题:未模糊化的2.澄清问题:模糊化后的3.追