当前位置:首页 > 报告详情

李赫-蚂蚁数科Agent质量保障体系建设和探索.pdf

上传人: p****n 编号:614094 2025-02-19 34页 5.44MB

1、蚂蚁数科AI Agent质量保障体系建设探索AI质量团队|蚂蚁数字科技演讲嘉宾李赫蚂蚁数字科技线测试开发专家10余年软件开发及测试经验,在测试工具开发、质量效能平台建设等方向有丰富的落地建设经验,先后就职于网易,淘宝,腾讯音乐,现任蚂蚁数科AI业务质量&质量效能平台负责人。目 录CONTENTS1.Agent质量保障的重要性和挑战2.Agent质量保障整体策略3.Agent质量保障体系建设实践4.Agent一站式质量平台建设实践5.总结&展望蚂蚁数科Agent重要性和挑战PART 01什么是AgentLilian Weng关于Agent的定义Agent=LLM+Planning+Feedbac

2、k+Tool use蚂蚁数科Agent的应用场景智能助手售后运维数字人一体机Agent质量保障重要性和挑战性能+幻觉问题安全问题错答问题Agent质量保障重要性和挑战 缺乏业内成熟理论支撑 缺乏统一的评估标准 缺乏丰富的场景化测试样本 商业化产品快速交付 场景化的领域知识构建业内挑战蚂蚁数科挑战 标准化接入和集成Agent质量保障的整体策略PART 02传统质量保障 vs AI质量保障面向AI质量保障转型 算法工程能力 数据分析能力 大模型应用能力 模型训练和部署能力 大模型安全知识 业务领域专业能力Agent质量保障整体流程Agent质量保障整体方案构建面向商业化Agent的质量保障体系与全

3、面评测能力Agent质量保障体系建设实践PART 03Agent效果评测流程 全流程自动化 评测数据集生产 RAG评测 快速交付 Self_QA:10s/文档 Rewrite:20s/问题 Ragas打分:20s/样本Agent评测数据生成自动化的挑战在RAG评测中人工准备数据集不仅效率低下、耗时费力,而且难以满足高精度与全面性要求。因此,开发自动化评测数据集生成策略变得至关重要迫切。所以Self-QA和Rewrite两大关键自动化方法来应对这一难题。评测数据构造方式:Rewrite 关键句段提取 关键句段同义重写 模糊化改写 rouge_l相似度过滤 原始问题改写评测数据构造方式:Rewri

4、te(问题改写)普通prompt问题改写的结果原始问题:多IP如何配置Rewrite pipeline问题改写的结果相普通prompt版本,Rewrite pipeline法改写问题的相似分数更低,句式也进了改变,但仍然是相同含义的问题。VS评测数据构造方式:Self-QA(自动生成问答对)初版问答对生成 口语化改写 三段式生成 rouge_l相似度过滤 Self-QA生成评测数据构造方式:Self-QA(自动生成问答对)普通prompt生成的QA对Self-QA生成的QA对VS普通prompt生成方案针对概念性的提问,导致文字性的内容较多Self-QA生成的侧重于某个技术难点询问其操作步骤,

5、更加聚焦,也更加的口语化大模型评测&Agent评测差异Agent效果评测方案Ragas指标体系 Ragas评测指标指标描述范围准确性衡量答案与上下文事实一致性,值越高越好。(0,1)答案相关性评估答案与提示的相关性,分数高表示更好。(0,1)上下文recall衡量上下文与真实答案的一致程度,数值越高表示性能越好。(0,1)上下文精确度评估上下文中相关项的排名,理想为前几名,分值越高越准确。(0,1)上下文相关性根据问题和上下文评估检索到的相关性,数值越高表示相关性越好。(0,1)上下文实体recall衡量检索到的上下文对真实答案实体的召回率。(0,1)Agent效果评测方案QuestionAn

6、swerGround_truthPrecisionRecallAnswercorrectnessf1_scoresimilarity_score结果有本书的作者是海子,书名好像是关于太阳的,书名是什么,出版社是哪个,出版年份是哪一年?书名:你来人间一趟,你要看看太阳 出版社:湖南文艺出版社 出版年份:2019-3本书的书名是你来人间一趟,你要看看太阳,出版社是湖南文艺出版社,出版年份是2019年10.60.890.880.94正确有本书讲述了一个绝症患者如何面对绝望并发起全面进攻的故事,书名是什么,作者是谁,哪个出

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了蚂蚁数科AI Agent的质量保障体系建设。首先,介绍了Agent的定义和应用场景,以及面临的挑战,如缺乏成熟理论支撑、统一评估标准和丰富场景化测试样本等。其次,阐述了传统质量保障与AI质量保障的差异,提出了面向AI质量保障的转型所需具备的能力。然后,详细介绍了Agent效果评测流程、评测数据构造方式以及Ragas评测指标体系。此外,还讨论了Agent性能评测方案和一站式质量平台建设实践。最后,展望了未来场景化评测方法的探索、Agent一站式评测平台建设和场景化评测数据的生成等方向。
如何打造高效评测体系?" 挑战与未来展望有哪些?" 如何提升Agent质量与效能?"
客服
商务合作
小程序
服务号
折叠