李赫-蚂蚁数科Agent质量保障体系建设和探索.pdf-三个皮匠报告

1、蚂蚁数科AI Agent质量保障体系建设探索AI质量团队|蚂蚁数字科技演讲嘉宾李赫蚂蚁数字科技线测试开发专家10余年软件开发及测试经验，在测试工具开发、质量效能平台建设等方向有丰富的落地建设经验，先后就职于网易，淘宝，腾讯音乐，现任蚂蚁数科AI业务质量&质量效能平台负责人。目录CONTENTS1.Agent质量保障的重要性和挑战2.Agent质量保障整体策略3.Agent质量保障体系建设实践4.Agent一站式质量平台建设实践5.总结&展望蚂蚁数科Agent重要性和挑战PART 01什么是AgentLilian Weng关于Agent的定义Agent=LLM+Planning+Feedbac

2、k+Tool use蚂蚁数科Agent的应用场景智能助手售后运维数字人一体机Agent质量保障重要性和挑战性能+幻觉问题安全问题错答问题Agent质量保障重要性和挑战缺乏业内成熟理论支撑缺乏统一的评估标准缺乏丰富的场景化测试样本商业化产品快速交付场景化的领域知识构建业内挑战蚂蚁数科挑战标准化接入和集成Agent质量保障的整体策略PART 02传统质量保障 vs AI质量保障面向AI质量保障转型算法工程能力数据分析能力大模型应用能力模型训练和部署能力大模型安全知识业务领域专业能力Agent质量保障整体流程Agent质量保障整体方案构建面向商业化Agent的质量保障体系与全

3、面评测能力Agent质量保障体系建设实践PART 03Agent效果评测流程全流程自动化评测数据集生产 RAG评测快速交付 Self_QA:10s/文档 Rewrite:20s/问题 Ragas打分：20s/样本Agent评测数据生成自动化的挑战在RAG评测中人工准备数据集不仅效率低下、耗时费力，而且难以满足高精度与全面性要求。因此，开发自动化评测数据集生成策略变得至关重要迫切。所以Self-QA和Rewrite两大关键自动化方法来应对这一难题。评测数据构造方式：Rewrite 关键句段提取关键句段同义重写模糊化改写 rouge_l相似度过滤原始问题改写评测数据构造方式：Rewri

4、te（问题改写）普通prompt问题改写的结果原始问题：多IP如何配置Rewrite pipeline问题改写的结果相普通prompt版本，Rewrite pipeline法改写问题的相似分数更低，句式也进了改变，但仍然是相同含义的问题。VS评测数据构造方式：Self-QA（自动生成问答对）初版问答对生成口语化改写三段式生成 rouge_l相似度过滤 Self-QA生成评测数据构造方式：Self-QA（自动生成问答对）普通prompt生成的QA对Self-QA生成的QA对VS普通prompt生成方案针对概念性的提问，导致文字性的内容较多Self-QA生成的侧重于某个技术难点询问其操作步骤，

5、更加聚焦，也更加的口语化大模型评测&Agent评测差异Agent效果评测方案Ragas指标体系 Ragas评测指标指标描述范围准确性衡量答案与上下文事实一致性，值越高越好。(0,1)答案相关性评估答案与提示的相关性，分数高表示更好。(0,1)上下文recall衡量上下文与真实答案的一致程度，数值越高表示性能越好。(0,1)上下文精确度评估上下文中相关项的排名，理想为前几名，分值越高越准确。(0,1)上下文相关性根据问题和上下文评估检索到的相关性，数值越高表示相关性越好。(0,1)上下文实体recall衡量检索到的上下文对真实答案实体的召回率。(0,1)Agent效果评测方案QuestionAn

6、swerGround_truthPrecisionRecallAnswercorrectnessf1_scoresimilarity_score结果有本书的作者是海子，书名好像是关于太阳的，书名是什么，出版社是哪个，出版年份是哪一年？书名:你来人间一趟，你要看看太阳出版社:湖南文艺出版社出版年份:2019-3本书的书名是你来人间一趟,你要看看太阳，出版社是湖南文艺出版社，出版年份是2019年10.60.890.880.94正确有本书讲述了一个绝症患者如何面对绝望并发起全面进攻的故事，书名是什么，作者是谁，哪个出

李赫-蚂蚁数科Agent质量保障体系建设和探索.pdf

相关报告