王旭东-AI模型评测新范式和关键技术.pdf

上传人： a****e

编号：772344

2025-08-10

PDF 38页 4.17MB

《王旭东-AI模型评测新范式和关键技术.pdf》由会员分享，可在线阅读，更多相关《王旭东-AI模型评测新范式和关键技术.pdf（38页珍藏版）》请在三个皮匠报告上搜索。

1、AI 模型评测新范式和关键技术王旭东|蚂蚁集团高级技术专家王旭东蚂蚁集团高级技术专家清华大学硕士，2019年加入支付宝，目前担任高级技术专家，技术风险部 AI 质量工程团队负责人。团队负责定义 AI 质量标准，管理 AI 特有风险，通过专业方法与平台工程，构建从数据到模型和 AI 应用的全生命周期保障，确保 AI 系统可靠、安全、高效地交付业务价值。目录CONTENTSI.AI 模型评测新范式概述II.AI 模型评测关键技术III.总结与展望AI 模型评测新范式概述PART 01背景2022 年 11 月底，ChatGPT 发布相信：大模型会成为新的技术潮流预判：以大模型为基础的 AI

2、研发，一定也需要强大的评测能力作为支撑1.验证模型能力2.确定模型优化方向行动：1.深入调研大模型评测技术（从 HELM 这篇文章出发）2.立项，通用的 AI 模型评测能力54532492FACEBOOKTWITTERAPP STORETIKTOKCHATGPT达成 1 亿月活耗时（月）Percy Liang et al.,2022,Holistic Evaluation of Language ModelsAI 模型评测的基本要素评测集大模型模型输出指标计算What(评测对象)：我们要评测什么？When(评测时机)：我们要什么时候介入评测？Where(评测集)：我们要在哪些维度上用什么数据评

3、测？How(评测方法)：我们要如何推理、定义并计算指标？AI 模型评测新范式范式转移的核心理念：从“确定性”到“概率性”维度传统软件质量AI 模型评测(新范式)系统行为确定性：输入 A，永远得到输出 B概率性：输入 A，可能得到 B、C 或 D，关心的是得到“好”答案的概率有多高对正确的定义二元的：功能有明确的对或错统计的：没有绝对的“正确”新范式的主要特征：1.评估目标的多维化：远超“功能正确”，复杂的评估维度2.评估方法的根本性变革：从“用例驱动”到“数据驱动”3.质量生命周期的延伸：从“事后”到“全程”（训练全生命周期）评测目标多维化传统质量主要关注功能、性能、安全、兼容性等。AI 模型

4、评测在此基础上，引入了全新的、更复杂的评估维度：1.性能/准确性：这是基础，在一系列复杂的评测基准上评价性能指标。2.安全性：模型是否可能被用于恶意目的？是否会生成有害、违法或有毒的内容？是否容易受到数据投毒等攻击？3.幻觉：对于大语言模型等生成式模型，它是否会“一本正经地胡说八道”，捏造事实？4.鲁棒性：模型在面对非理想输入时的表现。例如，输入有噪声、有拼写错误、甚至是经过精心设计的对抗性攻击时，模型的性能是否会急剧下降？5.公平性与偏见：模型是否对不同群体（如性别、种族、地域）表现出一致的性能？是否存在歧视性行为？这是传统质量很少触及的伦理维度。6.可解释性：我们能理解模型为什么做出某个特

5、定的决策吗？这对于金融、医疗等高风险领域至关重要。评测数据驱动传统质量的核心是测试用例，由质量工程师根据需求文档精心设计。而 AI 模型评测的核心是评估数据集。1.评测基准：包含大量高质量、有代表性的标注数据，作为衡量模型性能的“标尺”。2.人类参与的评估：对于创造性、主观性很强的任务（如文案生成、对话质量），机器指标是不够的，由人类来打分和判断。3.对抗性测试：不再是测试常规场景，而是主动寻找模型的“盲区”和弱点，通过生成对抗样本来攻击模型。评测贯穿模型开发全生命周期模型评测不是模型训练结束后的“期末考试”，而是贯穿整个开发周期的“随堂测验”、“模拟考”数据准备阶段：确保输入给模型的数据是高

6、质量、多样化、无偏见且安全的。数据质量评测、数据分布评测、数据安全评测，从源头上保证模型的质量。预训练阶段：监控训练进程，验证模型是否在正确学习，并选择最佳的模型版本。检查点（Checkpoint）评测、超参数调优评测，也叫做边训边评，评测结果可以帮助工程师判断当前训练策略是否有效。后训练阶段：让模型学会人类的偏好，变得更“有用、诚实、无害”。奖励模型的构建与评测、对齐效果评测，这个阶段，评测本身就是训练的核心驱动力。部署后：监控模型在真实世界中的表现，发现未知问题，并为下一代模型提供改进方向。AI 模型评测关键技术PART 02Benchmark 建设的核心难题Benchmark 的本质：任

王旭东-AI模型评测新范式和关键技术.pdf

相关报告