欧阳灿-ieval大模型评测系统建设和应用-已ok.pdf-在线下载-三个皮匠报告

1、iEval:大模型评测系统建设和应用欧阳灿|腾讯欧阳灿腾讯高级工程师，iEval评测系统负责人腾讯工程效能11级，近十年来一直从事 DevOps/AIOps 研发效能、AI评测等工作，目前负责微信技术架构部 AI 业务评测、大模型评测，负责 iEval 体验评测平台开发，主导 iEval-LLM-Bench 评测框架建设。目录CONTENTSI.大模型评测面临的挑战II.iEval模型库III.iEval大模型评测系统IV.自助开启大模型评测V.业务项目评测实践大模型评测面临的挑战PART 01为什么需要做大模型评测大模型评测需求需求场景模型体验对比体验模型效果调试prompt解决业务问

2、题通用基准评测新模型发布后快速全面评测效果业务迭代评测模型训练完后快速评测业务效果痛点一痛点一模型太多，如何快速选择最佳模型？痛点二痛点二宣传效果与实际效果差异如何测量？痛点三痛点三业务训练迭代的模型效果如何？需要优化哪些能力？如何做好大模型评测大模型体验测试大模型评测系统模型接入模型体验评测平台评测数据接入评测指标评测执行问题一：如何快速接入模型？问题二：如何接入不同类型的数据进行评测？问题三：针对不同的评测任务，如何定义评估指标评测模型能力？问题四：业务人员如何开启大模型评测？2023年2月2023年6月2024年1月上线LLM体验中心搭建LLM评测框架开放业务自助评测2025年10月模型

3、库接入:700+评测集接入:500+LLM评测每周:1232 RunLLM评测累计:19万 Run自助评测累计:11.6万 Run(61%)LLM评测每周:1100 RunLLM评测累计:3万 Run自助评测累计:1.3万 Run(43%)模型库接入:200评测集接入:300+评测指标：22模型库接入:30iEval模型库PART 02iEval模型库模型库API大模型体验中心大模型评测Chat体验模型对比外部闭源模型开源部署模型内部闭源模型文生图体验文生文图文理解文生图文生文评测文生图评测图生文评测文生视频接入模型 700+模型名Router表Router规则目标ModelCaller可调用

4、模型举例1匹配规则1Model1Callergpt-5、gpt-4.1.2匹配规则2Model2Callerdeepseek-v3.3匹配规则3Model3Callerqwen3-32b.4.匹配规则举例：1.模型名以 gpt、deepseek 开头2.模型名包含于模型映射表中3.模型名符合正则匹配app1app2模型名Router表模型名Router表.app 举例：Azure、阿里云、火山引擎、SiliconCloud、内部部署.限频限额策略iEval-SDK模型库API v1版本模型库API v2版本（+app 分组、限频限额配置）iEval模型库模型库API大模型体验中心大模型评测Ch

5、at体验模型对比外部闭源模型开源部署模型内部闭源模型文生图体验文生文图文理解文生图文生文评测文生图评测图生文评测文生视频接入模型 700+app1app2模型名Router表模型名Router表.限频限额策略iEval-SDKRainbow 配置管理台def App1Model1Caller(model,params):#获取模型配置#格式化入参#请求模型#格式化出参 return response一级配置二级配置三级配置模型库API OpenAI 格式 Anthropic 格式模型库API v4版本（+统一协议）模型库API v3版本（+动态配置化）iEval模型库123模型选择模型库接入

6、700+模型发起会话打星/分享外部闭源模型外部闭源模型开源部署模型开源部署模型内部闭源模型内部闭源模型iEval模型库多模型对比测试，体验不同模型在解决具体业务问题的效果Qw*Hu*Do*iEval模型库模型库API调用示例代码选定最佳模型后，通过模型库API调用模型，应用到实际业务中搭建一套科学系统的评测体系人工对比体验测试不够全面、成本高，需要大规模自动化基准评测（参考国家通用大模型评测标准）如何接入不同类型的数据进行评测？针对不同的评测任务，如何定义评估指标评测模型能力？业务人员如何开启大模型评测？iEval大模型评测系统PART 03iEval大模型评测系统总体架构评测数据集接入公开