申敏-蚂蚁代码大模型的评测实践.pdf-三个皮匠报告

申敏-蚂蚁代码大模型的评测实践.pdf

当前位置：首页 > 报告详情

申敏-蚂蚁代码大模型的评测实践.pdf

上传人： 2*** 编号：153898 2024-02-05 PDF PDF 27页 3.46MB

该报告所属合集： 2023AIDD AI+软件研发数字峰会·深圳站嘉宾PPT合集

打包下载报告合集

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载报告到电脑，查找使用更方便

VIP专享文档

书签

已收藏

版权投诉

/27

立即下载

word格式文档无特别注明外均可编辑修改，预览文件经过压缩，下载原文更清晰！

三个皮匠报告文库所有资源均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

《申敏-蚂蚁代码大模型的评测实践.pdf》由会员分享，可在线阅读，更多相关《申敏-蚂蚁代码大模型的评测实践.pdf（27页珍藏版）》请在三个皮匠报告上搜索。

1、蚂蚁代码大模型的评测实践申敏蚂蚁集团演讲嘉宾申敏蚂蚁集团-测试开发专家蚂蚁集团测试开发专家，研究方向：大模型在代码领域的评测技术。长期投入蚂蚁支付、账务、计收费等业务领域质量保障工作，熟悉企业级编码风格及要求，当前，负责蚂蚁百灵大模型CodeFuse系列的代码能力评测。目录CONTENTS1.前言2.代码大模型的评测内容3.代码大模型的评测方法4.代码大模型的评估基准5.代码大模型多任务评估6.展望前言PART 01前言：模型发展与模型评估2023年大模型呈爆发式增长，截至2023年7月，中国累计有130个大模型问世，国外大模型138个，其中，美国大模型114个。赛迪顾问IT2023模型

2、发布必然离不开模型评估；AIGC编程是模型落地最为广泛的场景之一，充分衡量方能更好的运用or选用。前言：CodeFuse 让研发变的更简单CodeFuse 是一款为国内开发者提供智能研发服务的产品，该产品是基于蚂蚁集团自研的基础大模型进行微调的代码大模型。CodeFuse 具备代码补全、添加注释、解释代码、生成单测，以及代码优化等功能，以帮助开发者更快、更轻松地编写代码。官网:https:/ 模型：旨在支持整个软件开发生命周期的大型代码语言模型（Code LLMs），涵盖设计、需求、编码、测试、部署、运维等关键阶段。https:/arxiv.org/abs/2311.02303https:/a

3、rxiv.org/abs/2310.06266 CodeFuse系列论文：业界开源评测集上的roadmap前言：大模型时代如何评估代码大模型通用代码（垂类）跨项目编码等任务多样可信：多样：多维：代码能力、基础能力、安全能力等多维度多编码语言、编码规范、样本纯净、标准开放、客观中立伴随蚂蚁代码大模型的投产，我们发现代码领域打榜与实际投产存在一定的差异，基于此，我们探索并构建了适合企业项目的代码大模型的评测范式。代码大模型的评估内容PART 02代码大模型的评估内容基础能力编码领域无害确定安全生成理解使用认知能力发现衡量评估应用与改进通过评估内容客观衡量代码大模型的各项能力，发现其长处和短处，反

4、馈并协助模型做针对性的改进。代码大模型的评估内容生成类理解类功能正确语义语句产品体验内容安全内容类别代码大模型的评估方法PART 03代码大模型的评估方法客观评测主观评测基于评测基准对生成内容进行各维度量化评估组织多位专业人员通过人模交互观察模型表现并根据基础标准、专家知识和经验综合评估按照是否由人来评估模型性能，评测方法分为主观和客观代码大模型的评估方法按照prompts设置方法评测又可分为：零样本（zero-shot）、小样本（few-shot）、零样本思维链（zero-shot-cot）、小样本思维链（few-shot-cot）代码生成能力目前大部分采用的策略是：零样本（zero-sh

5、ot）代码大模型评估基准PART 04评估基准有效未被污染的多样多维：多语言，多任务，多维衡量采纳原则：模型评估基准是优化模型，了解差距，衡量不同架构模型的同类场景性能的最有效的工具。2018Concode(B LEU）CodeT5/Redcoder-ext（2+）单语言-JavaCoNaLA(BLEU)单语言-pythonTranX/Reranker/PanGu-Coder-FT-I（10+）2021APPS (passany)HumanEval(passk)MBPP (passk)单语言-PythonCodex-12B/CODE-T/GPT-4等（50+）20222023 Multi-H

6、umanEval(passk)HumanEval-X (passk)CodeContests(Test Set)10+语言Python/Java/Go/Ruby DS1000(TestCases-Score)CoderEval(passk,acck)ClassEval (passk,)CCEval (ES/EM?FQ,)CodeFuseEval (passk,ES,BLUE.)单语言静态指标单轮多语言动态指标单轮多语言动静指标单轮评估基准的演进人工构造众测标注模型

报告速读

本文主要探讨了蚂蚁集团在代码大模型评测方面的实践与探索。蚂蚁集团测试开发专家申敏分享了关于大模型在代码领域的评测技术，强调了代码大模型在软件开发生命周期中的关键阶段的应用价值。蚂蚁自研的CodeFuse大模型具备代码补全、注释生成等功能，旨在简化研发过程。文章提出了适用于企业级项目的代码大模型评测范式，从基础能力、认知能力等多个维度对模型进行评估，以发现其长处和短处，并协助模型改进。同时，文章还介绍了评测基准的演进，包括人工构造、众测标注、模型扩增等多种数据来源，以及CodeFuseEval等多任务评估基准。最后，文章展望了代码大模型评估的未来发展方向，包括评测任务的多样化、多维评估等。

"蚂蚁集团如何评估CodeFuse代码大模型？" "CodeFuse在软件开发生命周期中扮演什么角色？" "如何确保代码大模型的安全性和可靠性？"

申敏-蚂蚁代码大模型的评测实践.pdf

相关报告