当前位置:首页 > 报告详情

申敏-蚂蚁代码大模型的评测实践.pdf

上传人: 2*** 编号:153898 2024-02-05 27页 3.46MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了蚂蚁集团在代码大模型评测方面的实践与探索。蚂蚁集团测试开发专家申敏分享了关于大模型在代码领域的评测技术,强调了代码大模型在软件开发生命周期中的关键阶段的应用价值。蚂蚁自研的CodeFuse大模型具备代码补全、注释生成等功能,旨在简化研发过程。文章提出了适用于企业级项目的代码大模型评测范式,从基础能力、认知能力等多个维度对模型进行评估,以发现其长处和短处,并协助模型改进。同时,文章还介绍了评测基准的演进,包括人工构造、众测标注、模型扩增等多种数据来源,以及CodeFuseEval等多任务评估基准。最后,文章展望了代码大模型评估的未来发展方向,包括评测任务的多样化、多维评估等。
"蚂蚁集团如何评估CodeFuse代码大模型?" "CodeFuse在软件开发生命周期中扮演什么角色?" "如何确保代码大模型的安全性和可靠性?"
客服
商务合作
小程序
服务号
折叠