当前位置:首页 > 报告详情

开源视角下看大规模语言模型研发中的数据工程、自动化评估及与知识图谱的结合.pdf

上传人: 张** 编号:155395 2024-02-15 53页 13.22MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要内容概括如下: 1. 大模型研发中的数据工程:介绍了以数据为中心的AI概念,即通过改进数据集质量提升模型效果。讨论了大模型研发中需要解决的关键问题,包括需要什么数据、数据从哪里来、如何处理数据、如何评估数据以及如何管理数据。 2. 大模型预训练数据来源:详细介绍了英文主流大模型预训练数据的构成,包括CommonCrawl、网页、书籍、维基百科、论文期刊、WebText、The Pile及代码论坛等。 3. 中文主流大模型预训练数据构成:分析了华为盘古大模型、WeLM大模型、阿里M6等中文主流大模型的预训练数据构成。 4. 大模型研发中的自动化评估:探讨了如何进行模型性能的自动化评分,包括基于人工评估、基于业务评估、基于下游评测任务、基于ChatGPT打分以及基于众包投票进行评估。 5. 大模型与知识图谱的结合:介绍了知识图谱的概念、起源和与大语言模型的区别。讨论了大模型在知识图谱构建、知识抽取、推理与知识问答中的应用,以及知识图谱在大模型研发中的应用阶段。 6. 总结:强调了大模型研发和落地核心是数据+场景+训练方法,数据工程是大模型研发的重中之重,知识图谱在当前场景下需要找准自身的位置,融合共生。
大模型数据工程如何解决关键问题? 自动化评估在大模型研发中如何应用? 大模型与知识图谱如何实现有效结合?
客服
商务合作
小程序
服务号
折叠