当前位置:首页 > 报告详情

英特尔:最“in”大模型专栏(2023)(56页).pdf

上传人: 海** 编号:143294 2023-10-19 56页 55.36MB

下载:

1、112目录CONTENTS1采用 Habana Gaudi 2,加速大语言模型 BLOOMZ 推理如何在英特尔 平台上实现高效的大语言模型训练后量化用基于英特尔 SGX 的可信执行环境有效应对大语言模型隐私和安全挑战只改一行代码,在第四代至强 可扩展平台上高效微调优化 ChatGLM-6B创建 OpenVINO Stateful 模型与 Runtime 流水线,赋能 ChatGLMBigDL-LLM:在英特尔 平台上加速大语言模型的便捷新利器GAUDI2 AI 夹层卡第四代英特尔 至强 可扩展处理器借助英特尔 高级矩阵扩展(英特尔 AMX)加速人工智能(AI)工作负载英特尔 至强 CPU Ma

2、x 系列英特尔 安全引擎助力创新加速,增强数据保护27111623303436414750本文作者是 Hugging Face 的机器学习工程师 Rgis Pierrard,并于 2023 年 3 月 28 日发布于 Hugging Face Blogi。感谢 Rgis Pierrard 授权我们翻译和转发本文。本文介绍了如何在 Habana Gaudi2ii 上轻松部署参数量多达数十亿的语言模型,披露了 Hugging Face 针对 BLOOMZ 在 Gaudi2 上的性能评估结果。随着大语言模型(Large Language Model,LLM)的规模越来越大,在生产环境部署和使用这些模

3、型来进行推理也变得越来越具挑战性。为应对这些挑战,无论硬件还是软件,都经历了多次创新。下面,我们将一同探索如何有效克服这些挑战。B BL LO OO OMMZ Z 简介 BLOOMiii 是一个拥有 1760 亿参数的自回归模型,训练后可用于生成文本序列。它可以处理 46 种语言和 13 种编程语言。作为 BigScienceiv 计划中的一个开放科学项目,BLOOM 的设计和训练吸引了世界各地众多研究人员和工程师的共同参与。BLOOMZv 是最近发布的、与 BLOOM 架构完全相同的模型,它是 BLOOM 基于多个任务的调优版本,具有更出色的泛化和零样本vi 能力。无论是训练vii 还是推理

4、viii 场景,这类大模型都对内存和速度提出了新挑战。即便使用 16 位精度,一个实例所需的内存仍高达 352 GB!目前具有如此大内存的设备可能很难找到,但像 Habana Gaudi2 这样的先进硬件却足以让 BLOOM 和 BLOOMZ 模型以更低的时延执行推理。H Ha ab ba an na a G Ga au ud di i 2 2 Gaudi2 是 Habana Labs 设计的第二代 AI 硬件加速器。单个服务器包含 8 张加速卡(称为 Habana 处理单元,即 Habana Processing Unit,简称为 HPU),每张卡内存高达 96 GB,可提供足够的空间来容纳

5、大模型。然而,如果计算速度很慢,那么为大模型提供大内存的意义也不大。所幸,Gaudi2 的计算速度也非常出色。Gaudi2 与 GPU 的主要区别在于它的架构能让加速器并行执行通用矩阵乘法(GeMM)和其他运算,从而加快深度学习工作流。这些特性使 Gaudi2 成为 LLM 训练和推理的理想选择。Habana 的 SDK SynapseAI 支持使用 PyTorch 和 DeepSpeed 来加速 LLM 训练和推理。SynapseAI 图形编译器ix可优化图形中所累积的操作的执行(如算子融合、数据布局管理、并行化、流水线、内存管理、图优化等)。此外,SynapseAI 最近引入了对 HPU

6、Graphx 和 DeepSpeed-inferencexi 的支持,这两者都非常适合时延敏感型应用(参见下文基准测试)。以上所有功能均已集成至 Optimum Habanaxii 库,因此在 Gaudi 上部署模型非常简单。访问此链接https:/huggingface.co/docs/optimum/habana/quickstart,查看快速入门页面。如欲试用 Gaudi2,请登录英特尔 Developer Cloudxiii 并按照本指南xiv 操作。2众多内置加速器,让性能更进一步 在企业和机构寻求扩大规模、降低成本和提供新服务的过程中,通过技术来实现商业价值的重要性日益凸显。面对新

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了英特尔® 至强® 可扩展处理器如何通过内置的多种加速器来提升大语言模型(LLM)的推理和训练性能。主要内容包括: 1. 英特尔® 至强® 可扩展处理器内置了多种加速器,包括英特尔® 高级矩阵扩展(英特尔® AMX)、英特尔® 高级矢量扩展 512(英特尔® AVX-512)、英特尔® 数据流加速器(英特尔® DSA)、英特尔® 密码操作硬件加速(英特尔® QAT)等,这些加速器可显著提升 LLM 的推理和训练性能。 2. 英特尔® AMX 加速器可优化深度学习推理和训练工作负载,与运行英特尔® 高级矢量扩展 512 神经网络指令(英特尔® AVX-512 VNNI)的第三代英特尔® 至强® 可扩展处理器相比,运行英特尔® AMX 的第四代英特尔® 至强® 可扩展处理器将单位计算周期内执行 INT8 运算的次数从 256 次提高至 2048 次。 3. 英特尔® 至强® CPU Max 系列采用高带宽内存 (HBM),为英特尔® 至强® 可扩展处理器家族注入新力量,它专为建模、人工智能、深度学习、科学计算和数据分析等数据密集型工作负载设计,专注解锁性能,加速新发现。 4. 英特尔® SGX 是英特尔的独有技术,能够帮助保护使用中的数据。使用英特尔® 至强® 可扩展处理器的企业不必从数据分析和 AI 模型中剔除敏感数据,而是可通过英特尔® SGX 创建访问受限的数据安全飞地。 5. 英特尔® 至强® 可扩展处理器支持联邦学习等可信的多方计算模型,使共享机密数据成为可能。使用内置英特尔® SGX 安全飞地的英特尔® 至强® 可扩展处理器,多个参与方就能够汇集敏感数据,共享共同分析带来的益处,而无需将各自的私有数据暴露给彼此。
第四代英特尔® 至强® 可扩展处理器有哪些优势? 如何使用英特尔® AMX 加速人工智能工作负载? 英特尔® SGX 如何保护数据机密性和代码完整性?
客服
商务合作
小程序
服务号
折叠