英特尔：最“in”大模型专栏（2023）-三个皮匠报告

1、112目录CONTENTS1采用 Habana Gaudi 2，加速大语言模型 BLOOMZ 推理如何在英特尔平台上实现高效的大语言模型训练后量化用基于英特尔 SGX 的可信执行环境有效应对大语言模型隐私和安全挑战只改一行代码，在第四代至强可扩展平台上高效微调优化 ChatGLM-6B创建 OpenVINO Stateful 模型与 Runtime 流水线，赋能 ChatGLMBigDL-LLM：在英特尔平台上加速大语言模型的便捷新利器GAUDI2 AI 夹层卡第四代英特尔至强可扩展处理器借助英特尔高级矩阵扩展(英特尔 AMX)加速人工智能(AI)工作负载英特尔至强 CPU Ma

2、x 系列英特尔安全引擎助力创新加速，增强数据保护27111623303436414750本文作者是 Hugging Face 的机器学习工程师 Rgis Pierrard，并于 2023 年 3 月 28 日发布于 Hugging Face Blogi。感谢 Rgis Pierrard 授权我们翻译和转发本文。本文介绍了如何在 Habana Gaudi2ii 上轻松部署参数量多达数十亿的语言模型，披露了 Hugging Face 针对 BLOOMZ 在 Gaudi2 上的性能评估结果。随着大语言模型(Large Language Model,LLM)的规模越来越大，在生产环境部署和使用这些模

3、型来进行推理也变得越来越具挑战性。为应对这些挑战，无论硬件还是软件，都经历了多次创新。下面，我们将一同探索如何有效克服这些挑战。B BL LO OO OMMZ Z 简介 BLOOMiii 是一个拥有 1760 亿参数的自回归模型，训练后可用于生成文本序列。它可以处理 46 种语言和 13 种编程语言。作为 BigScienceiv 计划中的一个开放科学项目，BLOOM 的设计和训练吸引了世界各地众多研究人员和工程师的共同参与。BLOOMZv 是最近发布的、与 BLOOM 架构完全相同的模型，它是 BLOOM 基于多个任务的调优版本，具有更出色的泛化和零样本vi 能力。无论是训练vii 还是推理

4、viii 场景，这类大模型都对内存和速度提出了新挑战。即便使用 16 位精度，一个实例所需的内存仍高达 352 GB！目前具有如此大内存的设备可能很难找到，但像 Habana Gaudi2 这样的先进硬件却足以让 BLOOM 和 BLOOMZ 模型以更低的时延执行推理。H Ha ab ba an na a G Ga au ud di i 2 2 Gaudi2 是 Habana Labs 设计的第二代 AI 硬件加速器。单个服务器包含 8 张加速卡（称为 Habana 处理单元，即 Habana Processing Unit，简称为 HPU），每张卡内存高达 96 GB，可提供足够的空间来容纳

5、大模型。然而，如果计算速度很慢，那么为大模型提供大内存的意义也不大。所幸，Gaudi2 的计算速度也非常出色。Gaudi2 与 GPU 的主要区别在于它的架构能让加速器并行执行通用矩阵乘法(GeMM)和其他运算，从而加快深度学习工作流。这些特性使 Gaudi2 成为 LLM 训练和推理的理想选择。Habana 的 SDK SynapseAI 支持使用 PyTorch 和 DeepSpeed 来加速 LLM 训练和推理。SynapseAI 图形编译器ix可优化图形中所累积的操作的执行（如算子融合、数据布局管理、并行化、流水线、内存管理、图优化等）。此外，SynapseAI 最近引入了对 HPU

6、Graphx 和 DeepSpeed-inferencexi 的支持，这两者都非常适合时延敏感型应用（参见下文基准测试）。以上所有功能均已集成至 Optimum Habanaxii 库，因此在 Gaudi 上部署模型非常简单。访问此链接https:/huggingface.co/docs/optimum/habana/quickstart，查看快速入门页面。如欲试用 Gaudi2，请登录英特尔 Developer Cloudxiii 并按照本指南xiv 操作。2众多内置加速器，让性能更进一步在企业和机构寻求扩大规模、降低成本和提供新服务的过程中，通过技术来实现商业价值的重要性日益凸显。面对新

英特尔：最“in”大模型专栏（2023）（56页）.pdf

相关报告