1、1英特尔中国公有云和互联网创新实践2Large Language Model(LLM)大语言模型Traditional Deep Learning 传统深度学习技术篇:英特尔 AI 产品组合英特尔 AI 实战视频课程英特尔中国 AI 实战资源库基于英特尔 架构的 AI 软件工具组合031015303637CONTENT目录Large Language Model(LLM)大语言模型34阿里云引入第五代至强 可扩展处理器,实现 ECS g8i 算力再升级,为大模型 AI 推理加速添新解,更易得、更易用、可扩展性强,满足从小模型到超大模型的各类需求。使用处理器内置的 AI 加速引擎-英特尔 AMX
2、 和英特尔 AVX-512,提升并行计算和浮点运算能力;受益于第五代至强 可扩展处理器显著提升的内存带宽和三级缓存共享容量,化解 AI 大模型吞吐性能挑战;利用第五代至强 可扩展处理器内置的英特尔 SGX 和英特尔 TDX 安全引擎,实现端到端的数据全流程保护。CPU 也能玩转 AI-为 AI 提速,给安全加码挑战解决方案云服务器升级解决方案企业云服务第五代英特尔 至强 可扩展处理器具备更强通用计算和 AI 加速能力阿里云 ECS g8i 集群可支撑 72B 参数级别的大语言模型分布式推理文生图创意辅助工具AI 生成代码虚拟助手1.2.3 数据来源于阿里云未公开的内部测试,如欲了解更多详情,请
3、联系阿里云:https:/英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。算力需求激增:视频、数据库等场景算力需求激增智能化应用普及:大模型推理需求爆炸式增长数据安全挑战:数据隐私及安全需求增强85%整机性能提升高达17倍AI 推理性能提升高达250%中小参数模型起建成本降低3为 AI 加速而生的处理器 以针对工作负载优化的性能实现业务增长和飞跃 以高效节能的计算助力降低成本与碳排放 值得信赖的优质解决方案和安全功能 21%整体性能提升42%推理性能提升2.7 倍三级缓存提升10 倍每瓦性能提升16%内存速度提升用友的测试数据如图 4 所示,相较于第四代英
4、特尔 至强 可扩展处理器,第五代英特尔 至强 可扩展处理器在 NLP(YonMaster Dialogue Bot)工作负载中实现了 1.2 倍的代际吞吐性能提升6。00.20.40.60.811.21.4英特尔 至强 铂金 8480+处理器英特尔 至强 铂金 8592+处理器以 8480+处理器的性能结果为基准用友 NLP(YonMaster Dialogue Bot)工作负载性能比较(越高越好)收益 提升 NLP 应用的性能,显著化解 NLP 中频繁的向量化操作所带来的吞吐性能挑战,从而助力上层的智友对话机器人、智能大搜等应用的高效运行。提升了服务器的单位性能密度,在同等性能的水平下,降低
5、了服务器规模的扩展需求,有助于降低 TCO。该应用实践为用友 YonBIP 用户的硬件选型提供参考,用户可以根据实际的性能需求,选择更适用的硬件配置。72B最大可支持参数规模eRDMA 集群batchsize32内存资源丰富eRDMA 集群化部署g8ig8ig8ig8ig8ig8i5千帆大模型平台利用百度智能云平台中丰富的英特尔 至强 可扩展处理器资源,加速 LLM 模型推理,满足 LLM 模型实际部署需求。基于至强 可扩展处理器不断提升的算力和内存带宽,有效支持 LLM 实现端到端加速;采用第四代/第五代至强 可扩展处理器内置的 AI 加速引擎 英特尔 AMX,最大限度地利用计算资源,显著增
6、加 AI 应用程序的每时钟指令数(IPC);利用大模型推理软件解决方案 xFasterTransformer(xFT),进一步加速 LLM 推理。让更加可及、经济的 AI 算力资源,在千行百业扬“千帆”挑战解决方案大模型推理优化解决方案AI 服务平台2.32倍相较于第三代至强 可扩展处理器,基于第五代至强 可扩展处理器的 Llama-2-7b 模型输出 Token 吞吐提升达175%相较于第三代至强 可扩展处理器,基于第五代至强 可扩展处理器的 Llama-2-7b 模型首 Token 时延降低达利用充足的 CPU 资源,降低 LLM 推理服务 TCO百度智能云千帆大模型平台可支持广泛的英特尔