1、LPU专题报告一:架构创新突破大模型推理延迟瓶颈,广阔市场空间有望快速放量投资评级:看好(维持)相关报告核心观点LPU为新一代面向大模型推理阶段的芯片,核心为TSP架构:LPU是专为顺序处理的计算密集型任务设计的新型芯片架构,核心在于TSP架构,包含五大功能模块,将经典的处理器五级流水线拆散在整个芯片内,进而消除了硬件的复杂性,使指令执行顺序和时间具有确定性。在TSP架构下,编译器可以直接访问并精确控制芯片的底层硬件状态,实现了软件定义硬件。LPU可缩短大模型推理过程中的延迟,提高用户体验感:大模型在推理过程中会存在延迟,延迟与用户体验感精密挂钩,大模型推理过程中的延迟主要在Decode阶段,
2、核心瓶颈在于内存带宽。LPU具备更快的内存带宽,可缩短大模型推理过程中的延迟。同时,基于LPU的大模型不仅具有更快的推理速度,还可以提供更具性价比的价格,可进一步提高用户体验感。LPU具备广阔的潜在发展空间,已步入量产初期:目前Tokens的消耗量大幅增长,2024年初我国日均Token的消耗量为1000亿,2026年2月主流大模型合计日均Token消耗已到180万亿级别,Tokens消耗量快速增长,带动推理芯片市场规模的高增长。LPU可降低大模型推理的延迟,我们认为LPU有望在推理芯片市场中逐步渗透,具有高成长性的市场空间。目前LPU已步入量产初期,放量在即。1LPU面向大模型推理阶段,TS
3、P架构为核心1.1LPU是一款用于大模型推理阶段的定制芯片LPU是一款专用于大模型推理阶段的定制芯片。LPU(LanguageProcessingUnit,语言处理单元)是专为顺序处理的计算密集型任务设计新型芯片架构,其核心目标是通过架构创新优化语言模型的推理效率。LPU由Groq公司推出,Groq成立于2016年,LPU旨在用于大模型推理阶段,LPU是唯一一款为开发者提供所需性能且成本不影响开发者的定制推理芯片。(divcenter)图1:TPU是一款用于大模型推理阶段的定制芯片(/divcenter)LPU采用14nm制程工艺,集成SRAM,可提供80TB/s的片上内存带宽。LPU没有采用
4、尖端制程工艺,选择了14nm制程,集成了230MB容量的SRAM来替代DRAM,以保证内存带宽,其片上内存带宽高达80TB/s。在算力层面,Groq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。1.2LPU核心在于TSP架构,指令执行顺序和时间具有确定性LPU核心TSP架构,包含五大功能切片。整体芯片架构包含五大功能切片,MXM用于执行矩阵运算,SXM用于对矢量进行移位和旋转操作,MEM用于内存读/写运算,VXM用于向量上的算术运算,ICU为指令控制单元,负责获取和调度指令并在其他切片上执行。从整体来看,ICU排布于芯片下方,MXM、SXM、MEM功
5、能切片以VXM功能切片为中心呈双侧对称分布。相较于传统多核处理器,TSP将经典的处理器五级流水线拆散在整个芯片内。在传统的MuItiCore架构中,每个PE都是一个完整的多级流水线架构配置了独立的指令译码/派发器件和独立的Cache层次化结构;在TSP微架构上,对传统的多核处理器微架构进行了重组。经典的处理器五级流水线被拆散在了整个芯片内。指令垂直下发,数据水平流动。相较于传统多核处理器,Groq整个芯片构建了独立的ICU(InstructionControlUnits)用于取指和译码,整个芯片被水平地划分为多个功能切片。在每个时钟周期中,ICU会向下方对应的功能切片垂直地、同步地广播指令,这
6、种执行方式类似于SIMD,所有位于同一垂直列上的FU在同一时刻执行由顶部ICU发出的指令;数据从一个功能切片产生,变成一个“流”,水平地流向下游的功能切片进行运算,计算结果再继续以流的形式向下游传递,或者被写回MEM单元。TSP架构消除了硬件的复杂性,指令执行顺序和时间具有确定性。基于微架构的设计,在CPU和GPU上执行指令是不确定的,无法保证特定指令何时执行、完成需要多长时间以及何时提供结果。CPU中指令执行的顺序和时间不确定且难以推理,而GPU还有其他一些非确定性因素,包括缓存、共享和全局内存、动态资源分区等。非确定性带来的问题是,很难推理程序的性能,也很难保证最坏情况下的性能限制。相较于