半导体行业专题研究：AI存储革命已至“以存代算”开启存储新纪元-250926-三个皮匠报告

1、AI存储革命已至，“以存代算”开启存储新纪元“以存代算”发展背景：AI推理成价值核心，HBM瓶颈凸显产业痛点，“以存代算”应运而生。当前，AI推理已成为衡量大模型商业化价值的关键标尺，但在实际应用中仍面临“推不动、推得慢、推得贵”的严峻挑战。为突破算力瓶颈与“存储墙”制约，“以存代算”作为一种颠覆性技术范式应运而生。该技术通过将AI推理过程中的矢量数据（如KVCache）从昂贵的DRAM和mathsfHBM显存迁移至大容量、高性价比的SSD介质，实现存储层从内存向SSD的战略扩展，而非简单替代。其核心价值在于显著降低首Token时延、提升推理吞吐量，并大幅优化端到端的推理成本，为AI大规模落地

2、提供可行路径。“以存代算”核心技术：“以存代算”CachedAttention技术是一种通过将AI推理中历史对话的KVCache缓存到HBM+DRAM+SSD等外部存储介质。在该系统中，HBM作为GPU本地高速存储，负责存储当前活跃会话的KVCache，支撑LLM推理计算；DRAM作为中间缓存层，承接HBM的异步写入与SSD的预加载，平衡速度与容量；SSD则作为长期存储层，提供大容量持久化存储，承载非活跃历史数据。“以存代算”CachedAttention将首Token时延（TTFT）显著缩短了87%，并提升了Prefill阶段7.8倍的吞吐量，从而将端到端推理成本降低了70%。“以存代算”硬

3、件突破：在“以存代算”技术范式下，SSD不再是单纯的数据存储载体，而是深度参与AI推理的核心组件，其需承接从HBM、DRAM卸载的KVCache，因此被赋予大容量、高吞吐、低延迟的新要求，以缓解对高成本HBM的依赖。同时，SSD主控芯片作为“控制大脑”，需通过先进算法优化数据寻址调度，支撑AI推理中数据高效流转。在此背景下，AISSD技术将沿三大方向发展：颗粒上，向QLC颗粒演进，凭借技术升级实现高性能与大容量兼顾，满足AI大模型数据存储调用需求；接口协议上,以PCle5.0/6.0接口搭配NVMe协议为基础,未来融入CXL技术，进一步提升带宽与降低延迟；功能上，向智能化升级，如铠侠计划推出软

4、件让SSD自主处理Al检索任务，Solidigm探索液冷方案优化散热，实现存储与mathsfAl推理的深度协同。存储模组厂商：江波龙（天风计算机联合覆盖）、德明利、佰维存储、朗科科技、联芸科技、万润科技等；存储芯片：兆易创新、普冉股份、北京君正、东芯股份、恒烁股份、澜起科技、聚辰股份等；存储分销与封测：香农芯创、深科技、太极实业、中电港等相关报告1.发展背景：AI推理成价值核心，HBM瓶颈凸显产业痛点1.1.AI大模型推理中存在推不动、推得慢、推得贵三大挑战当前，人工智能已步入发展深水区，AI推理正成为下一个增长的关键阶段，推理体验和推理成本成为了衡量模型价值的黄金标尺。华为公司副总裁、数据存

5、储产品线总裁周越峰指出，Al时代，模型训练、推理效率与体验的量纲都以Token数为表征，Token经济已经到来。ChatGPT的访问量呈现线性增长,最新访问量达到4亿,受益于中国AI大模型DeepSeek的快速发展，日均调用量也在快速上升,2025年1月开始，中国AI推理的需求增长20倍，未来三年算力需求有望快速增长。IDC表示，2024年算力需求60%是训练，40%是推理，到2027年中国用于推理的算力需求一工作负载将达到72.6%。据电子发烧友网，当下，AI大模型推理应用落地中，遇到推不动、推得慢和推得贵的三大挑战。首先，长文本越来越多，输入超过模型上下文窗口的内容，推理窗口小就推不动；其

6、次，由于中美在AI基础设施的差距，中国互联网大模型首Token时延普遍慢于美国头部厂商的首Token时延，时延长度为后者的两倍；推得贵，美国大模型的推理吞吐率为中国大模型推理吞吐率的10倍。(divcenter)图1：美国大模型推理首Token时延=1/2中国大模型(TTFT毫秒）(/divcenter)1.2.HBM突破存储墙，海外垄断下技术难度和成本高企成最大障碍上述AI推理中所遇到的挑战，主要受制于传统DRAM面临“存储墙”瓶颈，内存的存取速度严重滞后于处理器的计算速度，严重制约了AI模型的训练和推理速度。直到HBM的出现，彻底改变了传统DRAM的布局模式。HBM已经成为AI革命的核心，

半导体行业专题研究：AI存储革命已至“以存代算”开启存储新纪元-250926（24页）.pdf

相关报告