计算机行业AI模型系列（三）：DeepSeek V4和Kimi K2.6性能跃升国产算力适配加快-260426-三个皮匠报告

1、计算机行业AI模型系列（三）DeepSeekV4和KimiK2.6:性能跃升，国产算力适配加快核心观点:KimiK2.6和DeepSeekV4陆续发布，性能跃升。126年4月24日，DeepSeek发布V4模型，拥有百万字超长上下文，在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。根据官方技术文档，在百万token场景下，V4-Pro单token推理算力降至V3.2的27%,KVcache占用降至10%;V4-Flash则进一步压缩至10%和7%。226年4月20日，月之暗面发布KimimathsfK2.6。K2.6强调长程代码任务和AgentSwarm编排能力。在官方博客示

2、例中，sfK2.6曾在12小时以上连续执行、4000多次工具调用和14轮迭代中完成模型推理任务。.国产Al芯片与DeepSeekV4和mathsfKimiK2.6的适配反映了“国产算力+国产模型”自主可控建设的加快。根据华为、寒武纪和璧仞科技官方微信公众号，当前DeepSeekV4和mathsfKimiK2.6在发布的第一时间即选择与华为昇腾、寒武纪思元和壁仞等国产AI芯片产品适配，开辟了国产AI大模型适配国产算力产品的新方向。国产AI产业自主可控建设也由国产AI芯片的单向适配向“国产算力+国产模型”双向奔赴转变。在此趋势下，国产AI算力和模型自主可控建设的节奏有望加快。.DeepSeekV4

3、和KimiK2.6的推出不仅有望拉动国产Al芯片的需求，CPU和超节点等产品也有望放量。在国产AI算力和模型厂商紧密合作下，我们预计下游客户有望采购较大比例的国产AI芯片来满足其对DeepSeek和Kimi的新增算力需求。此外，在Agent能力增强的情况下，DeepSeekV4和KimiK2.6在辅助编程、工具调用、业务协同等场景的使用也有望拉动CPU的需求。经测算，为支持DeepSeekV4和KimiK2.6大模型相关Tokens的推理需求，预计市场新增采购的AI加速卡在11万至47万张之间；新增的CPU数量为5万至24万颗；新增的超节点在283至1236台之间。风险提示：国产AI大模型相关

4、应用的商业化落地不及预期的风险；AI大模型行业竞争加剧的风险；国产AI算力产品存在供应链不稳定的风险；国产AI算力产品存在由于性能差距导致采购量不及预期的风险。相关研究:投资要点：KimiK2.6和DeepSeekV4陆续发布，性能跃升。126年4月24日，DeepSeek发布V4模型，拥有百万字超长上下文，在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。根据官方技术文档，在百万token场景下，V4-Pro单token推理算力降至V3.2的27%，KVcache占用降至10%；V4-Flash则进一步压缩至10%和7%。226年4月20日，月之暗面发布KimiK2.6。sf

5、K2.6强调长程代码任务和AgentSwarm编排能力。在官方博客示例中，sfK2.6曾在12小时以上连续执行、4000多次工具调用和14轮迭代中完成模型推理任务。KimiK2.6和DeepSeekV4代表了两条不同的国产模型升级路径。DeepSeekV4的重点是底层架构效率，通过CSA/HCA、KVcache压缩和FP4等方式，把百万上下文的计算与存储成本大幅压低，V4-Pro为1.6T总参数、49B激活，V4-Flash为284B总参数、13B激活，均支持1M上下文。KimiK2.6则更强调多模态Agent执行和长程工程能力，通过AgentSwarm把复杂任务拆成多个并行子任务，提高真实工

6、作流完成率。从成本看，DeepSeekV4-Flash仍是成本敏感型场景的更优解；DeepSeekV4-Pro在1M长上下文、复杂分析和高强度推理中更具通用优势；KimiK2.6则适合代码Agent、长时间自主执行、视觉输入驱动的前端或全栈生成，以及需要多Agent并行协作的复杂工作流。经测算，假设DeepSeekV和KimiK2.6模型日均tokens的调用次数为40万亿至70万亿tokens，为支持DeepSeekV4和KimiK2.6大模型相关Tokens的推理需求，预计市场新增采购的AI加速卡在11万至47万张之间；新增的CPU数量为5万至24万颗；新增的超节点在283至1236台之间

计算机行业AI模型系列（三）：DeepSeek V4和Kimi K2.6性能跃升国产算力适配加快-260426（32页）.pdf

相关报告