1、计算机行业AI模型系列(三)DeepSeekV4和KimiK2.6:性能跃升,国产算力适配加快核心观点:KimiK2.6和DeepSeekV4陆续发布,性能跃升。126年4月24日,DeepSeek发布V4模型,拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。根据官方技术文档,在百万token场景下,V4-Pro单token推理算力降至V3.2的27%,KVcache占用降至10%;V4-Flash则进一步压缩至10%和7%。226年4月20日,月之暗面发布KimimathsfK2.6。K2.6强调长程代码任务和AgentSwarm编排能力。在官方博客示
2、例中,sfK2.6曾在12小时以上连续执行、4000多次工具调用和14轮迭代中完成模型推理任务。.国产Al芯片与DeepSeekV4和mathsfKimiK2.6的适配反映了“国产算力+国产模型”自主可控建设的加快。根据华为、寒武纪和璧仞科技官方微信公众号,当前DeepSeekV4和mathsfKimiK2.6在发布的第一时间即选择与华为昇腾、寒武纪思元和壁仞等国产AI芯片产品适配,开辟了国产AI大模型适配国产算力产品的新方向。国产AI产业自主可控建设也由国产AI芯片的单向适配向“国产算力+国产模型”双向奔赴转变。在此趋势下,国产AI算力和模型自主可控建设的节奏有望加快。.DeepSeekV4
3、和KimiK2.6的推出不仅有望拉动国产Al芯片的需求,CPU和超节点等产品也有望放量。在国产AI算力和模型厂商紧密合作下,我们预计下游客户有望采购较大比例的国产AI芯片来满足其对DeepSeek和Kimi的新增算力需求。此外,在Agent能力增强的情况下,DeepSeekV4和KimiK2.6在辅助编程、工具调用、业务协同等场景的使用也有望拉动CPU的需求。经测算,为支持DeepSeekV4和KimiK2.6大模型相关Tokens的推理需求,预计市场新增采购的AI加速卡在11万至47万张之间;新增的CPU数量为5万至24万颗;新增的超节点在283至1236台之间。风险提示:国产AI大模型相关
4、应用的商业化落地不及预期的风险;AI大模型行业竞争加剧的风险;国产AI算力产品存在供应链不稳定的风险;国产AI算力产品存在由于性能差距导致采购量不及预期的风险。相关研究:投资要点:KimiK2.6和DeepSeekV4陆续发布,性能跃升。126年4月24日,DeepSeek发布V4模型,拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。根据官方技术文档,在百万token场景下,V4-Pro单token推理算力降至V3.2的27%,KVcache占用降至10%;V4-Flash则进一步压缩至10%和7%。226年4月20日,月之暗面发布KimiK2.6。sf
5、K2.6强调长程代码任务和AgentSwarm编排能力。在官方博客示例中,sfK2.6曾在12小时以上连续执行、4000多次工具调用和14轮迭代中完成模型推理任务。KimiK2.6和DeepSeekV4代表了两条不同的国产模型升级路径。DeepSeekV4的重点是底层架构效率,通过CSA/HCA、KVcache压缩和FP4等方式,把百万上下文的计算与存储成本大幅压低,V4-Pro为1.6T总参数、49B激活,V4-Flash为284B总参数、13B激活,均支持1M上下文。KimiK2.6则更强调多模态Agent执行和长程工程能力,通过AgentSwarm把复杂任务拆成多个并行子任务,提高真实工
6、作流完成率。从成本看,DeepSeekV4-Flash仍是成本敏感型场景的更优解;DeepSeekV4-Pro在1M长上下文、复杂分析和高强度推理中更具通用优势;KimiK2.6则适合代码Agent、长时间自主执行、视觉输入驱动的前端或全栈生成,以及需要多Agent并行协作的复杂工作流。经测算,假设DeepSeekV和KimiK2.6模型日均tokens的调用次数为40万亿至70万亿tokens,为支持DeepSeekV4和KimiK2.6大模型相关Tokens的推理需求,预计市场新增采购的AI加速卡在11万至47万张之间;新增的CPU数量为5万至24万颗;新增的超节点在283至1236台之间