1、长期模型优先,看好coding商业化价值LLM专题研究(一)核心观点LLM技术发展从预训练架构创新向后训练和推理驱动演绎。我们复盘LLM(LargeLanguageModel)的技术路径发展,2025年以前模型厂商通过堆算力、数据,做大模型参数,从而发挥预训练scalinglaw,打造底模的智能基础,以此锁定继续在AI牌桌上角逐的入场券,即我们认为预训练是大模型竞赛的首要核心壁垒。2025年后以DeepSeekR1为代表的推理模型,发挥RL阶段ScalingLaw,使其成为提升大模型能力的核心手段。展望26年,LLM主流架构基本确定,但行业仍在探索更高效架构,最大化利用算力提升建模效率的路径;
2、此外模型性能改进的核心动能转向后训练和推理阶段,包括RLVR向其他领域拓展、以及推理时的inference-timescaling等,后者仍对计算资源有较高要求。行业CapEX高投入趋势确定,投入领先的厂商更有可能拉开技术代差。从2528年CapEX投入量级的3年CAGR增速看,基数和增速均较快的包括OpenAI(147%)/Anthropic(96%)/谷歌(39%)/Meta(35%)。模型厂商的投入量级有所分化,如海外互联网厂商谷歌和Meta的CapEX投入量级在千亿美元以上,国内互联网厂商(阿里、腾讯、字节)和海外AI模型大厂(OpenAI、Anthropic)投入量级在百亿美元,国内
3、AI模型独立厂商智谱和MiniMax的研发投入均在百亿美元以内。我们认为投入量级的差距主要是研发的试错成本,更多的算力和人才,可以支撑不同技术路线的同时探索,或是此前拉开技术代差的原因之一。因此我们判断大模型赛道的竞争或是两阶段的往复出现,本质是由技术进步决定,拥有更高CapEX投入和人才密度的厂商更有可能推动技术范式突破,由此直接提升其竞争优势;而在技术发展平台期,各家模型智力差距收窄,更关注快速迭代harness、形成更好产品体验,由此带来强爆发的商业化增长。Coding成为现阶段LLM商业化价值最高的场景,技术特性与闭环迭代能力推动其率先爆发。Coding场景的先发优势源于两大技术支撑:
4、内生思维链让模型可自发完成推理与思考过程,Coding的可验证性则通过反馈循环实现能力持续提升,二者形成完整迭代闭环。我们梳理当前头部AIcoding产品ARR,测算当前全球Coding市场规模约80亿美元,CR4达86%,行业集中度高。长期来看,基于人力成本替代逻辑,远期中美两国Coding的TAM有望达4000亿美元。整体来看,国内厂商尚未形成海外头部厂商的技术绝对优势,随着技术迭代与场景深耕,聚焦核心技术、贴合本土需求的模型厂商有望实现突破,挖掘Coding市场红利。长期模型优先,厂商差异化带来非对称竞争LLM架构趋于收敛,26年关注1更高效的架构最大化算力利用/2后训练范式演进/3推理
5、scalingLLM架构趋于收敛,各家建立scalinglaw,以扎实基模能力锁定AI竞赛席位。大模型的预训练是一个数据、算法、infra高度交织的复杂系统,每家模型厂商都需要从小的参数模型起步,逐步摸索并建立属于自身的scalinglaw,同步构建配套infra,筛选适配当前模型阶段的训练数据与任务数据集,持续调试,再逐步将模型参数规模迭代升级到下一个量级。无论是海外还是国内,LLM赛道已经过大浪淘沙的竞赛,底模能力扎实、持续保持技术迭代的厂商以此锁定下半场的竞赛席位,预训练是大模型竞赛的首要核心壁垒。(divcenter)图表:大语言模型技术研发重点变化(/divcenter)CapEX高
6、投入仍具有确定性,海内外厂商增速趋势有分化海内外模型厂商的CapEX投入对比来看(因厂商数据披露差异,OpenAI和Anthropic为大模型训练成本、智谱和MiniMax为研发投入):(1)海外vs国内,按照25-28年投入量级的3年CAGR增速来看,OpenAI和Anthropic增长最快为14%和96%。其次是国内独立模型厂商因基数较小,MiniMax和智谱的研发投入增速分别为59%和38%。传统互联网厂商看,海外谷歌、Meta以35%+的高增速,高于国内阿里的16%和腾讯的9%。(2)量级维度大致分为3类:textcircled126sim28年CapEX预测投入量级均在千亿美元以上【