InfoQ：2025年推理模型综合测评报告-三个皮匠报告

1、推理模型综合测评报告2025幻觉控制多步推理语言推理逻辑推理数学推理目录CONTENT推理模型发展阶段和发展因素分析01推理模型测评体系和结果分析02推理模型未来展望03推理模型发展阶段和发展因素分析推理模型发展的前置因素推理时计算拓展（Inference-Compute Scaling）u 根据一些学术论文的研究，在推理过程中增加计算资源，能够有效提高大模型的输出质量。这相当于在现实生活中，人在遇到较难的问题是也需要更多的思考时间或思考量。u 这一思路逐渐总结为推理时计算拓展，并逐渐演变出3条主要路径。例如，OpenAI 发布的 o1 模型通过动态扩展思维链（Chain-of-Thought

2、）长度，并采用了自我验证机制，生成多个候选答案后通过内部评分筛选最优解。鼓励大模型在回答问题时更多地“思考”深度思维提示拉长单链思考时间，让模型多想一步通过“逐步思考”等提示词的注入，让大模型生成更长的单链推理多链多数表决并行多条思路，投票选其最优通过并行解码，在生成的多个思维链中，进行多数表决或者加权投票，选择最优的一条输出路径搜索边思考边筛选，保留最佳路径通过搜索过往路径，多路径中筛选最优通路难点固定参数泛化能力传统大模型在推理过程中依赖训练阶段形成的静态参数。当遇到没见过的问题时，大模型需要一种更加动态和灵活的计算策略与自我纠错的系统能力。难点探索资源效率更优的路径传统Scalin

3、g Law的边际收益递减且成本激增，人们需要探索一种资源效率利用更高的路径方式。为什么？怎么做？备注：InfoQ研究中心根据科研论文整合，代表为Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters、Learning to reason with LLMs4推理模型发展的前置因素基于可验证奖励的强化学习（RLVF）主观：反馈中包含人工主观偏好；昂贵：长链推理中人工评分难，对标注员要求高，造成招募难度和成本双高为什么RLHF不够？客观抗作弊：编译器/单元测试判分，且沙箱

4、执行，可实时侦测 reward-hacking低成本：全自动打分，快捷高效低成本学习高效：格式和过程准确性可拆成连续奖励，收敛快为什么是基于可验证奖励的强化学习？u 除了推理时计算拓展，基于可验证奖励的强化学习（RLVF）帮助大模型真正掌握长链推理。DeepSeek、OpenAI Codex、k1.5、TLU 3 等最新一代模型的技术论文都披露了类似范式，并在编程竞赛、数学推导与通用推理 benchmark 上验证了 RLVF 的显著收益。训练数据策略模型可验证奖励抽样提示生成答案打分奖励策略更新抽样提示：从题库或真实用户问题里随机取样，作为模型输入。生成答案：策略模型按当前参数进行解题

5、打分奖励：验证函数进行判分，并生成相应的奖励信号策略更新：将奖励反向传回，更新模型参数为什么？怎么做？备注：InfoQ研究中心根据科研论文整合，代表为TLU 3:Pushing Frontiers in Open Language Model Post-Training、DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning、Kimi k1.5:Scaling Reinforcement Learning with LLMs5各家陆续发布推理模型，获取推理模型入场券2024年9月-12

6、月9月，OpenAI 发布 o1 系列模型（o1-preview）11-12月，各家陆续发布实验性推理模型（DeepSeek-R1-Lite-Preview、QwQ-32B-Preview、Gemini 2.0 Flash Thinking、天工大模型 o1 版、GLM-Zero-Preview）12月，OpenAI 发布 o1 正式版2025年1月DeepSeek、Kimi 同一天发布推理模型 R1 和k1.5科大讯飞发布推理模型讯飞星火 X1百川智能发布 Baichuan-M1-Preview谷歌发布 Gemini 2.0 Flash Thinking Experimental2025年2

InfoQ：2025年推理模型综合测评报告（35页）.pdf

相关报告