SuperCLUE：中文大模型基准测评2025年年度报告-三个皮匠报告

1、中文大模型基准测评中文大模型基准测评2022025 5年年度年年度报告报告 2026.02.04 2026开年特别版：含1月底重磅模型动态评测SuperCLUE团队精准量化通用人工智能（AGI）进展，定义人类迈向AGI的路线图Accurately Quantifying the Progress of AGI,Defining the Roadmap for Humanitys Journey towards AGI.一、一、2025年关键进展年关键进展1.2025年最值得关注的中文大模型全景图2.2025年最值得关注的智能体产品全景图3.2025年年度大模型关键进展4.2025年全年Supe

2、rCLUE通用基准测评海内外大模型Top3报报告告目目录录四、四、SuperCLUE专项测评基准介绍专项测评基准介绍1.Agent系列基准介绍2.Coding系列基准介绍3.多模态系列基准介绍4.文本系列基准介绍5.推理系列基准介绍6.性能系列基准介绍三三、SuperCLUE中文竞技场介绍中文竞技场介绍1.SuperCLUE大模型中文竞技场介绍 2.板块一：编程竞技场3.板块二：图像竞技场4.板块三：视频竞技场 5.板块四：音频竞技场二二、2025年年度年年度测评结果与分析测评结果与分析1.2025年年度中文大模型基准测评介绍2.2025年全球大模型中文智能指数排行榜3.2025年Sup

3、erCLUE模型象限4.2025年SuperCLUE模型能力格局5.SuperCLUE2025年年度测评六大任务国内Top36.SuperCLUE2025年年度测评六大任务国内外Top20热力图7.2025年年度中文大模型基准测评总榜 8.2025年年度中文大模型基准测评开源模型9.海内外大模型对比分析10.开闭源大模型对比分析11.大模型性价比区间分布12.大模型推理效能区间分布13.代表性模型分析：Kimi-K2.5-Thinking&Qwen3-Max-Thinking14.评测与人类一致性验证：对比LMArena第一部分 20252025年年关键进展关键进展1.2025年最值得关注的中

4、文大模型全景图2.2025年最值得关注的智能体产品全景图3.2025年年度大模型关键进展4.2025年全年SuperCLUE通用基准测评海内外大模型Top3文文本本通用开源通用闭源多多模模态态语音合成百度百度TTSTTS讯飞语音合成讯飞语音合成Qwen3-TTSQwen3-TTS推理 SuperCLUESuperCLUE：20252025年最值得关注的中文大模型全景图年最值得关注的中文大模型全景图ERNIE-5.0 GLM-4.7Tencent HY 2.0 ThinkSpeech-2.6-HDKimi-K2.5-ThinkingERNIE-4.5系列视觉理解SenseChat-VisionS

5、enseChat-VisionQ Qwen3-VLwen3-VLGLM-4.6VGLM-4.6V文生图ERNIE-5.0 图片编辑文生视频图生视频实时交互字节豆包字节豆包D Doubao Seed TTS 2.0oubao Seed TTS 2.0行行业业百度灵医极氪Kr大模型易车大模型华为盘古工业大模型羚羊工业大模型法律得理法搜教育金融蚂蚁金融大模型蚂蚁金融大模型轩辕大模型妙想金融大模型奇智孔明奇智孔明工业医疗汽车豆包爱学ERNIE-5.0 MindGPTMindGPT智谱AI盘古大模型字节豆包Doubao-Seed-1.8Qwen3-MaxDeepSeek-V3.24Qwen3-Max-T

6、Qwen3-Max-ThinkinghinkingK2.5通通用用领领域域垂垂直直领领域域深度研究设计Deep Research深入研究SuperCLUESuperCLUE：20252025年最值得关注的年最值得关注的国内智能体国内智能体产品全景图产品全景图深入研究搜索金融法律编程营销旅行教育实在Agent办公5桌面桌面伙伴桌面版关键进展关键进展日期日期多模态爆发与推理多模态爆发与推理突破突破2025年年度大模型关键进展2022.122024.122023.12智能体崛起与生态智能体崛起与生态重构重构百模大战与多模态百模大战与多模态萌芽萌芽2025.126自2022年11月30日ChatGPT

SuperCLUE：中文大模型基准测评2025年年度报告（74页）.pdf

相关报告