当前位置:首页 > 报告详情

SuperCLUE:中文大模型基准测评2025年年度报告(74页).pdf

上传人: 渔** 编号:1102447 2026-02-04 74页 26.57MB

下载:

1、中文大模型基准测评中文大模型基准测评2022025 5年年度年年度报告报告 2026.02.04 2026开年特别版:含1月底重磅模型动态评测SuperCLUE团队精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图Accurately Quantifying the Progress of AGI,Defining the Roadmap for Humanitys Journey towards AGI.一、一、2025年关键进展年关键进展1.2025年最值得关注的中文大模型全景图2.2025年最值得关注的智能体产品全景图3.2025年年度大模型关键进展4.2025年全年Supe

2、rCLUE通用基准测评海内外大模型Top3报报 告告 目目 录录四、四、SuperCLUE专项测评基准介绍专项测评基准介绍1.Agent系列基准介绍2.Coding系列基准介绍3.多模态系列基准介绍4.文本系列基准介绍5.推理系列基准介绍6.性能系列基准介绍三三、SuperCLUE中文竞技场介绍中文竞技场介绍1.SuperCLUE大模型中文竞技场介绍 2.板块一:编程竞技场3.板块二:图像竞技场4.板块三:视频竞技场 5.板块四:音频竞技场二二、2025年年度年年度测评结果与分析测评结果与分析1.2025年年度中文大模型基准测评介绍2.2025年全球大模型中文智能指数排行榜3.2025年Sup

3、erCLUE模型象限4.2025年SuperCLUE模型能力格局5.SuperCLUE2025年年度测评六大任务国内Top36.SuperCLUE2025年年度测评六大任务国内外Top20热力图7.2025年年度中文大模型基准测评总榜 8.2025年年度中文大模型基准测评开源模型9.海内外大模型对比分析10.开闭源大模型对比分析11.大模型性价比区间分布12.大模型推理效能区间分布13.代表性模型分析:Kimi-K2.5-Thinking&Qwen3-Max-Thinking14.评测与人类一致性验证:对比LMArena第一部分 20252025年年关键进展关键进展1.2025年最值得关注的中

4、文大模型全景图2.2025年最值得关注的智能体产品全景图3.2025年年度大模型关键进展4.2025年全年SuperCLUE通用基准测评海内外大模型Top3文文本本通用开源通用闭源多多模模态态语音合成百度百度TTSTTS讯飞语音合成讯飞语音合成Qwen3-TTSQwen3-TTS推理 SuperCLUESuperCLUE:20252025年最值得关注的中文大模型全景图年最值得关注的中文大模型全景图ERNIE-5.0 GLM-4.7Tencent HY 2.0 ThinkSpeech-2.6-HDKimi-K2.5-ThinkingERNIE-4.5系列视觉理解SenseChat-VisionS

5、enseChat-VisionQ Qwen3-VLwen3-VLGLM-4.6VGLM-4.6V文生图ERNIE-5.0 图片编辑文生视频图生视频实时交互字节豆包字节豆包D Doubao Seed TTS 2.0oubao Seed TTS 2.0行行业业百度灵医极氪Kr大模型易车大模型华为盘古工业大模型羚羊工业大模型法律得理法搜教育金融蚂蚁金融大模型蚂蚁金融大模型轩辕大模型妙想金融大模型奇智孔明奇智孔明工业医疗汽车豆包爱学ERNIE-5.0 MindGPTMindGPT智谱AI盘古大模型字节豆包Doubao-Seed-1.8Qwen3-MaxDeepSeek-V3.24Qwen3-Max-T

6、Qwen3-Max-ThinkinghinkingK2.5通通用用领领域域垂垂直直领领域域深度研究设计Deep Research深入研究SuperCLUESuperCLUE:20252025年最值得关注的年最值得关注的国内智能体国内智能体产品全景图产品全景图深入研究搜索金融法律编程营销旅行教育实在Agent办公5桌面桌面伙伴桌面版关键进展关键进展日期日期多模态爆发与推理多模态爆发与推理突破突破2025年年度大模型关键进展2022.122024.122023.12智能体崛起与生态智能体崛起与生态重构重构百模大战与多模态百模大战与多模态萌芽萌芽2025.126自2022年11月30日ChatGPT

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **年度测评结果**:SuperCLUE 2025年年度测评中,Claude-Opus-4.5-Reasoning以68.25分居首,国内开源模型Kimi-K2.5-Thinking(61.50分)和闭源Qwen3-Max-Thinking(60.61分)分列第四、六。 2. **国产模型进展**:国内模型在代码生成(Kimi-K2.5-Thinking全球第一)、数学推理(Qwen3-Max-Thinking并列全球第一)等领域追平或超越国际顶尖模型,但精确指令遵循、幻觉控制仍存差距。 3. **开闭源格局**:开源阵营国产主导(Top5均为国内模型),闭源海外领先(Claude、Gemini、GPT第一梯队)。 4. **专项基准**:推出Agent、多模态、推理等系列基准,覆盖文生视频、具身智能等场景,并上线中文竞技场交互式评测。 5. **性价比优势**:国内模型(如Kimi、Qwen)以低于10元/百万Tokens的价格实现高性能,海外同等性能模型价格普遍达3倍以上。
国产模型如何? 海外模型领先在哪? 2025年AI突破点?
客服
商务合作
小程序
服务号
折叠