当前位置:首页 > 报告详情

张俊林-从DeepSeek R1的复现看深度思考模型的未来.pdf

上传人: 哆哆 编号:631133 2025-04-19 33页 20.60MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了深度思考模型DeepSeek R1及其复现,以及相关的研究成果和作者张俊林的演讲主题。DeepSeek R1是中国AI技术实力的体现,代表了新型强化学习Scaling Law,引领大模型开启快速能力提升第二增长曲线。作者提出深度思考的数据质量比数据数量更重要,并介绍了GRPO和Kimi K1.5强化学习基本思想,以及SFT阶段的作用。同时,作者也指出了GRPO的缺陷和Reward Hacking的问题。此外,文章还讨论了深度思考过程的长度与模型效果的关系,以及Test Time Scaling Law的天花板问题。最后,作者提出了VAPO和SPCT两种可能的解决方案,以及DeepPerception和Video-R1模型的研究进展。
"深度思考模型将如何改变未来?" "如何评价DeepSeek R1的复现及其影响?" "深度思考数据质量与数量哪个更重要?"
客服
商务合作
小程序
服务号
折叠