当前位置:首页 > 报告详情

腾讯云:2025详解DeepSeek: 模型训练、优化及数据处理的技术精髓(23页).pdf

上传人: 散** 编号:613884 2025-02-20 23页 6.14MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
DeepSeek是杭州深度求索公司推出的大语言模型,旨在开发和应用先进的大语言模型技术。其核心技术包括多模态深度Transformer、动态稀疏激活机制、超长上下文建模、自研训练框架等。DeepSeek-R1是DeepSeek的推理模型,通过强化学习提升推理能力,无需监督微调数据即可获得强大的推理能力。DeepSeek在中文任务、代码生成、实时决策等方面表现出色,多模态支持较弱,长上下文处理能力有限。DeepSeek的训练成本仅用1/11算力实现同完全开源模型,支持FP8量化和动态稀疏训练,边缘设备可部署百亿参数模型。
DeepSeek如何实现高效推理? DeepSeek在哪些场景中表现出色? 如何高效使用DeepSeek进行问题求解?
客服
商务合作
小程序
服务号
折叠