当前位置:首页 > 报告详情

冷大炜-多模态大模型LMM与细粒度开放世界目标检测.pdf

上传人: 哆哆 编号:630912 2025-04-19 58页 13.11MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了多模态大模型LMM(Large Multimodal Model)的发展现状和360人工智能研究院在多模态大模型领域的研究进展。 1. 多模态大模型LMM旨在解决纯文本语言模型LLM只能理解文本输入的先天缺陷,赋予大模型对多模态信息混合输入的理解和处理能力。 2. 目前多模态大模型LMM的研发路线主要有原生多模态路线和单模态专家缝合路线。原生多模态路线训练成本高,缝合路线可以复用各单模态领域的已有成果,训练成本较低。 3. 360人工智能研究院在多模态大模型领域的研究进展包括: - 2023年5月开源的SEEChat(后更名为360VL),属于第一代LMM,主要聚焦在模态对齐的原型验证上。 - 2023年底发布的360VL 3.0,属于第二代LMM,在图像对话/问答能力基础上,提供对图像中目标位置的开放世界检测能力。 - 360VL 3.0在MMMU/MMBench上,在开源模型中排名第一,证明了其在细粒度开放世界目标检测上的能力。 4. 未来多模态LMM将成为NLP和CV领域深度融合后的大模型,在通用能力上将覆盖当前非专业领域的绝大部分需求。
细粒度开放世界目标检测如何实现? 多模态大模型LMM如何提升目标检测能力? 360VL 3.0在细粒度开放世界目标检测上取得了哪些进展?
客服
商务合作
小程序
服务号
折叠