冷大炜-多模态大模型LMM与细粒度开放世界目标检测.pdf

上传人：哆哆

编号：630912

2025-04-19

PDF 58页 13.11MB

《冷大炜-多模态大模型LMM与细粒度开放世界目标检测.pdf》由会员分享，可在线阅读，更多相关《冷大炜-多模态大模型LMM与细粒度开放世界目标检测.pdf（58页珍藏版）》请在三个皮匠报告上搜索。

1、冷大炜 360人工智能研究院视觉方向负责人目前带领研究院视觉团队在多模态大模型，视觉AIGC，跨模态图文学习，开放世界目标检测，开放词表视频分析，AIoT等方向进行前沿探索和工业落地工作。演讲主题：多模态大模型LMM与细粒度开放世界目标检测多模态大模型LMM 与细粒度开放世界目标检测冷大炜 360人工智能研究院人工智能研究院简介q 人工智能研究院 360人工智能研究院成立于2015年，目前隶属于技术中台，下辖两个研发Team:CV方向的视觉引擎和NLP方向的认知引擎，核心成员和团队多次荣获 AI 相关比赛冠军/提名奖项，发表顶会、顶刊论文数十篇。业务落地方面，研究院提供智能安全大数据、互联网信

2、息分发、企业数字化、AIoT等 360 集团全量业务场景支持，支持千万级硬件设备，亿级用户。q 视觉引擎视觉引擎是研究院CV方向的研发主体，21年开始聚焦在“多模态+跨模态学习”以及“大模型+zero/few shot学习”方向，在中文图文跨模态学习、开放世界目标检测、开放词表视频分析、AIGC图像生成以及多模态大模型等领域展开研究。2360 AI Research研发主线大模型+zero/few shot多模态+跨模态3业务覆盖大模型积累视觉引擎贡献了其中的5/75 视觉-语言跨模态学习开放世界目标检测OVD 多模态大模型LMM 细粒度开放世界目标检测12346什么是大模型大参数大算力大

3、数据7什么是大模型大数据大参数大算力8大模型算法视觉-语言跨模态学习 Vision-language cross modal learning，亦称为VLP（Vision-Language Pretrain）、VLM（Vision-Language Model），代表性的工作是20年OpenAI的CLIP，开启和引领了CV多模态研究的大模型时代Li,Yingming,Ming Yang,and Zhongfei Zhang.Multi-view representation learning:A survey from shallow methods to deep methods.arXiv

4、 preprint arXiv:1610.01206 1(2016).9视觉-语言跨模态学习Radford,Alec,Jong Wook Kim,Chris Hallacy,Aditya Ramesh,Gabriel Goh,Sandhini Agarwal,Girish Sastry et al.Learning transferable visual models from natural language supervision.In International conference on machine learning,pp.8748-8763.PMLR,2021.100.4B1.8

5、B5B5BCLIP20ALIGN21BASIC22DFN23Data Size视觉-语言跨模态学习中文图文跨模态模型 R2D2 图文跨模态学习带来的基于内容的图文互检能力对于互联网搜索来说具有非常重要的落地价值，来自于360搜索的实际业务需求非常强烈。360搜索：使用跨模态模型之前的搜索结果360搜索：使用跨模态模型之后的搜索结果视觉-语言跨模态学习中文图文跨模态模型 R2D22300万训练数据，在中文图文检索任务上达到SOTAXie,Chunyu,et al.Zero and R2D2:A large-scale Chinese cross-modal benchmark and A vis

6、ion-language framework.arXiv preprint arXiv:2205.03860(2022).双塔base+单塔head的混合模式专门针对数据噪声设计的momentum-updated encoder和masked input+soft label双蒸馏视觉-语言跨模态学习原始的互联网图文对，caption的描述通常并不连贯，呈现关键词堆叠+无关词噪声夹杂的现象视觉-语言跨模态学习中文图文跨模态模型 R2D2伴随着算法和模型，我们一同开源了对应的图文跨模态数据集Zero，包含2.5亿中文图文对数据基于用户点击CTR筛选，数据质量更高https:/2300万3000万

冷大炜-多模态大模型LMM与细粒度开放世界目标检测.pdf

相关报告