当前位置:首页 > 报告详情

杨旭-多模态大语言模型中的类比与推理.pdf

上传人: 拾亿 编号:751733 2025-07-29 50页 6.03MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
全文主要内容概括如下: 1. 杨旭教授研究了多模态视觉语言任务及基于多模态大语言模型的上下文学习。 2. GPT系列模型具备独特的“提示工程”能力,GPT-3具有“上下文学习”能力,能从提供的环境中学习任务表示。 3. 文章提出了一种新的学习方法:通过模仿示例影响的关键项,以及采用两阶段基于规则的强化学习方法,增强多模态模型的推理能力。 4. 核心数据: - LIVE方法在VQAv2和OK-VQA任务上取得了最佳性能。 - MimIC方法在参数效率方面优于LoRA方法,实现了在较少样本下的少样本学习。 - LMM-R1方法在几何推理任务上取得了显著改进,特别是在视觉感知和推理能力方面。 5. 关键点: - 多模态模型在上下文学习中的表现优于单一模态模型。 - 通过模仿示例,可以在不显著影响推理能力的情况下提高模型的表现。 - 两阶段基于规则的强化学习方法能有效提升多模态模型的推理能力。
上下文学习如何工作?" 如何提升视觉问答任务的性能?" 探索多模态推理能力的增强。"
客服
商务合作
小程序
服务号
折叠