当前位置:首页 > 报告详情

计算机行业AIGC系列深度之24:GPT~4v如何实现强大多模态从文生图到图生文-231009(37页).pdf

上传人: 茫然 编号:142448 2023-10-11 37页 2.53MB

下载:

1、行业及产计算机电万宏源研究3A72023年10月09日GPT-4V如何实现强大多模态从文行业研究行业深度生图到图生文看好AIGC系列深度之24相关研究本期投资提示:“GPT-4V与问界新M7,计算机继续机会的路边风景!计算机行业周报证券研究报告GPT-4V展现强大多模态能力,新兴应用曙光初现。9月25日,OpenAI宣布即将发布20230925-202309282023年10月8新的多模态功能,包括图像读取与理解、语音对话和语音生成;根据微软测评:1)4V支8持多种混合输入方式,同时展现了指令跟随、思维链、上下文少样本学习等能力;2)可“发布潮:华为+Dajo+Copilot后,计以胜任大量具

2、体任务,包括开放世界视觉理解、视觉描述、多模态知识、文档推理等都表算机反弹可持续多久?-计算机行业周现较好:3)可以期待4V出现后更多AI创新应用,包括工业缺陷检测、医疗影像识别、报20230911-202309222023年9月23日具身智能交互、汽车保险评估等。过去小模型时代“视觉智能”有限,增加语言模态或成为破局关键。在计算机视觉CV领域,过去常见方式仍是使用高质量、密集标注数据集进行预训练,这一训练方法下模型F证券分析师洪依真A0230519060003ew-shot和Zero-shot较弱。增加语言信息,有助于提升视觉模型的泛化能力。施鑫展A0230519080002auuoysue

3、具lauujoysueluoIsIA)LITdI唯LI工型香重Y空多arcncon架构较好的应用在计算机视觉任务中;2)CLIP用于将相关文本和图像对应,OpenAI从刘洋A网上爬虫,抓取已经有过描述的文本-图像数据集,数据集规模达到了4亿。在这两个基础联系人工作后,语言和视觉特征可以用同一架构Transformer提取,且也有了对应数据集训练。洪依真(8621)23297818xOpenAI的GPT-4v多模态能力来源:1)强大的已有语言模型基础,产业界猜测GPT-使用了类似Flamingo架构的交叉注意力机制,特点为不直接训练一个多模态模型,而是在已经预训练好的语言大模型中引入图像理解能力

4、。即OpenAI可以使用ChatGPT中已经构建的语言模块,大幅节约成本;2)2C应用发布前的大量安全工作,GPT-4尽管此前已经完成了多模态部分的测试,但是在发布前的6个月也经历大量调整,包括减少幻觉、拒绝越获指令、拒绝回答刻板印象、优恨问题等:3)包括Clip在内的优质联合训练数据4)并行计算策略和达到175B参数Davinci模型3倍的推理成本的多模态大模型Palm-E,可以理解图像,还能理解、生成语言,且可以用于多个具体任务,包括顺序机器人操作规划、视觉问题解答和图像视频字幕描述;2)目前业界对于后续即将发布的新模型Gemini期待,业界猜测训练Gemini的硬件FLOPS将超过1e2

5、6,比训练GPT-4的算力大5倍,训练总数据集大小约为GPT-4的两倍。无论OpenAI还是Google,都在AI架构、Prompt、RLHF、安全、数据、计算资源等多个方面多做出努力。相比单模态大模型,多模态的进入门槛更高。因此在上市公司层面,我们认为后续应当更加重点关注应用环节。推荐标的:1)展现应用提价能力:金山办公、福听软件:2)多模态核心受益:万兴科技、大华股份、虹软科技、科大讯飞。风险提示:大模型技术中美仍存在差异,部分技术尚处于早期实验室阶段,存在落地风险;实体清单等可能对训练硬件产生影响。请务必仔细阅读正文之后的各项信息披露与声明#page#SMSG行业深度投资案件结论和投资分

6、析意见1)本次GPT-4V发布展现出的多模态能力超过市场预期;2)未来AI多模态应用有望加速;3)但同时多模态大模型的进入门槛,相比语言单模态阶段,也大幅提高。原因及逻辑1)根据微软详细测评,GPT-4V可以胜任大量具体任务,包括开放世界视觉理解视觉描述、多模态知识、文档推理等都表现较好;2)过去小模型时代“视觉智能”有限,主要因为在计算机视觉CV领域,过去常见方式仍是使用高质量、密集标注数据集进行预训练,这一训练方法下模型Few-shot和Zero-shot能力较弱。增加语言模态后,视觉模型泛化能力大幅提升;3)除了常见的ChatGPT对话功能以外,可以期待更多AI创新应用,包括工业缺陷检测

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要内容概括如下: 1. 文章介绍了GPT-4V的强大多模态能力,包括图像读取与理解、语音对话和语音生成等。GPT-4V展现了指令跟随、思维链、上下文少样本学习等能力,可以胜任大量具体任务,如开放世界视觉理解、视觉描述、多模态知识、文档推理等。 2. 文章分析了多模态技术的发展,包括ViT和CLIP等基础工作,以及OpenAI和Google在多模态大模型方面的最新进展。 3. 文章指出,多模态大模型的应用空间进一步打开,包括工业缺陷检测、医疗影像识别、具身智能交互、汽车保险评估等。 4. 文章推荐关注应用环节的上市公司,如金山办公、福昕软件、万兴科技、大华股份等。 5. 文章还分析了多模态大模型在安全性、产品提价等方面的关注重点。
金山办公如何利用AI技术提升用户体验? 福昕软件如何通过AI技术实现产品提价? 万兴科技如何利用OpenAI技术提升产品竞争力?
客服
商务合作
小程序
服务号
折叠