计算机行业AIGC系列深度之24：GPT~4v如何实现强大多模态从文生图到图生文-231009-三个皮匠报告

1、行业及产计算机电万宏源研究3A72023年10月09日GPT-4V如何实现强大多模态从文行业研究行业深度生图到图生文看好AIGC系列深度之24相关研究本期投资提示：“GPT-4V与问界新M7，计算机继续机会的路边风景！计算机行业周报证券研究报告GPT-4V展现强大多模态能力，新兴应用曙光初现。9月25日，OpenAI宣布即将发布20230925-202309282023年10月8新的多模态功能，包括图像读取与理解、语音对话和语音生成；根据微软测评：1）4V支8持多种混合输入方式，同时展现了指令跟随、思维链、上下文少样本学习等能力；2）可“发布潮：华为+Dajo+Copilot后，计以胜任大量具

2、体任务，包括开放世界视觉理解、视觉描述、多模态知识、文档推理等都表算机反弹可持续多久？-计算机行业周现较好：3）可以期待4V出现后更多AI创新应用，包括工业缺陷检测、医疗影像识别、报20230911-202309222023年9月23日具身智能交互、汽车保险评估等。过去小模型时代“视觉智能”有限，增加语言模态或成为破局关键。在计算机视觉CV领域，过去常见方式仍是使用高质量、密集标注数据集进行预训练，这一训练方法下模型F证券分析师洪依真A0230519060003ew-shot和Zero-shot较弱。增加语言信息，有助于提升视觉模型的泛化能力。施鑫展A0230519080002auuoysue

3、具lauujoysueluoIsIA）LITdI唯LI工型香重Y空多arcncon架构较好的应用在计算机视觉任务中；2）CLIP用于将相关文本和图像对应，OpenAI从刘洋A网上爬虫，抓取已经有过描述的文本-图像数据集，数据集规模达到了4亿。在这两个基础联系人工作后，语言和视觉特征可以用同一架构Transformer提取，且也有了对应数据集训练。洪依真（8621）23297818xOpenAI的GPT-4v多模态能力来源：1）强大的已有语言模型基础，产业界猜测GPT-使用了类似Flamingo架构的交叉注意力机制，特点为不直接训练一个多模态模型，而是在已经预训练好的语言大模型中引入图像理解能力

4、。即OpenAI可以使用ChatGPT中已经构建的语言模块，大幅节约成本；2）2C应用发布前的大量安全工作，GPT-4尽管此前已经完成了多模态部分的测试，但是在发布前的6个月也经历大量调整，包括减少幻觉、拒绝越获指令、拒绝回答刻板印象、优恨问题等：3）包括Clip在内的优质联合训练数据4）并行计算策略和达到175B参数Davinci模型3倍的推理成本的多模态大模型Palm-E，可以理解图像，还能理解、生成语言，且可以用于多个具体任务，包括顺序机器人操作规划、视觉问题解答和图像视频字幕描述；2）目前业界对于后续即将发布的新模型Gemini期待，业界猜测训练Gemini的硬件FLOPS将超过1e2

5、6，比训练GPT-4的算力大5倍，训练总数据集大小约为GPT-4的两倍。无论OpenAI还是Google，都在AI架构、Prompt、RLHF、安全、数据、计算资源等多个方面多做出努力。相比单模态大模型，多模态的进入门槛更高。因此在上市公司层面，我们认为后续应当更加重点关注应用环节。推荐标的：1）展现应用提价能力：金山办公、福听软件：2）多模态核心受益：万兴科技、大华股份、虹软科技、科大讯飞。风险提示：大模型技术中美仍存在差异，部分技术尚处于早期实验室阶段，存在落地风险；实体清单等可能对训练硬件产生影响。请务必仔细阅读正文之后的各项信息披露与声明#page#SMSG行业深度投资案件结论和投资分

6、析意见1）本次GPT-4V发布展现出的多模态能力超过市场预期；2）未来AI多模态应用有望加速；3）但同时多模态大模型的进入门槛，相比语言单模态阶段，也大幅提高。原因及逻辑1）根据微软详细测评，GPT-4V可以胜任大量具体任务，包括开放世界视觉理解视觉描述、多模态知识、文档推理等都表现较好；2）过去小模型时代“视觉智能”有限，主要因为在计算机视觉CV领域，过去常见方式仍是使用高质量、密集标注数据集进行预训练，这一训练方法下模型Few-shot和Zero-shot能力较弱。增加语言模态后，视觉模型泛化能力大幅提升；3）除了常见的ChatGPT对话功能以外，可以期待更多AI创新应用，包括工业缺陷检测

计算机行业AIGC系列深度之24：GPT~4v如何实现强大多模态从文生图到图生文-231009（37页）.pdf

相关报告