CMF：2023中国宏观经济专题报告：大模型：原理、进展及其影响-三个皮匠报告

1、大模型：原理、进展及其影响主办单位：中国人民大学国家发展与战略研究院、中国人民大学经济学院、中诚信国际信用评级有限公司承办单位：中国人民大学经济研究所大模型：原理、进展及其影响报告人：文继荣中国人民大学信息学院院长中国人民大学高瓴人工智能学院执行院长国家高层次人才2023年9月目录一、大模型的背景和原理二、大模型的飞速发展及趋势三、大模型的深刻影响 OpenAI 公司开发的大型语言模型通过从大规模语料库中学习语言规律，从而生成与人类语言相似的输出表现为一个对话机器人，能够理解自然语言，进行

2、高质量的多轮对话拟人化程度惊人，被认为是人工智能里程碑式的突破ChatGPT开启了大模型浪潮比尔盖茨：ChatGPT的重要性不亚于互联网的发明2022年11月30日发布，5天获得100万用户，今年1月份月活跃用户数达1亿ChatGPT的特点上知天文、下知地理，不仅能写文章、还能写代码知识广博能有逻辑地组合知识形成答案，具有一定的推理能力有条有理能准确理解用户意图，三观比较正，并且承认自己不知道善解人意在多轮对话中不走神，交互聚焦主题交互能力强理解人类语言是人类探索文明发展的重要目标6哲学计算机假设：世界知识和人类认知能力蕴含在人类语言中问题：可以对人类语言建模吗？语言模型是否能作为世界

3、知识模型？语言模型是否具有人类认知能力？世界与语言高瓴人工智能学院是中国人民大学下属学院高瓴人工智能学院是中国人民大学下属学院人脑（神经网络）语言模型（人工神经网络）生成训练生成语言模型是对人脑的反向工程语言智能的探索历程8符号规则统计机器学习神经网络预训练语言模型超大规模语言模型给定一组人工设定的规则，计算机通过对数据应用这些规则来模拟自然语言理解在人工标注的数据上进行特征工程，训练机器学习模型参数，并将模型应用于测试数据上用神经网络在大量数据上训练，使得网络自主学会提取特征，并可以灵活搭建模型基于无标注文本预训练语言模型，通过“预训练-微调模式”工作，有监督学习通过扩展语言模型规模，可以通

4、过提示学习、情境学习等无需微调方式求解任务有监督学习任务泛化性弱仍需要监督学习任务泛化性改善无/弱监督学习一定的通用能力初始的自动化解决尝试语言模型的演进图9统计语言模型神经语言模型预训练语言模型大语言模型任务求解能力1990s201320182022word2vec、RNN-LM可以生成流畅文本自动学习特征特征缺乏知识、泛化性差n-gram 模型具备一定生成能力辅助解决部分任务数据稀疏影响严重ELMO、BERT、GPT-1/2任务泛化能力提升统一的任务求解范式仍然需要监督数据微调GPT-3/4、ChatGPT、Claude良好的任务泛化能力通用的任务求解途径学习成本高、灵活性差困难组合

5、爆炸，无法考虑较宽的上下文泛化性差，字词之间没有关联数据、算力不够统计语言模型（Statistical Language Model）突破引入注意力机制解决长程上下文依赖问题多层神经网络抽象解决泛化问题海量数据训练、巨大算力支持生成式语言模型（Generative Language Model）l下一个词预测：文字接龙lThe chef cooked the meal.lThe chef cooked the meal.GPT掩码语言模型（Masked Language Model）l文本Mask：完形填空lThe chef cooked the meal.lThe chef coo

6、ked the meal.BERTWord2VecChatGPT的发展路径2017年年2013年年2022年年2021年年2018年年2020年年2019年年TransformerGPTGPT-2GPT-3BERTCodexWebGPTChatGPT预训练语言模型元年首个千亿级模型引入代码能力和思维链能力引入搜索能力引入对话能力InstructGPT能理解人类指令ChatGPT的法宝之一：大！（自主学习）lChatGPT：大力出奇迹的典范，大数据、大模型、大算力lGPT-3：1750亿参数量，训练一次消耗1200万美元各种预训练模型的参数量对比（单位：十亿）参数量越多，人区分新闻是否由AI生成

CMF：2023中国宏观经济专题报告：大模型：原理、进展及其影响（94页）.pdf

相关报告