1、大模型能力技术培训让数据智能像水电 样简单语言模型发展历程 上世纪90年代:语言模型出现,统计学方法,使用前面的词预测下一个词 2003年:Bengio A Neural Probabilistic Language Model,首度将深度学习思想融入语言模型 2018年:Google提出Transformer神经网络架构,并通过大量文本训练理解语言规则和模式大语言模型:包含百亿或更多参数的语言模型 国外:GPT-3(175B)、GPT-4、PaLM(540B)、Galactica 和 LLaMA 等 国内:Chat GLM、文心一言、通义千问、讯飞星火等 大语言模型和小语言模型(如GPT2)
2、采用相似的架构和预训练任务,但是能力截然不同(涌现能力)涌现能力使得大语言模型只使用很少的样本就可以处理全新的任务参考文献:https:/arxiv.org/abs/2303.18223对技术领域的影响 自然语言处理:理解和生成文本,意图理解、写文章、回答问题、翻译等等 信息检索:智能检索,改进搜索引擎 计算机视觉:文生图、多模态交互对商业领域的影响 AI Agent:数字人、个人智能助理、情感分析师、口语陪练、智能运营助手,等等 通用人工智能AGI:大语言模型是AGI的早期形式,引发了对未来人工智能发展的思考和规划参考文献:https:/arxiv.org/abs/2303.18223涌现能
3、力 上下文学习的能力:GPT3首次引入,instruction+few shot learning,无需额外训练和参数更新 指令遵循:可以使用指令进行微调,在同样使用指令形式化描述的未见过的任务上表现良好 逐步推理:“思维链”推理策略,可以利用包含中间推理步骤的提示机制来解决复杂推理任务作为基座模型支持多元应用的能力 全新的AI范式,借助于海量无标注数据的训练,获得可以适用于大量下游任务的统一大模型 可以缩短每个具体应用的开发周期,人力投入,也可以基于大模型的推理、常识和写作能力,获得更好 的应用效果支持对话作为统一入口的能力 Conversation as a Platform(陆奇,201
4、6),以对话形态完成各种各样的任务参考文献:https:/ 巨大的规模:十亿到万亿,能够捕捉更多的语言知识和复杂的语法结构 预训练和微调:先用无标签数据在大规模文本上预训练,再用有标签数据微调特殊任务 上下文感知:能够理解和生成依赖于前文的文本内容。在对话、文章生成和情境理解方面表现出色 多语言支持:可以构建跨文言和跨文化的应用 多模态支持:文本、图像、语音 涌现能力:能用更少的数据处理更复杂的任务 多领域应用:文本生成、自动翻译、信息检索、摘要生成、聊天机器人、虚拟助手等等 伦理和风险问题:生成有害内容、隐私问题、认知偏差等,这是需要重点解决的问题 幻象、资源消耗、推理速度参考文献:http
5、s:/arxiv.org/abs/2303.18223语言模型(Language Model,LM)目标是建模自然语言的概率分布词汇表 V 上的语言模型由函数 P(w1w2.wm)表示,表示词序列w1w2.wm作为一个句子出现的可能性大小。对于任意词串 w1w2.wm V+,则有 P(w1w2.wm )=0,并且对于所有词串,函数 P(w1w2.wm )满足归 一化条件:由于联合概率 P(w1w2.wm )的参数量十分巨大,直接计算 P(w1w2.wm )非常困难。如果把w1w2.wm看 作一个变量,那么它具有|V|m 种可能。按照现代汉语词典(第七版)包含7万词条,句子长度按照20个词计算,
6、模型参数量达到7.9792*1096 的天文数字。由此,w1w2.wm 的生成过程可以看作单词逐个生成的过程。首先生成 w1,之后根据 w1 生成 w2,再根据 w1 和 w2 生成 w3,以此类推,根据前 m 1 个单词生成最后一个单词 wm为了减少 P(w1w2.wm )模型参数量,可以利用句子序列通常情况下从左至右的生成过程进行分解,使用链式法则得到:其中,词 wi 出现的概率受它前面的 i 1 个词 w1w2.wi1 影响,我们将这 i 1 个词 w1w2.wi1称之为词 wi的历史。如果历史单词有i 1 个,那么可能的单词组合就有|V|i1 种。最简单的根据语料库对 P (wi|w1