大语言模型：GPT背后的原理

计算机前世今生 - 这篇文章属于一个选集。

§ : 本文

§ : AI浪潮来袭：2016年后的科技巨变

§ : 深度学习爆发：AlphaGo击败李世石

§ : 机器学习入门：教计算机自己学习

§ : 大数据时代：数据就是新石油

§ : 安卓崛起：开源系统的逆袭

§ : 移动互联网：iPhone重新定义手机

§ : 云计算时代：AWS改变一切

§ : 开源的力量：Linux与开源运动

§ : Python的哲学：为什么Python叫Python

§ : 编程语言进化论：从机器码到高级语言

§ : 浏览器战争：网景与IE的世纪对决

§ : 万维网诞生：蒂姆·伯纳斯-李的礼物

§ : 比尔·盖茨与微软：软件帝国的崛起

§ : 乔布斯与苹果：改变世界的发布会

§ : 个人电脑革命：车库里的苹果

§ : 互联网的雏形：ARPANET与冷战争霸

§ : 第一台电子计算机：ENIAC的诞生

§ : 冯·诺依曼的蓝图：存储程序计算机

§ : 图灵的大脑：计算机的理论祖先

§ : 差分机的传奇：巴贝奇与未完成的梦想

§ : 机械计算的曙光：帕斯卡与莱布尼茨

§ : 计算机前世今生系列

§ : 人类的计算梦：从结绳记事到算盘

2020年6月，OpenAI发布了GPT-3。

这是一个语言模型，拥有1750亿个参数。

训练它用了：

45TB文本数据
数千块GPU
数千万美元

它能做什么？

给它一个开头，它能续写文章。

给它一个问题，它能给出答案。

给它一个编程任务，它能写出代码。

它甚至能做数学推理、翻译语言、模拟对话……

人们惊讶地发现：只要模型足够大，它就能涌现出意想不到的能力。

语言模型是什么？
#

语言模型的任务很简单：预测下一个词。

给定"今天天气真"，预测下一个词可能是"好"、“不错”、“糟糕”……

看起来很简单，但这个任务需要理解语言、理解世界。

要预测"今天天气真好，我们去___"，模型需要知道"天气好"和"出去玩"的关联。

要预测"小明考试不及格，他很___"，模型需要理解人类的情绪。

语言模型通过学习大量文本，掌握了语言的规律和世界的知识。

Transformer：大模型的基础
#

大语言模型的基础是Transformer架构。

2017年，Google发表论文《Attention Is All You Need》，提出了Transformer。

在此之前，语言模型主要使用RNN（循环神经网络）。RNN按顺序处理文本，速度慢，难以并行。

Transformer使用自注意力机制（Self-Attention），可以并行处理整个序列，大大提高了效率。

Transformer成为大语言模型的标准架构。GPT、BERT、LLaMA都基于Transformer。

GPT的进化
#

GPT-1（2018）

OpenAI发布了第一个GPT模型，有1.17亿参数。

它在未标注文本上预训练，然后在特定任务上微调。

效果不错，但没有引起太大关注。

GPT-2（2019）

参数增加到15亿。训练数据更多。

OpenAI最初拒绝发布完整模型，担心被用于生成假新闻。

后来他们改变了主意，发布了完整模型。

GPT-2可以生成连贯的长文本，但经常跑题、重复。

GPT-3（2020）

参数增加到1750亿。训练数据45TB。

GPT-3展示了**少样本学习（Few-shot Learning）**能力：只需要给几个例子，就能学会新任务。

它可以写文章、写代码、回答问题、翻译语言……

GPT-3让人们意识到：规模很重要。

GPT-4（2023）

参数数量未公开，估计在万亿级别。

GPT-4是多模态模型，可以理解图像和文本。

它在各种考试中表现出色：模拟律师资格考试排名前10%，SAT数学考试排名前20%。

规模法则
#

OpenAI发现了一个规律：规模法则（Scaling Laws）。

模型的能力随着三个因素增长：

参数数量：模型越大，能力越强
数据量：训练数据越多，能力越强
计算量：训练时间越长，能力越强

这三个因素按比例增长，模型能力可以预测。

这解释了为什么大公司竞相训练更大的模型。

涌现能力
#

更有趣的是涌现能力（Emergent Abilities）。

小模型做不到的事情，大模型突然就能做到了。

比如：

思维链推理：GPT-3不能，GPT-3.5可以
数学推理：小模型很差，大模型突然变好
编程能力：小模型生成乱码，大模型写出可运行代码

这就像物理学中的"相变"：温度升高到某个临界点，水突然变成蒸汽。

涌现能力让大模型变得更有用，也更难预测。

大模型的应用
#

大语言模型可以用于：

内容创作

写文章、写邮件、写报告
创作小说、诗歌、剧本
生成营销文案

编程助手

写代码、调试代码
解释代码、重构代码
转换编程语言

知识问答

回答各种问题
解释复杂概念
提供学习建议

语言翻译

多语言翻译
实时对话翻译

对话机器人

客服机器人
虚拟助手
角色扮演

大模型的局限
#

大模型也有局限：

幻觉（Hallucination）

大模型会自信地说出错误的信息。它不知道自己不知道什么。

知识截止

模型的知识停留在训练数据的时间点。GPT-4的知识截止于2023年。

偏见

模型可能继承训练数据的偏见。

成本

训练大模型需要数千万美元。运行大模型也需要昂贵的GPU。

安全

大模型可能被用于生成假新闻、网络攻击等恶意用途。

开源大模型
#

OpenAI最初是开源的，但后来变成闭源。

其他公司发布了开源大模型：

LLaMA：Meta发布，开源社区广泛使用
Mistral：法国公司发布，性能优秀
Qwen：阿里发布，中文能力强
Yi：零一万物发布
DeepSeek：深度求索发布

开源大模型让更多人可以使用和改进大模型技术。

下一步：ChatGPT
#

2022年11月，OpenAI发布了ChatGPT。

这是一个基于GPT-3.5的对话机器人，可以自然地与人对话。

它在两个月内获得了1亿用户，成为历史上增长最快的应用。

ChatGPT把大语言模型带入了大众视野。

明天，我们来讲ChatGPT的故事。

今日知识点
#

大语言模型（Large Language Model，LLM） 参数量巨大的语言模型，如GPT、LLaMA、Claude。大语言模型通过学习海量文本，掌握了语言理解和生成能力，可以用于对话、写作、编程等任务。

Transformer 2017年提出的神经网络架构，使用自注意力机制处理序列数据。Transformer可以并行计算，效率高，成为大语言模型的标准架构。

涌现能力（Emergent Abilities） 大模型在小模型基础上突然出现的新能力。比如思维链推理、数学推理等能力，在模型规模达到某个临界点后才出现。

思考题
#

大语言模型通过"预测下一个词"学会了语言和知识。你觉得这和人类学习语言的方式相似吗？
大模型会产生"幻觉"，自信地说出错误信息。你觉得这个问题能解决吗？

明天预告：ChatGPT时刻——AI如何进入大众视野，改变人机交互？