2020年6月,OpenAI发布了GPT-3。
这是一个语言模型,拥有1750亿个参数。
训练它用了:
- 45TB文本数据
- 数千块GPU
- 数千万美元
它能做什么?
给它一个开头,它能续写文章。
给它一个问题,它能给出答案。
给它一个编程任务,它能写出代码。
它甚至能做数学推理、翻译语言、模拟对话……
人们惊讶地发现:只要模型足够大,它就能涌现出意想不到的能力。
语言模型是什么?#
语言模型的任务很简单:预测下一个词。
给定"今天天气真",预测下一个词可能是"好"、“不错”、“糟糕”……
看起来很简单,但这个任务需要理解语言、理解世界。
要预测"今天天气真好,我们去___",模型需要知道"天气好"和"出去玩"的关联。
要预测"小明考试不及格,他很___",模型需要理解人类的情绪。
语言模型通过学习大量文本,掌握了语言的规律和世界的知识。
Transformer:大模型的基础#
大语言模型的基础是Transformer架构。
2017年,Google发表论文《Attention Is All You Need》,提出了Transformer。
在此之前,语言模型主要使用RNN(循环神经网络)。RNN按顺序处理文本,速度慢,难以并行。
Transformer使用自注意力机制(Self-Attention),可以并行处理整个序列,大大提高了效率。
Transformer成为大语言模型的标准架构。GPT、BERT、LLaMA都基于Transformer。
GPT的进化#
GPT-1(2018)
OpenAI发布了第一个GPT模型,有1.17亿参数。
它在未标注文本上预训练,然后在特定任务上微调。
效果不错,但没有引起太大关注。
GPT-2(2019)
参数增加到15亿。训练数据更多。
OpenAI最初拒绝发布完整模型,担心被用于生成假新闻。
后来他们改变了主意,发布了完整模型。
GPT-2可以生成连贯的长文本,但经常跑题、重复。
GPT-3(2020)
参数增加到1750亿。训练数据45TB。
GPT-3展示了**少样本学习(Few-shot Learning)**能力:只需要给几个例子,就能学会新任务。
它可以写文章、写代码、回答问题、翻译语言……
GPT-3让人们意识到:规模很重要。
GPT-4(2023)
参数数量未公开,估计在万亿级别。
GPT-4是多模态模型,可以理解图像和文本。
它在各种考试中表现出色:模拟律师资格考试排名前10%,SAT数学考试排名前20%。
规模法则#
OpenAI发现了一个规律:规模法则(Scaling Laws)。
模型的能力随着三个因素增长:
- 参数数量:模型越大,能力越强
- 数据量:训练数据越多,能力越强
- 计算量:训练时间越长,能力越强
这三个因素按比例增长,模型能力可以预测。
这解释了为什么大公司竞相训练更大的模型。
涌现能力#
更有趣的是涌现能力(Emergent Abilities)。
小模型做不到的事情,大模型突然就能做到了。
比如:
- 思维链推理:GPT-3不能,GPT-3.5可以
- 数学推理:小模型很差,大模型突然变好
- 编程能力:小模型生成乱码,大模型写出可运行代码
这就像物理学中的"相变":温度升高到某个临界点,水突然变成蒸汽。
涌现能力让大模型变得更有用,也更难预测。
大模型的应用#
大语言模型可以用于:
内容创作
- 写文章、写邮件、写报告
- 创作小说、诗歌、剧本
- 生成营销文案
编程助手
- 写代码、调试代码
- 解释代码、重构代码
- 转换编程语言
知识问答
- 回答各种问题
- 解释复杂概念
- 提供学习建议
语言翻译
- 多语言翻译
- 实时对话翻译
对话机器人
- 客服机器人
- 虚拟助手
- 角色扮演
大模型的局限#
大模型也有局限:
幻觉(Hallucination)
大模型会自信地说出错误的信息。它不知道自己不知道什么。
知识截止
模型的知识停留在训练数据的时间点。GPT-4的知识截止于2023年。
偏见
模型可能继承训练数据的偏见。
成本
训练大模型需要数千万美元。运行大模型也需要昂贵的GPU。
安全
大模型可能被用于生成假新闻、网络攻击等恶意用途。
开源大模型#
OpenAI最初是开源的,但后来变成闭源。
其他公司发布了开源大模型:
- LLaMA:Meta发布,开源社区广泛使用
- Mistral:法国公司发布,性能优秀
- Qwen:阿里发布,中文能力强
- Yi:零一万物发布
- DeepSeek:深度求索发布
开源大模型让更多人可以使用和改进大模型技术。
下一步:ChatGPT#
2022年11月,OpenAI发布了ChatGPT。
这是一个基于GPT-3.5的对话机器人,可以自然地与人对话。
它在两个月内获得了1亿用户,成为历史上增长最快的应用。
ChatGPT把大语言模型带入了大众视野。
明天,我们来讲ChatGPT的故事。
今日知识点#
大语言模型(Large Language Model,LLM) 参数量巨大的语言模型,如GPT、LLaMA、Claude。大语言模型通过学习海量文本,掌握了语言理解和生成能力,可以用于对话、写作、编程等任务。
Transformer 2017年提出的神经网络架构,使用自注意力机制处理序列数据。Transformer可以并行计算,效率高,成为大语言模型的标准架构。
涌现能力(Emergent Abilities) 大模型在小模型基础上突然出现的新能力。比如思维链推理、数学推理等能力,在模型规模达到某个临界点后才出现。
思考题#
- 大语言模型通过"预测下一个词"学会了语言和知识。你觉得这和人类学习语言的方式相似吗?
- 大模型会产生"幻觉",自信地说出错误信息。你觉得这个问题能解决吗?
明天预告:ChatGPT时刻——AI如何进入大众视野,改变人机交互?
