跳过正文
  1. 文章/
  2. 计算机前世今生系列/

大语言模型:GPT背后的原理

sun.ao
作者
sun.ao
我是 sun.ao,一名热爱技术的程序员,专注于 AI 和数智化领域。
目录
计算机前世今生 - 这篇文章属于一个选集。
§ : 本文

2020年6月,OpenAI发布了GPT-3

这是一个语言模型,拥有1750亿个参数

训练它用了:

  • 45TB文本数据
  • 数千块GPU
  • 数千万美元

它能做什么?

给它一个开头,它能续写文章。

给它一个问题,它能给出答案。

给它一个编程任务,它能写出代码。

它甚至能做数学推理、翻译语言、模拟对话……

人们惊讶地发现:只要模型足够大,它就能涌现出意想不到的能力。

语言模型是什么?
#

语言模型的任务很简单:预测下一个词

给定"今天天气真",预测下一个词可能是"好"、“不错”、“糟糕”……

看起来很简单,但这个任务需要理解语言、理解世界。

要预测"今天天气真好,我们去___",模型需要知道"天气好"和"出去玩"的关联。

要预测"小明考试不及格,他很___",模型需要理解人类的情绪。

语言模型通过学习大量文本,掌握了语言的规律和世界的知识。

Transformer:大模型的基础
#

大语言模型的基础是Transformer架构。

2017年,Google发表论文《Attention Is All You Need》,提出了Transformer。

在此之前,语言模型主要使用RNN(循环神经网络)。RNN按顺序处理文本,速度慢,难以并行。

Transformer使用自注意力机制(Self-Attention),可以并行处理整个序列,大大提高了效率。

Transformer成为大语言模型的标准架构。GPT、BERT、LLaMA都基于Transformer。

GPT的进化
#

GPT-1(2018)

OpenAI发布了第一个GPT模型,有1.17亿参数。

它在未标注文本上预训练,然后在特定任务上微调。

效果不错,但没有引起太大关注。

GPT-2(2019)

参数增加到15亿。训练数据更多。

OpenAI最初拒绝发布完整模型,担心被用于生成假新闻。

后来他们改变了主意,发布了完整模型。

GPT-2可以生成连贯的长文本,但经常跑题、重复。

GPT-3(2020)

参数增加到1750亿。训练数据45TB。

GPT-3展示了**少样本学习(Few-shot Learning)**能力:只需要给几个例子,就能学会新任务。

它可以写文章、写代码、回答问题、翻译语言……

GPT-3让人们意识到:规模很重要。

GPT-4(2023)

参数数量未公开,估计在万亿级别。

GPT-4是多模态模型,可以理解图像和文本。

它在各种考试中表现出色:模拟律师资格考试排名前10%,SAT数学考试排名前20%。

规模法则
#

OpenAI发现了一个规律:规模法则(Scaling Laws)

模型的能力随着三个因素增长:

  • 参数数量:模型越大,能力越强
  • 数据量:训练数据越多,能力越强
  • 计算量:训练时间越长,能力越强

这三个因素按比例增长,模型能力可以预测。

这解释了为什么大公司竞相训练更大的模型。

涌现能力
#

更有趣的是涌现能力(Emergent Abilities)

小模型做不到的事情,大模型突然就能做到了。

比如:

  • 思维链推理:GPT-3不能,GPT-3.5可以
  • 数学推理:小模型很差,大模型突然变好
  • 编程能力:小模型生成乱码,大模型写出可运行代码

这就像物理学中的"相变":温度升高到某个临界点,水突然变成蒸汽。

涌现能力让大模型变得更有用,也更难预测。

大模型的应用
#

大语言模型可以用于:

内容创作

  • 写文章、写邮件、写报告
  • 创作小说、诗歌、剧本
  • 生成营销文案

编程助手

  • 写代码、调试代码
  • 解释代码、重构代码
  • 转换编程语言

知识问答

  • 回答各种问题
  • 解释复杂概念
  • 提供学习建议

语言翻译

  • 多语言翻译
  • 实时对话翻译

对话机器人

  • 客服机器人
  • 虚拟助手
  • 角色扮演

大模型的局限
#

大模型也有局限:

幻觉(Hallucination)

大模型会自信地说出错误的信息。它不知道自己不知道什么。

知识截止

模型的知识停留在训练数据的时间点。GPT-4的知识截止于2023年。

偏见

模型可能继承训练数据的偏见。

成本

训练大模型需要数千万美元。运行大模型也需要昂贵的GPU。

安全

大模型可能被用于生成假新闻、网络攻击等恶意用途。

开源大模型
#

OpenAI最初是开源的,但后来变成闭源。

其他公司发布了开源大模型:

  • LLaMA:Meta发布,开源社区广泛使用
  • Mistral:法国公司发布,性能优秀
  • Qwen:阿里发布,中文能力强
  • Yi:零一万物发布
  • DeepSeek:深度求索发布

开源大模型让更多人可以使用和改进大模型技术。

下一步:ChatGPT
#

2022年11月,OpenAI发布了ChatGPT

这是一个基于GPT-3.5的对话机器人,可以自然地与人对话。

它在两个月内获得了1亿用户,成为历史上增长最快的应用。

ChatGPT把大语言模型带入了大众视野。

明天,我们来讲ChatGPT的故事。


今日知识点
#

大语言模型(Large Language Model,LLM) 参数量巨大的语言模型,如GPT、LLaMA、Claude。大语言模型通过学习海量文本,掌握了语言理解和生成能力,可以用于对话、写作、编程等任务。

Transformer 2017年提出的神经网络架构,使用自注意力机制处理序列数据。Transformer可以并行计算,效率高,成为大语言模型的标准架构。

涌现能力(Emergent Abilities) 大模型在小模型基础上突然出现的新能力。比如思维链推理、数学推理等能力,在模型规模达到某个临界点后才出现。


思考题
#

  1. 大语言模型通过"预测下一个词"学会了语言和知识。你觉得这和人类学习语言的方式相似吗?
  2. 大模型会产生"幻觉",自信地说出错误信息。你觉得这个问题能解决吗?

明天预告:ChatGPT时刻——AI如何进入大众视野,改变人机交互?

计算机前世今生 - 这篇文章属于一个选集。
§ : 本文

相关文章