大模型发展历程

结构

大语言模型基础
- 语言模型
语言模型
- 什么是语言模型
- 自回归语言模型(Autoregressive language models)
- 总结
- 大模型相关历史回顾
- 信息理论、英语的熵、n-gram模型
  - 英语的熵
  - 用于下游应用的N-gram模型
  - 神经语言模型
- 总结

定义

语言模型（LM）

语言模型（LM）的经典定义是一种对令牌序列(token)的概率分布。假设有一个令牌集的词汇表 VV 。语言模型p为每个令牌序列 $x_{1},...,x_{L}$ ∈ $V$ 分配一个概率（介于0和1之间的数字）：

$$
p(x_1,...x_L)
$$

自回归语言模型(Autoregressive LM)

将序列 $x_{1:L}$ 的联合分布 $p(x_{1:L})$ 的常见写法是使用概率的链式法则：
$$
p(x_{1:L}) = p(x_1) p(x_2 \mid x_1) p(x_3 \mid x_1, x_2) \cdots p(x_L \mid x_{1:L-1}) = \prod_{i=1}^L p(x_i \mid x_{1:i-1}).
$$

在自回归语言模型 $p$ 中生成整个序列 $x_{1:L}$ ，我们需要一次生成一个令牌(token)，该令牌基于之前以生成的令牌进行计算获得：

$$
\begin{aligned}
\mathrm{for~}i&=1,\ldots,L:
\\
x_{i}&\sim p(x_i\mid x_{1:i-1})^{1/T},
\end{aligned}
$$

退火条件概率分布

我们将标准化版本 $p_{T}(x_{i}∣x_{1:i−1})∝p(x_{i}∣x_{1:i−1})^{1/T}$称为退火条件概率分布。

非自回归的条件生成模型

对于非自回归的条件生成，更一般地，我们可以通过指定某个前缀序列 $x_{1:i}$ （称为提示）并采样其余的 $x_{i+1:L}$ （称为补全）来进行条件生成。例如，生成 $T=0$ 的产生的：
$$
\begin{equation}
\underbrace{the,mouse,ate}_ {\mathrm{prompt}}\overset{T=0}{\leadsto}\underbrace{the,cheese}_{\text{completion}}. \nonumber
\end{equation}
$$

熵（Entropy）

信息量与信息熵-CSDN博客

如何理解用信息熵来表示最短的平均编码长度_最短编码长度-CSDN博客

信息量

信息量是度量知晓一个未知事物需要查询的信息的多少，单位是比特，表示为随机变量取某个值时，其概率倒数的对数。

$$
I_i=\log_2(\frac{1}{p_i})=-\log_2p_i
$$

信息熵

信息量的期望
$$
H(p) = \sum_x p(x) \log \frac{1}{p(x)}.
$$

交叉熵

$$
H(p, q)=-\sum_x p(x) \log q(x)
$$

这测量了需要多少比特来编码样本x∼p，使用由模型q给出的压缩方案（用长度为1/q(x)的代码表示x）。

通过语言模型估计熵。一个关键的属性是，交叉熵H(p,q)上界是熵H(p)：

基于词的n-gram语言模型

N-gram模型。在一个n-gram模型中，关于$x_{i}$的预测只依赖于最后的 $n-1$个字符 $x_{i−(n−1):i−1}$，而不是整个历史：
$$
p(x_i \mid x_{1:i-1}) = p(x_i \mid x_{i-(n-1):i-1}).
$$

神经语言模型

语言模型的一个重要进步是神经网络的引入。Bengio等人在2003年首次提出了神经语言模型，其中 $p(x_{i}∣x_{i−(n−1):i−1})$ 由神经网络给出：

注意，上下文长度仍然受到n的限制，但现在对更大的n值估计神经语言模型在统计上是可行的。

然而，主要的挑战是训练神经网络在计算上要昂贵得多。他们仅在1400万个词上训练了一个模型，并显示出它在相同数据量上优于n-gram模型。但由于n-gram模型的扩展性更好，且数据并非瓶颈，所以n-gram模型在至少接下来的十年中仍然占主导地位。

自2003年以来，神经语言建模的两个关键发展包括：

Recurrent Neural Networks（RNNs），包括长短期记忆（LSTMs），使得一个令牌$x_{i}$的条件分布可以依赖于整个上下文 $x_{1:i−1}$ （有效地使 $n=∞$ ），但这些模型难以训练。
Transformers是一个较新的架构（于2017年为机器翻译开发），再次返回固定上下文长度n，但更易于训练（并利用了GPU的并行性）。此外，n可以对许多应用程序「足够大」（GPT-3使用的是n=2048）。