一、整体架构

Transformer 的核心由两类模块交替堆叠构成:

除此之外,残差连接(Residual Connection)Layer Norm 是工程基础:残差连接让梯度稳定流过深层网络,Layer Norm 稳定每层的激活分布。

每次预测一个 next token,输入序列的所有 token 都要完整地通过所有 N 层(每层 Attention + FFN),最终取最后位置的输出向量,经过 Unembedding 矩阵 + softmax 得到词表概率分布,采样得到下一个 token。

完整前向传播流程

token IDs
  → Embedding Matrix(查表)         → [seq_len × d_model]

重复 N 层:
  → Multi-Head Attention
  → 残差连接 + Layer Norm
  → Feed-Forward Network
  → 残差连接 + Layer Norm

  → Unembedding Matrix(线性)       → [seq_len × vocab_size]
  → Softmax
  → 概率分布 → 采样 → next token

二、Embedding 层

Embedding Matrix

形状为 [vocab_size × d_model],是一个查表矩阵,将 token ID 映射为高维向量。初始随机,通过训练端到端优化,最终使语义相近的 token 在向量空间中距离更近。

注意:Embedding 层输出的向量是静态的,与上下文无关。「苹果」在任何句子里从 Embedding 层出来都是同一个向量。理解上下文是后续 Attention 层的职责。

词表大小(vocab_size)

Tokenizer 算法预先确定,与模型本身无关。常见算法:BPE(GPT 系列)、WordPiece(BERT)、SentencePiece(LLaMA)。词表大小是人为设定的超参数:

模型 词表大小
GPT-2 50,257
LLaMA 3 128,256
Gemma 256,000

嵌入维度(d_model)

人为设定的超参数,与模型规模正相关,决定整个网络的「宽度」:

模型 d_model
GPT-2 small 768
LLaMA 3 8B 4,096
GPT-3 12,288

d_model 越高,每层 Attention 交互携带的信息量越丰富,但参数量和计算量也线性增长。