Transformer 学习笔记

一、整体架构

Transformer 的核心由两类模块交替堆叠构成：

Attention（注意力机制）：负责跨 token 的信息路由，决定序列中哪些位置需要互相交流
Feed-Forward Network（前馈网络）：负责对每个 token 的表示做非线性变换，独立处理每个位置

除此之外，残差连接（Residual Connection） 和 Layer Norm 是工程基础：残差连接让梯度稳定流过深层网络，Layer Norm 稳定每层的激活分布。

每次预测一个 next token，输入序列的所有 token 都要完整地通过所有 N 层（每层 Attention + FFN），最终取最后位置的输出向量，经过 Unembedding 矩阵 + softmax 得到词表概率分布，采样得到下一个 token。

完整前向传播流程

token IDs
  → Embedding Matrix（查表）         → [seq_len × d_model]

重复 N 层：
  → Multi-Head Attention
  → 残差连接 + Layer Norm
  → Feed-Forward Network
  → 残差连接 + Layer Norm

  → Unembedding Matrix（线性）       → [seq_len × vocab_size]
  → Softmax
  → 概率分布 → 采样 → next token

二、Embedding 层

Embedding Matrix

形状为 [vocab_size × d_model]，是一个查表矩阵，将 token ID 映射为高维向量。初始随机，通过训练端到端优化，最终使语义相近的 token 在向量空间中距离更近。

注意：Embedding 层输出的向量是静态的，与上下文无关。「苹果」在任何句子里从 Embedding 层出来都是同一个向量。理解上下文是后续 Attention 层的职责。

词表大小（vocab_size）

由 Tokenizer 算法预先确定，与模型本身无关。常见算法：BPE（GPT 系列）、WordPiece（BERT）、SentencePiece（LLaMA）。词表大小是人为设定的超参数：

模型	词表大小
GPT-2	50,257
LLaMA 3	128,256
Gemma	256,000

嵌入维度（d_model）

人为设定的超参数，与模型规模正相关，决定整个网络的「宽度」：

模型	d_model
GPT-2 small	768
LLaMA 3 8B	4,096
GPT-3	12,288

d_model 越高，每层 Attention 交互携带的信息量越丰富，但参数量和计算量也线性增长。