Transformer 的核心由两类模块交替堆叠构成:
除此之外,残差连接(Residual Connection) 和 Layer Norm 是工程基础:残差连接让梯度稳定流过深层网络,Layer Norm 稳定每层的激活分布。
每次预测一个 next token,输入序列的所有 token 都要完整地通过所有 N 层(每层 Attention + FFN),最终取最后位置的输出向量,经过 Unembedding 矩阵 + softmax 得到词表概率分布,采样得到下一个 token。
token IDs
→ Embedding Matrix(查表) → [seq_len × d_model]
重复 N 层:
→ Multi-Head Attention
→ 残差连接 + Layer Norm
→ Feed-Forward Network
→ 残差连接 + Layer Norm
→ Unembedding Matrix(线性) → [seq_len × vocab_size]
→ Softmax
→ 概率分布 → 采样 → next token
形状为 [vocab_size × d_model],是一个查表矩阵,将 token ID 映射为高维向量。初始随机,通过训练端到端优化,最终使语义相近的 token 在向量空间中距离更近。
注意:Embedding 层输出的向量是静态的,与上下文无关。「苹果」在任何句子里从 Embedding 层出来都是同一个向量。理解上下文是后续 Attention 层的职责。
由 Tokenizer 算法预先确定,与模型本身无关。常见算法:BPE(GPT 系列)、WordPiece(BERT)、SentencePiece(LLaMA)。词表大小是人为设定的超参数:
| 模型 | 词表大小 |
|---|---|
| GPT-2 | 50,257 |
| LLaMA 3 | 128,256 |
| Gemma | 256,000 |
人为设定的超参数,与模型规模正相关,决定整个网络的「宽度」:
| 模型 | d_model |
|---|---|
| GPT-2 small | 768 |
| LLaMA 3 8B | 4,096 |
| GPT-3 | 12,288 |
d_model 越高,每层 Attention 交互携带的信息量越丰富,但参数量和计算量也线性增长。