Large Language Models

The Residual Stream: A River Through the Layers

See the residual stream as a glowing river that every layer reads from and writes to, with attention and MLP tributaries adding features.

Prologue · 1/4

一本の発光する川

Transformerの各層は、それぞれ独立して計算するのではなく、一本の共有された流れ——残差ストリーム——を読み書きします。ここではそれを、入力から出力へ流れる発光する川として眺めます。川は層を通るたびに少しずつ情報を足され、明るさを増していきます。

川が入力から出力へ流れ、層を通るごとに明るくなる様子を眺める。

Stream contentsLayer 4 まで
主語1.2
固有物1.0
時制0.9
感情1.2

attn: 文脈をまとめるmlp: 出力前の仕上げ最終層が全体を整え、次トークン予測へ渡す表現を仕上げます。

The Residual Stream: A River Through the Layers - Luneidea