The Residual Stream: A River Through the Layers
See the residual stream as a glowing river that every layer reads from and writes to, with attention and MLP tributaries adding features.
一本の発光する川
Transformerの各層は、それぞれ独立して計算するのではなく、一本の共有された流れ——残差ストリーム——を読み書きします。ここではそれを、入力から出力へ流れる発光する川として眺めます。川は層を通るたびに少しずつ情報を足され、明るさを増していきます。
川が入力から出力へ流れ、層を通るごとに明るくなる様子を眺める。
Stream contents
主語1.2
固有物1.0
時制0.9
感情1.2
attn: 文脈をまとめる / mlp: 出力前の仕上げ。最終層が全体を整え、次トークン予測へ渡す表現を仕上げます。


