何を探索できるか
Attention: 言葉が言葉を見るしくみを、3Dモデル、問い、操作パネルを通じて探索する導入ページです。
Luneidea Explore
大規模言語モデルの中心にある自己注意を、トークン同士を結ぶ光線網として探索します。"it" がどの語を見ているかを、softmax(QKᵀ/√d_k)·V の重みとして触って確かめます。
Attention: 言葉が言葉を見るしくみを、3Dモデル、問い、操作パネルを通じて探索する導入ページです。
構造、変化、注目点を切り替えながら、見える形と背景にあるしくみをつなげます。
発見ステージ進行 / ヘッド切替 / 視点トークン選択 / Temperature変更 / Causal mask切替
Attention: 言葉が言葉を見るしくみ、Query token、Key tokens、Attention weights、Causal mask
この3Dは特定モデルの重みの再現ではなく、自己注意のしくみを読むための説明モデルです。大規模言語モデルは、各トークンを高次元ベクトルとして扱い、次の処理へ進む前に「いまこの語は、文中のどの語を参照すべきか」を決めます。その配分が注意(attention)です。ここでは短い英文を題材に、ある語の視点から伸びる光線として注意を可視化します。
各トークンからは、問い合わせるためのQuery、照合されるためのKey、運ばれる中身のValueが作られます。あるQueryと各Keyの内積 QKᵀ を鍵次元の平方根 √d_k で割り、softmaxに通すと、合計が1になる重みの並びが得られます。この重みでValueを混ぜ合わせたものが、その位置の新しい表現です。パネルの式 softmax(QKᵀ/√d_k)·V の各項が、画面のどの要素に対応するかを確かめてください。
Coreferenceヘッドで視点トークンを "it" にすると、光線は前方の名詞 "cat" に集中します。代名詞が指す対象を、注意が文脈から動的に選んでいる様子です。Previousヘッドでは直前の語へ、Syntacticヘッドでは節の動詞へと、ヘッドごとに役割の違う見方が同時に存在します。実際のモデルでは、こうしたヘッドが何十も並び、層を重ねて少しずつ意味を組み立てます。
このページは検索と導入のための言語別ページです。3D操作は無印の体験URLで開きます。
教材本文は日本語と英語を公式監修版として扱います。
英語原文からの機械翻訳として表示し、原文へのリンクを添えます。
キー入力がプラグボード、ローター、反射板を通って別の文字になる過程を、3Dモデルと信号トレースで追体験します。
空間に入るBletchley ParkでEnigma暗号解読を支えたTuring-Welchman Bombeを、抽象的な計算モデルへ入る前の歴史的Preludeとして観察します。
空間に入る実機再現ではなく Concept Machine として、テープ、読み書きヘッド、状態遷移ルールだけで1命令が進むしくみを体験します。
空間に入る