Luneidea Explore

Attention: 言葉が言葉を見るしくみ

大規模言語モデルの中心にある自己注意を、トークン同士を結ぶ光線網として探索します。"it" がどの語を見ているかを、softmax(QKᵀ/√d_k)·V の重みとして触って確かめます。

何を探索できるか

Attention: 言葉が言葉を見るしくみを、3Dモデル、問い、操作パネルを通じて探索する導入ページです。

操作できる要素

構造、変化、注目点を切り替えながら、見える形と背景にあるしくみをつなげます。

発見ステージ進行 / ヘッド切替 / 視点トークン選択 / Temperature変更 / Causal mask切替

検索キーワード

Attention: 言葉が言葉を見るしくみ、Query token、Key tokens、Attention weights、Causal mask

注意とは「どこを見るか」を選ぶこと

この3Dは特定モデルの重みの再現ではなく、自己注意のしくみを読むための説明モデルです。大規模言語モデルは、各トークンを高次元ベクトルとして扱い、次の処理へ進む前に「いまこの語は、文中のどの語を参照すべきか」を決めます。その配分が注意(attention)です。ここでは短い英文を題材に、ある語の視点から伸びる光線として注意を可視化します。

Query・Key・Value で照合する

各トークンからは、問い合わせるためのQuery、照合されるためのKey、運ばれる中身のValueが作られます。あるQueryと各Keyの内積 QKᵀ を鍵次元の平方根 √d_k で割り、softmaxに通すと、合計が1になる重みの並びが得られます。この重みでValueを混ぜ合わせたものが、その位置の新しい表現です。パネルの式 softmax(QKᵀ/√d_k)·V の各項が、画面のどの要素に対応するかを確かめてください。

"it" は何を見ているか

Coreferenceヘッドで視点トークンを "it" にすると、光線は前方の名詞 "cat" に集中します。代名詞が指す対象を、注意が文脈から動的に選んでいる様子です。Previousヘッドでは直前の語へ、Syntacticヘッドでは節の動詞へと、ヘッドごとに役割の違う見方が同時に存在します。実際のモデルでは、こうしたヘッドが何十も並び、層を重ねて少しずつ意味を組み立てます。

このページと体験本体の違いは?

このページは検索と導入のための言語別ページです。3D操作は無印の体験URLで開きます。

公式監修の言語は?

教材本文は日本語と英語を公式監修版として扱います。

他の言語はどう扱われますか?

英語原文からの機械翻訳として表示し、原文へのリンクを添えます。

エニグマ暗号機のしくみ

キー入力がプラグボード、ローター、反射板を通って別の文字になる過程を、3Dモデルと信号トレースで追体験します。

空間に入る

Turing-Welchman Bombe: Historical Prelude

Bletchley ParkでEnigma暗号解読を支えたTuring-Welchman Bombeを、抽象的な計算モデルへ入る前の歴史的Preludeとして観察します。

空間に入る

Turing Machine: Concept Machine

実機再現ではなく Concept Machine として、テープ、読み書きヘッド、状態遷移ルールだけで1命令が進むしくみを体験します。

空間に入る