Next-token Prediction: How Words Are Born
Watch logits become a probability distribution through softmax, reshape with temperature, and collapse to a single sampled word.
次の語への点数
モデルは "Once upon a ___" の続きとして、語彙のすべての語に点数(logit)を出します。ここでは代表的な候補だけを光の柱として並べました。柱の高さがそのままlogitの大きさです。"time" が飛び抜けているのが見えます。
柱の高さを眺めて、どの語のlogitが突出しているかを見つける。
Distribution
time93%
while3%
midnight2%
dream1%
star1%
hill1%
day0%
night0%
鋭さ(エントロピー)19%。0%なら一点、100%なら一様分布です。


