Transformer

Transformer-modellen (Vaswani m.fl., 2017) byter ut recurrenta lager mot self-attention så varje token kan se alla andra tokens i context window parallellt – ideal för GPU.

Det möjliggjorde skalning till miljarder parametrar och lade grunden för large language model, multimodal varianter och modern deep learning. Praktiskt fokus för läsaren: bra prompt engineering, inte mattrismultiplikation.


Nyckelegenskaper

  • Är arkitekturen som gjort moderna språkmodeller och många multimodala modeller praktiskt användbara i stor skala.
  • Bygger på self-attention, vilket gör att modellen kan väga relationer mellan tokens mer effektivt än äldre sekvensmodeller.
  • Förklarar varför begrepp som tokens, context window och skalning är så centrala i dagens AI-system.