Multimodal

Multimodal betyder att systemet tar in mer än ett sätt att representera information – klassiskt text och bild, ibland ljud eller video. Du kan till exempel ladda upp en skärmdump och be modellen hitta buggar.

Modeller som Gemini profilerar sig ofta kring bild+text; ChatGPT och Claude erbjuder liknande lägen beroende på version. För ren bildgenerering, se AI-bildgenerator.

Nyckelegenskaper

Betyder att modellen kan arbeta med flera datatyper som text, bild, ljud eller video i samma flöde.
Gör det möjligt att exempelvis analysera en skärmdump, transkribera ljud och svara i text i ett sammanhängande steg.
Påverkar vilket verktyg eller modellval som passar bäst för uppgiften, särskilt i praktiska assistentflöden.