Multimodal
Multimodal betyder att systemet tar in mer än ett sätt att representera information – klassiskt text och bild, ibland ljud eller video. Du kan till exempel ladda upp en skärmdump och be modellen hitta buggar.
Modeller som Gemini profilerar sig ofta kring bild+text; ChatGPT och Claude erbjuder liknande lägen beroende på version. För ren bildgenerering, se AI-bildgenerator.
Nyckelegenskaper
- Betyder att modellen kan arbeta med flera datatyper som text, bild, ljud eller video i samma flöde.
- Gör det möjligt att exempelvis analysera en skärmdump, transkribera ljud och svara i text i ett sammanhängande steg.
- Påverkar vilket verktyg eller modellval som passar bäst för uppgiften, särskilt i praktiska assistentflöden.