Speech-to-Text (STT)

Speech-to-Text (STT) driver röstmemo, möjliggör undertexter och stänger loopen mellan mikrofon och LLM. Dagens system hanterar brus och flera talare bättre än regelbaserad fonetik gjorde.

Utforska verktyg som Descript eller ElevenLabs, där vissa erbjuder både STT och TTS. Se multimodal för kombination med textmodeller.