Om

Whisper er et åpen kildekode automatisk talegjenkjenningssystem (ASR) utviklet av OpenAI, trent på 680 000 timer med flerspråklige og multitask-overvåkede data innsamlet fra nettet. Utgitt i september 2022 nærmer Whisper seg menneskelig nivå av robusthet og nøyaktighet på engelsk talegjenkjenning og demonstrerer sterk ytelse på tvers av mange språk, aksenter og lydforhold uten behov for finjustering. Modellen er designet som et generelt talegjenkjenningssystem med evne til flerspråklig talegjenkjenning, taleoversettelsetil engelsk og språkidentifikasjon. Whisper bruker en transformatorbasert koder-dekoder-arkitektur og ble trent ved hjelp av en storskala svak overvåkningsmetode, og lærte fra et mangfoldig datasett av lyd parret med transkripsjoner hentet fra internett. Denne treningstilnærmingen gjør det mulig for Whisper å håndtere et bredt utvalg av lydforhold, inkludert bakgrunnsstøy, teknisk sjargong, aksent og lydopptak av lav kvalitet som utfordrer tradisjonelle ASR-systemer. Modellen er tilgjengelig i flere størrelser for å imøtekomme ulike beregningskrav: Tiny (39M parametere), Base (74M), Small (244M), Medium (769M) og Large (1,55B parametere), der større modeller gir høyere nøyaktighet til prisen av økt inferenstid og minnebruk. Whisper støtter transkripsjon og oversettelse på omtrent 100 språk, med spesielt sterk ytelse på engelsk, spansk, fransk, tysk, italiensk, portugisisk, japansk, koreansk, kinesisk og mange andre mye talte språk. Modellen inkluderer automatisk tegnsetting, stor forbokstav og tidsstempelgenerering på både segment- og ordnivå. Som åpen kildekode-programvare utgitt under MIT-lisensen kan Whisper kjøres lokalt på forbrukerhardware med et kompatibelt GPU, integreres i applikasjoner via Python, eller nås via OpenAIs kommersielle API for administrert inferens. Den åpen kildekode-utgivelsen har skapt et stort økosystem av verktøy, integrasjoner og optimaliserte varianter inkludert faster-whisper, whisper.cpp og WhisperX som tilbyr forbedret inferenshastighet og tilleggsfunksjoner.

AI-lydmodeller

Whisper er en grunnleggende åpen kildekode-audiomodell som behandler tale ved hjelp av en transformer-basert encoder-decoder-arkitektur som er trent på 680 000 timer med flerspråklig data. Tilgjengelig i fem størrelser fra 39M til 1,55B parametere, fungerer den som en kjerne-audioforståelsesmodell for talegjenkjenning, oversettelse og språkidentifikasjon på tvers av AI-økosystemet.

AI-forskningsverktøy

Whisper fungerer som et grunnleggende verktøy for tale- og audioforskning, og gir en høykvalitets åpen kildekode-baseline for benchmarking av ASR-systemer. Forskere bruker Whisper og dens varianter for å studere flerspråklig talegjenkjenning, audiobehandlingsteknikker, og som en komponent i multimodale AI-systemer som kombinerer taleforståelse med andre modaliteter.

AI-transkripsjon

Whisper er ett av de mest kompetente og mye brukte AI-transkripsjonsystemene som er tilgjengelige, og gir automatisk talegjenkjenning på omtrent 100 språk med nesten menneskelig nøyaktighet på engelsk. Den håndterer varierte lydforhold inkludert bakgrunnsstøy, aksenter og teknisk terminologi, og genererer transkripsjoner med automatisk tegnsetting, kapitalisering og tidsstempler.

Åpen kildekode-LLM-er

Selv om Whisper teknisk sett er en talemodell snarere enn en språkmodell, er den en av OpenAIs mest betydningsfulle åpen kildekode-AI-utgivelser under MIT-lisensen. Dens åpne tilgjengelighet har muliggjort et helt økosystem av avledede verktøy og optimaliserte implementeringer, noe som gjør det til en hjørnesten i åpen kildekode-AI-fellesskapet for audiobehandlingsoppgaver.

Verktøydetaljer Gratis

Priser Free open-source (API access via OpenAI: $0.006/minute)
Plattform Self-hosted,API
Hovedkontor San Francisco, California
Grunnlagt 2022
Gratis plan Ja
API tilgjengelig Ja
Åpen kildekode Ja
4.6
1 reviews
Format Flexibility
4.7
Audio Fidelity
4.7
Prompt Adherence
4.5
Voice Naturalness
4.3
Processing Speed
3.6
Claude Opus 4.6
AI Review
4.6/5

OpenAI's Whisper is a groundbreaking open-source automatic speech recognition (ASR) model that has set a new standard for transcription accuracy. Trained on 680,000 hours of multilingual data, it handles transcription, translation, and language identification across 99 languages with impressive robustness. The model comes in multiple sizes (tiny to large-v3), allowing users to balance accuracy against computational requirements. Local deployment is straightforward with a clean Python API, and the community has built numerous wrappers and optimizations like faster-whisper. For those preferring cloud access, OpenAI's API offers transcription at a very competitive $0.006/minute. Strengths include exceptional noise resilience, strong multilingual support, and zero-cost self-hosting. Limitations include higher compute demands for larger models, occasional hallucinations on silent audio segments, and no real-time streaming in the base implementation. As a research tool, the published methodology and open weights make it invaluable for audio ML experimentation. While not technically an LLM, its transformer architecture and open-source nature make it a cornerstone of the open AI ecosystem.

Audio Fidelity
4.7
Format Flexibility
4.7
Prompt Adherence
4.5
Voice Naturalness
4.3
Processing Speed
3.6
Feb 15, 2026