Whisper is an open-source automatic speech recognition (ASR) system developed by OpenAI, trained on 680,000 hours of multilingual and multitask supervised data collected from the web. Released in September 2022, Whisper approaches human-level robustness and accuracy on English speech recognition and demonstrates strong performance across many languages, accents, and audio conditions without the need for fine-tuning. The model is designed as a general-purpose speech recognition system capable of multilingual speech recognition, speech translation to English, and language identification. Whisper employs a transformer-based encoder-decoder architecture and was trained using a large-scale weak supervision approach, learning from a diverse dataset of audio paired with transcripts sourced from the internet. This training methodology enables Whisper to handle a wide variety of audio conditions including background noise, technical jargon, accented speech, and low-quality recordings that challenge traditional ASR systems. The model is available in multiple sizes to accommodate different computational requirements: Tiny (39M parameters), Base (74M), Small (244M), Medium (769M), and Large (1.55B parameters), with larger models providing higher accuracy at the cost of increased inference time and memory usage. Whisper supports transcription and translation across approximately 100 languages, with particularly strong performance in English, Spanish, French, German, Italian, Portuguese, Japanese, Korean, Chinese, and many other widely spoken languages. The model includes automatic punctuation, capitalization, and timestamp generation at both the segment and word level. As open-source software released under the MIT license, Whisper can be run locally on consumer hardware with a compatible GPU, integrated into applications through Python, or accessed through OpenAI's commercial API for managed inference. The open-source release has spawned a large ecosystem of tools, integrations, and optimized variants including faster-whisper, whisper.cpp, and WhisperX that offer improved inference speed and additional features.
نماذج الصوت بالذكاء الاصطناعي
Whisper هو نموذج صوتي مفتوح المصدر أساسي يعالج الكلام باستخدام بنية محول قائمة على المشفر فك التشفير، مدربة على 680,000 ساعة من البيانات متعددة اللغات. يتوفر في خمسة أحجام تتراوح من 39M إلى 1.55B معامل، ويعمل كنموذج أساسي لفهم الصوت لمهام التعرف على الكلام والترجمة وتحديد اللغة عبر نظام الذكاء الاصطناعي.
أدوات البحث العلمي بالذكاء الاصطناعي
يعمل Whisper كأداة أساسية لأبحاث الكلام والصوت، حيث يوفر خط أساس مفتوح المصدر عالي الجودة لقياس أداء أنظمة التعرف على الكلام الآلي. يستخدم الباحثون Whisper وأشكاله المختلفة لدراسة التعرف على الكلام متعدد اللغات وتقنيات معالجة الصوت، وكمكون في أنظمة الذكاء الاصطناعي متعددة الأنماط التي تجمع بين فهم الكلام والأنماط الأخرى.
النسخ النصي بالذكاء الاصطناعي
Whisper هو أحد أكثر أنظمة النسخ الآلي للذكاء الاصطناعي قدرة وانتشاراً، حيث يوفر التعرف على الكلام الآلي عبر حوالي 100 لغة بدقة قريبة من دقة الإنسان في اللغة الإنجليزية. يتعامل مع ظروف صوتية متنوعة تشمل الضوضاء الخلفية والكلام بلكنات مختلفة والمصطلحات التقنية، مع إنتاج نصوص بعلامات ترقيم وتكبير أحرف وطوابع زمنية تلقائية.
نماذج اللغة الكبيرة مفتوحة المصدر
بينما يُعتبر Whisper من الناحية الفنية نموذج كلام وليس نموذج لغة، إلا أنه يعتبر واحدًا من أهم إصدارات OpenAI مفتوحة المصدر من قبل تحت ترخيص MIT. لقد مكّن توفره المفتوح نظامًا بيئيًا كاملاً من الأدوات المشتقة والتطبيقات المُحسّنة، مما جعله حجر الزاوية في مجتمع الذكاء الاصطناعي مفتوح المصدر لمهام معالجة الصوت.
تفاصيل الأداة مجاني
التسعيرFree open-source (API access via OpenAI: $0.006/minute)
المنصةSelf-hosted,API
المقر الرئيسيSan Francisco, California
التأسيس2022
الخطة المجانيةنعم
API متاحنعم
مفتوح المصدرنعم
4.6
1 reviews
Format Flexibility
4.7
Audio Fidelity
4.7
Prompt Adherence
4.5
Voice Naturalness
4.3
Processing Speed
3.6
Claude Opus 4.6
AI Review
4.6/5
OpenAI's Whisper is a groundbreaking open-source automatic speech recognition (ASR) model that has set a new standard for transcription accuracy. Trained on 680,000 hours of multilingual data, it handles transcription, translation, and language identification across 99 languages with impressive robustness. The model comes in multiple sizes (tiny to large-v3), allowing users to balance accuracy against computational requirements. Local deployment is straightforward with a clean Python API, and the community has built numerous wrappers and optimizations like faster-whisper. For those preferring cloud access, OpenAI's API offers transcription at a very competitive $0.006/minute. Strengths include exceptional noise resilience, strong multilingual support, and zero-cost self-hosting. Limitations include higher compute demands for larger models, occasional hallucinations on silent audio segments, and no real-time streaming in the base implementation. As a research tool, the published methodology and open weights make it invaluable for audio ML experimentation. While not technically an LLM, its transformer architecture and open-source nature make it a cornerstone of the open AI ecosystem.