Diraitory

4.6 2 reviews

Whisper

เกี่ยวกับ

Whisper คือระบบ automatic speech recognition (ASR) แบบ open-source ที่พัฒนาโดย OpenAI ฝึกฝนด้วยข้อมูล supervised แบบหลายภาษาและหลายงาน 680,000 ชั่วโมงที่รวบรวมจากเว็บ เปิดตัวในเดือนกันยายน 2022 Whisper มีความแม่นยำและความทนทานในระดับมนุษย์สำหรับการรู้จำเสียงพูดภาษาอังกฤษ และแสดงประสิทธิภาพที่ดีในหลายภาษา, สำเนียง และสภาวะเสียงโดยไม่จำเป็นต้อง fine-tune model ได้รับการออกแบบเป็นระบบรู้จำเสียงพูดอเนกประสงค์ที่มีความสามารถในการรู้จำเสียงพูดหลายภาษา, การแปลเสียงพูดเป็นภาษาอังกฤษ และการระบุภาษา Whisper ใช้สถาปัตยกรรม transformer-based encoder-decoder และถูกฝึกด้วยวิธี weak supervision ขนาดใหญ่ โดยเรียนรู้จากชุดข้อมูลเสียงที่หลากหลายพร้อม transcripts จากอินเทอร์เน็ต วิธีการฝึกนี้ช่วยให้ Whisper จัดการกับสภาวะเสียงที่หลากหลาย รวมถึงเสียงรบกวนในพื้นหลัง, ศัพท์เทคนิค, เสียงพูดสำเนียงต่างๆ และการบันทึกคุณภาพต่ำที่ท้าทายระบบ ASR แบบดั้งเดิม model มีหลายขนาดเพื่อรองรับข้อกำหนดด้านการคำนวณที่แตกต่างกัน: Tiny (39M parameters), Base (74M), Small (244M), Medium (769M) และ Large (1.55B parameters) โดย model ขนาดใหญ่ให้ความแม่นยำสูงกว่าแต่ใช้เวลา inference และหน่วยความจำมากกว่า Whisper รองรับการถอดความและการแปลใน 100 ภาษาโดยประมาณ โดยมีประสิทธิภาพดีเป็นพิเศษในภาษาอังกฤษ, สเปน, ฝรั่งเศส, เยอรมัน, อิตาลี, โปรตุเกส, ญี่ปุ่น, เกาหลี, จีน และภาษาที่ใช้อย่างแพร่หลายอื่น ๆ อีกมากมาย model รวมการสร้างเครื่องหมายวรรคตอน, การใช้ตัวพิมพ์ใหญ่ และ timestamp อัตโนมัติทั้งในระดับ segment และคำ ในฐานะซอฟต์แวร์ open-source ที่เผยแพร่ภายใต้ MIT license Whisper สามารถรันบนฮาร์ดแวร์ผู้บริโภคที่มี GPU รองรับ, ผสานเข้ากับแอปพลิเคชันผ่าน Python หรือเข้าถึงผ่าน OpenAI commercial API สำหรับ managed inference การเปิดตัว open-source ได้สร้าง ecosystem ขนาดใหญ่ของเครื่องมือ, การผสาน และ variants ที่ปรับปรุงแล้ว เช่น faster-whisper, whisper.cpp และ WhisperX ที่มีความเร็ว inference ที่ดีขึ้นและฟีเจอร์เพิ่มเติม

โมเดลเสียง AI

Whisper คือโมเดลเสียงแบบโอเพนซอร์สที่พื้นฐาน ซึ่งประมวลผลเสียงพูดโดยใช้สถาปัตยกรรมแบบ transformer encoder-decoder ที่ผ่านการฝึกอบรมจากข้อมูลพหุภาษา 680,000 ชั่วโมง มีให้บริการห้าขนาดตั้งแต่พารามิเตอร์ 39M ถึง 1.55B ซึ่งทำหน้าที่เป็นโมเดลการเข้าใจเสียงหลักสำหรับงานการรับรู้เสียงพูด การแปลภาษา และการระบุภาษาในทั้งระบบนิเวศ AI

เครื่องมือวิจัยด้วย AI

Whisper ทำหน้าที่เป็นเครื่องมือพื้นฐานสำหรับการวิจัยเสียงพูดและเสียง โดยให้เส้นฐานแบบโอเพนซอร์สที่มีคุณภาพสูงสำหรับการเปรียบเทียบระบบ ASR ผู้วิจัยใช้ Whisper และตัวแปรของมันเพื่อศึกษาการรับรู้เสียงพูดแบบพหุภาษา เทคนิคการประมวลผลเสียง และเป็นส่วนประกอบในระบบ AI แบบมัลติโมดอลที่รวมความเข้าใจเสียงพูดกับโมดอลอื่น ๆ

การถอดเสียง AI

Whisper เป็นหนึ่งในระบบการแปลงเสียงเป็นข้อความด้วย AI ที่มีความสามารถสูงและใช้งานอย่างแพร่หลายมากที่สุด ซึ่งมอบการรับรู้เสียงพูดอัตโนมัติในภาษาประมาณ 100 ภาษา โดยมีความแม่นยำใกล้เคียงกับมนุษย์ในภาษาอังกฤษ มันสามารถจัดการกับสภาวะเสียงที่หลากหลาย รวมถึงเสียงรบกวนพื้นหลัง เสียงพูดที่มีสำเนียง และศัพท์เทคนิค พร้อมสร้างสนใจข้อความด้วยการวรรคตอนอัตโนมัติ การใส่ตัวอักษรพิมพ์ใหญ่ และการประทับเวลา

LLM โอเพนซอร์ส

แม้ว่าเป็น speech model มากกว่า language model แต่ Whisper เป็นหนึ่งในการปล่อย open-source AI ที่มีนัยสำคัญที่สุดของ OpenAI ภายใต้ใบอนุญาต MIT การมีให้ใช้แบบเปิด ช่วยให้เกิด ecosystem ทั้งหมดของเครื่องมือที่ได้มา และการใช้งานที่ได้รับการปรับให้เหมาะสม ทำให้เป็นมุมเด็ของ open-source AI community สำหรับงานประมวลผลเสียง

รายละเอียดเครื่องมือ ฟรี

ราคา Free open-source (API access via OpenAI: $0.006/minute)

แพลตฟอร์ม Self-hosted,API

สำนักงานใหญ่ San Francisco, California

ก่อตั้ง 2022

แผนฟรี ใช่

มี API ให้บริการ ใช่

โอเพ่นซอร์ส ใช่

4.6

1 reviews

Format Flexibility

4.7

Audio Fidelity

4.7

Prompt Adherence

4.5

Voice Naturalness

4.3

Processing Speed

3.6

Claude Opus 4.6

AI Review

4.6/5

OpenAI's Whisper is a groundbreaking open-source automatic speech recognition (ASR) model that has set a new standard for transcription accuracy. Trained on 680,000 hours of multilingual data, it handles transcription, translation, and language identification across 99 languages with impressive robustness. The model comes in multiple sizes (tiny to large-v3), allowing users to balance accuracy against computational requirements. Local deployment is straightforward with a clean Python API, and the community has built numerous wrappers and optimizations like faster-whisper. For those preferring cloud access, OpenAI's API offers transcription at a very competitive $0.006/minute. Strengths include exceptional noise resilience, strong multilingual support, and zero-cost self-hosting. Limitations include higher compute demands for larger models, occasional hallucinations on silent audio segments, and no real-time streaming in the base implementation. As a research tool, the published methodology and open weights make it invaluable for audio ML experimentation. While not technically an LLM, its transformer architecture and open-source nature make it a cornerstone of the open AI ecosystem.