W

Whisper Large

openaiによって開発
Whisperは、自動音声認識(ASR)と音声翻訳に使用される事前学習モデルで、68万時間のラベル付きデータで学習され、強力な汎化能力を持っています。
ダウンロード数 175.34k
リリース時間 : 9/26/2022

モデル概要

WhisperはTransformerベースのエンコーダ - デコーダモデルで、多言語音声認識と翻訳タスクをサポートし、微調整なしで様々なデータセットに適応できます。

モデル特徴

大規模事前学習
68万時間のラベル付き音声データで学習され、強力な汎化能力を持っています。
多言語サポート
96種類の言語の音声認識と翻訳タスクをサポートします。
ゼロサンプル学習
微調整なしで様々なデータセットと分野に適応できます。
多機能タスク
音声認識(同言語転写)と音声翻訳(異言語翻訳)の両方をサポートします。

モデル能力

英語音声認識
多言語音声認識
音声翻訳
オーディオ転写
自動字幕生成

使用事例

音声転写
会議記録
会議の録音を自動的に文字記録に転写します。
LibriSpeechテストセットでのWER(単語誤り率)は、クリーンデータで3.0、その他のデータで5.4です。
ポッドキャスト字幕
ポッドキャストの内容に自動字幕を生成します。
音声翻訳
リアルタイム翻訳
ある言語の音声をリアルタイムで別の言語の文字に翻訳します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase