W

Whisper Large V3 Turbo

openaiによって開発
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、ゼロショット設定において強力な汎化能力を発揮します。
ダウンロード数 4.0M
リリース時間 : 10/1/2024

モデル概要

Whisper large-v3-turboはWhisper large-v3のプルーニングおよびファインチューニング版で、デコード層を32層から4層に削減し、速度が大幅に向上しましたが品質はわずかに低下しています。

モデル特徴

効率的な推論
デコード層数を削減することで推論速度を向上させ、リアルタイムアプリケーションに適しています
多言語サポート
90以上の言語の音声認識と翻訳をサポート
ゼロショット汎化能力
未見のデータセットやドメインにおいて優れた性能を発揮
長時間音声処理
長時間の音声ファイルをチャンク処理することで処理効率を向上

モデル能力

音声からテキストへの変換
多言語音声認識
音声翻訳(英語へ)
タイムスタンプ予測
言語検出

使用事例

転写サービス
会議議事録
会議の録音を自動的に転写
高い精度を実現し、複数言語をサポート
ポッドキャスト転写
ポッドキャストの内容をテキストに変換
長時間の音声処理をサポート
翻訳サービス
リアルタイム翻訳
非英語音声をリアルタイムで英語テキストに翻訳
翻訳品質は人間レベルに近い
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase