W

Whisper Large V3 Turbo

unslothによって開発
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、強力なゼロショット汎化能力を備えています。Turboバージョンはオリジナルのプルーニングおよび微調整バージョンで、デコード層を32層から4層に削減し、速度が大幅に向上していますが、品質はわずかに低下しています。
ダウンロード数 94
リリース時間 : 5/14/2025

モデル概要

Whisperは多言語自動音声認識および音声翻訳システムで、音声をテキストに変換し、複数の言語間の翻訳をサポートします。

モデル特徴

高速推論
Turboバージョンはデコード層数を減らすことで1.5倍の高速推論を実現
多言語サポート
100以上の言語の音声認識と翻訳をサポート
ゼロショット学習
未経験の言語や分野でも強力な汎化能力を発揮
タイムスタンプ予測
文レベルおよび単語レベルのタイムスタンプを予測可能

モデル能力

音声からテキストへの変換
多言語音声認識
音声から英語への翻訳
タイムスタンプ予測
長音声処理

使用事例

書き起こしサービス
会議議事録
会議内容を自動で記録し文字起こしを生成
会議効率向上、後続の参照が容易
ポッドキャスト書き起こし
ポッドキャスト音声コンテンツを検索可能なテキストに変換
コンテンツのアクセシビリティとSEO効果向上
翻訳サービス
リアルタイム翻訳
外国語音声をリアルタイムで英語テキストに翻訳
言語障壁の打破、国際交流の促進
メディア制作
字幕生成
動画に自動で字幕を生成
手動字幕作成時間の削減、動画のアクセシビリティ向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase