W

Whisper Large V3

unslothによって開発
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、複数言語をサポート
ダウンロード数 4,002
リリース時間 : 5/14/2025

モデル概要

WhisperはTransformerベースのエンコーダ-デコーダモデルで、自動音声認識と音声翻訳タスク用です。large-v3バージョンは100万時間の弱ラベル付き音声と400万時間の疑似ラベル付き音声でトレーニングされ、複数言語をサポートし、前世代バージョンよりも優れた性能を発揮

モデル特徴

多言語サポート
50以上の言語の音声認識と翻訳をサポート、低リソース言語も含む
大規模トレーニング
100万時間の弱ラベル付き音声と400万時間の疑似ラベル付き音声でトレーニング、幅広い分野をカバー
ゼロショット汎化能力
未見のデータセットや分野でも強力な汎化能力を発揮
改善された精度
large-v2バージョンと比較してエラー率10-20%低減
長形式音声処理
30秒を超える長音声をチャンク分割または順次処理でサポート

モデル能力

音声からテキストへ
多言語音声認識
音声翻訳(英語へ)
タイムスタンプ予測
言語検出
長音声処理

使用事例

音声文字起こし
会議議事録
ビジネス会議内容を自動で文字起こし
高精度な会議議事録テキスト
ポッドキャスト文字起こし
ポッドキャスト音声を検索可能なテキストに変換
コンテンツ検索・分析に適したテキスト形式
音声翻訳
リアルタイム翻訳
非英語音声をリアルタイムで英語テキストに翻訳
異言語間コミュニケーションの橋渡し
支援技術
字幕生成
動画コンテンツに自動で字幕を生成
動画コンテンツのアクセシビリティ向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase