W

Whisper Large V3

openaiによって開発
WhisperはOpenAIが提案した先進的な自動音声認識(ASR)および音声翻訳モデルで、500万時間以上の注釈付きデータで訓練されており、強力なデータセット間およびドメイン間の汎化能力を持っています。
ダウンロード数 4.6M
リリース時間 : 11/7/2023

モデル概要

WhisperはTransformerベースのエンコーダ-デコーダモデルで、複数言語の音声認識および翻訳タスクをサポートしています。large-v3バージョンは前世代と比べて複数言語で10%-20%のエラー率低下を実現しています。

モデル特徴

大規模訓練データ
500万時間以上の注釈付き音声データで訓練されており、100万時間の弱注釈データと400万時間の疑似注釈データを含みます
多言語サポート
98言語の音声認識をサポートし、複数の低リソース言語も含まれます
ゼロショット汎化能力
未見のデータセットやドメインにおいて強力なゼロショット汎化性能を示します
改善された精度
large-v2バージョンと比較して、複数言語で10%-20%のエラー率低下を実現
タイムスタンプサポート
文レベルおよび単語レベルのタイムスタンプ情報を提供可能

モデル能力

音声からテキストへ
多言語音声認識
音声翻訳(英語へ)
長音声処理
タイムスタンプ付き転記

使用事例

音声転記
会議議事録
会議録音を自動的に文字記録に転記
高精度で、複数言語とアクセントをサポート
ポッドキャスト転記
ポッドキャスト内容を検索およびアーカイブ用に文字化
長時間音声処理をサポート
音声翻訳
リアルタイム翻訳
非英語音声をリアルタイムで英語テキストに翻訳
高品質な翻訳、低遅延
字幕生成
動画字幕
動画コンテンツに自動的に字幕を生成
タイムスタンプ調整をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase