W

Whisper Large V2

openaiによって開発
Whisperは事前学習済みの自動音声認識(ASR)および音声翻訳モデルで、68万時間の注釈付きデータでトレーニングされ、強力な汎化能力を備えています
ダウンロード数 176.55k
リリース時間 : 12/5/2022

モデル概要

Transformerベースのエンコーダ-デコーダモデルで、多言語音声認識と翻訳タスクをサポートし、ファインチューニングなしでさまざまなデータセットに適応可能

モデル特徴

大規模弱教師あり学習
68万時間の注釈付きデータを使用してトレーニングされ、複数の言語と分野をカバー
ゼロショット学習能力
ファインチューニングなしで新しいデータセットや分野に適応可能
マルチタスクサポート
音声認識と音声翻訳タスクを同時にサポート
長時間音声処理
チャンク処理により任意の長さの音声転写をサポート

モデル能力

英語音声認識
多言語音声認識
英語への音声翻訳
長時間音声転写
タイムスタンプ付き転写

使用事例

音声転写
会議議事録
会議録音を自動的にテキスト記録に変換
98言語の転写をサポート
ポッドキャスト字幕生成
ポッドキャストコンテンツに自動的に字幕を生成
英語転写WER 3.0%(LibriSpeechテストセット)
音声翻訳
リアルタイム翻訳
外国語音声を英語テキストにリアルタイム翻訳
フランス語など多言語から英語への翻訳をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase