W

Whisper Base

openaiによって開発
Whisperは事前訓練された自動音声認識(ASR)および音声翻訳モデルで、68万時間の注釈付きデータで訓練されており、強力な汎化能力を備えています。
ダウンロード数 491.35k
リリース時間 : 9/26/2022

モデル概要

WhisperはTransformerベースのエンコーダ-デコーダモデルで、微調整なしでさまざまなデータセットやドメインに適応可能な多言語音声認識および翻訳タスクをサポートします。

モデル特徴

大規模事前訓練
68万時間の注釈付き音声データで訓練され、強力な汎化能力を備えています
多言語サポート
99言語の音声認識および翻訳タスクをサポート
ゼロショット学習
微調整なしでさまざまなデータセットやドメインに適応可能
多機能タスク
音声認識と音声翻訳の2つのタスクモードを同時にサポート

モデル能力

英語音声認識
多言語音声認識
言語間音声翻訳
音声書き起こし
音声からテキストへ

使用事例

音声書き起こし
会議議事録
会議録音を自動的に文字記録に変換
LibriSpeechクリーンテストセットでWER5.01
ポッドキャスト書き起こし
ポッドキャストコンテンツを検索可能なテキストに変換
音声翻訳
リアルタイム翻訳
ある言語の音声を別の言語のテキストにリアルタイムで翻訳
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase