W

Whisper Small

openaiによって開発
Whisperは、事前学習された自動音声認識(ASR)および音声翻訳モデルで、68万時間のラベル付きデータで学習され、強力な汎化能力を持っています。
ダウンロード数 2.0M
リリース時間 : 9/26/2022

モデル概要

WhisperはTransformerベースのエンコーダ - デコーダモデルで、多言語音声認識と翻訳タスクをサポートし、微調整なしでさまざまなデータセットとドメインに適応できます。

モデル特徴

大規模弱教師付き学習
68万時間のラベル付き音声データを使用して学習され、強力な汎化能力を持っています。
多言語対応
100種以上の言語の音声認識と翻訳をサポートします。
ゼロショット適応能力
微調整なしでさまざまなデータセットとドメインに適応できます。
タスクの柔軟性
コンテキストタグを使用して、音声認識と翻訳タスクを柔軟に切り替えることができます。

モデル能力

音声認識
音声翻訳
多言語処理
自動音声からテキストへの変換

使用事例

音声文字起こし
会議記録
会議の録音を自動的に文字記録に変換します。
LibriSpeechテストセットでは、WERが3.43(クリーン)と7.63(その他)です。
ポッドキャストの文字起こし
ポッドキャストの内容を検索可能なテキストに変換します。
音声翻訳
リアルタイム翻訳
ある言語の音声を別の言語のテキストにリアルタイムで翻訳します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase