W

Whisper Medium.en

openaiによって開発
WhisperはOpenAIが開発した自動音声認識(ASR)モデルで、68万時間のラベル付き音声データで訓練され、強力な汎化能力を持っています。
ダウンロード数 36.92k
リリース時間 : 9/26/2022

モデル概要

WhisperはTransformerベースのエンコーダー - デコーダーモデルで、英語音声認識タスクに特化しています。このモデルは微調整なしでも様々なデータセットやドメインに適応できます。

モデル特徴

大規模な訓練データ
68万時間のラベル付き音声データを使用して訓練され、そのうち65%が英語データです。
強力な汎化能力
微調整なしで様々なデータセットやドメインに適応できます。
高精度転写
LibriSpeechテストセットでは、WERが4.12%(クリーン)と7.43%(その他)に低く抑えられます。
長いオーディオ処理
チャンクアルゴリズムを通じて任意の長さのオーディオ入力を処理できます。

モデル能力

英語音声認識
オーディオ転写
長いオーディオ処理

使用事例

音声転写
会議記録
会議の録音を自動的に文字記録に転写します。
高い精度の転写テキスト
ポッドキャスト転写
ポッドキャストの内容を検索可能なテキスト形式に変換します。
支援技術
聴覚支援
聴覚障害者にリアルタイムの字幕を提供します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase