W

Whisper Small.en

openaiによって開発
Whisperは事前学習された自動音声認識(ASR)モデルで、68万時間のラベル付きデータで学習され、強力な汎化能力を示します。
ダウンロード数 20.50k
リリース時間 : 9/26/2022

モデル概要

Transformerベースのエンコーダ - デコーダモデルで、英語音声認識タスクに特化しており、微調整なしで様々なシーンに適応できます。

モデル特徴

大規模事前学習
68万時間のラベル付き音声データで学習され、多様な音声シーンをカバーしています。
ゼロショット汎化能力
微調整なしで様々なデータセットやドメインに適応できます。
ロバストな音声認識
アクセント、背景雑音、用語に対して強いロバスト性を示します。

モデル能力

英語音声認識
長い音声の文字起こし(チャンク処理による)
音声活動検出

使用事例

障害者支援ツール
リアルタイム字幕生成
聴覚障害者に対してリアルタイムの音声を文字に変換するサービスを提供します。
音声分析
会議録の文字起こし
会議の録音を自動的に文字起こしします。
LibriSpeechテストセットでのWERは3.05%です。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase