W

Whisper Small

unslothによって開発
Whisperは事前学習済みの自動音声認識(ASR)および音声翻訳モデルで、68万時間の注釈付きデータで訓練されており、強力な汎化能力を持っています。
ダウンロード数 50
リリース時間 : 5/14/2025

モデル概要

Transformerベースのエンコーダ-デコーダモデルで、微調整なしで多言語音声認識や翻訳タスクに対応可能。様々なデータセットやドメインに適応できます。

モデル特徴

大規模弱教師あり学習
68万時間の多様な音声データで訓練されており、複数の言語やアクセントをカバー
ゼロショット転移能力
微調整なしで新しい言語やドメインでも良好な性能を発揮
マルチタスク統合アーキテクチャ
単一モデルで音声認識と翻訳タスクを同時にサポート
長音声処理
チャンク分割アルゴリズムにより任意の長さの音声転写をサポート

モデル能力

音声からテキストへの変換
クロスランゲージ音声翻訳
多言語認識
タイムスタンプ付き転写

使用事例

音声転写
会議議録の自動化
会議録音をリアルタイムで文字起こし
英語テストセットWER 3.43%(LibriSpeech clean)
ポッドキャスト字幕生成
非英語ポッドキャストの多言語字幕作成
音声翻訳
リアルタイム音声翻訳
フランス語などの音声を英語テキストにリアルタイム翻訳
スムーズな言語間変換能力を示す例
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase