lite-whisper-large-v3-fastオープンソース音声認識モデル - 小さいサイズで高い精度、簡単にデプロイ可能

Lite Whisper Large V3 Fast

efficient-speechによって開発

Lite-Whisper は LiteASR 技術で圧縮された OpenAI Whisper の軽量化バージョンで、高い認識精度を維持しながらモデルサイズを大幅に削減しています。

ダウンロード数 25

リリース時間 : 2/26/2025

モデル概要

Whisper-large-v3 をベースにした軽量自動音声認識モデルで、圧縮技術によりパラメータ規模を削減し、高速推論が必要なシナリオに適しています。

効率的な圧縮

LiteASR 技術によりモデルサイズを大幅に削減、エンコーダーサイズを 635M から 308M に圧縮

高速推論

高速音声認識が必要なシナリオ向けに最適化され、速度と精度のバランスを実現

オリジナル版に近い性能

ESB テストセットでの平均 WER 11.3、オリジナルの Whisper-large-v3 (WER 10.1) と比べてわずか 1.2% 高い

音声からテキストへの変換

多言語音声認識

リアルタイム音声処理

音声文字起こし

会議議事録の自動化

会議の録音をリアルタイムで文字記録に変換

約 88.7% の精度（WER 11.3）

メディア処理

動画字幕生成

動画コンテンツに自動的に字幕を生成

モデル	平均WER (↓)	エンコーダサイズ	デコーダサイズ
whisper-large-v3	10.1	635M	907M
lite-whisper-large-v3-acc	10.1	429M	907M
lite-whisper-large-v3	10.2	377M	907M
lite-whisper-large-v3-fast	11.3	308M	907M

whisper-large-v3-turbo	10.1	635M	172M
lite-whisper-large-v3-turbo-acc	10.2	421M	172M
lite-whisper-large-v3-turbo	12.6	374M	172M
lite-whisper-large-v3-turbo-fast	20.1	313M	172M

whisper-medium	14.8	306M	457M