lite-whisper-large-v3-turbo-fastオープンソース音声認識モデル - 高精度な認識と小さなモデルサイズでの容易なデプロイ

Lite Whisper Large V3 Turbo Fast

efficient-speechによって開発

Lite-Whisper は OpenAI Whisper の圧縮バージョンで、LiteASR 技術を採用し、比較的高い精度を維持しながらモデルサイズを大幅に削減しています。

ダウンロード数 99

リリース時間 : 2/26/2025

モデル概要

Whisper アーキテクチャに基づく効率的な自動音声認識モデルで、圧縮技術によりより高速な推論速度とより小さなモデルサイズを実現し、リアルタイム音声テキスト変換シナリオに適しています。

効率的な圧縮

LiteASR 技術を採用しモデルサイズを大幅に削減、エンコーダはわずか 313M パラメータ

高速推論

turbo-fast バージョンは推論速度に最適化されており、リアルタイムアプリケーションに適しています

性能バランス

モデル圧縮と認識精度の間で良好なバランスを実現（ESB データセット WER 20.1）

音声からテキストへの変換

多言語音声認識

リアルタイム音声処理

リアルタイム文字起こし

会議のリアルタイム記録

オンライン会議シナリオでのリアルタイム音声テキスト変換

迅速だが精度がやや低い文字起こし結果を提供可能

エッジデバイスアプリケーション

モバイル端末の音声入力

リソースが限られたモバイルデバイスで音声認識機能を実現

小さいモデルサイズがモバイル端末への展開に適しています

属性	详情
モデルタイプ	Automatic Speech Recognition
ベースモデル	openai/whisper-large-v3-turbo
ライブラリ名	transformers
ライセンス	apache-2.0
パイプラインタグ	automatic-speech-recognition
タグ	audio、automatic-speech-recognition、whisper、hf-asr-leaderboard

モデル	平均WER (↓)	エンコーダサイズ	デコーダサイズ
whisper-large-v3	10.1	635M	907M
lite-whisper-large-v3-acc	10.1	429M	907M
lite-whisper-large-v3	10.2	377M	907M
lite-whisper-large-v3-fast	11.3	308M	907M

whisper-large-v3-turbo	10.1	635M	172M
lite-whisper-large-v3-turbo-acc	10.2	421M	172M
lite-whisper-large-v3-turbo	12.6	374M	172M
lite-whisper-large-v3-turbo-fast	20.1	313M	172M

whisper-medium	14.8	306M	457M