lite-whisper-large-v3-accオープンソース音声認識モデル - 圧縮版の高い精度、小さなサイズで簡単にデプロイ可能

Lite Whisper Large V3 Acc

efficient-speechによって開発

Lite-Whisper は OpenAI Whisper の圧縮バージョンで、LiteASR 技術を採用し、高い精度を維持しながらモデルサイズを削減しています。

ダウンロード数 57

リリース時間 : 2/26/2025

モデル概要

Whisper-large-v3 を基にした圧縮バージョンで、自動音声認識タスクに特化しており、エンコーダ構造を最適化することでモデルパラメータを削減しつつ、元のモデルと同等の認識精度を維持しています。

効率的な圧縮

LiteASR 技術を採用し、モデルサイズを大幅に削減、エンコーダパラメータを 635M から 429M に圧縮

高い精度の維持

ESB データセットで平均 WER 10.1 を達成、元の whisper-large-v3 と同等の性能

高速推論

完全版モデルと比較し、圧縮後のモデルはより高速な推論が可能（具体的なデータは提供されていません）

音声からテキストへの変換

多言語音声認識

長い音声の処理

音声書き起こし

会議議事録

会議の録音を自動的に文字起こし

精度は元の Whisper モデルと同等

字幕生成

動画コンテンツに自動的に字幕を生成

音声アシスタント

音声コマンド認識

スマートデバイス向けの音声コマンド認識システムに使用

モデル	平均WER (↓)	エンコーダサイズ	デコーダサイズ
whisper-large-v3	10.1	635M	907M
lite-whisper-large-v3-acc	10.1	429M	907M
lite-whisper-large-v3	10.2	377M	907M
lite-whisper-large-v3-fast	11.3	308M	907M

whisper-large-v3-turbo	10.1	635M	172M
lite-whisper-large-v3-turbo-acc	10.2	421M	172M
lite-whisper-large-v3-turbo	12.6	374M	172M
lite-whisper-large-v3-turbo-fast	20.1	313M	172M

whisper-medium	14.8	306M	457M