Distil-wav2vec2オープンソース自動音声認識モデル - コンパクトで高速、無料でデプロイ可能

ホーム

Distil Wav2vec2

OthmaneJによって開発

Distil-wav2vec2はwav2vec2モデルの蒸留バージョンで、サイズが45%縮小され、推論速度が2倍に向上し、自動音声認識タスクに適しています。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #軽量音声認識 #高効率推論 #低単語誤り率

ダウンロード数 854

リリース時間 : 3/2/2022

モデル概要

このモデルはwav2vec2モデルの軽量化バージョンで、自動音声認識タスクに特化しており、蒸留技術によってより小さなモデルサイズとより速い推論速度を実現しています。

モデル特徴

軽量化

モデルサイズがオリジナルのwav2vec2ベースモデルより45%縮小され、リソースが限られた環境に適しています。

高効率推論

推論速度が2倍に向上し、CPUでの処理時間は0.4006秒、GPUでの処理時間は0.0046秒（バッチサイズ64の場合）です。

性能バランス

比較的低い単語誤り率を維持しながら、実行効率を大幅に向上させています。

モデル能力

英語音声認識

音声をテキストに変換

使用事例

音声文字起こし

会議記録

会議の録音を自動的にテキストに起こす

Librispeech-test-cleanでの単語誤り率は0.0983

音声アシスタント

軽量音声アシスタントの音声認識モジュールに使用

リソース制限のあるデバイスでの高速応答を実現

モデル	サイズ	WER Librispeech - test - clean	WER Librispeech - test - other	CPUでの速度	GPUでの速度
Distil - wav2vec2	197.9 Mb	0.0983	0.2266	0.4006s	0.0046s
wav2vec2 - base	360 Mb	0.0389	0.1047	0.4919s	0.0082s

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Distil Wav2vec2

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Distil - wav2vec2

🚀 クイックスタート

✨ 主な機能

📚 ドキュメント

評価結果

使用方法

📄 ライセンス