S

Sew Tiny 100k Ft Ls100h

asappによって開発
SEW(圧縮高効率版Wav2vec)は、ASAPP Researchによって開発された音声認識の事前学習モデルで、性能と効率の面でwav2vec 2.0より優れています。
ダウンロード数 736
リリース時間 : 3/2/2022

モデル概要

16kHzサンプリングの音声オーディオで事前学習された音声認識モデルで、下流タスクで微調整して使用する必要があります。

モデル特徴

高効率性能
wav2vec 2.0と比較して、推論速度が1.9倍向上し、単語誤り率が13.5%低下します。
圧縮アーキテクチャ
最適化されたモデルアーキテクチャは、性能を維持しながら計算リソースの必要量を削減します。
マルチタスク適合
微調整により、ASR、話者識別、意図分類などのさまざまな音声タスクに適用できます。

モデル能力

音声認識
音声をテキストに変換
オーディオ特徴抽出

使用事例

音声文字起こし
LibriSpeech音声文字起こし
英語のオーディオブックの内容をテキストに起こします。
LibriSpeech cleanテストセットでWER 10.61、otherテストセットでWER 23.74
音声アプリケーション開発
音声アシスタント
音声アシスタントの音声認識コンポーネントとして使用します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase