S

Sew D Tiny 100k Ft Ls100h

asappによって開発
SEW-D-tinyはASAPP Researchによって開発された高効率音声認識事前学習モデルで、性能と効率のバランスに重点を置いています。
ダウンロード数 24.55k
リリース時間 : 3/2/2022

モデル概要

このモデルは16kHzサンプリングの音声オーディオで事前学習されており、自動音声認識、話者認識、意図分類などの下流タスクに適しています。

モデル特徴

高効率推論
wav2vec 2.0と比較して1.9倍の推論速度向上を実現しました。
性能向上
LibriSpeechの100h - 960h半教師あり設定で、単語誤り率が相対的に13.5%低下しました。
軽量性
モデル設計は効率に重点を置いており、リソースが制限された環境に適しています。

モデル能力

音声認識
話者認識
意図分類
感情認識

使用事例

音声をテキストに変換
LibriSpeech音声文字起こし
LibriSpeechデータセットの音声をテキストに変換します。
LibriSpeech cleanテストセットでのWERは10.47、otherテストセットでのWERは22.73です。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase