S

Sew D Base Plus 400k Ft Ls100h

asappによって開発
SEW-D-base+ は ASAPP Research によって開発された高効率音声認識モデルで、16kHzサンプリングの音声オーディオを基に事前学習され、LibriSpeechデータセットで優れた性能を発揮します。
ダウンロード数 66
リリース時間 : 3/2/2022

モデル概要

このモデルは高効率な自動音声認識(ASR)モデルで、音声認識、話者認識、意図分類などの下流タスクに対して最適化されています。wav2vec 2.0と比較して、性能を維持しながら推論効率を大幅に向上させています。

モデル特徴

高効率推論
wav2vec 2.0と比較して1.9倍の推論速度向上を実現
性能最適化
LibriSpeech 100h - 960hの半教師あり設定で、単語誤り率が13.5%相対的に低下
多タスク適応
音声認識、話者認識、意図分類などの様々な下流タスクに微調整可能

モデル能力

音声認識
話者認識
意図分類
感情認識

使用事例

音声文字起こし
会議記録文字起こし
会議録音を自動的に文字記録に変換
LibriSpeech cleanテストセットでWER 4.34
音声アシスタント
スマート音声アシスタントの音声認識モジュールに使用
LibriSpeech otherテストセットでWER 9.45
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase