S

Sew D Mid K127 400k Ft Ls100h

asappによって開発
SEW-D-mid-k127はASAPP Researchが開発した高効率音声認識事前学習モデルで、性能と効率の面でwav2vec 2.0と比べて大幅な改善が見られます。
ダウンロード数 16
リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識(ASR)のための事前学習モデルで、SEW(Squeezed and Efficient Wav2vec)アーキテクチャに基づき、16kHzでサンプリングされた音声データで事前学習されています。特定のタスクで微調整した後に使用する必要があります。

モデル特徴

効率的なアーキテクチャ設計
wav2vec 2.0と比べて1.9倍の推論速度向上を実現しつつ、認識精度を維持または向上させています
性能最適化
様々なモデルサイズで25-50%の単語誤り率を削減
マルチタスク適応性
自動音声認識、話者認識、意図分類、感情認識などの下流タスクで微調整して使用可能

モデル能力

英語音声認識
音声特徴抽出
音声内容文字起こし

使用事例

音声文字起こし
会議議事録
会議の録音を自動的に文字起こし
LibriSpeech cleanテストセットでWER 4.99
音声テキスト変換サービス
アプリケーションに音声からテキストへの変換機能を提供
LibriSpeech otherテストセットでWER 10.95
音声分析
話者認識
異なる話者の音声特徴を識別・分析
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase