S

Sew D Mid 400k Ft Ls100h

asappによって開発
SEW-D-midはASAPP Researchが開発した音声事前学習モデルで、自動音声認識タスクに焦点を当て、性能と効率の良いバランスを実現しています。
ダウンロード数 20
リリース時間 : 3/2/2022

モデル概要

このモデルはSEWアーキテクチャに基づく音声事前学習モデルで、16kHzサンプリングの音声オーディオで事前学習されており、自動音声認識、話者認識、意図分類などの下流タスクに適しています。

モデル特徴

効率的な性能バランス
wav2vec 2.0と比較して1.9倍の推論加速を実現し、単語誤り率を13.5%相対的に低減
マルチタスク適応性
ASR、話者認識、意図分類など、複数の音声関連下流タスクでファインチューニング可能
最適化されたアーキテクチャ設計
SEWアーキテクチャを採用し、複数の最適化設計を統合してモデル効率を向上

モデル能力

音声認識
音声特徴抽出
音声内容理解

使用事例

音声文字起こし
会議議事録の文字起こし
会議録音を自動的に文字記録に変換
LibriSpeech cleanテストセットでWER4.94を達成
音声コマンド認識
音声コマンドを認識・理解
音声分析
話者認識
音声中の話者特徴を識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase