S

Sew D Mid 400k Ft Ls100h

由asapp開發
SEW-D-mid是由ASAPP Research開發的語音預訓練模型,專注於自動語音識別任務,在性能和效率之間取得了良好平衡。
下載量 20
發布時間 : 3/2/2022

模型概述

該模型是基於SEW架構的語音預訓練模型,在16kHz採樣的語音音頻上進行預訓練,適用於自動語音識別、說話人識別、意圖分類等下游任務。

模型特點

高效性能平衡
相比wav2vec 2.0實現了1.9倍推理加速,同時詞錯誤率相對降低13.5%
多任務適用性
可在多種語音相關下游任務上微調,包括ASR、說話人識別、意圖分類等
優化架構設計
採用SEW架構,綜合多種優化設計提升模型效率

模型能力

語音識別
語音特徵提取
音頻內容理解

使用案例

語音轉錄
會議記錄轉錄
將會議錄音自動轉錄為文字記錄
在LibriSpeech clean測試集上WER為4.94
語音指令識別
識別和理解語音指令
語音分析
說話人識別
識別語音中的說話人特徵
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase