S

Sew D Base Plus 400k Ft Ls100h

由asapp開發
SEW-D-base+ 是由 ASAPP Research 開發的高效語音識別模型,基於 16kHz 採樣的語音音頻進行預訓練,在 LibriSpeech 數據集上表現出色。
下載量 66
發布時間 : 3/2/2022

模型概述

該模型是一種高效的自動語音識別(ASR)模型,針對下游任務如語音識別、說話人識別、意圖分類等進行了優化。相比 wav2vec 2.0,它在保持性能的同時顯著提升了推理效率。

模型特點

高效推理
相比 wav2vec 2.0 實現了 1.9 倍的推理加速
性能優化
在 LibriSpeech 100h-960h 半監督設置下,詞錯誤率相對降低 13.5%
多任務適應
可微調用於多種下游任務,包括語音識別、說話人識別、意圖分類等

模型能力

語音識別
說話人識別
意圖分類
情感識別

使用案例

語音轉錄
會議記錄轉錄
將會議錄音自動轉錄為文字記錄
在 LibriSpeech clean 測試集上 WER 4.34
語音助手
用於智能語音助手的語音識別模塊
在 LibriSpeech other 測試集上 WER 9.45
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase