S

Sew D Mid K127 400k Ft Ls100h

由asapp開發
SEW-D-mid-k127是由ASAPP Research開發的高效語音識別預訓練模型,在性能和效率方面相比wav2vec 2.0有顯著改進。
下載量 16
發布時間 : 3/2/2022

模型概述

該模型是用於自動語音識別(ASR)的預訓練模型,基於SEW(Squeezed and Efficient Wav2vec)架構,在16kHz採樣的語音音頻上預訓練,需要在特定任務上微調後使用。

模型特點

高效架構設計
相比wav2vec 2.0實現了1.9倍推理加速,同時保持或提升識別準確率
性能優化
在不同模型大小上減少了25-50%的詞錯誤率
多任務適用性
可在自動語音識別、說話人識別、意圖分類、情感識別等下游任務上微調使用

模型能力

英語語音識別
語音特徵提取
音頻內容轉錄

使用案例

語音轉錄
會議記錄
將會議錄音自動轉錄為文字記錄
在LibriSpeech clean測試集上WER 4.99
語音轉文字服務
為應用程序提供語音到文字的轉換功能
在LibriSpeech other測試集上WER 10.95
語音分析
說話人識別
識別和分析不同說話人的語音特徵
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase