S

Sew D Mid K127 400k Ft Ls100h

Developed by asapp
SEW-D-mid-k127是由ASAPP Research開發的高效語音識別預訓練模型,在性能和效率方面相比wav2vec 2.0有顯著改進。
Downloads 16
Release Time : 3/2/2022

Model Overview

該模型是用於自動語音識別(ASR)的預訓練模型,基於SEW(Squeezed and Efficient Wav2vec)架構,在16kHz採樣的語音音頻上預訓練,需要在特定任務上微調後使用。

Model Features

高效架構設計
相比wav2vec 2.0實現了1.9倍推理加速,同時保持或提升識別準確率
性能優化
在不同模型大小上減少了25-50%的詞錯誤率
多任務適用性
可在自動語音識別、說話人識別、意圖分類、情感識別等下游任務上微調使用

Model Capabilities

英語語音識別
語音特徵提取
音頻內容轉錄

Use Cases

語音轉錄
會議記錄
將會議錄音自動轉錄為文字記錄
在LibriSpeech clean測試集上WER 4.99
語音轉文字服務
為應用程序提供語音到文字的轉換功能
在LibriSpeech other測試集上WER 10.95
語音分析
說話人識別
識別和分析不同說話人的語音特徵
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase