S

S2t Small Librispeech Asr

由facebook開發
一個用於自動語音識別(ASR)的語音到文本轉換器(S2T)模型,基於序列到序列轉換器架構
下載量 10.92k
發布時間 : 3/2/2022

模型概述

該模型是一個端到端的語音識別模型,使用標準的自迴歸交叉熵損失進行訓練,能夠將語音轉換為文本

模型特點

端到端語音識別
直接從語音輸入生成文本輸出,無需中間處理步驟
基於轉換器架構
採用先進的序列到序列轉換器模型架構
高準確率
在LibriSpeech測試集上表現出色,clean測試集WER為4.3,other測試集WER為9.0

模型能力

英語語音識別
端到端語音轉文本
長音頻處理

使用案例

語音轉錄
音頻內容轉錄
將英語語音內容轉換為文本格式
高準確率的轉錄結果
輔助技術
即時字幕生成
為英語視頻或直播生成即時字幕
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase