S

Stt En Conformer Ctc Large

由nvidia開發
這是一個基於Conformer架構的大型自動語音識別(ASR)模型,支持英語語音轉錄,使用CTC損失函數進行訓練。
下載量 3,740
發布時間 : 4/9/2022

模型概述

該模型用於將英語語音轉錄為文本,支持包含空格和撇號的小寫字母輸出。基於Conformer架構的非自迴歸變體,約1.2億參數。

模型特點

高性能語音識別
在LibriSpeech測試集上達到2.2%(乾淨)和4.3%(其他)的詞錯誤率(WER)
多數據集訓練
在數千小時的英語語音數據上訓練,包括LibriSpeech、Fisher、Switchboard等多個數據集
Riva兼容
支持通過NVIDIA Riva進行生產級服務器部署
非自迴歸架構
採用Conformer-CTC架構,相比自迴歸模型具有更快的推理速度

模型能力

英語語音識別
即時語音轉錄
支持16kHz單聲道音頻輸入

使用案例

語音轉錄
會議記錄
將會議錄音自動轉錄為文字記錄
高準確率的轉錄結果,支持多種口音
字幕生成
為視頻內容自動生成英文字幕
在乾淨語音上WER低至2.2%
語音助手
語音命令識別
用於智能家居設備的語音控制
快速準確的命令識別
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase