S

Stt En Citrinet 1024 Gamma 0 25

由nvidia開發
NVIDIA流式Citrinet 1024是一個用於英語自動語音識別的非自迴歸模型,基於CTC損失/解碼,擁有約1.4億參數。
下載量 156
發布時間 : 6/24/2022

模型概述

該模型用於轉錄包含空格和撇號的小寫英語字母語音,訓練數據包含數千小時的英語語音。它是流式Citrinet的'大型'非自迴歸變體。

模型特點

流式處理能力
支持流式語音識別,適合即時應用場景
高性能
在多個標準測試集上表現優異,如LibriSpeech測試集上WER僅為3.4-7.6
大規模訓練數據
基於數千小時的英語語音數據訓練,包括LibriSpeech、Fisher等多個數據集
Riva兼容
可與NVIDIA Riva集成,用於生產級服務器部署

模型能力

英語語音識別
即時語音轉錄
批量音頻處理

使用案例

語音轉文字
會議記錄
將會議錄音自動轉換為文字記錄
高準確率的轉錄結果
字幕生成
為視頻內容自動生成英文字幕
支持批量處理音頻文件
語音助手
語音指令識別
用於智能設備的語音指令識別系統
低延遲的即時識別
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase