S

Stt De Fastconformer Hybrid Large Pc

由nvidia開發
這是一個基於FastConformer架構的德語自動語音識別模型,採用轉換器和CTC混合訓練方式,參數規模約115M。
下載量 1,017
發布時間 : 5/4/2023

模型概述

該模型用於德語語音轉錄,支持大小寫字母、空格及基本標點符號的識別。是NVIDIA NeMo工具包中的預訓練模型。

模型特點

混合訓練架構
同時使用轉換器和CTC解碼器進行訓練,結合兩種損失函數的優勢
優化的FastConformer
採用8倍深度可分離卷積下采樣,相比標準Conformer模型更高效
多數據集訓練
在2500小時的複合德語數據集上訓練,包含MCV12、MLS和Voxpopuli
標點符號支持
能夠識別句號、逗號和問號等基本標點符號

模型能力

德語語音識別
標點符號識別
大小寫字母識別

使用案例

語音轉錄
語音轉文字
將德語語音內容轉換為文本
在MCV12測試集上WER為5.1%
會議記錄
自動生成會議語音的文字記錄
語音分析
語音內容分析
為後續的語音內容分析提供文本基礎
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase