S

Stt Zh Citrinet 1024 Gamma 0 25

由nvidia開發
這是一個用於中文普通話自動語音識別(ASR)的非自迴歸Citrinet模型,擁有約1.4億參數,採用字符編碼方案和CTC損失/解碼。
下載量 92
發布時間 : 6/28/2022

模型概述

該模型專為中文普通話語音識別設計,基於Aishell-2數據集訓練,能夠將16kHz單聲道音頻轉換為文本。

模型特點

非自迴歸架構
採用Citrinet的非自迴歸架構,使用CTC損失/解碼而非Transducer,實現高效語音識別
字符級編碼
使用Aishell-2提供的標準字符集進行字符級編碼,適合中文語音識別
生產級部署
與NVIDIA Riva兼容,可用於生產級服務器部署
多場景適應
在iOS、Android和麥克風等多種錄音環境下表現穩定

模型能力

中文語音識別
即時語音轉文本
支持16kHz單聲道音頻輸入

使用案例

語音轉寫
會議記錄
將中文會議錄音自動轉換為文字記錄
在AIShell-2測試集上CER為5.1-5.5%
語音助手
為中文語音助手提供語音識別能力
語音分析
客服錄音分析
自動分析中文客服通話內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase