S

Stt En Fastconformer Hybrid Large Streaming Multi

由nvidia開發
支持多前瞻窗口的緩存感知FastConformer-Hybrid大模型,專為流式自動語音識別設計,可適應多種延遲場景
下載量 1,400
發布時間 : 10/5/2023

模型概述

基於大規模英語語音訓練的流式自動語音識別模型,採用混合FastConformer架構,支持靈活延遲調整

模型特點

多延遲流式處理
支持0ms/80ms/480ms/1040ms四種延遲級別,實際延遲約為標稱值一半
混合架構
結合Transducer與CTC解碼器的優勢,支持運行時切換解碼策略
緩存感知技術
採用先進緩存機制實現流式處理,保持離線與流式模式預測一致性
大規模訓練數據
基於數千小時多樣化英語語音數據訓練,覆蓋多種場景和口音

模型能力

即時語音轉文字
流式音頻處理
低延遲語音識別
多場景語音轉錄

使用案例

即時轉錄
會議即時字幕
為在線會議提供低延遲即時字幕
480ms延遲下WER 5.7%
客服語音分析
即時轉錄音頻對話用於質檢分析
支持動態調整延遲滿足不同場景需求
媒體處理
視頻字幕生成
為媒體內容自動生成高精度字幕
1040ms模式下WER 5.4%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase