F

Frame VAD Multilingual MarbleNet V2.0

由nvidia開發
輕量級多語言語音活動檢測模型,支持中英法德俄西六種語言,參數量僅91.5K,適用於即時語音處理場景
下載量 75
發布時間 : 5/8/2025

模型概述

用於語音活動檢測(VAD)的卷積神經網絡,作為語音識別和說話人日誌系統的前置模塊,可輸出每20毫秒音頻幀的語音概率

模型特點

輕量化設計
僅91.5K參數,適合即時應用場景
強抗誤報能力
通過噪聲擾動和音量調整訓練降低誤報率
多語言支持
支持中文、英語、法語、德語、俄語、西班牙語六種語言
幀級檢測
每20毫秒音頻幀輸出語音概率

模型能力

語音活動檢測
即時音頻處理
多語言語音識別預處理

使用案例

語音處理
語音識別前置處理
作為ASR系統的語音/非語音分段模塊
提高語音識別系統效率
說話人日誌系統
用於會議錄音的說話人分段標記
VoxConverse-test集AUC達96.65
智能設備
語音喚醒檢測
智能音箱等設備的低功耗語音檢測
輕量化設計適合邊緣設備部署
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase