F

Frame VAD Multilingual MarbleNet V2.0

Developed by nvidia
轻量级多语言语音活动检测模型,支持中英法德俄西六种语言,参数量仅91.5K,适用于实时语音处理场景
Downloads 75
Release Time : 5/8/2025

Model Overview

用于语音活动检测(VAD)的卷积神经网络,作为语音识别和说话人日志系统的前置模块,可输出每20毫秒音频帧的语音概率

Model Features

轻量化设计
仅91.5K参数,适合实时应用场景
强抗误报能力
通过噪声扰动和音量调整训练降低误报率
多语言支持
支持中文、英语、法语、德语、俄语、西班牙语六种语言
帧级检测
每20毫秒音频帧输出语音概率

Model Capabilities

语音活动检测
实时音频处理
多语言语音识别预处理

Use Cases

语音处理
语音识别前置处理
作为ASR系统的语音/非语音分段模块
提高语音识别系统效率
说话人日志系统
用于会议录音的说话人分段标记
VoxConverse-test集AUC达96.65
智能设备
语音唤醒检测
智能音箱等设备的低功耗语音检测
轻量化设计适合边缘设备部署
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase