F

Frame VAD Multilingual MarbleNet V2.0

nvidiaによって開発
軽量多言語音声活動検出モデル、中英仏独露西6言語対応、パラメータ数わずか91.5K、リアルタイム音声処理に最適
ダウンロード数 75
リリース時間 : 5/8/2025

モデル概要

音声活動検出(VAD)用畳み込みニューラルネットワーク、音声認識や話者ロギングシステムの前処理モジュールとして、20ミリ秒オーディオフレームごとの音声確率を出力

モデル特徴

軽量化設計
わずか91.5Kパラメータでリアルタイムアプリケーションに最適
強力な誤検出抑制
ノイズ摂動と音量調整訓練により誤検出率を低減
多言語サポート
中国語、英語、フランス語、ドイツ語、ロシア語、スペイン語の6言語対応
フレームレベル検出
20ミリ秒オーディオフレームごとに音声確率を出力

モデル能力

音声活動検出
リアルタイム音声処理
多言語音声認識前処理

使用事例

音声処理
音声認識前処理
ASRシステムの音声/非音声セグメンテーションモジュールとして
音声認識システム効率向上
話者ロギングシステム
会議録音の話者セグメントタグ付け
VoxConverse-testセットでAUC96.65達成
スマートデバイス
音声ウェイクアップ検出
スマートスピーカー等の低消費電力音声検出
軽量設計でエッジデバイス展開に適応
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase