D

Dprnntasnet Ks2 WHAM Sepclean

mparienteによって開発
Asteroidフレームワークでトレーニングされた音声分離モデルで、WHAM!データセットを使用しており、クリーンな音声分離タスクに特化しています。
ダウンロード数 512
リリース時間 : 3/2/2022

モデル概要

このモデルはDPRNNアーキテクチャを採用し、混合音声からクリーンな音声信号を分離するために特別に設計されており、音声強調や分離タスクに適しています。

モデル特徴

効率的な音声分離
DPRNNアーキテクチャを採用し、長いシーケンスの音声信号を効果的に処理し、高品質な音声分離を実現します。
低サンプリングレート対応
8000Hzのサンプリングレートの音声入力をサポートし、さまざまな音声処理シナリオに適用可能です。
軽量設計
カーネルサイズ2、フィルタ数64の軽量設計で、性能と計算効率のバランスを取っています。

モデル能力

音声分離
音声強調
複数話者分離

使用事例

音声処理
会議録音分離
複数人の会議録音から単一話者のクリアな音声を分離
SI-SDR 19.32dB向上
音声強調
ノイズを含む録音からクリアな音声を抽出
STOI 0.24向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase