A

Audio Source Separation

Awaisによって開発
Asteroidフレームワークでトレーニングされた音源分離モデル、8kHzサンプリングレートの音声分離タスクに最適化
ダウンロード数 30
リリース時間 : 4/2/2022

モデル概要

このモデルはConvTasNetアーキテクチャを使用し、Libri2Mixデータセットのクリーン音声分離タスク向けにトレーニングされ、混合音声から異なる話者音声を分離可能

モデル特徴

効率的な分離
ConvTasNetアーキテクチャを採用し、8kHzサンプリングレートで効率的な音声分離を実現
最適化トレーニング
Libri2Mixデータセットに基づき特別に最適化、クリーン音声分離シナリオに適応
軽量
モデルパラメータ規模が適度で、実際の展開アプリケーションに適している

モデル能力

2話者音声分離
8kHz音声処理
リアルタイム音源分離

使用事例

音声処理
会議記録強化
会議録音から異なる話者音声を分離
SI-SDR 14.76dB向上
音声認識前処理
ASRシステムによりクリーンな単一話者音声入力を提供
STOI 0.93向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase