S

Sepformer Wsj03mix

speechbrainによって開発
これはSepFormerアーキテクチャを使用してオーディオソース分離を行うモデルで、WSJ0 - 3Mixデータセットで訓練され、混合音声を独立した音声源に分離することができます。
ダウンロード数 158
リリース時間 : 3/2/2022

モデル概要

このモデルはTransformerアーキテクチャのSepFormerを基に実装され、オーディオソース分離タスクに特化しており、混合オーディオから複数の独立した音声信号を分離することができます。

モデル特徴

高性能分離
WSJ0 - 3Mixテストセットで19.8 dBのSI - SNRiと20.0 dBのSDRiの分離性能を達成します。
Transformerアーキテクチャベース
先進的なSepFormerアーキテクチャを採用し、注意力機構を利用して効率的な音声分離を実現します。
即時使用可能なモデル
簡単に使えるインターフェースを提供し、オーディオファイルを直接分離処理することができます。

モデル能力

音声分離
多話者分離
オーディオソース分離

使用事例

音声処理
会議録音分離
複数人が同時に話す会議録音から各話者の独立した音声を分離します。
3人の同時話者の音声源を明確に分離できます。
オーディオ強化
ノイズの多い混合オーディオから目標音声信号を抽出します。
音声の明瞭度と理解度を向上させます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase