S

Sepformer Wsj02mix

speechbrainによって開発
SepFormerアーキテクチャに基づくオーディオソース分離モデルで、WSJ0-2Mixデータセットで訓練され、混合オーディオを独立した音声ソースに分離できます。
ダウンロード数 8,637
リリース時間 : 3/2/2022

モデル概要

このモデルはTransformerアーキテクチャを使用して高品質の音声分離を実現し、混合オーディオから複数話者の音声信号を分離するのに適しています。

モデル特徴

高性能分離
WSJ0-2Mixテストセットで22.4dBのSI - SNRiと22.6dBのSDRiを達成します。
Transformerベース
SepFormerアーキテクチャを採用し、注意力機構を利用して効果的な音声分離を実現します。
使いやすい
簡単なPythonインターフェースを提供し、数行のコードでオーディオ分離を実現できます。

モデル能力

音声分離
オーディオソース分離
複数話者分離

使用事例

音声処理
会議記録分離
複数人の会議録音から各話者の個別のオーディオを分離します。
音声認識の精度を向上させ、個別分析を容易にします。
オーディオ強化
雑音環境から明瞭な音声信号を抽出します。
音声品質と可聴性を改善します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase