S

Sepformer Whamr

speechbrainによって開発
SepFormerはTransformerベースの音声源分離モデルで、WHAMR!データセットで訓練され、混合音声信号の分離に使用されます。
ダウンロード数 1,692
リリース時間 : 3/2/2022

モデル概要

このモデルはSepFormerアーキテクチャを使用し、音声源分離タスク専用に設計されており、混合音声から異なる音声源を分離することができ、特に環境ノイズや残響がある場面に適しています。

モデル特徴

Transformerベースの分離アーキテクチャ
SepFormerアーキテクチャを使用し、Transformerの自己注意機構を組み合わせ、音声分離タスクを効果的に処理します。
ノイズと残響への頑健性
環境ノイズや残響を含むWHAMR!データセットで訓練されており、強いノイズ耐性を持っています。
高性能指標
WHAMR!テストセットで13.7 dB SI-SNRiと12.7 dB SDRiの分離性能を達成しました。

モデル能力

音声分離
音声源分離
ノイズ抑制
残響除去

使用事例

音声強調
会議録音分離
複数人が同時に話している会議録音から各話者の個別音声を分離
音声の明瞭度と理解度を向上
騒音環境下の音声分離
背景ノイズのある録音からターゲット音声を分離
音声品質を改善し、後処理を容易にする
音声処理
音楽ボーカル分離
音楽録音からボーカルと伴奏を分離
音楽制作や後処理を容易にする
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase