S

Sepformer Wham

speechbrainによって開発
これはSepFormerアーキテクチャに基づくオーディオソース分離モデルで、WHAM!データセットで訓練され、混合オーディオ内の異なる音源を分離できます。
ダウンロード数 1,828
リリース時間 : 3/2/2022

モデル概要

このモデルはTransformerアーキテクチャを使用してオーディオソース分離を実現し、環境ノイズのある混合音声信号の処理に特に適しています。

モデル特徴

高性能分離
WHAM!テストセットで16.3 dB SI - SNRiと16.7 dB SDRiの分離性能を達成します。
環境ノイズ処理
環境ノイズのある混合音声信号に特化して最適化されています。
Transformerベース
先進的なSepFormerアーキテクチャを採用し、注意力機構を利用して効率的な分離を実現します。

モデル能力

オーディオソース分離
音声分離
ノイズ環境音声処理

使用事例

音声処理
会議録音分離
複数人の会議録音から個々の話者の声を分離します。
音声認識の精度を向上させます。
ノイズ環境音声強化
背景ノイズのある録音から明瞭な音声を抽出します。
音声品質と可聴度を改善します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase