S

Sepformer Whamr16k

speechbrainによって開発
これはSepFormerアーキテクチャに基づく音源分離モデルで、WHAMR!データセットでトレーニングされ、16kHzサンプリングレートの音声信号分離に適しています。
ダウンロード数 4,702
リリース時間 : 3/2/2022

モデル概要

このモデルはSpeechBrainで実装されており、混合音声から異なる音源を分離するために特別に設計されており、特に環境ノイズや残響が含まれるシナリオで効果的です。

モデル特徴

効率的な音源分離
環境ノイズや残響を含む混合音声から異なる音源を効果的に分離できます。
Transformerアーキテクチャベース
SepFormerアーキテクチャを採用し、Transformerの自己注意メカニズムを利用して分離性能を向上させます。
16kHzサンプリングレート対応
16kHzサンプリングレートの音声信号に最適化されており、さまざまな実用的なアプリケーションシナリオに適しています。

モデル能力

音源分離
音声分離
ノイズ抑制

使用事例

音声処理
会議録音分離
複数の話者がいる会議録音から各発言者の個別音声信号を分離します。
WHAMR!テストセットで13.5 dB SI-SNRiの性能を達成。
ノイズ環境下での音声強調
騒がしい環境からクリアな音声信号を抽出します。
環境ノイズや残響を含むデータセットで良好なパフォーマンスを発揮。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase