S

Sepformer Wham16k Enhancement

speechbrainによって開発
これはSepFormerアーキテクチャを使用した音声エンハンスメントモデルで、音声のノイズと残響を除去するために特化しており、WHAM!データセットで16kHzのサンプリング周波数で訓練されています。
ダウンロード数 5,140
リリース時間 : 6/30/2022

モデル概要

このモデルはTransformerアーキテクチャのSepFormerをベースに実装されており、主に音声エンハンスメントタスクに使用され、音声の環境ノイズと残響効果を効果的に除去することができます。

モデル特徴

効率的なノイズ除去
音声の環境ノイズと残響効果を効果的に除去することができます。
Transformerアーキテクチャベース
先進的なSepFormerアーキテクチャを採用し、自己注意機構を組み合わせて音声分離を行います。
16kHzの高サンプリングレート
16kHzのサンプリング周波数の音声処理をサポートし、より高品質の音声エンハンスメント効果を提供します。

モデル能力

音声ノイズ除去
音声エンハンスメント
残響除去

使用事例

音声処理
音声エンハンスメント
環境ノイズのある音声の明瞭度を向上させます。
SI - SNRが14.3dBに向上し、PESQが2.20に達します。
会議録音処理
会議録音の背景ノイズと部屋の残響を除去します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase