W

Wangyou Zhang Chime4 Enh Train Enh Conv Tasnet Raw

espnetによって開発
ESPnetフレームワークでトレーニングされた音声強調モデルで、chime4データセットを使用してトレーニングされ、シングルチャネル音声強調タスクに適しています。
ダウンロード数 57
リリース時間 : 4/11/2022

モデル概要

このモデルはConv-TasNetアーキテクチャを採用し、音声強調タスクに特化しており、ノイズを含む混合音声からクリアな音声信号を分離できます。

モデル特徴

Conv-TasNetアーキテクチャベース
時間畳み込みネットワーク(Temporal Convolutional Network)を使用して音声分離を行い、効率的な特徴抽出能力を持っています。
エンドツーエンドトレーニング
複雑な特徴エンジニアリングを必要とせず、生のオーディオから直接ターゲット音声へのマッピングを学習します。
SI-SNR最適化目標
スケール不変信号対雑音比(SI-SNR)を損失関数として使用し、音声品質を最適化します。

モデル能力

シングルチャネル音声強調
ノイズ抑制
音声分離

使用事例

音声処理
会議音声強調
騒がしい会議環境でクリアな音声信号を抽出
音声認識精度と明瞭度の向上
電話音声強調
モバイル通信における音声品質の改善
通話体験の向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase