ConvTasNet_Libri3Mix_sepnoisyオープンソースモデル - 無料でデプロイして含雑音オーディオ分離を実現

ホーム

Convtasnet Libri3Mix Sepnoisy

mparienteによって開発

AsteroidフレームワークでトレーニングされたConvTasNetモデルで、ノイズを含む音声分離タスク用です。トレーニングデータはLibri3Mixデータセットから取得しました。

音声分離

PyTorch

#マルチスピーカー分離 #ノイズを含む音声処理 #低サンプリングレート最適化

ダウンロード数 30

リリース時間 : 3/2/2022

モデル概要

このモデルはノイズ環境下でのマルチスピーカー音声分離タスク専用に設計されており、混合音声からクリアな単一話者音声を分離できます。

モデル特徴

効率的な音声分離

ConvTasNetアーキテクチャを採用し、ノイズ環境下でのマルチスピーカー音声分離タスクを効果的に処理できます。

最適化されたトレーニング設定

慎重に設計されたフィルターバンクとマスクネットワーク設定を使用し、分離性能を向上させます。

包括的な性能指標

SI-SDR、SDR、SIR、SAR、STOIなど様々な評価指標を提供し、モデル性能を包括的に測定します。

モデル能力

マルチスピーカー音声分離

ノイズを含む音声処理

音声強調

使用事例

音声処理

会議記録の強化

複数人の会議録音からクリアな単一話者音声を分離し、音声認識精度を向上させます。

SI-SDR11.23向上、STOI0.22向上

音声通信のノイズ除去

騒がしい環境からターゲット話者音声を分離し、通信品質を向上させます。

SIR19.53向上

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Convtasnet Libri3Mix Sepnoisy

モデル概要

モデル特徴

モデル能力

使用事例

🚀 小惑星モデル

🚀 クイックスタート

✨ 主な機能

📚 ドキュメント

説明

訓練設定

結果

📄 ライセンス