ai - light - dance_singing_ft_wav2vec2 - large - lv60 - v2オープンソースモデル

ホーム

Ai Light Dance Singing Ft Wav2vec2 Large Lv60 V2

gary109によって開発

このモデルはwav2vec2-large-lv60をONSET-SINGINGデータセットでファインチューニングした歌声音声認識モデルです。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #歌声音声認識 #高精度WER #wav2vec2ファインチューニング

ダウンロード数 16

リリース時間 : 5/18/2022

モデル概要

これは歌声音声認識に最適化された自動音声認識モデルで、単語誤り率(WER)の指標で良好な性能を示します。

モデル特徴

歌声音声最適化

歌声音声に特化してファインチューニングされており、歌声認識タスクで汎用音声認識モデルよりも優れた性能を発揮します

低単語誤り率

評価データセットで0.1858の単語誤り率(WER)を達成し、優れた性能を示しています

wav2vec2アーキテクチャ採用

Facebookのwav2vec2-large-lv60をベースモデルとして採用し、強力な音声特徴抽出能力を備えています

モデル能力

歌声音声認識

自動音声テキスト変換

音楽コンテンツ分析

使用事例

音楽テクノロジー

歌声から歌詞への変換

歌声録音を自動的に歌詞テキストに変換

単語誤り率0.1858

音楽コンテンツ分析

楽曲中の歌詞内容を分析

エンターテインメントアプリケーション

カラオケ歌詞同期

歌唱内容をリアルタイムで認識し歌詞を同期表示

🚀 ai-light-dance_singing_ft_wav2vec2-large-lv60-v2

このモデルは、../AI_LIGHT_DANCE.PY - ONSET-SINGINGデータセットでgary109/ai-light-dance_singing_ft_wav2vec2-large-lv60をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

🚀 クイックスタート

損失: 0.4285
単語誤り率 (Wer): 0.1858

📚 ドキュメント

モデルの説明

詳細情報は後日提供予定です。

想定される用途と制限事項

詳細情報は後日提供予定です。

学習と評価データ

詳細情報は後日提供予定です。

🔧 技術詳細

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 3e-05
学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 16
乱数シード (seed): 42
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 10.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.2775	1.0	1106	0.4372	0.2117
0.2154	2.0	2212	0.4474	0.2044
0.2023	3.0	3318	0.4372	0.1920
0.186	4.0	4424	0.4285	0.1858
0.1856	5.0	5530	0.4589	0.1826
0.1537	6.0	6636	0.4658	0.1774
0.1337	7.0	7742	0.4769	0.1744
0.108	8.0	8848	0.4604	0.1724
0.1593	9.0	9954	0.4731	0.1694
0.0904	10.0	11060	0.4843	0.1683