wav2vec2-base-checkpoint-12オープンソースモデル - 無料でデプロイし、音声認識タスクを効率的に支援

Wav2vec2 Base Checkpoint 12

jiobiala24によって開発

このモデルはwav2vec2-base-checkpoint-11.1をcommon_voiceデータセットで微調整したバージョンで、主に音声認識タスクに使用されます。

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

wav2vec2-base-checkpoint-12はwav2vec2アーキテクチャに基づく音声認識モデルで、common_voiceデータセットで微調整されています。

効率的な微調整

wav2vec2-base-checkpoint-11.1をcommon_voiceデータセットで微調整し、音声認識性能を最適化しました。

低単語誤り率

評価データセットで0.3452の単語誤り率(WER)を達成し、良好な性能を示しています。

混合精度トレーニング

ネイティブAMPを使用した混合精度トレーニングにより、トレーニング効率を向上させました。

音声認識

音声からテキストへの変換

音声書き起こし

音声からテキストへ

音声オーディオをテキスト内容に変換

単語誤り率0.3452

このモデルは、jiobiala24/wav2vec2-base-checkpoint-11.1 を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは音声関連のタスクに使用できます。具体的な使用方法は、モデルのバックグラウンドや目的に応じて異なります。

詳細な情報は後日追加予定です。

詳細な情報は後日追加予定です。

詳細な情報は後日追加予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.2793	1.64	1000	0.5692	0.3518
0.2206	3.28	2000	0.6127	0.3460
0.1733	4.93	3000	0.6622	0.3580
0.1391	6.57	4000	0.6768	0.3519
0.1193	8.21	5000	0.7559	0.3540
0.1053	9.85	6000	0.7873	0.3562
0.093	11.49	7000	0.8170	0.3612
0.0833	13.14	8000	0.8682	0.3579
0.0753	14.78	9000	0.8317	0.3573
0.0698	16.42	10000	0.9213	0.3525
0.0623	18.06	11000	0.9746	0.3531
0.0594	19.7	12000	1.0027	0.3502
0.0538	21.35	13000	1.0045	0.3545
0.0504	22.99	14000	0.9821	0.3523
0.0461	24.63	15000	1.0818	0.3462
0.0439	26.27	16000	1.0995	0.3495
0.0421	27.91	17000	1.0533	0.3430
0.0415	29.56	18000	1.0795	0.3452