wav2vec2-base-checkpoint-9オープンソース音声認識モデル - 高精度な認識、低い単語誤り率で超実用的

Wav2vec2 Base Checkpoint 9

jiobiala24によって開発

このモデルは、wav2vec2-base-checkpoint-8をベースに、common_voiceデータセットで微調整された音声認識モデルで、評価セットで0.3258の単語誤り率を達成しました。

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

これはwav2vec2アーキテクチャに基づく音声認識モデルで、common_voiceデータセットで微調整され、音声をテキストに変換することができます。

低単語誤り率

評価セットで0.3258の単語誤り率を達成し、良好な性能を示しました。

wav2vec2アーキテクチャに基づく

先進的なwav2vec2アーキテクチャを採用し、音声特徴を効果的に学習することができます。

common_voiceデータセットで微調整

common_voiceデータセットを使用して微調整し、モデルの汎化能力を向上させました。

音声認識

自動音声テキスト変換

音声文字起こし

音声メモの文字起こし

音声メモを自動的にテキストに変換する

精度約67.42%（単語誤り率から推算）

バリアフリーアプリケーション

リアルタイム字幕生成

聴覚障害者にリアルタイム字幕を提供する

このモデルは、common_voiceデータセットでjiobiala24/wav2vec2-base-checkpoint-8をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、音声認識タスクに使用できます。具体的な使用方法は、モデルのライブラリに依存します。

このモデルは、Transformerベースの音声認識モデルであるwav2vec2をベースにしています。common_voiceデータセットでファインチューニングされており、特定の音声認識タスクに適しています。

想定される用途は音声認識ですが、特定のデータセットやドメインに特化しているため、他のデータセットやドメインでの性能は低下する可能性があります。

学習と評価にはcommon_voiceデータセットが使用されました。

学習中に使用されたハイパーパラメータは以下の通りです。

パラメータ	値
学習率 (learning_rate)	0.0001
学習バッチサイズ (train_batch_size)	32
評価バッチサイズ (eval_batch_size)	8
シード (seed)	42
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	1000
エポック数 (num_epochs)	30
混合精度学習 (mixed_precision_training)	ネイティブAMP (Native AMP)

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.2783	1.58	1000	0.5610	0.3359
0.2251	3.16	2000	0.5941	0.3374
0.173	4.74	3000	0.6026	0.3472
0.1475	6.32	4000	0.6750	0.3482
0.1246	7.9	5000	0.6673	0.3414
0.1081	9.48	6000	0.7072	0.3409
0.1006	11.06	7000	0.7413	0.3392
0.0879	12.64	8000	0.7831	0.3394
0.0821	14.22	9000	0.7371	0.3333
0.0751	15.8	10000	0.8321	0.3445
0.0671	17.38	11000	0.8362	0.3357
0.0646	18.96	12000	0.8709	0.3367
0.0595	20.54	13000	0.8352	0.3321
0.0564	22.12	14000	0.8854	0.3323
0.052	23.7	15000	0.9031	0.3315
0.0485	25.28	16000	0.9171	0.3278
0.046	26.86	17000	0.9390	0.3254
0.0438	28.44	18000	0.9203	0.3258