wav2vec2-large-xls-r-300m-hiオープンソースモデル - 無料でデプロイして音声認識タスクをサポート

Wav2vec2 Large Xls R 300m Hi

anuragshasによって開発

このモデルは、facebook/wav2vec2-xls-r-300mを汎用音声データセットでファインチューニングしたバージョンで、主に音声認識タスクに使用されます。

ダウンロード数 22

リリース時間 : 3/2/2022

モデル概要

これはwav2vec2アーキテクチャに基づく音声認識モデルで、ファインチューニング後、特定言語の音声をテキストに変換するタスクに適しています。

効率的な音声認識

wav2vec2-xls-r-300mアーキテクチャに基づき、効率的な音声をテキストに変換する能力を提供します。

ファインチューニング最適化

汎用音声データセットでファインチューニングを行い、認識性能を最適化しました。

大規模事前学習

300Mパラメータの大規模事前学習モデルに基づいています。

音声認識

音声をテキストに変換

音声処理

音声文字起こし

音声内容をテキストに変換します。

単語誤り率0.7181

音声アシスタント

音声アシスタントの基礎認識コンポーネントとして使用します。

このモデルは、common_voiceデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、音声認識タスクに使用できます。具体的な使用方法は、Hugging Faceのライブラリを利用して行います。

詳細な情報は後日提供予定です。

詳細な情報は後日提供予定です。

詳細な情報は後日提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

属性	詳情
学習率 (learning_rate)	0.0003
学習バッチサイズ (train_batch_size)	16
評価バッチサイズ (eval_batch_size)	8
乱数シード (seed)	42
勾配累積ステップ数 (gradient_accumulation_steps)	2
総学習バッチサイズ (total_train_batch_size)	32
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps)	500
エポック数 (num_epochs)	30

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
5.7703	2.72	400	2.2274	0.9259
0.6515	5.44	800	1.5812	0.7581
0.339	8.16	1200	2.0590	0.7825
0.2262	10.88	1600	2.0324	0.7603
0.1665	13.6	2000	2.1396	0.7481
0.1311	16.33	2400	2.2090	0.7379
0.1079	19.05	2800	2.3907	0.7612
0.0927	21.77	3200	2.5294	0.7478
0.0748	24.49	3600	2.5024	0.7452
0.0644	27.21	4000	2.4715	0.7307
0.0569	29.93	4400	2.4156	0.7181