wav2vec2-large-xls-r-300m-iaオープンソース音声認識モデル - 無料でデプロイし、複数言語の音声を正確に認識

ホーム

Wav2vec2 Large Xls R 300m Ia

ayameRushiaによって開発

facebook/wav2vec2-xls-r-300mをCommon Voice 8.0国際語データセットでファインチューニングした自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #国際語音声認識 #低単語誤り率 #多言語サポート

ダウンロード数 23

リリース時間 : 3/2/2022

モデル概要

このモデルは国際語に最適化された自動音声認識(ASR)モデルで、Common Voice 8.0データセットでファインチューニングされ、音声をテキストに変換する機能をサポートします。

モデル特徴

高性能音声認識

Common Voice 8.0国際語テストセットで8.6074%の単語誤り率(WER)と2.4147%の文字誤り率(CER)を達成

言語モデルサポート

言語モデルを使用したデコードをサポートし、認識精度を大幅に向上

大規模事前学習モデルベース

facebook/wav2vec2-xls-r-300mモデルをファインチューニングし、強力な音声特徴抽出能力を継承

モデル能力

音声からテキストへの変換

国際語音声認識

言語モデルデコードのサポート

使用事例

音声文字起こし

国際語音声文字起こし

国際語の音声コンテンツをテキストに変換

テストセットで8.6074%の単語誤り率を達成

音声アシスタント

国際語音声コマンド認識

国際語の音声コマンドを認識

🚀 wav2vec2-large-xls-r-300m-ia

このモデルは、facebook/wav2vec2-xls-r-300m を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.1452
単語誤り率 (Wer): 0.1253

🚀 クイックスタート

このモデルは、自動音声認識タスクに適用できます。以下のセクションでは、トレーニング手順や評価方法などの詳細を説明します。

📚 ドキュメント

トレーニング手順

トレーニングは Google Colab で行われ、リポジトリに提供されているトレーニングノートブックを使用します。

トレーニングと評価データ

言語モデルは、データセット（Interlingua 用の Common Voice 8.0）のトレーニング + 検証分割の処理済み文のテキストから作成されます。評価はノートブックで行われ、リポジトリ内の "notebook_evaluation_wav2vec2_ia.ipynb" で確認できます。

言語モデルを使用しない場合のテスト結果

単語誤り率 (wer): 20.1776 %
文字誤り率 (cer): 4.7205 %

言語モデルを使用した場合のテスト結果

単語誤り率 (wer): 8.6074 %
文字誤り率 (cer): 2.4147 %

eval.py を使用した評価

huggingface-cli login # Hugging Faceにログインして、Common Voice v8にアクセスするための認証トークンを取得
# 言語モデルを使用して実行
python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-ia --dataset mozilla-foundation/common_voice_8_0 --config ia --split test

# 言語モデルを使用せずに実行
python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-ia --dataset mozilla-foundation/common_voice_8_0 --config ia --split test --greedy

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

属性	詳細
学習率 (learning_rate)	3e-05
トレーニングバッチサイズ (train_batch_size)	16
評価バッチサイズ (eval_batch_size)	4
乱数シード (seed)	42
勾配累積ステップ数 (gradient_accumulation_steps)	2
総トレーニングバッチサイズ (total_train_batch_size)	32
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラのタイプ (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps)	400
エポック数 (num_epochs)	30
混合精度トレーニング (mixed_precision_training)	Native AMP

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
7.432	1.87	400	2.9636	1.0
2.6922	3.74	800	2.2111	0.9977
1.2581	5.61	1200	0.4864	0.4028
0.6232	7.48	1600	0.2807	0.2413
0.4479	9.35	2000	0.2219	0.1885
0.3654	11.21	2400	0.1886	0.1606
0.323	13.08	2800	0.1716	0.1444
0.2935	14.95	3200	0.1687	0.1443
0.2707	16.82	3600	0.1632	0.1382
0.2559	18.69	4000	0.1507	0.1337
0.2433	20.56	4400	0.1572	0.1358
0.2338	22.43	4800	0.1489	0.1305
0.2258	24.3	5200	0.1485	0.1278
0.2218	26.17	5600	0.1470	0.1272
0.2169	28.04	6000	0.1470	0.1270
0.2117	29.91	6400	0.1452	0.1253