wav2vec2-large-xls-r-300m-latvianオープンソース音声認識モデル

ホーム

Wav2vec2 Large Xls R 300m Latvian

infinitejoyによって開発

これはfacebook/wav2vec2-xls-r-300mをラトビア語データセットでファインチューニングした自動音声認識モデルで、Common Voice 7テストセットで16.98%のWERを達成しました。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ラトビア語音声認識 #マルチシナリオ音声転写 #低CER高精度

ダウンロード数 222

リリース時間 : 3/2/2022

モデル概要

このモデルはラトビア語自動音声認識(ASR)のための事前学習済みモデルで、XLS-Rアーキテクチャを基にファインチューニングされており、音声からテキストへの変換タスクに適しています。

モデル特徴

多言語事前学習

XLS-R-300M多言語モデルを基にファインチューニングされており、強力なクロスランゲージ音声表現能力を継承しています

高効率音声認識

Common Voice 7ラトビア語テストセットで16.98%のWERを達成し、優れた性能を示しています

ロバスト性トレーニング

ロバスト音声イベントデータセットでテストされ、様々なシナリオにおけるモデルの適応性が検証されています

モデル能力

ラトビア語音声認識

音声からテキストへの変換

対話音声処理

使用事例

音声転写

音声メモのテキスト化

ラトビア語の音声メモを編集可能なテキストに変換

クリアな音声条件下では83%以上の精度を達成

音声アシスタント

ラトビア語音声コマンド認識

ローカライズされた音声アシスタントの基本音声認識コンポーネントとして使用

標準テストセットで良好な性能を示しています

🚀 XLS - R - 300M - ラトビア語

このモデルは、自動音声認識タスクに特化したモデルです。MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - LVデータセットで微調整された[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)のバージョンです。評価セットで良好な結果を達成しています。

📚 ドキュメント

モデルの概要

このモデルは、[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)をMOZILLA - FOUNDATION/COMMON_VOICE_7_0 - LVデータセットで微調整したものです。評価セットでは以下の結果を達成しています。

損失: 0.1892
単語誤り率 (Wer): 0.1698

想定される用途と制限

詳細情報は未提供です。

学習と評価データ

詳細情報は未提供です。

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 7e - 05
学習バッチサイズ (train_batch_size): 32
評価バッチサイズ (eval_batch_size): 1
乱数シード (seed): 42
オプティマイザ (optimizer): Adam (betas=(0.9, 0.999), epsilon=1e - 08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 2000
エポック数 (num_epochs): 100.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
1.4235	12.82	2000	0.4475	0.4551
0.9383	25.64	4000	0.2235	0.2328
0.8359	38.46	6000	0.2004	0.2098
0.7633	51.28	8000	0.1960	0.1882
0.7001	64.1	10000	0.1902	0.1809
0.652	76.92	12000	0.1979	0.1775
0.6025	89.74	14000	0.1866	0.1696

フレームワークバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.17.1.dev0
Tokenizers 0.11.0

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

📊 モデル指標

タスク	データセット	評価指標	値
自動音声認識	Common Voice 7	テスト単語誤り率 (Test WER)	16.977
自動音声認識	Common Voice 7	テスト文字誤り率 (Test CER)	4.23
自動音声認識	Robust Speech Event - Dev Data	テスト単語誤り率 (Test WER)	45.247
自動音声認識	Robust Speech Event - Dev Data	テスト文字誤り率 (Test CER)	16.924
自動音声認識	Robust Speech Event - Test Data	テスト単語誤り率 (Test WER)	56.16

その他情報

言語: ラトビア語 (lv)
タグ: automatic - speech - recognition, generated_from_trainer, hf - asr - leaderboard, lv, model_for_talk, mozilla - foundation/common_voice_7_0, robust - speech - event
データセット: mozilla - foundation/common_voice_7_0