wav2vec2-xls-r-myv-a1オープンソース音声認識モデル - エルジャ語の音声を高精度に認識可能

Wav2vec2 Xls R Myv A1

DrishtiSharmaによって開発

このモデルは、facebook/wav2vec2-xls-r-300mをベースに、エルジャ語(MYV)のデータセットで微調整された自動音声認識(ASR)モデルです。Common Voice 8のテストセットで65.15%の単語誤り率(WER)を達成しています。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #低リソース言語ASR #エルジャ語音声認識 #多方言ロバスト性

ダウンロード数 24

リリース時間 : 3/2/2022

モデル概要

これはエルジャ語用の自動音声認識モデルで、wav2vec2 XLS - Rアーキテクチャをベースに微調整されており、エルジャ語の音声をテキストに変換するタスクに適しています。

モデル特徴

多言語対応

エルジャ語に特化して最適化されており、低リソース言語の音声認識タスクに適しています

XLS - Rアーキテクチャベース

Facebookのwav2vec2 XLS - R 300Mパラメータモデルをベースにしており、強力な音声特徴抽出能力を持っています

Common Voiceデータセットで微調整

Mozilla Common Voice 8.0のエルジャ語データを使用して微調整されており、特定の言語の特徴に適応しています

モデル能力

音声からテキストへの変換

エルジャ語認識

自動音声認識

使用事例

音声書き起こし

エルジャ語音声の書き起こし

エルジャ語の音声内容をテキストに変換する

テストセットで65.15%の単語誤り率(WER)に達しました

言語保護

少数民族言語のデジタル化

エルジャ語などの少数民族言語の音声資料の記録とデジタル化を支援します

🚀 wav2vec2-xls-r-myv-a1

このモデルは、自動音声認識を行うためのモデルです。MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - MYVデータセットで微調整され、良好な性能を示します。

✨ 主な機能

自動音声認識タスクに特化したモデルです。
微調整により、特定の言語（myv）に対する認識精度が向上しています。

📦 インストール

インストールに関する具体的な手順は提供されていません。

💻 使用例

基本的な使用法

評価コマンドを使用してモデルの性能を評価できます。

1. mozilla - foundation/common_voice_8_0のテスト分割で評価する場合

python eval.py  --model_id DrishtiSharma/wav2vec2-xls-r-myv-a1 --dataset mozilla-foundation/common_voice_8_0 --config myv --split test --log_outputs

2. speech - recognition - community - v2/dev_dataで評価する場合

# Erzya言語はspeech-recognition-community-v2/dev_dataに見つかりません。

📚 ドキュメント

モデル情報

属性	详情
モデルタイプ	自動音声認識モデル
訓練データ	MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - MYV

評価結果

このモデルは評価セットで以下の結果を達成しています。

損失: 1.0356
単語誤り率 (Wer): 0.6524

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

学習率: 0.0004
訓練バッチサイズ: 16
評価バッチサイズ: 32
シード: 42
オプティマイザ: Adam（ベータ=(0.9, 0.999)、イプシロン=1e - 08）
学習率スケジューラタイプ: 線形
学習率スケジューラのウォームアップステップ: 800
エポック数: 200.0
混合精度訓練: ネイティブAMP

訓練結果

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.649	9.62	500	3.0038	1.0
1.6272	19.23	1000	0.7362	0.7819
1.1354	28.85	1500	0.6410	0.7111
1.0424	38.46	2000	0.6907	0.7431
0.9293	48.08	2500	0.7249	0.7102
0.8246	57.69	3000	0.7422	0.6966
0.7837	67.31	3500	0.7413	0.6813
0.7147	76.92	4000	0.7873	0.6930
0.6276	86.54	4500	0.8038	0.6677
0.6041	96.15	5000	0.8240	0.6831
0.5336	105.77	5500	0.8748	0.6749
0.4705	115.38	6000	0.9006	0.6497
0.43	125.0	6500	0.8954	0.6551
0.3859	134.62	7000	0.9074	0.6614
0.3342	144.23	7500	0.9693	0.6560
0.3155	153.85	8000	1.0073	0.6691
0.2673	163.46	8500	1.0170	0.6632
0.2409	173.08	9000	1.0304	0.6709
0.2189	182.69	9500	0.9965	0.6546
0.1973	192.31	10000	1.0360	0.6551

フレームワークバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

🔧 技術詳細

このモデルは[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)をベースに、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - MYVデータセットで微調整されています。