XLS - R - ウイグル語 - CV8オープンソース自動音声認識モデル

ホーム

Xls R Uyghur Cv8

lucioによって開発

facebook/wav2vec2-xls-r-300mをCommon Voice 8ウイグル語データセットでファインチューニングした自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ウイグル語音声認識 #低リソース言語処理 #放送録音インデックス

ダウンロード数 24

リリース時間 : 3/2/2022

モデル概要

このモデルはウイグル語に最適化された自動音声認識(ASR)モデルで、低精度要求の音声テキスト変換シナリオに適しています

モデル特徴

ウイグル語最適化

ウイグル語のペルシア・アラビア文字に特化して最適化され、句読点を除去しています

段階的学習戦略

2000ステップのウォームアップと9400ステップのクールダウンを含む学習率戦略を採用し、トレーニング効果を最適化

低リソース適応

限られたデータ条件下でも良好な認識効果を達成可能

モデル能力

ウイグル語音声認識

放送録音テキスト変換

動画字幕生成

使用事例

メディア処理

動画字幕ドラフト生成

ウイグル語動画コンテンツの自動字幕生成

単語誤り率30.5%、文字誤り率5.8%

放送録音インデックス

ウイグル語放送内容を検索可能なテキストに変換

🚀 XLS-R-300M Uyghur CV8

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - UGデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.2026
単語誤り率 (Wer): 0.3248

📚 ドキュメント

モデルの説明

モデルアーキテクチャの説明については、facebook/wav2vec2-xls-r-300mを参照してください。

モデルの語彙は、ウイグル語のペルシャ・アラビア文字のアルファベット文字で構成されており、句読点は削除されています。

想定される用途と制限

このモデルは、以下のような低品質な使用ケースに役立つと考えられます。

ドラフト動画のキャプション
録音された放送のインデックス作成

このモデルは、アクセシビリティ目的のライブキャプションの代替として使用するには十分な信頼性がなく、Common Voiceデータセットの貢献者や他の話者のプライバシーを侵害するような方法で使用してはなりません。

学習と評価データ

学習データとして、Common Voiceの公式分割のtrainとdevの組み合わせが使用されました。公式のtest分割は、検証データとして、また最終評価にも使用されました。

学習手順

XLS - Rモデルの特徴抽出層は凍結され、ウイグル語のCV8の例文に対して最終的なCTC/LM層が調整されます。学習率は、初期のウォームアップフェーズ2000ステップで最大0.0001まで上昇し、残りの9400ステップ（100エポック）で0に向かって冷却されます。

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

パラメータ	値
学習率 (learning_rate)	0.0001
学習バッチサイズ (train_batch_size)	16
評価バッチサイズ (eval_batch_size)	8
乱数シード (seed)	42
勾配累積ステップ (gradient_accumulation_steps)	4
総学習バッチサイズ (total_train_batch_size)	64
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e - 08)
学習率スケジューラのタイプ (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	2000
エポック数 (num_epochs)	100.0
混合精度学習 (mixed_precision_training)	ネイティブAMP (Native AMP)

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.3036	5.32	500	3.2628	1.0
2.9734	10.63	1000	2.5677	0.9980
1.3466	15.95	1500	0.4455	0.6306
1.2424	21.28	2000	0.3603	0.5301
1.1655	26.59	2500	0.3165	0.4740
1.1026	31.91	3000	0.2930	0.4400
1.0655	37.23	3500	0.2675	0.4159
1.0239	42.55	4000	0.2580	0.3913
0.9938	47.87	4500	0.2373	0.3698
0.9655	53.19	5000	0.2379	0.3675
0.9374	58.51	5500	0.2486	0.3795
0.9065	63.83	6000	0.2243	0.3405
0.888	69.15	6500	0.2157	0.3277
0.8646	74.47	7000	0.2103	0.3288
0.8602	79.78	7500	0.2088	0.3238
0.8442	85.11	8000	0.2045	0.3266
0.8335	90.42	8500	0.2038	0.3241
0.8288	95.74	9000	0.2024	0.3280