xls-r-uyghur-cv7オープンソース自動音声認識モデル - ウイグル語の音声内容を正確に認識

ホーム

Xls R Uyghur Cv7

lucioによって開発

このモデルはfacebook/wav2vec2-xls-r-300mをウイグル語Common Voice 7データセットでファインチューニングした自動音声認識モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ウイグル語音声認識 #低リソース言語処理 #Common Voiceファインチューニング

ダウンロード数 18

リリース時間 : 3/2/2022

モデル概要

これはウイグル語向けの自動音声認識モデルで、低精度要求の音声テキスト変換シナリオに適しています。

モデル特徴

低リソース言語サポート

ウイグル語に最適化された音声認識モデル

効率的なファインチューニング

Common Voice 7データセットで精密に調整

軽量

300MパラメータのXLS-Rモデルベースでリソース制限環境に適応

モデル能力

ウイグル語音声認識

音声テキスト変換

放送録音インデックス

使用事例

メディア処理

動画字幕生成

ウイグル語動画コンテンツのドラフト字幕生成

単語誤り率25.8%

放送コンテンツインデックス

ウイグル語放送録音の自動インデックス作成

文字誤り率4.8%

🚀 XLS-R-300M Uyghur CV7

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - UGデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.1772
単語誤り率 (Wer): 0.2589

📚 ドキュメント

モデルの説明

モデルアーキテクチャの説明については、facebook/wav2vec2-xls-r-300mを参照してください。

モデルの語彙は、ウイグル語のペルシャ・アラビア文字のアルファベット文字からなり、句読点は削除されています。

想定される用途と制限

このモデルは、以下のような低忠実度のユースケースに役立つことが期待されます。

ドラフト動画のキャプション
録音された放送のインデックス付け

このモデルは、アクセシビリティ目的でのライブキャプションの代替として使用するには十分な信頼性がありません。また、Common Voiceデータセットの貢献者や他の話者のプライバシーを侵害するような方法で使用してはいけません。

学習と評価データ

学習データとして、Common Voiceの公式分割のtrainとdevの組み合わせが使用されました。公式のtest分割は、検証データとして、また最終評価にも使用されました。

学習手順

XLS-Rモデルの特徴抽出層は凍結され、ウイグル語のCV7のサンプル文に対して最終的なCTC/LM層が調整されます。学習率は、最初の2000ステップのウォームアップフェーズを持ち、最大0.0001に達し、残りの18500ステップ（100エポック）で0に向かって冷却されます。

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

パラメータ	値
学習率 (learning_rate)	0.0001
学習バッチサイズ (train_batch_size)	8
評価バッチサイズ (eval_batch_size)	8
乱数シード (seed)	42
勾配累積ステップ数 (gradient_accumulation_steps)	4
総学習バッチサイズ (total_train_batch_size)	32
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps)	2000
エポック数 (num_epochs)	100.0
混合精度学習 (mixed_precision_training)	ネイティブAMP (Native AMP)

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.3043	2.73	500	3.2415	1.0
3.0482	5.46	1000	2.9591	1.0
1.4767	8.2	1500	0.4779	0.5777
1.3152	10.93	2000	0.3697	0.4938
1.2246	13.66	2500	0.3084	0.4459
1.1781	16.39	3000	0.2842	0.4154
1.1351	19.13	3500	0.2615	0.3929
1.1052	21.86	4000	0.2462	0.3747
1.0711	24.59	4500	0.2366	0.3652
1.035	27.32	5000	0.2268	0.3557
1.0277	30.05	5500	0.2243	0.3450
1.002	32.79	6000	0.2204	0.3389
0.9837	35.52	6500	0.2156	0.3349
0.9773	38.25	7000	0.2127	0.3289
0.9807	40.98	7500	0.2142	0.3274
0.9582	43.72	8000	0.2004	0.3142
0.9548	46.45	8500	0.2022	0.3050
0.9251	49.18	9000	0.2019	0.3035
0.9103	51.91	9500	0.1964	0.3021
0.915	54.64	10000	0.1970	0.3032
0.8962	57.38	10500	0.2007	0.3046
0.8729	60.11	11000	0.1967	0.2942
0.8744	62.84	11500	0.1952	0.2885
0.874	65.57	12000	0.1894	0.2895
0.8457	68.31	12500	0.1895	0.2828
0.8519	71.04	13000	0.1912	0.2875
0.8301	73.77	13500	0.1878	0.2760
0.8226	76.5	14000	0.1808	0.2701
0.8071	79.23	14500	0.1849	0.2741
0.7999	81.97	15000	0.1808	0.2717
0.7947	84.7	15500	0.1821	0.2716
0.7783	87.43	16000	0.1824	0.2661
0.7729	90.16	16500	0.1773	0.2639
0.7759	92.9	17000	0.1767	0.2629
0.7713	95.63	17500	0.1780	0.2621
0.7628	98.36	18000	0.1773	0.2594