xls - r - uzbek - cv8オープンソース自動音声認識モデル - ウズベク語の音声内容を正確に認識

ホーム

Xls R Uzbek Cv8

lucioによって開発

facebook/wav2vec2-xls-r-300mをベースに、ウズベク語Common Voice 8データセットで微調整した自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ウズベク語音声認識 #低リソース言語最適化 #放送録音インデックス

ダウンロード数 2,860

リリース時間 : 3/2/2022

モデル概要

このモデルはウズベク語用の自動音声認識システムで、Common Voice 8データセットで訓練され、低精度の音声文字変換シーンに適しています

モデル特徴

ウズベク語専用モデル

ウズベク語に特化して最適化された音声認識モデル

低リソース最適化

Common Voiceデータセットの50%の訓練データを使用して良好な結果を達成

言語モデル強化

kenlm言語モデルを組み合わせることで、認識精度を大幅に向上させる

特殊文字処理

ウズベク語の特殊文字<‘>と<’>を正しく処理する

モデル能力

ウズベク語音声認識

低精度音声文字変換

放送録音インデックス

使用事例

メディア処理

動画字幕生成

ウズベク語動画に対して初期字幕草稿を生成する

放送録音インデックス

ウズベク語の放送内容を自動的にインデックス付けする

🚀 XLS-R-300M Uzbek CV8

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - UZデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。検証セットでは以下の結果を達成しています。

損失: 0.3063
単語誤り率 (Wer): 0.3852
文字誤り率 (Cer): 0.0777

✨ 主な機能

🔍 モデルの説明

モデルアーキテクチャの説明については、facebook/wav2vec2-xls-r-300mを参照してください。

モデルの語彙は、句読点を除いたウズベク語の現代ラテン文字で構成されています。ただし、<‘>と<’>は句読点とはみなされません。<‘>は<o>と<g>を修飾し、<’>は声門閉鎖音または長母音を示します。

デコーダは、common_voiceのテキストに基づいて構築されたkenlm言語モデルを使用しています。

🎯 想定される用途と制限

このモデルは、以下のような低忠実度のユースケースに役立つことが期待されます。

ドラフト動画のキャプション
録画された放送のインデックス作成

ただし、このモデルはアクセシビリティ目的のライブキャプションの代替として使用するには十分な信頼性がありません。また、Common Voiceデータセットの貢献者や他の話者のプライバシーを侵害するような方法で使用してはいけません。

📊 学習と評価データ

学習データとして、trainコモンボイスの公式分割の50%が使用されました。検証データとして、公式dev分割の50%が使用され、完全なtestセットがLMなしのモデルの最終評価に使用されました。一方、LM付きのモデルは、testセットから500のサンプルのみで評価されました。

kenlm言語モデルは、学習データセットとその他のデータセット分割のターゲット文からコンパイルされました。

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率: 3e-05
学習バッチサイズ: 32
評価バッチサイズ: 8
シード: 42
勾配累積ステップ: 4
総学習バッチサイズ: 128
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラのタイプ: 線形
学習率スケジューラのウォームアップステップ: 500
エポック数: 100.0
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
3.1401	3.25	500	3.1146	1.0	1.0
2.7484	6.49	1000	2.2842	1.0065	0.7069
1.0899	9.74	1500	0.5414	0.6125	0.1351
0.9465	12.99	2000	0.4566	0.5635	0.1223
0.8771	16.23	2500	0.4212	0.5366	0.1161
0.8346	19.48	3000	0.3994	0.5144	0.1102
0.8127	22.73	3500	0.3819	0.4944	0.1051
0.7833	25.97	4000	0.3705	0.4798	0.1011
0.7603	29.22	4500	0.3661	0.4704	0.0992
0.7424	32.47	5000	0.3529	0.4577	0.0957
0.7251	35.71	5500	0.3410	0.4473	0.0928
0.7106	38.96	6000	0.3401	0.4428	0.0919
0.7027	42.21	6500	0.3355	0.4353	0.0905
0.6927	45.45	7000	0.3308	0.4296	0.0885
0.6828	48.7	7500	0.3246	0.4204	0.0863
0.6706	51.95	8000	0.3250	0.4233	0.0868
0.6629	55.19	8500	0.3264	0.4159	0.0849
0.6556	58.44	9000	0.3213	0.4100	0.0835
0.6484	61.69	9500	0.3182	0.4124	0.0837
0.6407	64.93	10000	0.3171	0.4050	0.0825
0.6375	68.18	10500	0.3150	0.4039	0.0822
0.6363	71.43	11000	0.3129	0.3991	0.0810
0.6307	74.67	11500	0.3114	0.3986	0.0807
0.6232	77.92	12000	0.3103	0.3895	0.0790
0.6216	81.17	12500	0.3086	0.3891	0.0790
0.6174	84.41	13000	0.3082	0.3881	0.0785
0.6196	87.66	13500	0.3059	0.3875	0.0782
0.6174	90.91	14000	0.3084	0.3862	0.0780
0.6169	94.16	14500	0.3070	0.3860	0.0779
0.6166	97.4	15000	0.3066	0.3855	0.0778