w2v2-kaqchikelオープンソース音声認識モデル - カクチケル語の音声内容を高精度に認識

ホーム

W2v2 Kaqchikel

sil-aiによって開発

facebook/wav2vec2-xls-r-300mを基にカクチケル語音声データでファインチューニングした音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:MIT #カクチケル語音声認識 #低リソース言語モデル #XLS-Rファインチューニング

ダウンロード数 21

リリース時間 : 4/26/2022

モデル概要

このモデルはカクチケル語に最適化された音声認識システムで、Deditosの動画クリップとBloom Libraryのオーディオブックデータを使用してファインチューニングされており、カクチケル語の自動音声テキスト変換タスクに適しています。

モデル特徴

低リソース言語サポート

カクチケル語のような低リソース言語に特化して最適化されています

複数データソースでのトレーニング

動画クリップとオーディオブックという異なるソースのトレーニングデータを組み合わせています

良好なパフォーマンス

評価セットで0.0854の文字誤り率と0.3069の単語誤り率を達成しました

モデル能力

カクチケル語音声認識

音声からテキストへの変換

低リソース言語処理

使用事例

教育

言語学習支援

カクチケル語学習者に発音評価と文字起こし機能を提供します

文化保護

先住民言語の文書化

カクチケル語の口承伝統を文字形式で保存するために転記します

🚀 wav2vec2-large-xls-r-300m-kaqchikel-with-bloom

このモデルは、Viña Studios が提供する Deditos のKaqchikel語の動画の音声コレクションと、Bloom Library のオーディオブックのKaqchikel語の音声を使用して、facebook/wav2vec2-xls-r-300m をファインチューニングしたバージョンです。評価セットでは、以下の結果を達成しています。

損失: 0.6700
文字誤り率 (CER): 0.0854
単語誤り率 (WER): 0.3069

🚀 クイックスタート

このモデルは音声認識タスクに使用できます。事前学習済みのモデルをベースに、Kaqchikel語の音声データでファインチューニングされています。

✨ 主な機能

特定の言語（Kaqchikel語）に対する音声認識性能の向上。
公開されている事前学習モデルをベースにしているため、再現性が高い。

📚 ドキュメント

モデルの説明

ホームページ: SIL AI
問い合わせ先: SIL AI メール
ソースデータ: Bloom Library と Viña Studios

このモデルは XLS-R 300m からファインチューニングされたベースラインモデルです。推論に訓練済みモデルを使用する方法については、元のモデルのチュートリアルを参照してください。

想定される用途と制限

このモデルのユーザーは、国連先住民族の権利に関する宣言に従う必要があります。このモデルはMITライセンスの下で公開されており、特定の状況におけるモデルの性能については保証されていません。

学習と評価データ

学習、検証、テストデータセットは同じコーパスから生成され、重複するファイルは使用されていません。

学習手順

Hugging Face TransformersのGitHub の例に基づいて、XLS - Rの標準的なファインチューニング手法が使用されました。

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率: 0.0003
学習バッチサイズ: 8
評価バッチサイズ: 8
乱数シード: 42
勾配累積ステップ数: 4
総学習バッチサイズ: 32
オプティマイザ: Adam（ベータ=(0.9, 0.999)、イプシロン=1e - 08）
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ数: 200
エポック数: 100
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	文字誤り率 (CER)	単語誤り率 (WER)
11.1557	1.84	100	4.2251	1.0	1.0
3.7231	3.7	200	3.5794	1.0	1.0
3.3076	5.55	300	3.4362	1.0	1.0
3.2495	7.4	400	3.2553	1.0	1.0
3.2076	9.26	500	3.2932	1.0	1.0
3.1304	11.11	600	3.1100	1.0	1.0
2.899	12.95	700	2.4021	0.8477	1.0
2.2875	14.81	800	1.5473	0.4790	0.9984
1.7605	16.66	900	1.1034	0.3061	0.9192
1.3802	18.51	1000	0.9422	0.2386	0.8530
1.0989	20.37	1100	0.7429	0.1667	0.6042
0.857	22.22	1200	0.7490	0.1499	0.5751
0.6899	24.07	1300	0.6376	0.1286	0.4798
0.5927	25.92	1400	0.6887	0.1232	0.4443
0.4699	27.77	1500	0.6341	0.1184	0.4378
0.4029	29.62	1600	0.6341	0.1103	0.4216
0.3492	31.48	1700	0.6709	0.1121	0.4120
0.3019	33.33	1800	0.7665	0.1097	0.4136
0.2681	35.18	1900	0.6671	0.1085	0.4120
0.2491	37.04	2000	0.7049	0.1010	0.3748
0.2108	38.88	2100	0.6699	0.1064	0.3974
0.2146	40.73	2200	0.7037	0.1046	0.3780
0.1854	42.59	2300	0.6970	0.1055	0.4006
0.1693	44.44	2400	0.6593	0.0980	0.3764
0.1628	46.29	2500	0.7162	0.0998	0.3764
0.156	48.15	2600	0.6445	0.0998	0.3829
0.1439	49.99	2700	0.6437	0.1004	0.3845
0.1292	51.84	2800	0.6471	0.0944	0.3457
0.1287	53.7	2900	0.6411	0.0923	0.3538
0.1186	55.55	3000	0.6754	0.0992	0.3813
0.1175	57.4	3100	0.6741	0.0953	0.3538
0.1082	59.26	3200	0.6949	0.0977	0.3619
0.105	61.11	3300	0.6919	0.0983	0.3683
0.1048	62.95	3400	0.6802	0.0950	0.3425
0.092	64.81	3500	0.6830	0.0962	0.3263
0.0904	66.66	3600	0.6993	0.0971	0.3554
0.0914	68.51	3700	0.6932	0.0995	0.3554
0.0823	70.37	3800	0.6742	0.0950	0.3409
0.0799	72.22	3900	0.6852	0.0917	0.3279
0.0767	74.07	4000	0.6684	0.0929	0.3489
0.0736	75.92	4100	0.6611	0.0923	0.3393
0.0708	77.77	4200	0.7123	0.0944	0.3393
0.0661	79.62	4300	0.6577	0.0899	0.3247
0.0651	81.48	4400	0.6671	0.0869	0.3150
0.0607	83.33	4500	0.6980	0.0893	0.3231
0.0552	85.18	4600	0.6947	0.0884	0.3183
0.0574	87.04	4700	0.6652	0.0899	0.3183
0.0503	88.88	4800	0.6798	0.0863	0.3053
0.0479	90.73	4900	0.6690	0.0884	0.3166
0.0483	92.59	5000	0.6789	0.0872	0.3069
0.0437	94.44	5100	0.6758	0.0875	0.3069
0.0458	96.29	5200	0.6662	0.0884	0.3102
0.0434	98.15	5300	0.6699	0.0881	0.3069
0.0449	99.99	5400	0.6700	0.0854	0.3069