wav2vec2-xls-r-300m-caオープンソース音声認識モデル - カタルーニャ語の自動音声認識をサポート

ホーム

Wav2vec2 Xls R 300m Ca

PereLluis13によって開発

facebook/wav2vec2-xls-r-300mをカタルーニャ語データセットでファインチューニングした音声認識モデルで、自動音声認識タスクをサポートします。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #カタルーニャ語音声認識 #多領域データセット訓練 #低単語誤り率

ダウンロード数 116

リリース時間 : 3/2/2022

モデル概要

このモデルはカタルーニャ語の自動音声認識(ASR)モデルで、複数のカタルーニャ語データセットでファインチューニングされ、音声をテキストに変換できます。

モデル特徴

多データセット訓練

MOZILLA - FOUNDATION/COMMON_VOICE_8_0、tv3_parla、parlament_parlaなどの複数のカタルーニャ語データセットでファインチューニングされました。

数字変換サポート

特殊な処理を使用して数字を文字形式に変換し、数字認識の正確性を向上させます。

最適化された訓練プロセス

精心設計された前処理プロセスと訓練ハイパーパラメータを採用し、線形学習率スケジューリングとAMP混合精度訓練を含みます。

モデル能力

カタルーニャ語音声認識

音声をテキストに変換

数字認識

使用事例

メディア文字起こし

テレビ番組字幕生成

カタルーニャ語のテレビ番組に自動で字幕を生成します。

tv3_parlaデータセットでのWERは23.32%です。

会議記録

議会会議記録

カタルーニャ議会の会議内容を自動で文字起こしします。

parlament_parlaデータセットでのWERは8.05%です。

音声アシスタント

カタルーニャ語音声入力

カタルーニャ語の音声アシスタントに音声認識機能を提供します。

Common VoiceデータセットでのWERは13.17%です。

🚀 wav2vec2-xls-r-300m-ca

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - CA、tv3_parla、parlament_parla のデータセットで facebook/wav2vec2-xls-r-300m をファインチューニングしたものです。評価セット（3つのデータセット）では以下の結果を達成しています。

損失: 0.2472
単語誤り率 (Wer): 0.1499

✨ 主な機能

このモデルは自動音声認識タスクに特化しており、カタルーニャ語の音声を高精度に認識することができます。

📚 ドキュメント

モデルの説明

元の facebook/wav2vec2-xls-r-1b のモデルカードを確認してください。これはそのモデルをファインチューニングしたものです。

想定される用途と制限

クラウドソーシングされたデータで学習されたモデルと同様に、このモデルは学習に使用されたデータとモデルのバイアスや特性を示す可能性があります。また、これは音声認識モデルであるため、カタルーニャ語の一部の低リソース方言では性能が低下する可能性があります。

学習と評価データ

詳細情報は後日提供予定です。

学習手順

データは、カタルーニャ語アルファベットに含まれない文字を削除するように前処理されています。また、数字は @ccoreilly が提供したコードを使用して表現され、このコードは text/ フォルダまたはこちらで見つけることができます。

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

パラメータ	詳細
学習率 (learning_rate)	7.5e-05
学習バッチサイズ (train_batch_size)	32
評価バッチサイズ (eval_batch_size)	32
シード (seed)	42
勾配累積ステップ数 (gradient_accumulation_steps)	4
総学習バッチサイズ (total_train_batch_size)	128
オプティマイザ (optimizer)	Adam（ベータ=(0.9, 0.999)、イプシロン=1e-08）
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps)	2000
エポック数 (num_epochs)	18.0
混合精度学習 (mixed_precision_training)	ネイティブAMP

学習結果

学習プロファイルと学習中の評価結果を確認するには、Tensorboard タブを確認してください。モデルは学習中に使用された各データセットのテスト分割で評価されました。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
6.2099	0.09	500	3.4125	1.0
2.9961	0.18	1000	2.9224	1.0
2.2147	0.26	1500	0.6521	0.5568
1.3017	0.35	2000	0.3153	0.2761
1.1196	0.44	2500	0.2444	0.2367
1.0712	0.53	3000	0.2324	0.2132
1.052	0.62	3500	0.2173	0.2032
1.2813	2.13	4000	0.3326	0.2099
1.2365	2.4	4500	0.3224	0.2003
1.2193	2.66	5000	0.3198	0.1957
1.2072	2.93	5500	0.3063	0.1933
1.213	3.2	6000	0.3051	0.1980
1.2074	3.46	6500	0.3012	0.1879
1.1918	3.73	7000	0.2947	0.1829
1.1893	4.0	7500	0.2895	0.1807
1.1751	4.26	8000	0.2878	0.1776
1.1628	4.53	8500	0.2835	0.1731
1.1577	4.79	9000	0.2816	0.1761
1.1448	5.06	9500	0.2757	0.1740
1.1407	5.33	10000	0.2768	0.1798
1.1401	5.59	10500	0.2780	0.1816
1.1333	5.86	11000	0.2748	0.1750
1.1571	6.13	11500	0.2808	0.1708
1.1505	6.39	12000	0.2726	0.1692
1.1519	6.66	12500	0.2749	0.1654
1.136	6.93	13000	0.2765	0.1643
1.1326	7.19	13500	0.2706	0.1668
1.1342	7.46	14000	0.2665	0.1638
1.1286	7.72	14500	0.2669	0.1636
1.1243	7.99	15000	0.2619	0.1623
1.1173	8.26	15500	0.2652	0.1604
1.1129	8.52	16000	0.2610	0.1598
1.1091	8.79	16500	0.2608	0.1584
1.1053	9.06	17000	0.2633	0.1664
1.1004	9.32	17500	0.2594	0.1662
1.0995	9.59	18000	0.2623	0.1569
1.0964	9.86	18500	0.2624	0.1597
1.09	10.12	19000	0.2577	0.1578
1.089	10.39	19500	0.2574	0.1531
1.0864	10.66	20000	0.2556	0.1546
1.0806	10.92	20500	0.2548	0.1583
1.0842	11.19	21000	0.2550	0.1542
1.0805	11.45	21500	0.2561	0.1524
1.0722	11.72	22000	0.2540	0.1566
1.0763	11.99	22500	0.2549	0.1572
1.0835	12.25	23000	0.2586	0.1521
1.0883	12.52	23500	0.2583	0.1519
1.0888	12.79	24000	0.2551	0.1582
1.0933	13.05	24500	0.2628	0.1537
1.0799	13.32	25000	0.2600	0.1508
1.0804	13.59	25500	0.2620	0.1475
1.0814	13.85	26000	0.2537	0.1517
1.0693	14.12	26500	0.2560	0.1542
1.0724	14.38	27000	0.2540	0.1574
1.0704	14.65	27500	0.2548	0.1626
1.0729	14.92	28000	0.2548	0.1601
1.0724	15.18	28500	0.2511	0.1512
1.0655	15.45	29000	0.2498	0.1490
1.0608	15.98	30000	0.2487	0.1481
1.0541	16.52	31000	0.2468	0.1504
1.0584	17.05	32000	0.2467	0.1493
1.0507	17.58	33000	0.2481	0.1517