wav2vec2-xls-r-pt-cv7-from-bp400hオープンソースモデル - ポルトガル語の自動音声認識を精度よく実現

ホーム

Wav2vec2 Xls R Pt Cv7 From Bp400h

lgrisによって開発

これはwav2vec2 XLS-Rアーキテクチャに基づくポルトガル語自動音声認識(ASR)モデルで、Common Voice 7データセットでファインチューニングされ、テストセットで12.13%の単語誤り率(WER)を達成しました。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ポルトガル語音声認識 #低単語誤り率 #ロバスト音声処理

ダウンロード数 94

リリース時間 : 3/2/2022

モデル概要

このモデルはポルトガル語音声認識タスク専用で、Facebookのwav2vec2 XLS-Rアーキテクチャに基づき、Mozilla Common Voice 7.0データセットでファインチューニング最適化されています。

モデル特徴

高性能ポルトガル語認識

Common Voice 7ポルトガル語テストセットで12.13%の単語誤り率(WER)と3.68%の文字誤り率(CER)を達成

強力な事前学習モデルベース

lgris/bp_400h_xlsr2_300M事前学習モデルを基にファインチューニングされ、優れた音声特徴抽出能力を備えています

マルチシーン評価

Common Voiceデータセットに加え、ロバスト音声コンペティションデータセットでも評価され、様々なシナリオでのモデル性能を示しています

モデル能力

ポルトガル語音声認識

音声をテキストに自動変換

異なるアクセントのポルトガル語処理

使用事例

音声からテキストへ

音声メモの文字起こし

ポルトガル語音声メモを検索可能なテキストに自動変換

87.87%の精度 (WER 12.13%に基づき計算)

音声アシスタント

ポルトガル語音声アシスタントに音声認識機能を提供

アクセシビリティ技術

リアルタイム字幕生成

ポルトガル語動画コンテンツにリアルタイム字幕を生成

🚀 wav2vec2-xls-r-pt-cv7-from-bp400h

このモデルは、自動音声認識を行うためのモデルです。lgris/bp_400h_xlsr2_300M を common_voice データセットでファインチューニングしたもので、評価セットで良好な結果を達成しています。

🚀 クイックスタート

このモデルは、自動音声認識タスクに使用できます。以下に、評価セットでの結果を示します。

損失: 0.1535
単語誤り率 (Wer): 0.1254

📚 ドキュメント

モデルの概要

このモデルは、lgris/bp_400h_xlsr2_300M を common_voice データセットでファインチューニングしたものです。

想定される用途と制限

詳細な情報はありません。

学習と評価データ

詳細な情報はありません。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0001
学習バッチサイズ (train_batch_size): 8
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 16
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 100
学習ステップ数 (training_steps): 5000

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.4991	0.13	100	0.1774	0.1464
0.4655	0.26	200	0.1884	0.1568
0.4689	0.39	300	0.2282	0.1672
0.4662	0.52	400	0.1997	0.1584
0.4592	0.65	500	0.1989	0.1663
0.4533	0.78	600	0.2004	0.1698
0.4391	0.91	700	0.1888	0.1642
0.4655	1.04	800	0.1921	0.1624
0.4138	1.17	900	0.1950	0.1602
0.374	1.3	1000	0.2077	0.1658
0.4064	1.43	1100	0.1945	0.1596
0.3922	1.56	1200	0.2069	0.1665
0.4226	1.69	1300	0.1962	0.1573
0.3974	1.82	1400	0.1919	0.1553
0.3631	1.95	1500	0.1854	0.1573
0.3797	2.08	1600	0.1902	0.1550
0.3287	2.21	1700	0.1926	0.1598
0.3568	2.34	1800	0.1888	0.1534
0.3415	2.47	1900	0.1834	0.1502
0.3545	2.6	2000	0.1906	0.1560
0.3344	2.73	2100	0.1804	0.1524
0.3308	2.86	2200	0.1741	0.1485
0.344	2.99	2300	0.1787	0.1455
0.309	3.12	2400	0.1773	0.1448
0.312	3.25	2500	0.1738	0.1440
0.3066	3.38	2600	0.1727	0.1417
0.2999	3.51	2700	0.1692	0.1436
0.2985	3.64	2800	0.1732	0.1430
0.3058	3.77	2900	0.1754	0.1402
0.2943	3.9	3000	0.1691	0.1379
0.2813	4.03	3100	0.1754	0.1376
0.2733	4.16	3200	0.1639	0.1363
0.2592	4.29	3300	0.1675	0.1349
0.2697	4.42	3400	0.1618	0.1360
0.2538	4.55	3500	0.1658	0.1348
0.2746	4.67	3600	0.1674	0.1325
0.2655	4.8	3700	0.1655	0.1319
0.2745	4.93	3800	0.1665	0.1316
0.2617	5.06	3900	0.1600	0.1311
0.2674	5.19	4000	0.1623	0.1311
0.237	5.32	4100	0.1591	0.1315
0.2669	5.45	4200	0.1584	0.1295
0.2476	5.58	4300	0.1572	0.1285
0.2445	5.71	4400	0.1580	0.1271
0.2207	5.84	4500	0.1567	0.1269
0.2289	5.97	4600	0.1536	0.1260
0.2438	6.1	4700	0.1530	0.1260
0.227	6.23	4800	0.1544	0.1249
0.2256	6.36	4900	0.1543	0.1254
0.2184	6.49	5000	0.1535	0.1254