wav2vec2-xls-r-pt-cv7-from-bp400h開源模型 - 精準實現葡萄牙語自動語音識別

首頁

Wav2vec2 Xls R Pt Cv7 From Bp400h

由lgris開發

這是一個基於wav2vec2 XLS-R架構的葡萄牙語自動語音識別(ASR)模型，在Common Voice 7數據集上微調，在測試集上取得12.13%的詞錯誤率(WER)。

語音識別

Transformers

其他開源協議:Apache-2.0 #葡萄牙語語音識別 #低詞錯誤率 #魯棒語音處理

下載量 94

發布時間 : 3/2/2022

模型概述

該模型專門用於葡萄牙語語音識別任務，基於Facebook的wav2vec2 XLS-R架構，並在Mozilla Common Voice 7.0數據集上進行了微調優化。

模型特點

高性能葡萄牙語識別

在Common Voice 7葡萄牙語測試集上達到12.13%的詞錯誤率(WER)和3.68%的字錯誤率(CER)

基於強大預訓練模型

基於lgris/bp_400h_xlsr2_300M預訓練模型進行微調，具備良好的語音特徵提取能力

多場景評估

除了Common Voice數據集外，還在魯棒語音賽事數據集上進行了評估，展示了模型在不同場景下的表現

模型能力

葡萄牙語語音識別

自動轉寫語音為文本

處理不同口音的葡萄牙語

使用案例

語音轉文字

語音備忘錄轉錄

將葡萄牙語語音備忘錄自動轉換為可搜索的文本

準確率達87.87% (基於WER 12.13%計算)

語音助手

為葡萄牙語語音助手提供語音識別能力

無障礙技術

即時字幕生成

為葡萄牙語視頻內容生成即時字幕

🚀 wav2vec2-xls-r-pt-cv7-from-bp400h

這個模型是基於自動語音識別技術的模型，它在常見語音數據集上對 lgris/bp_400h_xlsr2_300M 進行了微調，在評估集上取得了不錯的效果。

🚀 快速開始

此部分暫未提供相關內容。

✨ 主要特性

多語言支持：支持葡萄牙語（pt）的自動語音識別。
微調優化：在 common_voice 數據集上對預訓練模型進行了微調，提升了特定任務的性能。
多指標評估：通過 WER（詞錯誤率）和 CER（字符錯誤率）等指標進行評估，確保模型性能。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	自動語音識別模型
訓練數據	mozilla-foundation/common_voice_7_0 數據集
許可證	apache - 2.0

評估結果

該模型在多個數據集上進行了評估，以下是具體結果：

數據集名稱	任務類型	測試 WER	測試 CER
Common Voice 7	自動語音識別	12.13	3.68
Robust Speech Event - Dev Data (sv)	自動語音識別	28.23	12.58
Robust Speech Event - Dev Data (pt)	自動語音識別	26.58	-
Robust Speech Event - Test Data (pt)	自動語音識別	26.86	-

該模型在評估集上還取得了以下結果：

損失值（Loss）: 0.1535
詞錯誤率（Wer）: 0.1254

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）: 0.0001
訓練批次大小（train_batch_size）: 8
評估批次大小（eval_batch_size）: 8
隨機種子（seed）: 42
梯度累積步數（gradient_accumulation_steps）: 2
總訓練批次大小（total_train_batch_size）: 16
優化器（optimizer）: Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型（lr_scheduler_type）: 線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）: 100
訓練步數（training_steps）: 5000

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
0.4991	0.13	100	0.1774	0.1464
0.4655	0.26	200	0.1884	0.1568
0.4689	0.39	300	0.2282	0.1672
0.4662	0.52	400	0.1997	0.1584
0.4592	0.65	500	0.1989	0.1663
0.4533	0.78	600	0.2004	0.1698
0.4391	0.91	700	0.1888	0.1642
0.4655	1.04	800	0.1921	0.1624
0.4138	1.17	900	0.1950	0.1602
0.374	1.3	1000	0.2077	0.1658
0.4064	1.43	1100	0.1945	0.1596
0.3922	1.56	1200	0.2069	0.1665
0.4226	1.69	1300	0.1962	0.1573
0.3974	1.82	1400	0.1919	0.1553
0.3631	1.95	1500	0.1854	0.1573
0.3797	2.08	1600	0.1902	0.1550
0.3287	2.21	1700	0.1926	0.1598
0.3568	2.34	1800	0.1888	0.1534
0.3415	2.47	1900	0.1834	0.1502
0.3545	2.6	2000	0.1906	0.1560
0.3344	2.73	2100	0.1804	0.1524
0.3308	2.86	2200	0.1741	0.1485
0.344	2.99	2300	0.1787	0.1455
0.309	3.12	2400	0.1773	0.1448
0.312	3.25	2500	0.1738	0.1440
0.3066	3.38	2600	0.1727	0.1417
0.2999	3.51	2700	0.1692	0.1436
0.2985	3.64	2800	0.1732	0.1430
0.3058	3.77	2900	0.1754	0.1402
0.2943	3.9	3000	0.1691	0.1379
0.2813	4.03	3100	0.1754	0.1376
0.2733	4.16	3200	0.1639	0.1363
0.2592	4.29	3300	0.1675	0.1349
0.2697	4.42	3400	0.1618	0.1360
0.2538	4.55	3500	0.1658	0.1348
0.2746	4.67	3600	0.1674	0.1325
0.2655	4.8	3700	0.1655	0.1319
0.2745	4.93	3800	0.1665	0.1316
0.2617	5.06	3900	0.1600	0.1311
0.2674	5.19	4000	0.1623	0.1311
0.237	5.32	4100	0.1591	0.1315
0.2669	5.45	4200	0.1584	0.1295
0.2476	5.58	4300	0.1572	0.1285
0.2445	5.71	4400	0.1580	0.1271
0.2207	5.84	4500	0.1567	0.1269
0.2289	5.97	4600	0.1536	0.1260
0.2438	6.1	4700	0.1530	0.1260
0.227	6.23	4800	0.1544	0.1249
0.2256	6.36	4900	0.1543	0.1254
0.2184	6.49	5000	0.1535	0.1254