Wav2vec2 Xls R 300m Italian Robust
W
Wav2vec2 Xls R 300m Italian Robust
由dbdmg開發
基於facebook/wav2vec2-xls-r-300m在多個意大利語語音數據集上微調的自動語音識別模型
下載量 28
發布時間 : 3/2/2022
模型概述
這是一個針對意大利語的自動語音識別(ASR)模型,基於XLS-R架構,在Common Voice等公開數據集上微調而成,支持帶語言模型的增強識別。
模型特點
多數據集訓練
在Common Voice、LibriSpeech、TED等多語言數據集上微調,提高模型魯棒性
語言模型增強
支持結合語言模型進行識別,WER相對降低約30%
跨場景適應
在魯棒語音事件數據集上表現良好,適應不同錄音環境
模型能力
意大利語語音轉文本
帶語言模型的增強識別
多種口音識別
使用案例
語音轉錄
會議記錄
將意大利語會議錄音轉換為文字記錄
CER 3.52%(帶語言模型)
媒體字幕生成
為意大利語視頻內容自動生成字幕
語音交互
語音助手
支持意大利語語音指令識別
🚀 wav2vec2-xls-r-300m-italian-robust
該模型是基於意大利語數據集對 facebook/wav2vec2-xls-r-300m 進行微調後的版本,可用於自動語音識別任務。
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型類型 | 自動語音識別模型 |
訓練數據 | - Mozilla Foundation Common Voice V7 數據集 - LibriSpeech 多語言 - TED 多語言 - Voxforge - M-AILABS 語音數據集 - EuroParl-ST - EMOVO - MSPKA |
基礎模型 | facebook/wav2vec2-xls-r-300m |
模型表現
任務 | 數據集 | 指標 | 值 |
---|---|---|---|
自動語音識別 | Common Voice 7 | 測試詞錯誤率 (WER) | 17.17 |
自動語音識別 | Common Voice 7 | 測試字符錯誤率 (CER) | 4.27 |
自動語音識別 | Common Voice 7 (+LM) | 測試詞錯誤率 (WER) | 12.07 |
自動語音識別 | Common Voice 7 (+LM) | 測試字符錯誤率 (CER) | 3.52 |
自動語音識別 | Robust Speech Event - Dev Data | 測試詞錯誤率 (WER) | 24.29 |
自動語音識別 | Robust Speech Event - Dev Data | 測試字符錯誤率 (CER) | 8.1 |
自動語音識別 | Robust Speech Event - Dev Data (+LM) | 測試詞錯誤率 (WER) | 17.36 |
自動語音識別 | Robust Speech Event - Dev Data (+LM) | 測試字符錯誤率 (CER) | 7.94 |
自動語音識別 | Robust Speech Event - Test Data | 測試詞錯誤率 (WER) | 33.66 |
🔧 技術細節
訓練超參數
在訓練過程中使用了以下超參數:
- 學習率:0.0003
- 訓練批次大小:32
- 評估批次大小:8
- 隨機種子:42
- 優化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:500
- 訓練輪數:10.0
- 混合精度訓練:Native AMP
訓練結果
訓練損失 | 輪數 | 步數 | 驗證損失 | 詞錯誤率 (Wer) |
---|---|---|---|---|
無日誌記錄 | 0.06 | 400 | 0.7508 | 0.7354 |
2.3127 | 0.11 | 800 | 0.5888 | 0.5882 |
0.7256 | 0.17 | 1200 | 0.5121 | 0.5247 |
0.6692 | 0.22 | 1600 | 0.4774 | 0.5028 |
0.6384 | 0.28 | 2000 | 0.4832 | 0.4885 |
0.6384 | 0.33 | 2400 | 0.4410 | 0.4581 |
0.6199 | 0.39 | 2800 | 0.4160 | 0.4331 |
0.5972 | 0.44 | 3200 | 0.4136 | 0.4275 |
0.6048 | 0.5 | 3600 | 0.4362 | 0.4538 |
0.5627 | 0.55 | 4000 | 0.4313 | 0.4469 |
0.5627 | 0.61 | 4400 | 0.4425 | 0.4579 |
0.5855 | 0.66 | 4800 | 0.3859 | 0.4133 |
0.5702 | 0.72 | 5200 | 0.3974 | 0.4097 |
0.55 | 0.77 | 5600 | 0.3931 | 0.4134 |
0.5624 | 0.83 | 6000 | 0.3900 | 0.4126 |
0.5624 | 0.88 | 6400 | 0.3622 | 0.3899 |
0.5615 | 0.94 | 6800 | 0.3755 | 0.4067 |
0.5472 | 0.99 | 7200 | 0.3980 | 0.4284 |
0.5663 | 1.05 | 7600 | 0.3553 | 0.3782 |
0.5189 | 1.1 | 8000 | 0.3538 | 0.3726 |
0.5189 | 1.16 | 8400 | 0.3425 | 0.3624 |
0.518 | 1.21 | 8800 | 0.3431 | 0.3651 |
0.5399 | 1.27 | 9200 | 0.3442 | 0.3573 |
0.5303 | 1.32 | 9600 | 0.3241 | 0.3404 |
0.5043 | 1.38 | 10000 | 0.3175 | 0.3378 |
0.5043 | 1.43 | 10400 | 0.3265 | 0.3501 |
0.4968 | 1.49 | 10800 | 0.3539 | 0.3703 |
0.5102 | 1.54 | 11200 | 0.3323 | 0.3506 |
0.5008 | 1.6 | 11600 | 0.3188 | 0.3433 |
0.4996 | 1.65 | 12000 | 0.3162 | 0.3388 |
0.4996 | 1.71 | 12400 | 0.3353 | 0.3552 |
0.5007 | 1.76 | 12800 | 0.3152 | 0.3317 |
0.4956 | 1.82 | 13200 | 0.3207 | 0.3430 |
0.5205 | 1.87 | 13600 | 0.3239 | 0.3430 |
0.4829 | 1.93 | 14000 | 0.3134 | 0.3266 |
0.4829 | 1.98 | 14400 | 0.3039 | 0.3291 |
0.5251 | 2.04 | 14800 | 0.2944 | 0.3169 |
0.4872 | 2.09 | 15200 | 0.3061 | 0.3228 |
0.4805 | 2.15 | 15600 | 0.3034 | 0.3152 |
0.4949 | 2.2 | 16000 | 0.2896 | 0.3066 |
0.4949 | 2.26 | 16400 | 0.3059 | 0.3344 |
0.468 | 2.31 | 16800 | 0.2932 | 0.3111 |
0.4637 | 2.37 | 17200 | 0.2890 | 0.3074 |
0.4638 | 2.42 | 17600 | 0.2893 | 0.3112 |
0.4728 | 2.48 | 18000 | 0.2832 | 0.3013 |
0.4728 | 2.54 | 18400 | 0.2921 | 0.3065 |
0.456 | 2.59 | 18800 | 0.2961 | 0.3104 |
0.4628 | 2.65 | 19200 | 0.2886 | 0.3109 |
0.4534 | 2.7 | 19600 | 0.2828 | 0.3020 |
0.4578 | 2.76 | 20000 | 0.2805 | 0.3026 |
0.4578 | 2.81 | 20400 | 0.2796 | 0.2987 |
0.4702 | 2.87 | 20800 | 0.2748 | 0.2906 |
0.4487 | 2.92 | 21200 | 0.2819 | 0.3008 |
0.4411 | 2.98 | 21600 | 0.2722 | 0.2868 |
0.4631 | 3.03 | 22000 | 0.2814 | 0.2974 |
0.4631 | 3.09 | 22400 | 0.2762 | 0.2894 |
0.4591 | 3.14 | 22800 | 0.2802 | 0.2980 |
0.4349 | 3.2 | 23200 | 0.2748 | 0.2951 |
0.4339 | 3.25 | 23600 | 0.2792 | 0.2927 |
0.4254 | 3.31 | 24000 | 0.2712 | 0.2911 |
0.4254 | 3.36 | 24400 | 0.2719 | 0.2892 |
0.4317 | 3.42 | 24800 | 0.2686 | 0.2861 |
0.4282 | 3.47 | 25200 | 0.2632 | 0.2861 |
0.4262 | 3.53 | 25600 | 0.2633 | 0.2817 |
0.4162 | 3.58 | 26000 | 0.2561 | 0.2765 |
0.4162 | 3.64 | 26400 | 0.2613 | 0.2847 |
0.414 | 3.69 | 26800 | 0.2679 | 0.2824 |
0.4132 | 3.75 | 27200 | 0.2569 | 0.2813 |
0.405 | 3.8 | 27600 | 0.2589 | 0.2785 |
0.4128 | 3.86 | 28000 | 0.2611 | 0.2714 |
0.4128 | 3.91 | 28400 | 0.2548 | 0.2731 |
0.4174 | 3.97 | 28800 | 0.2574 | 0.2716 |
0.421 | 4.02 | 29200 | 0.2529 | 0.2700 |
0.4109 | 4.08 | 29600 | 0.2547 | 0.2682 |
0.4027 | 4.13 | 30000 | 0.2578 | 0.2758 |
0.4027 | 4.19 | 30400 | 0.2511 | 0.2715 |
0.4075 | 4.24 | 30800 | 0.2507 | 0.2601 |
0.3947 | 4.3 | 31200 | 0.2552 | 0.2711 |
0.4042 | 4.35 | 31600 | 0.2530 | 0.2695 |
0.3907 | 4.41 | 32000 | 0.2543 | 0.2738 |
0.3907 | 4.46 | 32400 | 0.2491 | 0.2629 |
0.3895 | 4.52 | 32800 | 0.2471 | 0.2611 |
0.3901 | 4.57 | 33200 | 0.2404 | 0.2559 |
0.3818 | 4.63 | 33600 | 0.2378 | 0.2583 |
0.3831 | 4.68 | 34000 | 0.2341 | 0.2499 |
0.3831 | 4.74 | 34400 | 0.2379 | 0.2560 |
0.3808 | 4.79 | 34800 | 0.2418 | 0.2553 |
0.4015 | 4.85 | 35200 | 0.2378 | 0.2565 |
0.407 | 4.9 | 35600 | 0.2375 | 0.2535 |
0.38 | 4.96 | 36000 | 0.2329 | 0.2451 |
0.38 | 5.02 | 36400 | 0.2541 | 0.2737 |
0.3753 | 5.07 | 36800 | 0.2475 | 0.2580 |
0.3701 | 5.13 | 37200 | 0.2356 | 0.2484 |
0.3627 | 5.18 | 37600 | 0.2422 | 0.2552 |
0.3652 | 5.24 | 38000 | 0.2353 | 0.2518 |
0.3652 | 5.29 | 38400 | 0.2328 | 0.2452 |
0.3667 | 5.35 | 38800 | 0.2358 | 0.2478 |
0.3711 | 5.4 | 39200 | 0.2340 | 0.2463 |
0.361 | 5.46 | 39600 | 0.2375 | 0.2452 |
0.3655 | 5.51 | 40000 | 0.2292 | 0.2387 |
0.3655 | 5.57 | 40400 | 0.2330 | 0.2432 |
0.3637 | 5.62 | 40800 | 0.2242 | 0.2396 |
0.3516 | 5.68 | 41200 | 0.2284 | 0.2394 |
0.3498 | 5.73 | 41600 | 0.2254 | 0.2343 |
0.3626 | 5.79 | 42000 | 0.2191 | 0.2318 |
0.3626 | 5.84 | 42400 | 0.2261 | 0.2399 |
0.3719 | 5.9 | 42800 | 0.2261 | 0.2411 |
0.3563 | 5.95 | 43200 | 0.2259 | 0.2416 |
0.3574 | 6.01 | 43600 | 0.2148 | 0.2249 |
0.3339 | 6.06 | 44000 | 0.2173 | 0.2237 |
0.3339 | 6.12 | 44400 | 0.2133 | 0.2238 |
0.3303 | 6.17 | 44800 | 0.2193 | 0.2297 |
0.331 | 6.23 | 45200 | 0.2122 | 0.2205 |
0.3372 | 6.28 | 45600 | 0.2083 | 0.2215 |
0.3427 | 6.34 | 46000 | 0.2079 | 0.2163 |
0.3427 | 6.39 | 46400 | 0.2072 | 0.2154 |
0.3215 | 6.45 | 46800 | 0.2067 | 0.2170 |
0.3246 | 6.5 | 47200 | 0.2089 | 0.2183 |
0.3217 | 6.56 | 47600 | 0.2030 | 0.2130 |
0.3309 | 6.61 | 48000 | 0.2020 | 0.2123 |
0.3309 | 6.67 | 48400 | 0.2054 | 0.2133 |
0.3343 | 6.72 | 48800 | 0.2013 | 0.2128 |
0.3213 | 6.78 | 49200 | 0.1971 | 0.2064 |
0.3145 | 6.83 | 49600 | 0.2029 | 0.2107 |
0.3274 | 6.89 | 50000 | 0.2038 | 0.2136 |
0.3274 | 6.94 | 50400 | 0.1991 | 0.2064 |
0.3202 | 7.0 | 50800 | 0.1970 | 0.2083 |
0.314 | 7.05 | 51200 | 0.1970 | 0.2035 |
0.3031 | 7.11 | 51600 | 0.1943 | 0.2053 |
0.3004 | 7.16 | 52000 | 0.1942 | 0.1985 |
0.3004 | 7.22 | 52400 | 0.1941 | 0.2003 |
0.3029 | 7.27 | 52800 | 0.1936 | 0.2008 |
0.2915 | 7.33 | 53200 | 0.1935 | 0.1995 |
0.3005 | 7.38 | 53600 | 0.1943 | 0.2032 |
0.2984 | 7.44 | 54000 | 0.1913 | 0.1978 |
0.2984 | 7.5 | 54400 | 0.1907 | 0.1965 |
0.2978 | 7.55 | 54800 | 0.1881 | 0.1958 |
0.2944 | 7.61 | 55200 | 0.1887 | 0.1966 |
0.3004 | 7.66 | 55600 | 0.1870 | 0.1930 |
0.3099 | 7.72 | 56000 | 0.1906 | 0.1976 |
0.3099 | 7.77 | 56400 | 0.1856 | 0.1939 |
0.2917 | 7.83 | 56800 | 0.1883 | 0.1961 |
0.2924 | 7.88 | 57200 | 0.1864 | 0.1930 |
0.3061 | 7.94 | 57600 | 0.1831 | 0.1872 |
0.2834 | 7.99 | 58000 | 0.1835 | 0.1896 |
0.2834 | 8.05 | 58400 | 0.1828 | 0.1875 |
0.2807 | 8.1 | 58800 | 0.1820 | 0.1874 |
0.2765 | 8.16 | 59200 | 0.1807 | 0.1869 |
0.2737 | 8.21 | 59600 | 0.1810 | 0.1848 |
0.2722 | 8.27 | 60000 | 0.1795 | 0.1829 |
0.2722 | 8.32 | 60400 | 0.1785 | 0.1826 |
0.272 | 8.38 | 60800 | 0.1802 | 0.1836 |
0.268 | 8.43 | 61200 | 0.1771 | 0.1813 |
0.2695 | 8.49 | 61600 | 0.1773 | 0.1821 |
0.2686 | 8.54 | 62000 | 0.1756 | 0.1814 |
0.2686 | 8.6 | 62400 | 0.1740 | 0.1770 |
0.2687 | 8.65 | 62800 | 0.1748 | 0.1769 |
0.2686 | 8.71 | 63200 | 0.1734 | 0.1766 |
0.2683 | 8.76 | 63600 | 0.1722 | 0.1759 |
0.2686 | 8.82 | 64000 | 0.1719 | 0.1760 |
0.2686 | 8.87 | 64400 | 0.1720 | 0.1743 |
0.2626 | 8.93 | 64800 | 0.1696 | 0.1742 |
0.2587 | 8.98 | 65200 | 0.1690 | 0.1718 |
0.2554 | 9.04 | 65600 | 0.1704 | 0.1722 |
0.2537 | 9.09 | 66000 | 0.1702 | 0.1721 |
0.2537 | 9.15 | 66400 | 0.1696 | 0.1717 |
0.2511 | 9.2 | 66800 | 0.1685 | 0.1701 |
0.2473 | 9.26 | 67200 | 0.1696 | 0.1704 |
0.2458 | 9.31 | 67600 | 0.1686 | 0.1698 |
0.2476 | 9.37 | 68000 | 0.1675 | 0.1687 |
0.2476 | 9.42 | 68400 | 0.1659 | 0.1673 |
0.2463 | 9.48 | 68800 | 0.1664 | 0.1674 |
0.2481 | 9.53 | 69200 | 0.1661 | 0.1670 |
0.2411 | 9.59 | 69600 | 0.1658 | 0.1663 |
0.2445 | 9.64 | 70000 | 0.1652 | 0.1660 |
0.2445 | 9.7 | 70400 | 0.1646 | 0.1654 |
0.2407 | 9.75 | 70800 | 0.1646 | 0.1641 |
0.2483 | 9.81 | 71200 | 0.1641 | 0.1641 |
0.245 | 9.86 | 71600 | 0.1635 | 0.1643 |
0.2402 | 9.92 | 72000 | 0.1638 | 0.1634 |
0.2402 | 9.98 | 72400 | 0.1633 | 0.1636 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
📄 許可證
本項目採用 Apache 2.0 許可證。
Voice Activity Detection
MIT
基於pyannote.audio 2.1版本的語音活動檢測模型,用於識別音頻中的語音活動時間段
語音識別
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
這是一個針對葡萄牙語語音識別任務微調的XLSR-53大模型,基於Common Voice 6.1數據集訓練,支持葡萄牙語語音轉文本。
語音識別 其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
語音識別 支持多種語言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,經過超過500萬小時標記數據的訓練,在零樣本設置下展現出強大的泛化能力。
語音識別
Transformers 支持多種語言

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的俄語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的中文語音識別模型,支持16kHz採樣率的語音輸入。
語音識別 中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型,在Common Voice和CSS10數據集上訓練,支持16kHz音頻輸入。
語音識別 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的日語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 日語
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基於Hugging Face預訓練模型的文本與音頻強制對齊工具,支持多種語言,內存效率高
語音識別
Transformers 支持多種語言

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的阿拉伯語語音識別模型,在Common Voice和阿拉伯語語音語料庫上訓練
語音識別 阿拉伯語
W
jonatasgrosman
2.3M
37
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98