wav2vec2-xlsr-300m-finnish開源聲學模型 - 精準實現芬蘭語自動語音識別

首頁

Wav2vec2 Xlsr 300m Finnish

由aapot開發

基於facebook/wav2vec2-xls-r-300m針對芬蘭語自動語音識別任務微調的聲學模型，使用275.6小時芬蘭語標註語音數據訓練

語音識別

Transformers

其他開源協議:Apache-2.0 #芬蘭語語音識別 #多語言預訓練微調 #議會場景優化

下載量 96

發布時間 : 3/2/2022

模型概述

該模型適用於芬蘭語語音轉文本任務，是Wav2Vec2 XLS-R預訓練模型的微調版本，支持芬蘭語自動語音識別。

模型特點

多語言預訓練基礎

基於支持128種語言的Wav2Vec2 XLS-R預訓練模型微調，具有強大的語音表示能力

高效微調

使用275.6小時芬蘭語標註數據進行針對性微調，優化芬蘭語識別效果

支持語言模型增強

可結合KenLM語言模型進一步提升轉錄準確率

模型能力

芬蘭語語音識別

短音頻轉錄（最長20秒）

語音轉文本

使用案例

語音轉錄

議會會議記錄

轉錄芬蘭議會會議音頻內容

在議會數據集上表現良好

日常語音轉寫

將芬蘭語日常對話轉換為文本

對標準發音效果較好，方言識別有限

🚀 用於芬蘭語自動語音識別的Wav2Vec2 XLS - R

本聲學模型是 [facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m) 針對芬蘭語自動語音識別（ASR）任務的微調版本。該模型使用了275.6小時的芬蘭語轉錄語音數據進行微調。Wav2Vec2 XLS - R 首次在這篇論文中被提出，並在 [此頁面](https://github.com/pytorch/fairseq/tree/main/examples/wav2vec#wav2vec - 20) 首次發佈。

注意：存在一個在解碼階段使用了KenLM語言模型的版本，該版本能生成更好的轉錄結果：[Finnish - NLP/wav2vec2 - xlsr - 300m - finnish - lm](https://huggingface.co/Finnish - NLP/wav2vec2 - xlsr - 300m - finnish - lm)

✨ 主要特性

微調模型：基於facebook的預訓練模型針對芬蘭語ASR任務進行微調。
多語言基礎：預訓練模型在多種語言的大量無標籤語音數據上訓練。
評估指標良好：在芬蘭語語音識別任務上有較好的WER和CER指標。

📦 安裝指南

文檔未提及安裝步驟，故跳過該章節。

💻 使用示例

文檔未提供代碼示例，故跳過該章節。

📚 詳細文檔

模型描述

Wav2Vec2 XLS - R是Facebook AI的大規模多語言語音預訓練模型。它在43.6萬小時的無標籤語音數據上進行預訓練，這些數據包括VoxPopuli、MLS、CommonVoice、BABEL和VoxLingua107。該模型使用wav2vec 2.0目標函數，支持128種語言。

你可以從 [這篇博客](https://ai.facebook.com/blog/xls - r - self - supervised - speech - processing - for - 128 - languages) 和這篇論文中瞭解更多關於該預訓練模型的信息。

此模型是預訓練模型（3億參數變體）針對芬蘭語ASR任務的微調版本。

預期用途與侷限性

預期用途

你可以使用此模型進行芬蘭語自動語音識別（語音轉文本）任務。

使用方法

查看本倉庫中的 [run - finnish - asr - models.ipynb](https://huggingface.co/aapot/wav2vec2 - xlsr - 300m - finnish/blob/main/run - finnish - asr - models.ipynb) 筆記本，以獲取使用此模型的詳細示例。

侷限性和偏差

音頻長度：該模型使用的音頻樣本最大長度為20秒，因此它最適合處理類似長度的較短音頻。不過，你也可以嘗試使用更長的音頻，並觀察其效果。如果你在處理非常長的音頻文件時遇到內存不足的錯誤，可以使用 [這篇博客文章](https://huggingface.co/blog/asr - chunking) 中介紹的音頻分塊方法。
數據領域：用於微調的大部分數據來自芬蘭議會數據集，因此該模型在處理與該領域差異較大的內容（如帶有方言的日常芬蘭語口語）時，泛化能力可能不佳。
性別差異：數據集的音頻往往以成年男性為主，因此該模型在處理兒童和女性的語音時可能效果不佳。

訓練數據

該模型使用了來自以下數據集的275.6小時芬蘭語轉錄語音數據進行微調：

數據集	時長	佔總時長的百分比
[Common Voice 7.0芬蘭語訓練 + 評估 + 其他分割](https://huggingface.co/datasets/mozilla - foundation/common_voice_7_0)	9.70小時	3.52%
芬蘭議會會議2	0.24小時	0.09%
VoxPopuli芬蘭語	21.97小時	7.97%
CSS10芬蘭語	10.32小時	3.74%
[阿爾託芬蘭議會ASR語料庫](http://urn.fi/urn:nbn:fi:lb - 2021051903)	228.00小時	82.73%
[芬蘭廣播語料庫](http://urn.fi/urn:nbn:fi:lb - 2016042502)	5.37小時	1.95%

數據集經過篩選，只包含最長20秒的音頻樣本。

訓練過程

該模型是在Hugging Face組織的 [魯棒語音挑戰活動](https://discuss.huggingface.co/t/open - to - the - community - robust - speech - recognition - challenge/13614) 期間進行訓練的。訓練在由OVHcloud贊助的Tesla V100 GPU上完成。

訓練腳本由Hugging Face提供，可在 [此處](https://github.com/huggingface/transformers/blob/main/examples/research_projects/robust - speech - event/run_speech_recognition_ctc_bnb.py) 獲取。我們僅對其數據加載部分進行了修改，以適應我們的自定義數據集。

訓練超參數

訓練期間使用了以下超參數：

學習率：5e - 04
訓練批次大小：32
評估批次大小：32
隨機種子：42
優化器：8位Adam，β值為(0.9, 0.999)，ε值為1e - 08
學習率調度器類型：線性
學習率調度器熱身步數：500
訓練輪數：10
混合精度訓練：原生AMP

預訓練的 facebook/wav2vec2 - xls - r - 300m 模型使用以下超參數進行初始化：

注意力丟棄率：0.094
隱藏層丟棄率：0.047
特徵投影丟棄率：0.04
掩碼時間概率：0.082
層丟棄率：0.041
激活丟棄率：0.055
CTC損失縮減方式："mean"

訓練結果

訓練損失	輪數	步數	驗證損失	字錯誤率（WER）
0.973	0.17	500	0.5750	0.6844
0.713	0.34	1000	0.3356	0.4518
0.6563	0.5	1500	0.3007	0.4039
0.642	0.67	2000	0.2619	0.3674
0.6203	0.84	2500	0.2488	0.3558
0.6016	1.01	3000	0.2795	0.3835
0.5423	1.17	3500	0.2652	0.3310
0.5639	1.34	4000	0.2479	0.3462
0.586	1.51	4500	0.2409	0.3295
0.5169	1.68	5000	0.2728	0.3352
0.5176	1.84	5500	0.2254	0.3149
0.4983	2.01	6000	0.2169	0.3009
0.4982	2.18	6500	0.2215	0.3079
0.4898	2.35	7000	0.2174	0.3023
0.4922	2.51	7500	0.2217	0.3081
0.5025	2.68	8000	0.2002	0.2710
0.4745	2.85	8500	0.1935	0.2783
0.4377	3.02	9000	0.1859	0.2742
0.4511	3.18	9500	0.2038	0.2786
0.4411	3.35	10000	0.1863	0.2651
0.4501	3.52	10500	0.1948	0.2605
0.4557	3.69	11000	0.1872	0.2695
0.4493	3.85	11500	0.1888	0.2632
0.4047	4.02	12000	0.1818	0.2559
0.4319	4.19	12500	0.1896	0.2648
0.4162	4.36	13000	0.1953	0.2595
0.4046	4.52	13500	0.1864	0.2606
0.4195	4.69	14000	0.1843	0.2467
0.4146	4.86	14500	0.1686	0.2450
0.378	5.03	15000	0.1731	0.2401
0.3792	5.19	15500	0.1676	0.2325
0.3855	5.36	16000	0.1740	0.2326
0.4029	5.53	16500	0.1674	0.2345
0.386	5.7	17000	0.1735	0.2280
0.3811	5.86	17500	0.1692	0.2258
0.3607	6.03	18000	0.1797	0.2279
0.3604	6.2	18500	0.1651	0.2206
0.3362	6.37	19000	0.1627	0.2199
0.3611	6.53	19500	0.1652	0.2172
0.3671	6.7	20000	0.1564	0.2140
0.3769	6.87	20500	0.1525	0.2101
0.3539	7.04	21000	0.1639	0.2096
0.3225	7.21	21500	0.1611	0.2087
0.3323	7.37	22000	0.1633	0.2008
0.3327	7.54	22500	0.1692	0.1975
0.3456	7.71	23000	0.1555	0.1991
0.3058	7.88	23500	0.1590	0.1959
0.3034	8.04	24000	0.1531	0.1973
0.2925	8.21	24500	0.1583	0.1978
0.2967	8.38	25000	0.1546	0.1906
0.2974	8.55	25500	0.1540	0.1869
0.3131	8.71	26000	0.1534	0.1850
0.3306	8.88	26500	0.1482	0.1844
0.2842	9.05	27000	0.1490	0.1854
0.2879	9.22	27500	0.1463	0.1799
0.27	9.38	28000	0.1454	0.1798
0.2874	9.55	28500	0.1504	0.1787
0.2757	9.72	29000	0.1512	0.1784
0.3017	9.89	29500	0.1484	0.1800

框架版本

Transformers：4.17.0.dev0
Pytorch：1.10.2 + cu102
Datasets：1.18.3
Tokenizers：0.11.0

評估結果

評估使用了 [Common Voice 7.0芬蘭語測試分割集](https://huggingface.co/datasets/mozilla - foundation/common_voice_7_0)。

要評估此模型，請運行本倉庫中的 eval.py 腳本：

python3 eval.py --model_id aapot/wav2vec2 - xlsr - 300m - finnish --dataset mozilla - foundation/common_voice_7_0 --config fi --split test

與我們的其他模型相比，此模型（表格中的第三行）在字錯誤率（WER）和字符錯誤率（CER）方面取得了以下結果：

模型	帶語言模型的WER	不帶語言模型的WER	帶語言模型的CER	不帶語言模型的CER
aapot/wav2vec2 - xlsr - 1b - finnish - lm - v2	4.09	9.73	0.88	1.65
aapot/wav2vec2 - xlsr - 1b - finnish - lm	5.65	13.11	1.20	2.23
aapot/wav2vec2 - xlsr - 300m - finnish - lm	8.16	17.92	1.97	3.36