wav2vec2-xlsr-1b-finnish開源模型 - 免費助力芬蘭語自動語音識別應用

首頁

Wav2vec2 Xlsr 1b Finnish

由aapot開發

基於Facebook的wav2vec2-xls-r-1b模型針對芬蘭語自動語音識別(ASR)進行微調的版本，使用259.57小時芬蘭語標註語音數據訓練

語音識別

Transformers

其他開源協議:Apache-2.0 #芬蘭語語音識別 #XLS-R大模型 #議會場景優化

下載量 18

發布時間 : 3/2/2022

模型概述

這是一個針對芬蘭語優化的自動語音識別模型，適用於將芬蘭語語音轉換為文本。

模型特點

大規模預訓練基礎

基於43.6萬小時多語言語音數據預訓練的wav2vec2-xls-r-1b模型

芬蘭語優化

使用259.57小時芬蘭語標註數據專門微調

高效訓練

使用8-bit Adam優化器和混合精度訓練

語言模型支持

提供結合KenLM語言模型的改進版本

模型能力

芬蘭語語音識別

短音頻轉錄(最長20秒)

語音轉文本

使用案例

語音轉錄

會議記錄轉錄

將芬蘭議會會議等正式場合的語音轉換為文本

在議會數據集上表現良好

語音助手

為芬蘭語語音助手提供語音識別能力

語音分析

語音內容分析

分析芬蘭語廣播或播客內容

🚀 用於芬蘭語自動語音識別的Wav2Vec2 XLS - R

本聲學模型是 facebook/wav2vec2-xls-r-1b 針對芬蘭語自動語音識別（ASR）任務的微調版本。該模型使用了259.57小時的芬蘭語轉錄語音數據進行微調。Wav2Vec2 XLS - R 首次在這篇論文中被提出，並在此頁面首次發佈。

注意：有一個在解碼階段使用了KenLM語言模型的版本，能夠生成更好的轉錄結果：Finnish - NLP/wav2vec2-xlsr-1b-finnish-lm

注意：此模型有一個更好的V2版本，它使用了額外16小時的數據進行了更長時間的微調：Finnish - NLP/wav2vec2-xlsr-1b-finnish-lm-v2

✨ 主要特性

基於預訓練的facebook/wav2vec2-xls-r-1b模型，針對芬蘭語自動語音識別任務進行了微調。
使用了259.57小時的芬蘭語轉錄語音數據進行訓練。
提供了使用KenLM語言模型的版本和V2版本，性能更優。

📦 安裝指南

文檔中未提及安裝步驟，故跳過此章節。

💻 使用示例

文檔中未提供代碼示例，故跳過此章節。

📚 詳細文檔

模型描述

Wav2Vec2 XLS - R 是Facebook AI開發的大規模多語言語音預訓練模型。它在436000小時的無標籤語音數據（包括VoxPopuli、MLS、CommonVoice、BABEL和VoxLingua107）上進行了預訓練，使用了wav2vec 2.0目標函數，支持128種語言。

你可以從這篇博客和這篇論文中瞭解更多關於該預訓練模型的信息。

此模型是預訓練模型（10億參數變體）針對芬蘭語自動語音識別任務的微調版本。

預期用途與限制

你可以將此模型用於芬蘭語自動語音識別（語音轉文本）任務。

使用方法

查看此倉庫中的 run - finnish - asr - models.ipynb 筆記本，以獲取如何使用此模型的詳細示例。

限制和偏差

此模型使用的音頻樣本最大長度為20秒，因此它最適合處理類似長度的較短音頻。不過，你也可以嘗試使用更長的音頻，看看效果如何。如果你在處理非常長的音頻文件時遇到內存不足的錯誤，可以使用這篇博客文章中介紹的音頻分塊方法。
用於微調的大部分數據來自芬蘭議會數據集，因此該模型在處理與該數據集差異較大的領域（如帶有方言的日常芬蘭語口語）時，泛化能力可能不佳。此外，數據集中的音頻往往以成年男性為主，因此該模型在處理兒童和女性的語音時可能效果不佳。

訓練數據

此模型使用了來自以下數據集的259.57小時芬蘭語轉錄語音數據進行微調：

數據集	時長	佔總時長的百分比
Common Voice 7.0芬蘭語訓練集 + 評估集 + 其他分割集	9.70小時	3.74 %
芬蘭議會會議2	0.24小時	0.09 %
VoxPopuli芬蘭語	5.94小時	2.29 %
CSS10芬蘭語	10.32小時	3.98 %
阿爾託大學芬蘭議會ASR語料庫	228.00小時	87.84 %
芬蘭廣播語料庫	5.37小時	2.07 %

數據集經過篩選，只包含最長20秒的音頻樣本。

訓練過程

此模型是在Hugging Face組織的穩健語音挑戰活動期間進行訓練的。訓練在由OVHcloud贊助的Tesla V100 GPU上完成。

訓練腳本由Hugging Face提供，可在此處獲取。我們僅對其數據加載部分進行了修改，以適應我們的自定義數據集。

訓練超參數

訓練期間使用了以下超參數：

學習率：5e - 05
訓練批次大小：32
評估批次大小：8
隨機種子：42
優化器：8位Adam，β1 = 0.9，β2 = 0.999，ε = 1e - 08
學習率調度器類型：線性
學習率調度器熱身步數：500
訓練輪數：5
混合精度訓練：原生自動混合精度（Native AMP）

預訓練的facebook/wav2vec2-xls-r-1b模型使用以下超參數進行初始化：

注意力丟棄率：0.094
隱藏層丟棄率：0.047
特徵投影丟棄率：0.04
時間掩碼概率：0.082
層丟棄率：0.041
激活丟棄率：0.055
CTC損失縮減方式："mean"

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（WER）
0.968	0.18	500	0.4870	0.4720
0.6557	0.36	1000	0.2450	0.2931
0.647	0.54	1500	0.1818	0.2255
0.5297	0.72	2000	0.1698	0.2354
0.5802	0.9	2500	0.1581	0.2355
0.6351	1.07	3000	0.1689	0.2336
0.4626	1.25	3500	0.1719	0.3099
0.4526	1.43	4000	0.1434	0.2069
0.4692	1.61	4500	0.1645	0.2192
0.4584	1.79	5000	0.1483	0.1987
0.4234	1.97	5500	0.1499	0.2178
0.4243	2.15	6000	0.1345	0.2070
0.4108	2.33	6500	0.1383	0.1850
0.4048	2.51	7000	0.1338	0.1811
0.4085	2.69	7500	0.1290	0.1780
0.4026	2.87	8000	0.1239	0.1650
0.4033	3.04	8500	0.1346	0.1657
0.3986	3.22	9000	0.1310	0.1850
0.3867	3.4	9500	0.1273	0.1741
0.3658	3.58	10000	0.1219	0.1672
0.382	3.76	10500	0.1306	0.1698
0.3847	3.94	11000	0.1230	0.1577
0.3691	4.12	11500	0.1310	0.1615
0.3593	4.3	12000	0.1296	0.1622
0.3619	4.48	12500	0.1285	0.1601
0.3361	4.66	13000	0.1261	0.1569
0.3603	4.84	13500	0.1235	0.1533

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.3
Tokenizers 0.11.0

評估結果

使用 Common Voice 7.0芬蘭語測試集進行評估。

要評估此模型，請運行此倉庫中的eval.py腳本：

python3 eval.py --model_id aapot/wav2vec2-xlsr-1b-finnish --dataset mozilla-foundation/common_voice_7_0 --config fi --split test

與我們的其他模型相比，此模型（表格中的第二行）在詞錯誤率（WER）和字符錯誤率（CER）方面取得了以下結果：

模型	帶語言模型的WER	不帶語言模型的WER	帶語言模型的CER	不帶語言模型的CER
aapot/wav2vec2-xlsr-1b-finnish-lm-v2	4.09	9.73	0.88	1.65
aapot/wav2vec2-xlsr-1b-finnish-lm	5.65	13.11	1.20	2.23
aapot/wav2vec2-xlsr-300m-finnish-lm	8.16	17.92	1.97	3.36