wav2vec2-xlsr-interlingua開源模型 - 免費實現國際語自動語音識別！

首頁

Wav2vec2 Xlsr Interlingua

由sammy786開發

該模型是基於facebook/wav2vec2-xls-r-1b在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - ia數據集上微調得到的版本，用於國際語的自動語音識別。

語音識別

Transformers

其他開源協議:Apache-2.0 #國際語語音識別 #低詞錯誤率 #多語言支持

下載量 183

發布時間 : 3/2/2022

模型概述

這是一個針對國際語優化的自動語音識別模型，基於wav2vec2-xls-r-1b架構微調，在Common Voice 8數據集上訓練，支持國際語語音轉文本任務。

模型特點

高性能國際語識別

在Common Voice 8國際語測試集上取得16.81%的詞錯誤率(WER)和4.76%的字錯誤率(CER)

基於大規模預訓練模型

基於facebook/wav2vec2-xls-r-1b模型微調，繼承了其強大的語音特徵提取能力

優化的訓練過程

採用cosine_with_restarts學習率調度和混合精度訓練，訓練過程高效穩定

模型能力

國際語語音識別

語音轉文本

強健語音事件處理

使用案例

語音轉錄

國際語語音轉錄

將國際語語音內容轉換為文本

16.81% WER

對話系統

國際語對話理解

用於國際語對話系統的語音輸入處理

🚀 sammy786/wav2vec2-xlsr-interlingua

該模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - ia數據集上對facebook/wav2vec2 - xls - r - 1b進行微調後的版本。它在評估集（訓練數據集的10%與其他和開發數據集合並而成）上取得了以下結果：

損失值：5.44
詞錯誤率（Wer）：19.78

🚀 快速開始

若要在mozilla-foundation/common_voice_8_0數據集的test分割上進行評估，可使用以下命令：

python eval.py --model_id sammy786/wav2vec2-xlsr-interlingua --dataset mozilla-foundation/common_voice_8_0 --config ia --split test

✨ 主要特性

基於預訓練模型facebook/wav2vec2-xls-r-1b進行微調，適用於自動語音識別任務。
在特定評估集上有明確的損失值和詞錯誤率指標。

📚 詳細文檔

模型描述

對"facebook/wav2vec2-xls-r-1b"進行了微調。

預期用途與限制

更多信息待補充。

訓練和評估數據

訓練數據為Common voice芬蘭語的train.tsv、dev.tsv和other.tsv文件。

訓練過程

為創建訓練數據集，將所有可能的數據集進行合併，並採用90 - 10的分割方式。

訓練超參數

訓練期間使用了以下超參數：

學習率：0.000045637994662983496
訓練批次大小：16
評估批次大小：16
隨機種子：13
梯度累積步數：2
總訓練批次大小：32
優化器：Adam，β值為(0.9, 0.999)，ε值為1e - 08
學習率調度器類型：帶重啟的餘弦退火
學習率調度器熱身步數：500
訓練輪數：30
混合精度訓練：原生自動混合精度（Native AMP）

訓練結果

步數	訓練損失	驗證損失	詞錯誤率（Wer）
200	4.649200	0.483339	0.511322
400	0.764700	0.133428	0.251288
600	0.563700	0.099292	0.227745
800	0.438800	0.087545	0.217445
1000	0.406800	0.072313	0.213848
1200	0.237500	0.066965	0.213766
1400	0.177800	0.064419	0.208126
1600	0.157100	0.065962	0.214011
1800	0.146600	0.059477	0.202076
2000	0.132800	0.055015	0.201831
2200	0.122000	0.055421	0.201749
2400	0.115700	0.054462	0.197826

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0 + cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

📄 許可證

本項目採用Apache - 2.0許可證。

📦 模型信息

屬性	詳情
模型類型	自動語音識別模型
訓練數據	Common voice芬蘭語的train.tsv、dev.tsv和other.tsv文件
標籤	自動語音識別、mozilla - foundation/common_voice_8_0、由訓練器生成、ia、魯棒語音事件、對話模型、hf - asr - 排行榜
數據集	mozilla - foundation/common_voice_8_0