Xls R 300m Sv
基於facebook/wav2vec2-xls-r-300m在瑞典語數據集上微調的自動語音識別模型
下載量 28
發布時間 : 3/2/2022
模型概述
這是一個針對瑞典語優化的自動語音識別(ASR)模型,基於XLS-R-300m架構,在Common Voice 7瑞典語數據集上微調,能夠將瑞典語語音轉換為文本。
模型特點
瑞典語優化
專門針對瑞典語語音識別進行微調,在瑞典語數據集上表現優異
多數據集驗證
在Common Voice 7和魯棒語音賽事數據集上均進行了評估
支持語言模型集成
可結合語言模型進一步提升識別準確率
模型能力
瑞典語語音識別
長音頻處理(支持分塊處理)
高準確率文本轉錄
使用案例
語音轉錄
瑞典語語音轉文字
將瑞典語語音內容轉換為文本
測試WER 16.98(CV7), 27.01(魯棒賽事)
語音助手
瑞典語語音指令識別
用於瑞典語語音助手或控制系統
🚀 XLS-R-300m - 瑞典語版
本模型是基於 facebook/wav2vec2-xls-r-300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - SV - SE 數據集上進行微調的版本。它在自動語音識別任務上表現出色,為瑞典語語音處理提供了有效的解決方案。
✨ 主要特性
- 基於預訓練模型微調,在瑞典語語音識別任務上有良好表現。
- 提供了詳細的訓練超參數和評估結果。
- 支持使用語言模型(LM)進行推理。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "hf-test/xls-r-300m-sv"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "sv-SE", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
# => "jag lämnade grovjobbet åt honom"
高級用法
文檔未提供高級用法相關內容,故跳過此部分。
📚 詳細文檔
模型評估結果
本模型在以下數據集上進行了評估,並取得了相應的結果:
數據集 | 評估指標 | 值 |
---|---|---|
Common Voice 7(測試集) | 測試詞錯誤率(Test WER) | 16.98 |
Common Voice 7(測試集) | 測試字符錯誤率(Test CER) | 5.66 |
Robust Speech Event - Dev Data | 測試詞錯誤率(Test WER) | 27.01 |
Robust Speech Event - Dev Data | 測試字符錯誤率(Test CER) | 13.14 |
評估命令
- 在
mozilla - foundation/common_voice_7_0
數據集的test
分割上進行評估:
python eval.py --model_id hf-test/xls-r-300m-sv --dataset mozilla-foundation/common_voice_7_0 --config sv-SE --split test
- 在
speech - recognition - community - v2/dev_data
數據集上進行評估:
python eval.py --model_id hf-test/xls-r-300m-sv --dataset speech-recognition-community-v2/dev_data --config sv --split validation --chunk_length_s 5.0 --stride_length_s 1.0
帶語言模型的推理
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "hf-test/xls-r-300m-sv"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "sv-SE", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
# => "jag lämnade grovjobbet åt honom"
Common Voice 7 “test” 集的評估結果(WER)
無語言模型 | 有語言模型(運行 ./eval.py ) |
---|---|
24.68 | 16.98 |
🔧 技術細節
訓練超參數
在訓練過程中使用了以下超參數:
- 學習率(learning_rate):7.5e - 05
- 訓練批次大小(train_batch_size):8
- 評估批次大小(eval_batch_size):8
- 隨機種子(seed):42
- 梯度累積步數(gradient_accumulation_steps):4
- 總訓練批次大小(total_train_batch_size):32
- 優化器(optimizer):Adam,β1 = 0.9,β2 = 0.999,ε = 1e - 08
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):2000
- 訓練輪數(num_epochs):50.0
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
訓練損失 | 輪數 | 步數 | 驗證損失 | 詞錯誤率(Wer) |
---|---|---|---|---|
3.3349 | 1.45 | 500 | 3.2858 | 1.0 |
2.9298 | 2.91 | 1000 | 2.9225 | 1.0000 |
2.0839 | 4.36 | 1500 | 1.1546 | 0.8295 |
1.7093 | 5.81 | 2000 | 0.6827 | 0.5701 |
1.5855 | 7.27 | 2500 | 0.5597 | 0.4947 |
1.4831 | 8.72 | 3000 | 0.4923 | 0.4527 |
1.4416 | 10.17 | 3500 | 0.4670 | 0.4270 |
1.3848 | 11.63 | 4000 | 0.4341 | 0.3980 |
1.3749 | 13.08 | 4500 | 0.4203 | 0.4011 |
1.3311 | 14.53 | 5000 | 0.4310 | 0.3961 |
1.317 | 15.99 | 5500 | 0.3898 | 0.4322 |
1.2799 | 17.44 | 6000 | 0.3806 | 0.3572 |
1.2771 | 18.89 | 6500 | 0.3828 | 0.3427 |
1.2451 | 20.35 | 7000 | 0.3702 | 0.3359 |
1.2182 | 21.8 | 7500 | 0.3685 | 0.3270 |
1.2152 | 23.26 | 8000 | 0.3650 | 0.3308 |
1.1837 | 24.71 | 8500 | 0.3568 | 0.3187 |
1.1721 | 26.16 | 9000 | 0.3659 | 0.3249 |
1.1764 | 27.61 | 9500 | 0.3547 | 0.3145 |
1.1606 | 29.07 | 10000 | 0.3514 | 0.3104 |
1.1431 | 30.52 | 10500 | 0.3469 | 0.3062 |
1.1047 | 31.97 | 11000 | 0.3313 | 0.2979 |
1.1315 | 33.43 | 11500 | 0.3298 | 0.2992 |
1.1022 | 34.88 | 12000 | 0.3296 | 0.2973 |
1.0935 | 36.34 | 12500 | 0.3278 | 0.2926 |
1.0676 | 37.79 | 13000 | 0.3208 | 0.2868 |
1.0571 | 39.24 | 13500 | 0.3322 | 0.2885 |
1.0536 | 40.7 | 14000 | 0.3245 | 0.2831 |
1.0525 | 42.15 | 14500 | 0.3285 | 0.2826 |
1.0464 | 43.6 | 15000 | 0.3223 | 0.2796 |
1.0415 | 45.06 | 15500 | 0.3166 | 0.2774 |
1.0356 | 46.51 | 16000 | 0.3177 | 0.2746 |
1.04 | 47.96 | 16500 | 0.3150 | 0.2735 |
1.0209 | 49.42 | 17000 | 0.3175 | 0.2731 |
框架版本
- Transformers:4.16.0.dev0
- Pytorch:1.10.0 + cu102
- Datasets:1.17.1.dev0
- Tokenizers:0.10.3
📄 許可證
本模型採用 Apache - 2.0 許可證。
Voice Activity Detection
MIT
基於pyannote.audio 2.1版本的語音活動檢測模型,用於識別音頻中的語音活動時間段
語音識別
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
這是一個針對葡萄牙語語音識別任務微調的XLSR-53大模型,基於Common Voice 6.1數據集訓練,支持葡萄牙語語音轉文本。
語音識別 其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
語音識別 支持多種語言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,經過超過500萬小時標記數據的訓練,在零樣本設置下展現出強大的泛化能力。
語音識別
Transformers 支持多種語言

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的俄語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的中文語音識別模型,支持16kHz採樣率的語音輸入。
語音識別 中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型,在Common Voice和CSS10數據集上訓練,支持16kHz音頻輸入。
語音識別 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的日語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 日語
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基於Hugging Face預訓練模型的文本與音頻強制對齊工具,支持多種語言,內存效率高
語音識別
Transformers 支持多種語言

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的阿拉伯語語音識別模型,在Common Voice和阿拉伯語語音語料庫上訓練
語音識別 阿拉伯語
W
jonatasgrosman
2.3M
37
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98