wav2vec2-large-xls-r-1b-Swedish開源模型 - 免費部署實現瑞典語語音轉文本

首頁

Wav2vec2 Large Xls R 1b Swedish

由kingabzpro開發

該模型是基於facebook/wav2vec2-xls-r-1b在Common Voice瑞典語數據集上微調的自動語音識別模型，支持瑞典語語音轉文本任務。

語音識別

Transformers

其他開源協議:Apache-2.0 #瑞典語語音識別 #低詞錯誤率 #多場景魯棒性

下載量 844

發布時間 : 3/2/2022

模型概述

一個針對瑞典語優化的自動語音識別模型，基於wav2vec2-xls-r-1b架構，在Common Voice 8.0數據集上微調，支持高精度瑞典語語音識別。

模型特點

高性能瑞典語識別

在Common Voice瑞典語測試集上達到14.04%的詞錯誤率(WER)和4.86%的字符錯誤率(CER)

基於大模型微調

基於10億參數的wav2vec2-xls-r-1b模型微調，具備強大的語音特徵提取能力

支持語言模型集成

可結合語言模型進一步提升識別準確率，相比無語言模型降低約4%的WER

模型能力

瑞典語語音識別

語音轉文本

長音頻處理(支持分塊處理)

使用案例

語音轉錄

瑞典語語音內容轉錄

將瑞典語語音內容轉換為文本格式

在Common Voice測試集上達到14.04% WER

語音助手

瑞典語語音指令識別

用於瑞典語語音助手系統中的指令識別

在魯棒語音事件數據集上達到29.69% WER

🚀 wav2vec2-large-xls-r-1b-瑞典語

該模型是在通用語音（Common Voice）數據集上對 facebook/wav2vec2-xls-r-1b 進行微調後的版本。它在自動語音識別任務中表現出色，能夠將音頻準確地轉換為文本，為瑞典語語音處理提供了強大的支持。

✨ 主要特性

多領域適用：適用於自動語音識別、魯棒語音事件處理等多個領域。
高精度表現：在通用語音數據集上經過微調，在瑞典語語音識別任務中取得了良好的評估結果。

📦 安裝指南

文檔中未提及具體安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "kingabzpro/wav2vec2-large-xls-r-1b-Swedish"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "sv-SE", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text

高級用法

文檔中未提及高級用法相關代碼，故不展示。

📚 詳細文檔

評估指標

該模型在評估集上取得了以下結果： 無語言模型（Without LM）

損失（Loss）: 0.3370
詞錯誤率（Wer）: 18.44
字符錯誤率（Cer）: 5.75

有語言模型（With LM）

損失（Loss）: 0.3370
詞錯誤率（Wer）: 14.04
字符錯誤率（Cer）: 4.86

評估命令

在 mozilla-foundation/common_voice_8_0 數據集的 test 分割上進行評估：

python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-1b-Swedish --dataset mozilla-foundation/common_voice_8_0 --config sv-SE --split test

在 speech-recognition-community-v2/dev_data 數據集上進行評估：

python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-1b-Swedish --dataset speech-recognition-community-v2/dev_data --config sv --split validation --chunk_length_s 5.0 --stride_length_s 1.0

訓練超參數

訓練過程中使用了以下超參數：

屬性	詳情
學習率（learning_rate）	7.5e-05
訓練批次大小（train_batch_size）	64
評估批次大小（eval_batch_size）	8
隨機種子（seed）	42
梯度累積步數（gradient_accumulation_steps）	4
總訓練批次大小（total_train_batch_size）	256
優化器（optimizer）	Adam（betas=(0.9,0.999)，epsilon=1e-08）
學習率調度器類型（lr_scheduler_type）	線性（linear）
學習率調度器熱身步數（lr_scheduler_warmup_steps）	1000
訓練輪數（num_epochs）	50
混合精度訓練（mixed_precision_training）	原生自動混合精度（Native AMP）

訓練結果

訓練損失（Training Loss）	輪數（Epoch）	步數（Step）	驗證損失（Validation Loss）	詞錯誤率（Wer）	字符錯誤率（Cer）
3.1562	11.11	500	0.4830	0.3729	0.1169
0.5655	22.22	1000	0.3553	0.2381	0.0743
0.3376	33.33	1500	0.3359	0.2179	0.0696
0.2419	44.44	2000	0.3232	0.1844	0.0575

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

🔧 技術細節

該模型基於 facebook/wav2vec2-xls-r-1b 基礎模型，在 mozilla-foundation/common_voice_8_0 數據集上進行微調。通過使用特定的訓練超參數和優化器，在瑞典語語音識別任務中取得了較好的效果。評估指標包括詞錯誤率（Wer）和字符錯誤率（Cer），用於衡量模型的性能。