wav2vec2-large-xls-r-1b-Swedish开源模型 - 免费部署实现瑞典语语音转文本

首页

Wav2vec2 Large Xls R 1b Swedish

由 kingabzpro 开发

该模型是基于facebook/wav2vec2-xls-r-1b在Common Voice瑞典语数据集上微调的自动语音识别模型，支持瑞典语语音转文本任务。

语音识别

Transformers

其他开源协议:Apache-2.0 #瑞典语语音识别 #低词错误率 #多场景鲁棒性

下载量 844

发布时间 : 3/2/2022

模型简介

一个针对瑞典语优化的自动语音识别模型，基于wav2vec2-xls-r-1b架构，在Common Voice 8.0数据集上微调，支持高精度瑞典语语音识别。

模型特点

高性能瑞典语识别

在Common Voice瑞典语测试集上达到14.04%的词错误率(WER)和4.86%的字符错误率(CER)

基于大模型微调

基于10亿参数的wav2vec2-xls-r-1b模型微调，具备强大的语音特征提取能力

支持语言模型集成

可结合语言模型进一步提升识别准确率，相比无语言模型降低约4%的WER

模型能力

瑞典语语音识别

语音转文本

长音频处理(支持分块处理)

使用案例

语音转录

瑞典语语音内容转录

将瑞典语语音内容转换为文本格式

在Common Voice测试集上达到14.04% WER

语音助手

瑞典语语音指令识别

用于瑞典语语音助手系统中的指令识别

在鲁棒语音事件数据集上达到29.69% WER

🚀 wav2vec2-large-xls-r-1b-瑞典语

该模型是在通用语音（Common Voice）数据集上对 facebook/wav2vec2-xls-r-1b 进行微调后的版本。它在自动语音识别任务中表现出色，能够将音频准确地转换为文本，为瑞典语语音处理提供了强大的支持。

✨ 主要特性

多领域适用：适用于自动语音识别、鲁棒语音事件处理等多个领域。
高精度表现：在通用语音数据集上经过微调，在瑞典语语音识别任务中取得了良好的评估结果。

📦 安装指南

文档中未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "kingabzpro/wav2vec2-large-xls-r-1b-Swedish"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "sv-SE", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text

高级用法

文档中未提及高级用法相关代码，故不展示。

📚 详细文档

评估指标

该模型在评估集上取得了以下结果： 无语言模型（Without LM）

损失（Loss）: 0.3370
词错误率（Wer）: 18.44
字符错误率（Cer）: 5.75

有语言模型（With LM）

损失（Loss）: 0.3370
词错误率（Wer）: 14.04
字符错误率（Cer）: 4.86

评估命令

在 mozilla-foundation/common_voice_8_0 数据集的 test 分割上进行评估：

python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-1b-Swedish --dataset mozilla-foundation/common_voice_8_0 --config sv-SE --split test

在 speech-recognition-community-v2/dev_data 数据集上进行评估：

python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-1b-Swedish --dataset speech-recognition-community-v2/dev_data --config sv --split validation --chunk_length_s 5.0 --stride_length_s 1.0

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率（learning_rate）	7.5e-05
训练批次大小（train_batch_size）	64
评估批次大小（eval_batch_size）	8
随机种子（seed）	42
梯度累积步数（gradient_accumulation_steps）	4
总训练批次大小（total_train_batch_size）	256
优化器（optimizer）	Adam（betas=(0.9,0.999)，epsilon=1e-08）
学习率调度器类型（lr_scheduler_type）	线性（linear）
学习率调度器热身步数（lr_scheduler_warmup_steps）	1000
训练轮数（num_epochs）	50
混合精度训练（mixed_precision_training）	原生自动混合精度（Native AMP）

训练结果

训练损失（Training Loss）	轮数（Epoch）	步数（Step）	验证损失（Validation Loss）	词错误率（Wer）	字符错误率（Cer）
3.1562	11.11	500	0.4830	0.3729	0.1169
0.5655	22.22	1000	0.3553	0.2381	0.0743
0.3376	33.33	1500	0.3359	0.2179	0.0696
0.2419	44.44	2000	0.3232	0.1844	0.0575

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

🔧 技术细节

该模型基于 facebook/wav2vec2-xls-r-1b 基础模型，在 mozilla-foundation/common_voice_8_0 数据集上进行微调。通过使用特定的训练超参数和优化器，在瑞典语语音识别任务中取得了较好的效果。评估指标包括词错误率（Wer）和字符错误率（Cer），用于衡量模型的性能。