wav2vec2-large-voxrex-swedish-4gram开源模型 - 免费实现瑞典语自动语音识别

首页

Wav2vec2 Large Voxrex Swedish 4gram

由 viktor-enzell 开发

这是一个用于瑞典语自动语音识别(ASR)的模型，结合了VoxRex-C声学模型和基于社交媒体数据的4-gram语言模型。

语音识别

Transformers

其他#瑞典语语音识别 #低词错误率 #社交媒体文本优化

下载量 5,891

发布时间 : 5/26/2022

模型简介

该模型通过添加基于瑞典文化组学十亿词库的4-gram语言模型来增强VoxRex-C声学模型的性能，专门用于瑞典语语音识别任务。

模型特点

增强的语言模型

结合了基于4000万社交媒体词汇的4-gram语言模型，显著提升识别准确率

高性能

在公共语音6.1测试集上达到6.47%的词错误率

预训练声学模型

基于VoxRex-C预训练模型，具有优秀的声学特征提取能力

模型能力

瑞典语语音识别

音频转录

16kHz音频处理

使用案例

语音转录

社交媒体音频转录

将社交媒体平台上的瑞典语语音内容转换为文本

适合处理非正式口语表达

语音助手

用于瑞典语语音助手应用的语音识别组件

高准确率的语音指令识别

🚀 KBLab的wav2vec 2.0大模型VoxRex瑞典语（C）搭配4-gram模型

本声学模型由KBLab训练而成。更多详情请见 VoxRex-C。本仓库在此声学模型基础上，引入社交媒体4-gram语言模型，以提升性能。

🚀 快速开始

本模型可用于瑞典语的自动语音识别任务，通过结合声学模型和4-gram语言模型，能有效提升识别准确率。

✨ 主要特性

基于KBLab训练的声学模型VoxRex-C。
引入社交媒体4-gram语言模型，提升识别性能。
可用于瑞典语的自动语音识别任务。

📦 安装指南

文档未提及具体安装步骤，可参考transformers库的安装方式：

pip install transformers

💻 使用示例

基础用法

以下是使用pipeline的简单示例：

import torch
from transformers import pipeline

# 加载模型。若有可用GPU则使用GPU
model_name = 'viktor-enzell/wav2vec2-large-voxrex-swedish-4gram'
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
pipe = pipeline(model=model_name).to(device)

# 对音频文件进行推理
output = pipe('path/to/audio.mp3')['text']

高级用法

以下是对Common Voice测试集的1%进行转录的示例。模型期望输入的音频采样率为16kHz，因此会将其他采样率的音频重采样至16kHz。

from transformers import Wav2Vec2ForCTC, Wav2Vec2ProcessorWithLM
from datasets import load_dataset
import torch
import torchaudio.functional as F

# 导入模型和处理器。若有可用GPU则使用GPU
model_name = 'viktor-enzell/wav2vec2-large-voxrex-swedish-4gram'
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device);
processor = Wav2Vec2ProcessorWithLM.from_pretrained(model_name)

# 导入并处理语音数据 
common_voice = load_dataset('common_voice', 'sv-SE', split='test[:1%]')

def speech_file_to_array(sample):
    # 将语音文件转换为数组并下采样至16 kHz
    sampling_rate = sample['audio']['sampling_rate']
    sample['speech'] = F.resample(torch.tensor(sample['audio']['array']), sampling_rate, 16_000)
    return sample

common_voice = common_voice.map(speech_file_to_array)

# 进行推理
inputs = processor(common_voice['speech'], sampling_rate=16_000, return_tensors='pt', padding=True).to(device)

with torch.no_grad():
    logits = model(**inputs).logits

transcripts = processor.batch_decode(logits.cpu().numpy()).text

📚 详细文档

模型描述

VoxRex-C模型通过从瑞典文化计量学千兆词料库（Språkbanken提供）中提取的子集来估计4-gram语言模型。该子集包含2010年至2015年间社交媒体领域的4000万个单词。

训练过程

n-gram模型的文本数据会进行预处理，移除不在wav2vec 2.0词汇表中的字符，并将所有字符转换为大写。预处理完成后，将每个文本样本存储在文本文件的新行中，然后使用KenLM模型进行估计。更多详情请见此教程。

评估结果

该模型在Common Voice测试集完整版6.1上进行了评估。VoxRex-C在未使用语言模型时的字错率（WER）为9.03%，使用语言模型后降至6.47%。

📄 许可证

本模型采用CC0-1.0许可证。

信息表格

属性	详情
模型类型	wav2vec 2.0大模型VoxRex瑞典语（C）搭配4-gram模型
训练数据	Common Voice、NST瑞典语ASR数据库、P4、瑞典文化计量学千兆词料库
评估指标	字错率（WER）
评估数据集	Common Voice测试集6.1版本
无语言模型WER	9.03%
有语言模型WER	6.47%