wav2vec2-base-10k-voxpopuli-ft-sk开源语音识别模型

首页

Wav2vec2 Base 10k Voxpopuli Ft Sk

由 facebook 开发

基于VoxPopuli语料库10K未标注数据预训练，并在斯洛伐克语转录数据上微调的语音识别模型

语音识别

Transformers

其他#斯洛伐克语语音识别 #VoxPopuli数据集微调 #多语言预训练

下载量 39

发布时间 : 3/2/2022

模型简介

该模型是Facebook Wav2Vec2基础模型的变体，专门针对斯洛伐克语语音识别任务进行了优化，适用于将斯洛伐克语语音转换为文本的应用场景。

模型特点

多阶段训练

先在10K小时的VoxPopuli多语言语料库上预训练，再针对斯洛伐克语进行微调

高效语音表征

基于Wav2Vec2架构，直接从原始音频学习有效语音表征

斯洛伐克语优化

专门针对斯洛伐克语语音特点进行优化，提高识别准确率

模型能力

斯洛伐克语语音识别

音频转文本

语音转录

使用案例

语音转录

会议记录自动化

将斯洛伐克语会议录音自动转换为文字记录

语音助手开发

为斯洛伐克语语音助手提供语音识别能力

无障碍应用

实时字幕生成

为斯洛伐克语视频内容生成实时字幕

🚀 Wav2Vec2-Base-VoxPopuli-Finetuned

该项目基于Facebook的Wav2Vec2基础模型，此基础模型在VoxPopuli语料库的10K无标签子集上进行预训练，并在斯洛伐克语（sk）的转录数据上进行微调（更多信息请参考论文中的表1）。本项目可用于音频自动语音识别任务，为语音处理领域提供了有力支持。

✨ 主要特性

基于预训练的Wav2Vec2模型，在VoxPopuli语料库上进行预训练，具有良好的语音特征学习能力。
在斯洛伐克语转录数据上进行微调，对斯洛伐克语语音识别有较好的效果。

📦 安装指南

文档中未提及具体安装步骤，暂不展示。

💻 使用示例

基础用法

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# resample audio

# load model & processor
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-sk")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-sk")

# load dataset
ds = load_dataset("common_voice", "sk", split="validation[:1%]")

# common voice does not match target sampling rate
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# define mapping fn to read in sound file and resample
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# load all audio files
ds = ds.map(map_to_array)

# run inference on the first 5 data samples
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# inference
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))