wav2vec2-base-10k-voxpopuli-ft-es开源语音识别模型

Home

Wav2vec2 Base 10k Voxpopuli Ft Es

Developed by facebook

基于Facebook Wav2Vec2基础模型，在VoxPopuli语料库的10K未标注子集上预训练，并在西班牙语转录数据上微调的语音识别模型。

语音识别

Transformers

Spanish#西班牙语语音识别 #VoxPopuli微调 #多场景音频转录

Downloads 34

Release Time : 3/2/2022

Model Overview

该模型是一个自动语音识别(ASR)系统，专门针对西班牙语语音转录任务进行了优化，适用于将西班牙语语音转换为文本。

Model Features

多语言预训练基础

基于VoxPopuli多语言语料库进行预训练，具有强大的语音特征提取能力

西班牙语专门优化

在西班牙语转录数据上进行微调，针对西班牙语语音特点进行了专门优化

端到端语音识别

直接从原始音频输入生成文本输出，无需复杂的特征工程

Model Capabilities

西班牙语语音识别

音频转录

语音转文本

Use Cases

语音转录

会议记录自动生成

将西班牙语会议录音自动转录为文字记录

提高会议记录效率，减少人工转录时间

媒体字幕生成

为西班牙语视频内容自动生成字幕

提高媒体内容可访问性，降低字幕制作成本

语音助手

西班牙语语音命令识别

用于西班牙语语音助手中的命令识别

提升语音交互系统的准确性和用户体验

🚀 Wav2Vec2-Base-VoxPopuli-Finetuned

该项目基于Facebook的Wav2Vec2基础模型，在VoxPopuli语料库的10K无标签子集上进行预训练，并在西班牙语转录数据上进行微调，用于自动语音识别任务。

🚀 快速开始

本模型是 Facebook的Wav2Vec2 基础模型，在 VoxPopuli语料库的10K无标签子集上进行预训练，并在西班牙语转录数据上进行微调（更多信息请参考论文中的表1）。

论文：VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation

作者：来自 Facebook AI 的 Changhan Wang、Morgane Riviere、Ann Lee、Anne Wu、Chaitanya Talnikar、Daniel Haziza、Mary Williamson、Juan Pino、Emmanuel Dupoux

更多信息请查看官方网站 here

💻 使用示例

基础用法

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# resample audio

# load model & processor
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-es")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-es")

# load dataset
ds = load_dataset("common_voice", "es", split="validation[:1%]")

# common voice does not match target sampling rate
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# define mapping fn to read in sound file and resample
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# load all audio files
ds = ds.map(map_to_array)

# run inference on the first 5 data samples
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# inference
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))