wav2vec2-base-10k-voxpopuli-ft-es Open-source Speech Recognition Model

Wav2vec2 Base 10k Voxpopuli Ft Es

Developed by facebook

Based on Facebook's Wav2Vec2 base model, pre-trained on a 10K unlabeled subset of the VoxPopuli corpus and fine-tuned on Spanish transcription data.

Speech Recognition

Transformers

Spanish#Spanish Speech Recognition #VoxPopuli Fine-tuning #Multi-scenario Audio Transcription

Downloads 34

Release Time : 3/2/2022

Model Overview

This model is an automatic speech recognition (ASR) system specifically optimized for Spanish speech transcription tasks, suitable for converting Spanish speech into text.

Model Features

Multilingual Pre-training Foundation

Pre-trained on the VoxPopuli multilingual corpus, featuring robust speech feature extraction capabilities

Spanish-specific Optimization

Fine-tuned on Spanish transcription data, specifically optimized for Spanish speech characteristics

End-to-End Speech Recognition

Generates text output directly from raw audio input without complex feature engineering

Model Capabilities

Spanish Speech Recognition

Audio Transcription

Speech-to-Text

Use Cases

Speech Transcription

Automatic Meeting Minutes Generation

Automatically transcribes Spanish meeting recordings into written records

Improves meeting documentation efficiency and reduces manual transcription time

Media Subtitle Generation

Automatically generates subtitles for Spanish video content

Enhances media accessibility and reduces subtitle production costs

Voice Assistants

Spanish Voice Command Recognition

Used for command recognition in Spanish voice assistants

Enhances the accuracy and user experience of voice interaction systems

🚀 Wav2Vec2-Base-VoxPopuli-Finetuned

This is a base model based on Facebook's Wav2Vec2. It is pretrained on the 10K unlabeled subset of VoxPopuli corpus and fine-tuned on the transcribed data in Spanish.

🚀 Quick Start

This model is a fine - tuned version of Facebook's Wav2Vec2. It is trained on the 10K unlabeled subset of VoxPopuli corpus and then fine - tuned on Spanish transcribed data.

Paper: VoxPopuli: A Large - Scale Multilingual Speech Corpus for Representation Learning, Semi - Supervised Learning and Interpretation

Authors: Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux from Facebook AI

See the official website for more information, here

💻 Usage Examples

Basic Usage

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# resample audio

# load model & processor
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-es")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-es")

# load dataset
ds = load_dataset("common_voice", "es", split="validation[:1%]")

# common voice does not match target sampling rate
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# define mapping fn to read in sound file and resample
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# load all audio files
ds = ds.map(map_to_array)

# run inference on the first 5 data samples
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# inference
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))

📄 License

This project is licensed under the cc - by - nc - 4.0 license.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご