wav2vec2-2-bart-base Open-source Speech Recognition Model - Free Deployment for Accurate Speech Content Recognition

Home

Wav2vec2 2 Bart Base

Developed by patrickvonplaten

A speech recognition model fine-tuned on the LibriSpeech ASR clean dataset, based on wav2vec2-base and bart-base

Speech Recognition

Transformers

#Speech-to-Text #Multi-GPU Training #Low Word Error Rate

Downloads 493

Release Time : 3/2/2022

Model Overview

This model combines the speech feature extraction capability of wav2vec2 with the sequence-to-sequence transformation ability of BART, focusing on English speech recognition tasks

Model Features

Hybrid Architecture

Combines speech feature extraction from wav2vec2 with sequence transformation capability from BART

Efficient Fine-tuning

Optimized on the LibriSpeech ASR clean dataset

Multi-GPU Training

Supports distributed training to improve efficiency

Model Capabilities

English speech recognition

Audio-to-text conversion

Sequence-to-sequence transformation

Use Cases

Speech Transcription

Meeting Minutes

Convert meeting recordings into text transcripts

Podcast Transcription

Convert podcast audio content into text

Assistive Technology

Real-time Caption Generation

Generate real-time captions for videos or live streams

Property	Details
learning_rate	0.0003
train_batch_size	8
eval_batch_size	8
seed	42
distributed_type	multi - GPU
num_devices	8
total_train_batch_size	64
total_eval_batch_size	64
optimizer	Adam with betas=(0.9,0.999) and epsilon=1e - 08
lr_scheduler_type	linear
lr_scheduler_warmup_steps	400
num_epochs	5
mixed_precision_training	Native AMP

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Wav2vec2 2 Bart Base

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 wav2vec2-2-bart-base

🚀 Quick Start

✨ Features

🔧 Technical Details

Training hyperparameters

Training results

Framework versions