ViWhisper-medium Open-source Speech Recognition Model - Free Deployment for Precise Recognition of Vietnamese Speech

Home

Viwhisper Medium

Developed by NhutP

Whisper-medium model optimized for Vietnamese speech recognition tasks, fine-tuned on 1308 hours of Vietnamese data

Speech Recognition

Transformers

OtherOpen Source License:MIT #Vietnamese speech recognition #Whisper fine-tuning #Multi-dataset training

Downloads 139

Release Time : 12/16/2024

Model Overview

Vietnamese speech recognition model based on OpenAI Whisper-medium architecture, fine-tuned on multiple Vietnamese datasets, supporting high-accuracy speech-to-text conversion

Model Features

Large-scale Vietnamese training

Fine-tuned on 1308 hours of Vietnamese data, including speech data from various sources

Multi-dataset support

Evaluated on multiple Vietnamese datasets including VSV-1100, Common Voice, and VIVOS

Low WER performance

Achieves WER of 4.69-28.76 on multiple test sets, demonstrating excellent Vietnamese recognition

Model Capabilities

Vietnamese speech recognition

Long audio processing

High-accuracy transcription

Use Cases

Speech transcription

Vietnamese meeting minutes

Automatically convert Vietnamese meeting recordings into text transcripts

WER as low as 4.69-8.1

Voice assistants

Provide speech recognition capabilities for Vietnamese voice assistants

Education

Language learning applications

Help learners practice Vietnamese pronunciation and listening

🚀 ViWhisper-medium

A new model for Vietnamese speech recognition, fine - tuned from openai/whisper - medium on the VietSpeech dataset.

🚀 Quick Start

We release a new model for Vietnamese speech recognition task. We fine - tuned openai/whisper-medium on our new dataset VietSpeech.

✨ Features

A new model for Vietnamese speech recognition.
Fine - tuned on a new dataset for better performance.

📦 Installation

No installation steps provided in the original document, so this section is skipped.

💻 Usage Examples

Basic Usage

from transformers import WhisperProcessor, WhisperForConditionalGeneration
import librosa
# load model and processor
processor = WhisperProcessor.from_pretrained("NhutP/ViWhisper-medium")
model = WhisperForConditionalGeneration.from_pretrained("NhutP/ViWhisper-medium")

prefix_ids = model.generation_config.forced_decoder_ids
model.generation_config.input_ids = prefix_ids
model.generation_config.forced_decoder_ids = None

# load a sample
array, sampling_rate = librosa.load('path_to_audio', sr = 16000) # Load some audio sample
input_features = processor(array, sampling_rate=sampling_rate, return_tensors="pt").input_features 
# generate token ids
predicted_ids = model.generate(input_features)
# decode token ids to text
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)

Advanced Usage

from transformers import pipeline
pipe = pipeline(
    "automatic-speech-recognition",
    model="NhutP/ViWhisper-medium",
    max_new_tokens=128,
    chunk_length_s=30,
    return_timestamps=False,
    device= '...' # 'cpu' or 'cuda'
) 
output = pipe(path_to_audio_samplingrate_16000)['text']

📚 Documentation

Training data

VSV-1100	T2S*	CMV14-vi	VIVOS	VLSP2021	Total
1100 hours	11 hours	3.04 hours	13.94 hours	180 hours	1308 hours

* We use a text - to - speech model to generate sentences containing words that do not appear in our dataset.

WER result

CMV14-vi	VIVOS	VLSP2020-T1	VLSP2020-T2	VLSP2021-T1	VLSP2021-T2	Bud500
8.1	4.69	13.22	28.76	11.78	8.28	5.38

🔧 Technical Details

No specific technical details provided in the original document, so this section is skipped.

📄 License

The project is licensed under the MIT license.

📖 Citation

@misc{VSV-1100,
    author = {Pham Quang Nhut and Duong Pham Hoang Anh and Nguyen Vinh Tiep},
    title = {VSV-1100: Vietnamese social voice dataset},
    url = {https://github.com/NhutP/VSV-1100},
    year = {2024}
}

💡 Usage Tip

Also, please give us a star on github: https://github.com/NhutP/ViWhisper if you find our project useful. Contact me at: 22521061@gm.uit.edu.vn (Pham Quang Nhut)

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご