whisper-base-vi开源语音识别模型 - 提升越南语转录准确性，免费可用

首页

Whisper Base Vi

由 namphungdn134 开发

基于openai/whisper-base模型在100小时越南语语音数据上微调的语音识别模型，提升越南语转录准确性

语音识别

Transformers

其他开源协议:MIT #越南语语音识别 #方言优化 #低词错误率

下载量 215

发布时间 : 3/16/2025

模型简介

专为越南语优化的自动语音识别(ASR)模型，适用于语音转文本任务

模型特点

越南语优化

针对越南语特点进行专门微调，提升方言和口音识别能力

高效推理

基于Whisper基础架构，保持高效推理速度

真实场景适应

在多样化语音数据上训练，增强实际应用鲁棒性

模型能力

越南语语音识别

音频转文字

语音转录

使用案例

语音转录

会议记录

将越南语会议录音自动转为文字记录

词错误率16.9148%

媒体字幕生成

为越南语视频内容自动生成字幕

🚀 Whisper Base Vi V1.1：由Nam Phung针对越南语微调的Whisper Base模型

本模型是基于openai/whisper-base，在100小时越南语语音数据上微调得到的版本。其目标是提升越南语自动语音识别（ASR）任务的转录准确性和鲁棒性，尤其适用于现实场景。

模型信息

属性	详情
模型类型	基于Transformer的序列到序列模型，专为自动语音识别和翻译任务设计
训练数据	超过100小时的高质量越南语语音数据，来源于公开越南语数据集，格式为16kHz的WAV文件及对应的文本转录

🚀 快速开始

你可以访问：https://github.com/namphung134/np-asr-vietnamese 来使用微调后的模型。

或者按照以下步骤操作：

安装所需依赖：

# Install required libraries
!pip install transformers torch librosa soundfile --quiet

# Import necessary libraries
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

print("Environment setup completed!")

使用模型进行推理：

import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")

# Load processor and model
model_id = "namphungdn134/whisper-base-vi"
print(f"Loading model from: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)

# config language and task
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"Forced decoder IDs for Vietnamese: {forced_decoder_ids}")

# Preprocess
audio_path = "example.wav"  
print(f"Loading audio from: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)  
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"Input features shape: {input_features.shape}")

# Generate
print("Generating transcription...")
with torch.no_grad():
    predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 Transcription:", transcription)

# Debug: Print token to check
print("Predicted IDs:", predicted_ids[0].tolist())

✨ 主要特性

基于Transformer架构的序列到序列模型，专为自动语音识别和翻译任务设计。
在超过680,000小时的多语言标注音频数据上进行训练。
微调版本专注于越南语，提升转录准确性并更好地处理当地方言。
与WhisperProcessor配合使用，将音频输入预处理为对数梅尔频谱图并解码为文本。

📦 安装指南

安装所需依赖：

# Install required libraries
!pip install transformers torch librosa soundfile --quiet

# Import necessary libraries
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

print("Environment setup completed!")

💻 使用示例

基础用法

import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")

# Load processor and model
model_id = "namphungdn134/whisper-base-vi"
print(f"Loading model from: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)

# config language and task
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"Forced decoder IDs for Vietnamese: {forced_decoder_ids}")

# Preprocess
audio_path = "example.wav"  
print(f"Loading audio from: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)  
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"Input features shape: {input_features.shape}")

# Generate
print("Generating transcription...")
with torch.no_grad():
    predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 Transcription:", transcription)

# Debug: Print token to check
print("Predicted IDs:", predicted_ids[0].tolist())

📚 详细文档

微调结果

词错误率（WER）：16.9148

评估是在一个包含不同地区口音和说话风格的保留测试集上进行的。

数据集

总时长：超过100小时的高质量越南语语音数据
来源：公开越南语数据集
格式：16kHz的WAV文件及对应的文本转录
预处理：音频进行了归一化和分段处理，转录文本进行了清理和分词。

🔧 技术细节

Whisper Base模型是一个基于Transformer的序列到序列模型，专为自动语音识别和翻译任务设计。它在超过680,000小时的多语言标注音频数据上进行了训练。该模型的微调版本专注于越南语，旨在提高转录准确性并更好地处理当地方言。

此模型与WhisperProcessor配合使用，将音频输入预处理为对数梅尔频谱图并解码为文本。

⚠️ 重要提示

本模型是专门针对越南语进行微调的，在其他语言上的表现可能不佳。
对于重叠语音或嘈杂背景的处理能力有限。
如果训练数据中未充分涵盖某些强烈的方言变体，模型性能可能会下降。

📄 许可证

本模型遵循MIT许可证。

📚 引用

如果您在研究或应用中使用此模型，请按以下方式引用原始的Whisper模型和本次微调工作：

@article{Whisper2021,
  title={Whisper: A Multilingual Speech Recognition Model},
  author={OpenAI},
  year={2021},
  journal={arXiv:2202.12064},
  url={https://arxiv.org/abs/2202.12064}
}

@misc{title={Whisper Base Vi V1.1 - Nam Phung},
  author={Nam Phùng},
  organization={DUT},
  year={2025},
  url={https://huggingface.co/namphungdn134/whisper-base-vi}
}