whisper-small-vi开源语音识别模型 - 免费部署，提升越南语转录准确性和鲁棒性

首页

Whisper Small Vi

由 namphungdn134 开发

基于openai/whisper-small针对越南语语音数据微调的自动语音识别模型，提升越南语转录准确性和鲁棒性

语音识别

Transformers

其他开源协议:MIT #越南语语音识别 #低词错误率 #方言优化

下载量 334

发布时间 : 4/13/2025

模型简介

专为越南语优化的自动语音识别(ASR)模型，适用于语音转文本任务，特别针对越南语口音和方言进行优化

模型特点

越南语优化

针对越南语语音特点进行专门微调，提升方言和口音识别能力

轻量级模型

基于Whisper小型架构，在保持较高准确率的同时降低计算资源需求

高质量转录

在测试集上达到9.3485的词错误率(WER)，表现优异

模型能力

越南语语音识别

音频转文本

语音转录

使用案例

语音转录

会议记录

将越南语会议录音自动转录为文字记录

准确率超过90%

媒体字幕生成

为越南语视频内容自动生成字幕

语音助手

越南语语音指令识别

用于越南语智能家居或设备控制

🚀 Whisper Small Vi V1.1：由Nam Phung针对越南语微调的Whisper Small模型

本模型是基于openai/whisper-small在越南语语音数据上进行微调的版本。其目标是提升越南语自动语音识别（ASR）任务的转录准确性和鲁棒性，尤其适用于现实场景。

🚀 快速开始

安装依赖

# 安装所需库
!pip install transformers torch librosa soundfile --quiet

# 导入必要的库
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

print("环境设置完成！")

模型推理

import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"使用设备: {device}")

# 加载处理器和模型
model_id = "namphungdn134/whisper-small-vi"
print(f"从以下位置加载模型: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)

# 配置语言和任务
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"越南语的强制解码器ID: {forced_decoder_ids}")

# 预处理
audio_path = "example.wav"  
print(f"从以下位置加载音频: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)  
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"输入特征形状: {input_features.shape}")

# 生成转录结果
print("正在生成转录结果...")
with torch.no_grad():
    predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 转录结果:", transcription)

# 调试：打印标记以检查
print("预测的ID:", predicted_ids[0].tolist())

✨ 主要特性

基于openai/whisper-small模型在越南语语音数据上进行微调，提升了越南语自动语音识别任务的转录准确性和鲁棒性。
该模型与WhisperProcessor配合使用，可将音频输入预处理为对数梅尔频谱图，并将其解码为文本。

📦 安装指南

# 安装所需库
!pip install transformers torch librosa soundfile --quiet

💻 使用示例

基础用法

# 安装所需库
!pip install transformers torch librosa soundfile --quiet

# 导入必要的库
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

print("环境设置完成！")

import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"使用设备: {device}")

# 加载处理器和模型
model_id = "namphungdn134/whisper-small-vi"
print(f"从以下位置加载模型: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)

# 配置语言和任务
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"越南语的强制解码器ID: {forced_decoder_ids}")

# 预处理
audio_path = "example.wav"  
print(f"从以下位置加载音频: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)  
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"输入特征形状: {input_features.shape}")

# 生成转录结果
print("正在生成转录结果...")
with torch.no_grad():
    predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 转录结果:", transcription)

# 调试：打印标记以检查
print("预测的ID:", predicted_ids[0].tolist())

📚 详细文档

模型描述

Whisper small模型是一个基于Transformer的小型序列到序列模型，专为自动语音识别和翻译任务而设计。它在超过680,000小时的多语言标记音频数据上进行了训练。本微调版本专注于越南语，旨在提高转录准确性并更好地处理当地方言。

数据集

总时长：超过250小时的高质量越南语语音数据。
数据来源：公开的越南语数据集。
数据格式：16kHz的WAV文件及相应的文本转录。
预处理：音频进行了归一化和分段处理，转录文本进行了清理和分词处理。

微调结果

词错误率（WER）：9.3485

评估是在一个包含不同地区口音和说话风格的保留测试集上进行的。

🔧 技术细节

本模型是基于openai/whisper-small在越南语语音数据上进行微调得到的。微调过程旨在提高模型在越南语自动语音识别任务中的转录准确性和鲁棒性。

📄 许可证

本模型遵循MIT许可证。

📚 引用

如果您在研究或应用中使用了本模型，请按以下方式引用原始的Whisper模型和本微调工作：

@article{Whisper2021,
  title={Whisper: A Multilingual Speech Recognition Model},
  author={OpenAI},
  year={2021},
  journal={arXiv:2202.12064},
  url={https://arxiv.org/abs/2202.12064}
}

@misc{title={Whisper small Vi V1.1 - Nam Phung},
  author={Nam Phùng},
  organization={DUT},
  year={2025},
  url={https://huggingface.co/namphungdn134/whisper-small-vi},
  url={https://github.com/namphung134/ASR-Vietnamese}
}