Whisper Small Vi
模型简介
专为越南语优化的自动语音识别(ASR)模型,适用于语音转文本任务,特别针对越南语口音和方言进行优化
模型特点
越南语优化
针对越南语语音特点进行专门微调,提升方言和口音识别能力
轻量级模型
基于Whisper小型架构,在保持较高准确率的同时降低计算资源需求
高质量转录
在测试集上达到9.3485的词错误率(WER),表现优异
模型能力
越南语语音识别
音频转文本
语音转录
使用案例
语音转录
会议记录
将越南语会议录音自动转录为文字记录
准确率超过90%
媒体字幕生成
为越南语视频内容自动生成字幕
语音助手
越南语语音指令识别
用于越南语智能家居或设备控制
🚀 Whisper Small Vi V1.1:由Nam Phung针对越南语微调的Whisper Small模型
本模型是基于openai/whisper-small在越南语语音数据上进行微调的版本。其目标是提升越南语自动语音识别(ASR)任务的转录准确性和鲁棒性,尤其适用于现实场景。
🚀 快速开始
安装依赖
# 安装所需库
!pip install transformers torch librosa soundfile --quiet
# 导入必要的库
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
print("环境设置完成!")
模型推理
import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"使用设备: {device}")
# 加载处理器和模型
model_id = "namphungdn134/whisper-small-vi"
print(f"从以下位置加载模型: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)
# 配置语言和任务
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"越南语的强制解码器ID: {forced_decoder_ids}")
# 预处理
audio_path = "example.wav"
print(f"从以下位置加载音频: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"输入特征形状: {input_features.shape}")
# 生成转录结果
print("正在生成转录结果...")
with torch.no_grad():
predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 转录结果:", transcription)
# 调试:打印标记以检查
print("预测的ID:", predicted_ids[0].tolist())
✨ 主要特性
- 基于openai/whisper-small模型在越南语语音数据上进行微调,提升了越南语自动语音识别任务的转录准确性和鲁棒性。
- 该模型与WhisperProcessor配合使用,可将音频输入预处理为对数梅尔频谱图,并将其解码为文本。
📦 安装指南
# 安装所需库
!pip install transformers torch librosa soundfile --quiet
💻 使用示例
基础用法
# 安装所需库
!pip install transformers torch librosa soundfile --quiet
# 导入必要的库
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
print("环境设置完成!")
import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"使用设备: {device}")
# 加载处理器和模型
model_id = "namphungdn134/whisper-small-vi"
print(f"从以下位置加载模型: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)
# 配置语言和任务
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"越南语的强制解码器ID: {forced_decoder_ids}")
# 预处理
audio_path = "example.wav"
print(f"从以下位置加载音频: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"输入特征形状: {input_features.shape}")
# 生成转录结果
print("正在生成转录结果...")
with torch.no_grad():
predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 转录结果:", transcription)
# 调试:打印标记以检查
print("预测的ID:", predicted_ids[0].tolist())
📚 详细文档
模型描述
Whisper small模型是一个基于Transformer的小型序列到序列模型,专为自动语音识别和翻译任务而设计。它在超过680,000小时的多语言标记音频数据上进行了训练。本微调版本专注于越南语,旨在提高转录准确性并更好地处理当地方言。
数据集
- 总时长:超过250小时的高质量越南语语音数据。
- 数据来源:公开的越南语数据集。
- 数据格式:16kHz的WAV文件及相应的文本转录。
- 预处理:音频进行了归一化和分段处理,转录文本进行了清理和分词处理。
微调结果
- 词错误率(WER):9.3485
评估是在一个包含不同地区口音和说话风格的保留测试集上进行的。
🔧 技术细节
本模型是基于openai/whisper-small在越南语语音数据上进行微调得到的。微调过程旨在提高模型在越南语自动语音识别任务中的转录准确性和鲁棒性。
📄 许可证
本模型遵循MIT许可证。
📚 引用
如果您在研究或应用中使用了本模型,请按以下方式引用原始的Whisper模型和本微调工作:
@article{Whisper2021,
title={Whisper: A Multilingual Speech Recognition Model},
author={OpenAI},
year={2021},
journal={arXiv:2202.12064},
url={https://arxiv.org/abs/2202.12064}
}
@misc{title={Whisper small Vi V1.1 - Nam Phung},
author={Nam Phùng},
organization={DUT},
year={2025},
url={https://huggingface.co/namphungdn134/whisper-small-vi},
url={https://github.com/namphung134/ASR-Vietnamese}
}
📬 联系我们
如有疑问、合作意向或建议,请通过[namphungdn134@gmail.com]与我们联系。
⚠️ 重要提示
⚠️ 重要提示
- 本模型是专门针对越南语进行微调的,在其他语言上的表现可能不佳。
- 该模型在处理重叠语音或嘈杂背景时可能会遇到困难。
- 当遇到训练数据中未充分体现的强烈方言变化时,模型性能可能会下降。
Voice Activity Detection
MIT
基于pyannote.audio 2.1版本的语音活动检测模型,用于识别音频中的语音活动时间段
语音识别
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
这是一个针对葡萄牙语语音识别任务微调的XLSR-53大模型,基于Common Voice 6.1数据集训练,支持葡萄牙语语音转文本。
语音识别 其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型,在超过500万小时的标注数据上训练,具有强大的跨数据集和跨领域泛化能力。
语音识别 支持多种语言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,经过超过500万小时标记数据的训练,在零样本设置下展现出强大的泛化能力。
语音识别
Transformers 支持多种语言

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的俄语语音识别模型,支持16kHz采样率的语音输入
语音识别 其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的中文语音识别模型,支持16kHz采样率的语音输入。
语音识别 中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的荷兰语语音识别模型,在Common Voice和CSS10数据集上训练,支持16kHz音频输入。
语音识别 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的日语语音识别模型,支持16kHz采样率的语音输入
语音识别 日语
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基于Hugging Face预训练模型的文本与音频强制对齐工具,支持多种语言,内存效率高
语音识别
Transformers 支持多种语言

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的阿拉伯语语音识别模型,在Common Voice和阿拉伯语语音语料库上训练
语音识别 阿拉伯语
W
jonatasgrosman
2.3M
37
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98