Whisper Base Vi
模型概述
專為越南語優化的自動語音識別(ASR)模型,適用於語音轉文本任務
模型特點
越南語優化
針對越南語特點進行專門微調,提升方言和口音識別能力
高效推理
基於Whisper基礎架構,保持高效推理速度
真實場景適應
在多樣化語音數據上訓練,增強實際應用魯棒性
模型能力
越南語語音識別
音頻轉文字
語音轉錄
使用案例
語音轉錄
會議記錄
將越南語會議錄音自動轉為文字記錄
詞錯誤率16.9148%
媒體字幕生成
為越南語視頻內容自動生成字幕
🚀 Whisper Base Vi V1.1:由Nam Phung針對越南語微調的Whisper Base模型
本模型是基於openai/whisper-base,在100小時越南語語音數據上微調得到的版本。其目標是提升越南語自動語音識別(ASR)任務的轉錄準確性和魯棒性,尤其適用於現實場景。
模型信息
屬性 | 詳情 |
---|---|
模型類型 | 基於Transformer的序列到序列模型,專為自動語音識別和翻譯任務設計 |
訓練數據 | 超過100小時的高質量越南語語音數據,來源於公開越南語數據集,格式為16kHz的WAV文件及對應的文本轉錄 |
🚀 快速開始
你可以訪問:https://github.com/namphung134/np-asr-vietnamese 來使用微調後的模型。
或者按照以下步驟操作:
- 安裝所需依賴:
# Install required libraries
!pip install transformers torch librosa soundfile --quiet
# Import necessary libraries
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
print("Environment setup completed!")
- 使用模型進行推理:
import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")
# Load processor and model
model_id = "namphungdn134/whisper-base-vi"
print(f"Loading model from: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)
# config language and task
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"Forced decoder IDs for Vietnamese: {forced_decoder_ids}")
# Preprocess
audio_path = "example.wav"
print(f"Loading audio from: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"Input features shape: {input_features.shape}")
# Generate
print("Generating transcription...")
with torch.no_grad():
predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 Transcription:", transcription)
# Debug: Print token to check
print("Predicted IDs:", predicted_ids[0].tolist())
✨ 主要特性
- 基於Transformer架構的序列到序列模型,專為自動語音識別和翻譯任務設計。
- 在超過680,000小時的多語言標註音頻數據上進行訓練。
- 微調版本專注于越南語,提升轉錄準確性並更好地處理當地方言。
- 與WhisperProcessor配合使用,將音頻輸入預處理為對數梅爾頻譜圖並解碼為文本。
📦 安裝指南
安裝所需依賴:
# Install required libraries
!pip install transformers torch librosa soundfile --quiet
# Import necessary libraries
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
print("Environment setup completed!")
💻 使用示例
基礎用法
import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")
# Load processor and model
model_id = "namphungdn134/whisper-base-vi"
print(f"Loading model from: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)
# config language and task
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"Forced decoder IDs for Vietnamese: {forced_decoder_ids}")
# Preprocess
audio_path = "example.wav"
print(f"Loading audio from: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"Input features shape: {input_features.shape}")
# Generate
print("Generating transcription...")
with torch.no_grad():
predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 Transcription:", transcription)
# Debug: Print token to check
print("Predicted IDs:", predicted_ids[0].tolist())
📚 詳細文檔
微調結果
- 詞錯誤率(WER):16.9148
評估是在一個包含不同地區口音和說話風格的保留測試集上進行的。
數據集
- 總時長:超過100小時的高質量越南語語音數據
- 來源:公開越南語數據集
- 格式:16kHz的WAV文件及對應的文本轉錄
- 預處理:音頻進行了歸一化和分段處理,轉錄文本進行了清理和分詞。
🔧 技術細節
Whisper Base模型是一個基於Transformer的序列到序列模型,專為自動語音識別和翻譯任務設計。它在超過680,000小時的多語言標註音頻數據上進行了訓練。該模型的微調版本專注于越南語,旨在提高轉錄準確性並更好地處理當地方言。
此模型與WhisperProcessor配合使用,將音頻輸入預處理為對數梅爾頻譜圖並解碼為文本。
⚠️ 重要提示
- 本模型是專門針對越南語進行微調的,在其他語言上的表現可能不佳。
- 對於重疊語音或嘈雜背景的處理能力有限。
- 如果訓練數據中未充分涵蓋某些強烈的方言變體,模型性能可能會下降。
📄 許可證
本模型遵循MIT許可證。
📚 引用
如果您在研究或應用中使用此模型,請按以下方式引用原始的Whisper模型和本次微調工作:
@article{Whisper2021,
title={Whisper: A Multilingual Speech Recognition Model},
author={OpenAI},
year={2021},
journal={arXiv:2202.12064},
url={https://arxiv.org/abs/2202.12064}
}
@misc{title={Whisper Base Vi V1.1 - Nam Phung},
author={Nam Phùng},
organization={DUT},
year={2025},
url={https://huggingface.co/namphungdn134/whisper-base-vi}
}
📬 聯繫我們
如有疑問、合作意向或建議,請通過 [namphungdn134@gmail.com] 與我們聯繫。
Voice Activity Detection
MIT
基於pyannote.audio 2.1版本的語音活動檢測模型,用於識別音頻中的語音活動時間段
語音識別
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
這是一個針對葡萄牙語語音識別任務微調的XLSR-53大模型,基於Common Voice 6.1數據集訓練,支持葡萄牙語語音轉文本。
語音識別 其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
語音識別 支持多種語言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,經過超過500萬小時標記數據的訓練,在零樣本設置下展現出強大的泛化能力。
語音識別
Transformers 支持多種語言

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的俄語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的中文語音識別模型,支持16kHz採樣率的語音輸入。
語音識別 中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型,在Common Voice和CSS10數據集上訓練,支持16kHz音頻輸入。
語音識別 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的日語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 日語
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基於Hugging Face預訓練模型的文本與音頻強制對齊工具,支持多種語言,內存效率高
語音識別
Transformers 支持多種語言

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的阿拉伯語語音識別模型,在Common Voice和阿拉伯語語音語料庫上訓練
語音識別 阿拉伯語
W
jonatasgrosman
2.3M
37
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98