whisper-base-vi開源語音識別模型 - 提升越南語轉錄準確性，免費可用

首頁

Whisper Base Vi

由namphungdn134開發

基於openai/whisper-base模型在100小時越南語語音數據上微調的語音識別模型，提升越南語轉錄準確性

語音識別

Transformers

其他開源協議:MIT #越南語語音識別 #方言優化 #低詞錯誤率

下載量 215

發布時間 : 3/16/2025

模型概述

專為越南語優化的自動語音識別(ASR)模型，適用於語音轉文本任務

模型特點

越南語優化

針對越南語特點進行專門微調，提升方言和口音識別能力

高效推理

基於Whisper基礎架構，保持高效推理速度

真實場景適應

在多樣化語音數據上訓練，增強實際應用魯棒性

模型能力

越南語語音識別

音頻轉文字

語音轉錄

使用案例

語音轉錄

會議記錄

將越南語會議錄音自動轉為文字記錄

詞錯誤率16.9148%

媒體字幕生成

為越南語視頻內容自動生成字幕

🚀 Whisper Base Vi V1.1：由Nam Phung針對越南語微調的Whisper Base模型

本模型是基於openai/whisper-base，在100小時越南語語音數據上微調得到的版本。其目標是提升越南語自動語音識別（ASR）任務的轉錄準確性和魯棒性，尤其適用於現實場景。

模型信息

屬性	詳情
模型類型	基於Transformer的序列到序列模型，專為自動語音識別和翻譯任務設計
訓練數據	超過100小時的高質量越南語語音數據，來源於公開越南語數據集，格式為16kHz的WAV文件及對應的文本轉錄

🚀 快速開始

你可以訪問：https://github.com/namphung134/np-asr-vietnamese 來使用微調後的模型。

或者按照以下步驟操作：

安裝所需依賴：

# Install required libraries
!pip install transformers torch librosa soundfile --quiet

# Import necessary libraries
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

print("Environment setup completed!")

使用模型進行推理：

import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")

# Load processor and model
model_id = "namphungdn134/whisper-base-vi"
print(f"Loading model from: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)

# config language and task
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"Forced decoder IDs for Vietnamese: {forced_decoder_ids}")

# Preprocess
audio_path = "example.wav"  
print(f"Loading audio from: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)  
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"Input features shape: {input_features.shape}")

# Generate
print("Generating transcription...")
with torch.no_grad():
    predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 Transcription:", transcription)

# Debug: Print token to check
print("Predicted IDs:", predicted_ids[0].tolist())

✨ 主要特性

基於Transformer架構的序列到序列模型，專為自動語音識別和翻譯任務設計。
在超過680,000小時的多語言標註音頻數據上進行訓練。
微調版本專注于越南語，提升轉錄準確性並更好地處理當地方言。
與WhisperProcessor配合使用，將音頻輸入預處理為對數梅爾頻譜圖並解碼為文本。

📦 安裝指南

安裝所需依賴：

# Install required libraries
!pip install transformers torch librosa soundfile --quiet

# Import necessary libraries
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

print("Environment setup completed!")

💻 使用示例

基礎用法

import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")

# Load processor and model
model_id = "namphungdn134/whisper-base-vi"
print(f"Loading model from: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)

# config language and task
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"Forced decoder IDs for Vietnamese: {forced_decoder_ids}")

# Preprocess
audio_path = "example.wav"  
print(f"Loading audio from: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)  
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"Input features shape: {input_features.shape}")

# Generate
print("Generating transcription...")
with torch.no_grad():
    predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 Transcription:", transcription)

# Debug: Print token to check
print("Predicted IDs:", predicted_ids[0].tolist())

📚 詳細文檔

微調結果

詞錯誤率（WER）：16.9148

評估是在一個包含不同地區口音和說話風格的保留測試集上進行的。

數據集

總時長：超過100小時的高質量越南語語音數據
來源：公開越南語數據集
格式：16kHz的WAV文件及對應的文本轉錄
預處理：音頻進行了歸一化和分段處理，轉錄文本進行了清理和分詞。

🔧 技術細節

Whisper Base模型是一個基於Transformer的序列到序列模型，專為自動語音識別和翻譯任務設計。它在超過680,000小時的多語言標註音頻數據上進行了訓練。該模型的微調版本專注于越南語，旨在提高轉錄準確性並更好地處理當地方言。

此模型與WhisperProcessor配合使用，將音頻輸入預處理為對數梅爾頻譜圖並解碼為文本。

⚠️ 重要提示

本模型是專門針對越南語進行微調的，在其他語言上的表現可能不佳。
對於重疊語音或嘈雜背景的處理能力有限。
如果訓練數據中未充分涵蓋某些強烈的方言變體，模型性能可能會下降。

📄 許可證

本模型遵循MIT許可證。

📚 引用

如果您在研究或應用中使用此模型，請按以下方式引用原始的Whisper模型和本次微調工作：

@article{Whisper2021,
  title={Whisper: A Multilingual Speech Recognition Model},
  author={OpenAI},
  year={2021},
  journal={arXiv:2202.12064},
  url={https://arxiv.org/abs/2202.12064}
}

@misc{title={Whisper Base Vi V1.1 - Nam Phung},
  author={Nam Phùng},
  organization={DUT},
  year={2025},
  url={https://huggingface.co/namphungdn134/whisper-base-vi}
}