whisper-small-vi開源語音識別模型 - 免費部署，提升越南語轉錄準確性和魯棒性

首頁

Whisper Small Vi

由namphungdn134開發

基於openai/whisper-small針對越南語語音數據微調的自動語音識別模型，提升越南語轉錄準確性和魯棒性

語音識別

Transformers

其他開源協議:MIT #越南語語音識別 #低詞錯誤率 #方言優化

下載量 334

發布時間 : 4/13/2025

模型概述

專為越南語優化的自動語音識別(ASR)模型，適用於語音轉文本任務，特別針對越南語口音和方言進行優化

模型特點

越南語優化

針對越南語語音特點進行專門微調，提升方言和口音識別能力

輕量級模型

基於Whisper小型架構，在保持較高準確率的同時降低計算資源需求

高質量轉錄

在測試集上達到9.3485的詞錯誤率(WER)，表現優異

模型能力

越南語語音識別

音頻轉文本

語音轉錄

使用案例

語音轉錄

會議記錄

將越南語會議錄音自動轉錄為文字記錄

準確率超過90%

媒體字幕生成

為越南語視頻內容自動生成字幕

語音助手

越南語語音指令識別

用於越南語智能家居或設備控制

🚀 Whisper Small Vi V1.1：由Nam Phung針對越南語微調的Whisper Small模型

本模型是基於openai/whisper-small在越南語語音數據上進行微調的版本。其目標是提升越南語自動語音識別（ASR）任務的轉錄準確性和魯棒性，尤其適用於現實場景。

🚀 快速開始

安裝依賴

# 安裝所需庫
!pip install transformers torch librosa soundfile --quiet

# 導入必要的庫
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

print("環境設置完成！")

模型推理

import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"使用設備: {device}")

# 加載處理器和模型
model_id = "namphungdn134/whisper-small-vi"
print(f"從以下位置加載模型: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)

# 配置語言和任務
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"越南語的強制解碼器ID: {forced_decoder_ids}")

# 預處理
audio_path = "example.wav"  
print(f"從以下位置加載音頻: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)  
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"輸入特徵形狀: {input_features.shape}")

# 生成轉錄結果
print("正在生成轉錄結果...")
with torch.no_grad():
    predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 轉錄結果:", transcription)

# 調試：打印標記以檢查
print("預測的ID:", predicted_ids[0].tolist())

✨ 主要特性

基於openai/whisper-small模型在越南語語音數據上進行微調，提升了越南語自動語音識別任務的轉錄準確性和魯棒性。
該模型與WhisperProcessor配合使用，可將音頻輸入預處理為對數梅爾頻譜圖，並將其解碼為文本。

📦 安裝指南

# 安裝所需庫
!pip install transformers torch librosa soundfile --quiet

💻 使用示例

基礎用法

# 安裝所需庫
!pip install transformers torch librosa soundfile --quiet

# 導入必要的庫
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

print("環境設置完成！")

import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"使用設備: {device}")

# 加載處理器和模型
model_id = "namphungdn134/whisper-small-vi"
print(f"從以下位置加載模型: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)

# 配置語言和任務
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"越南語的強制解碼器ID: {forced_decoder_ids}")

# 預處理
audio_path = "example.wav"  
print(f"從以下位置加載音頻: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)  
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"輸入特徵形狀: {input_features.shape}")

# 生成轉錄結果
print("正在生成轉錄結果...")
with torch.no_grad():
    predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 轉錄結果:", transcription)

# 調試：打印標記以檢查
print("預測的ID:", predicted_ids[0].tolist())

📚 詳細文檔

模型描述

Whisper small模型是一個基於Transformer的小型序列到序列模型，專為自動語音識別和翻譯任務而設計。它在超過680,000小時的多語言標記音頻數據上進行了訓練。本微調版本專注于越南語，旨在提高轉錄準確性並更好地處理當地方言。

數據集

總時長：超過250小時的高質量越南語語音數據。
數據來源：公開的越南語數據集。
數據格式：16kHz的WAV文件及相應的文本轉錄。
預處理：音頻進行了歸一化和分段處理，轉錄文本進行了清理和分詞處理。

微調結果

詞錯誤率（WER）：9.3485

評估是在一個包含不同地區口音和說話風格的保留測試集上進行的。

🔧 技術細節

本模型是基於openai/whisper-small在越南語語音數據上進行微調得到的。微調過程旨在提高模型在越南語自動語音識別任務中的轉錄準確性和魯棒性。

📄 許可證

本模型遵循MIT許可證。

📚 引用

如果您在研究或應用中使用了本模型，請按以下方式引用原始的Whisper模型和本微調工作：

@article{Whisper2021,
  title={Whisper: A Multilingual Speech Recognition Model},
  author={OpenAI},
  year={2021},
  journal={arXiv:2202.12064},
  url={https://arxiv.org/abs/2202.12064}
}

@misc{title={Whisper small Vi V1.1 - Nam Phung},
  author={Nam Phùng},
  organization={DUT},
  year={2025},
  url={https://huggingface.co/namphungdn134/whisper-small-vi},
  url={https://github.com/namphung134/ASR-Vietnamese}
}