Whisper Small Vi
模型概述
專為越南語優化的自動語音識別(ASR)模型,適用於語音轉文本任務,特別針對越南語口音和方言進行優化
模型特點
越南語優化
針對越南語語音特點進行專門微調,提升方言和口音識別能力
輕量級模型
基於Whisper小型架構,在保持較高準確率的同時降低計算資源需求
高質量轉錄
在測試集上達到9.3485的詞錯誤率(WER),表現優異
模型能力
越南語語音識別
音頻轉文本
語音轉錄
使用案例
語音轉錄
會議記錄
將越南語會議錄音自動轉錄為文字記錄
準確率超過90%
媒體字幕生成
為越南語視頻內容自動生成字幕
語音助手
越南語語音指令識別
用於越南語智能家居或設備控制
🚀 Whisper Small Vi V1.1:由Nam Phung針對越南語微調的Whisper Small模型
本模型是基於openai/whisper-small在越南語語音數據上進行微調的版本。其目標是提升越南語自動語音識別(ASR)任務的轉錄準確性和魯棒性,尤其適用於現實場景。
🚀 快速開始
安裝依賴
# 安裝所需庫
!pip install transformers torch librosa soundfile --quiet
# 導入必要的庫
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
print("環境設置完成!")
模型推理
import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"使用設備: {device}")
# 加載處理器和模型
model_id = "namphungdn134/whisper-small-vi"
print(f"從以下位置加載模型: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)
# 配置語言和任務
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"越南語的強制解碼器ID: {forced_decoder_ids}")
# 預處理
audio_path = "example.wav"
print(f"從以下位置加載音頻: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"輸入特徵形狀: {input_features.shape}")
# 生成轉錄結果
print("正在生成轉錄結果...")
with torch.no_grad():
predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 轉錄結果:", transcription)
# 調試:打印標記以檢查
print("預測的ID:", predicted_ids[0].tolist())
✨ 主要特性
- 基於openai/whisper-small模型在越南語語音數據上進行微調,提升了越南語自動語音識別任務的轉錄準確性和魯棒性。
- 該模型與WhisperProcessor配合使用,可將音頻輸入預處理為對數梅爾頻譜圖,並將其解碼為文本。
📦 安裝指南
# 安裝所需庫
!pip install transformers torch librosa soundfile --quiet
💻 使用示例
基礎用法
# 安裝所需庫
!pip install transformers torch librosa soundfile --quiet
# 導入必要的庫
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
print("環境設置完成!")
import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"使用設備: {device}")
# 加載處理器和模型
model_id = "namphungdn134/whisper-small-vi"
print(f"從以下位置加載模型: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)
# 配置語言和任務
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"越南語的強制解碼器ID: {forced_decoder_ids}")
# 預處理
audio_path = "example.wav"
print(f"從以下位置加載音頻: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"輸入特徵形狀: {input_features.shape}")
# 生成轉錄結果
print("正在生成轉錄結果...")
with torch.no_grad():
predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 轉錄結果:", transcription)
# 調試:打印標記以檢查
print("預測的ID:", predicted_ids[0].tolist())
📚 詳細文檔
模型描述
Whisper small模型是一個基於Transformer的小型序列到序列模型,專為自動語音識別和翻譯任務而設計。它在超過680,000小時的多語言標記音頻數據上進行了訓練。本微調版本專注于越南語,旨在提高轉錄準確性並更好地處理當地方言。
數據集
- 總時長:超過250小時的高質量越南語語音數據。
- 數據來源:公開的越南語數據集。
- 數據格式:16kHz的WAV文件及相應的文本轉錄。
- 預處理:音頻進行了歸一化和分段處理,轉錄文本進行了清理和分詞處理。
微調結果
- 詞錯誤率(WER):9.3485
評估是在一個包含不同地區口音和說話風格的保留測試集上進行的。
🔧 技術細節
本模型是基於openai/whisper-small在越南語語音數據上進行微調得到的。微調過程旨在提高模型在越南語自動語音識別任務中的轉錄準確性和魯棒性。
📄 許可證
本模型遵循MIT許可證。
📚 引用
如果您在研究或應用中使用了本模型,請按以下方式引用原始的Whisper模型和本微調工作:
@article{Whisper2021,
title={Whisper: A Multilingual Speech Recognition Model},
author={OpenAI},
year={2021},
journal={arXiv:2202.12064},
url={https://arxiv.org/abs/2202.12064}
}
@misc{title={Whisper small Vi V1.1 - Nam Phung},
author={Nam Phùng},
organization={DUT},
year={2025},
url={https://huggingface.co/namphungdn134/whisper-small-vi},
url={https://github.com/namphung134/ASR-Vietnamese}
}
📬 聯繫我們
如有疑問、合作意向或建議,請通過[namphungdn134@gmail.com]與我們聯繫。
⚠️ 重要提示
⚠️ 重要提示
- 本模型是專門針對越南語進行微調的,在其他語言上的表現可能不佳。
- 該模型在處理重疊語音或嘈雜背景時可能會遇到困難。
- 當遇到訓練數據中未充分體現的強烈方言變化時,模型性能可能會下降。
Voice Activity Detection
MIT
基於pyannote.audio 2.1版本的語音活動檢測模型,用於識別音頻中的語音活動時間段
語音識別
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
這是一個針對葡萄牙語語音識別任務微調的XLSR-53大模型,基於Common Voice 6.1數據集訓練,支持葡萄牙語語音轉文本。
語音識別 其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
語音識別 支持多種語言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,經過超過500萬小時標記數據的訓練,在零樣本設置下展現出強大的泛化能力。
語音識別
Transformers 支持多種語言

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的俄語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的中文語音識別模型,支持16kHz採樣率的語音輸入。
語音識別 中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型,在Common Voice和CSS10數據集上訓練,支持16kHz音頻輸入。
語音識別 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的日語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 日語
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基於Hugging Face預訓練模型的文本與音頻強制對齊工具,支持多種語言,內存效率高
語音識別
Transformers 支持多種語言

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的阿拉伯語語音識別模型,在Common Voice和阿拉伯語語音語料庫上訓練
語音識別 阿拉伯語
W
jonatasgrosman
2.3M
37
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98