🚀 越南語語音識別模型 - ViWhisper
本項目發佈了一個用於越南語語音識別任務的新模型。基於openai/whisper-medium
模型,在新數據集VietSpeech
上進行微調,以實現更精準的越南語語音識別。
🚀 快速開始
本項目旨在提供一個高效準確的越南語語音識別模型。通過微調openai/whisper-medium
模型,在多個越南語語音數據集上進行訓練,以達到更好的識別效果。
✨ 主要特性
- 新模型發佈:針對越南語語音識別任務,發佈了全新的模型。
- 微調優化:在新數據集
VietSpeech
上對openai/whisper-medium
進行微調,提升識別性能。
📦 安裝指南
文檔未提供安裝步驟,此部分跳過。
💻 使用示例
基礎用法
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import librosa
processor = WhisperProcessor.from_pretrained("NhutP/ViWhisper-medium")
model = WhisperForConditionalGeneration.from_pretrained("NhutP/ViWhisper-medium")
prefix_ids = model.generation_config.forced_decoder_ids
model.generation_config.input_ids = prefix_ids
model.generation_config.forced_decoder_ids = None
array, sampling_rate = librosa.load('path_to_audio', sr = 16000)
input_features = processor(array, sampling_rate=sampling_rate, return_tensors="pt").input_features
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
高級用法
from transformers import pipeline
pipe = pipeline(
"automatic-speech-recognition",
model="NhutP/ViWhisper-medium",
max_new_tokens=128,
chunk_length_s=30,
return_timestamps=False,
device= '...'
)
output = pipe(path_to_audio_samplingrate_16000)['text']
📚 詳細文檔
訓練數據
* 我們使用文本轉語音模型來生成包含數據集中未出現單詞的句子。
WER 結果
🔧 技術細節
文檔未提供技術實現細節,此部分跳過。
📄 許可證
本項目採用 MIT 許可證。
📚 引用
@misc{VSV-1100,
author = {Pham Quang Nhut and Duong Pham Hoang Anh and Nguyen Vinh Tiep},
title = {VSV-1100: Vietnamese social voice dataset},
url = {https://github.com/NhutP/VSV-1100},
year = {2024}
}
如果您覺得我們的項目有用,請在 GitHub 上給我們一個 star:https://github.com/NhutP/ViWhisper
聯繫郵箱:22521061@gm.uit.edu.vn (Pham Quang Nhut)