🚀 海地語音轉文本模型
本項目提供了一個針對海地語微調的Whisper自動語音識別(ASR)模型,可有效將海地語語音準確轉錄為文本,在海地語語音處理領域具有重要實用價值。
🚀 快速開始
你可以直接從Hugging Face模型中心使用此模型。以下是一個簡單的Python示例:
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio
processor = WhisperProcessor.from_pretrained("ZeeshanGeoPk/haitian-speech-to-text")
model = WhisperForConditionalGeneration.from_pretrained("ZeeshanGeoPk/haitian-speech-to-text")
sample_path = "path/to/audio.wav"
waveform, sample_rate = torchaudio.load(sample_path)
if sample_rate != 16000:
resampler = torchaudio.transforms.Resample(sample_rate, 16000)
waveform = resampler(waveform)
sample_rate = 16000
if waveform.shape[0] > 1:
waveform = waveform.mean(dim=0, keepdim=True)
input_features = processor(waveform.numpy(), sampling_rate=sample_rate, return_tensors="pt").input_features
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription)
✨ 主要特性
- 該模型針對海地語進行了微調,能夠更好地適應海地語的語音特點和語言習慣,實現更準確的語音轉錄。
- 模型託管在Hugging Face上,方便用戶直接從模型中心獲取和使用。
📦 安裝指南
文檔未提及具體安裝步驟,若要使用此模型,可參考上述使用示例中的代碼,確保安裝了transformers
和torchaudio
庫。
💻 使用示例
基礎用法
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio
processor = WhisperProcessor.from_pretrained("ZeeshanGeoPk/haitian-speech-to-text")
model = WhisperForConditionalGeneration.from_pretrained("ZeeshanGeoPk/haitian-speech-to-text")
sample_path = "path/to/audio.wav"
waveform, sample_rate = torchaudio.load(sample_path)
if sample_rate != 16000:
resampler = torchaudio.transforms.Resample(sample_rate, 16000)
waveform = resampler(waveform)
sample_rate = 16000
if waveform.shape[0] > 1:
waveform = waveform.mean(dim=0, keepdim=True)
input_features = processor(waveform.numpy(), sampling_rate=sample_rate, return_tensors="pt").input_features
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription)
高級用法
文檔未提及高級用法相關內容。
📚 詳細文檔
性能表現
該模型的單詞錯誤率(WER)達到了0.19126,這表明它在將海地語口語轉錄為書面文本方面具有較高的準確性。
訓練情況
該模型在訓練時使用的學習率為1e - 5。
📄 許可證
本項目採用Apache - 2.0許可證。