🚀 基尼亞語語音識別模型KinyaWhisper
KinyaWhisper是OpenAI的Whisper模型針對基尼亞語自動語音識別(ASR)進行微調後的版本。它基於102個手動標註的.wav文件進行訓練,為低資源本土語言的語音識別提供了可復現的基準。
🚀 快速開始
KinyaWhisper是OpenAI的Whisper模型的微調版本,專門用於基尼亞語的自動語音識別(ASR)。它在102個手動標註的.wav文件上進行了訓練,為低資源本土語言的語音識別提供了可復現的基準。
✨ 主要特性
- 基於OpenAI的Whisper模型微調,適用於基尼亞語的自動語音識別。
- 以102個手動標註的.wav文件為訓練數據,為低資源本土語言語音識別提供可復現的基準。
💻 使用示例
基礎用法
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio
model = WhisperForConditionalGeneration.from_pretrained("benax-rw/KinyaWhisper")
processor = WhisperProcessor.from_pretrained("benax-rw/KinyaWhisper")
waveform, sample_rate = torchaudio.load("your_audio.wav")
inputs = processor(waveform.squeeze(), sampling_rate=sample_rate, return_tensors="pt")
predicted_ids = model.generate(inputs["input_features"])
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("🗣️ 轉錄結果:", transcription)
🔧 技術細節
- 模型:openai/whisper-small
- 訓練輪數:80
- 批次大小:4
- 學習率:1e - 5
- 優化器:Adam
- 最終損失:0.00024
- 字錯率(WER):51.85%
⚠️ 重要提示
⚠️ 重要提示
該模型基於小數據集(102個樣本)進行訓練。它在短而清晰的基尼亞語語音上表現最佳,對於較長或有噪音的音頻可能效果不佳。這是一個早期的教育模型,尚不適合用於生產環境。
📚 詳細文檔
引用信息
如果您使用此模型,請引用:
@misc{baziramwabo2025kinyawhisper,
author = {Gabriel Baziramwabo},
title = {KinyaWhisper: Fine-Tuning Whisper for Kinyarwanda ASR},
year = {2025},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/benax-rw/KinyaWhisper}},
note = {Version 1.0}
}
聯繫信息
由Gabriel Baziramwabo維護。
✉️ gabriel@benax.rw
🔗 https://benax.rw
📄 許可證
本項目採用MIT許可證。