🚀 基尼亚语语音识别模型KinyaWhisper
KinyaWhisper是OpenAI的Whisper模型针对基尼亚语自动语音识别(ASR)进行微调后的版本。它基于102个手动标注的.wav文件进行训练,为低资源本土语言的语音识别提供了可复现的基准。
🚀 快速开始
KinyaWhisper是OpenAI的Whisper模型的微调版本,专门用于基尼亚语的自动语音识别(ASR)。它在102个手动标注的.wav文件上进行了训练,为低资源本土语言的语音识别提供了可复现的基准。
✨ 主要特性
- 基于OpenAI的Whisper模型微调,适用于基尼亚语的自动语音识别。
- 以102个手动标注的.wav文件为训练数据,为低资源本土语言语音识别提供可复现的基准。
💻 使用示例
基础用法
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio
model = WhisperForConditionalGeneration.from_pretrained("benax-rw/KinyaWhisper")
processor = WhisperProcessor.from_pretrained("benax-rw/KinyaWhisper")
waveform, sample_rate = torchaudio.load("your_audio.wav")
inputs = processor(waveform.squeeze(), sampling_rate=sample_rate, return_tensors="pt")
predicted_ids = model.generate(inputs["input_features"])
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("🗣️ 转录结果:", transcription)
🔧 技术细节
- 模型:openai/whisper-small
- 训练轮数:80
- 批次大小:4
- 学习率:1e - 5
- 优化器:Adam
- 最终损失:0.00024
- 字错率(WER):51.85%
⚠️ 重要提示
⚠️ 重要提示
该模型基于小数据集(102个样本)进行训练。它在短而清晰的基尼亚语语音上表现最佳,对于较长或有噪音的音频可能效果不佳。这是一个早期的教育模型,尚不适合用于生产环境。
📚 详细文档
引用信息
如果您使用此模型,请引用:
@misc{baziramwabo2025kinyawhisper,
author = {Gabriel Baziramwabo},
title = {KinyaWhisper: Fine-Tuning Whisper for Kinyarwanda ASR},
year = {2025},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/benax-rw/KinyaWhisper}},
note = {Version 1.0}
}
联系信息
由Gabriel Baziramwabo维护。
✉️ gabriel@benax.rw
🔗 https://benax.rw
📄 许可证
本项目采用MIT许可证。