KinyaWhisper开源语音识别系统 - 免费部署精准识别卢旺达语语音

首页

Kinyawhisper

由 benax-rw 开发

KinyaWhisper是基于OpenAI Whisper模型微调的卢旺达语自动语音识别(ASR)系统，专为低资源土著语言设计。

语音识别

Transformers

其他开源协议:MIT #卢旺达语ASR #低资源语音识别 #Whisper微调

下载量 149

发布时间 : 4/19/2025

模型简介

该模型在102个手工标注的卢旺达语音频文件上训练完成，为低资源语言的语音识别提供了可复现的基准模型。

模型特点

低资源语言支持

专门针对卢旺达语等低资源土著语言优化

轻量级模型

基于whisper-small架构，适合资源有限的环境

可复现基准

提供明确的训练配置和评估指标

模型能力

卢旺达语语音识别

音频转文字

短语音片段处理

使用案例

教育应用

卢旺达语学习辅助

将教学音频转换为文字材料

本地化服务

基础语音交互系统

为卢旺达语地区提供基础语音指令识别

🚀 基尼亚语语音识别模型KinyaWhisper

KinyaWhisper是OpenAI的Whisper模型针对基尼亚语自动语音识别（ASR）进行微调后的版本。它基于102个手动标注的.wav文件进行训练，为低资源本土语言的语音识别提供了可复现的基准。

🚀 快速开始

KinyaWhisper是OpenAI的Whisper模型的微调版本，专门用于基尼亚语的自动语音识别（ASR）。它在102个手动标注的.wav文件上进行了训练，为低资源本土语言的语音识别提供了可复现的基准。

✨ 主要特性

基于OpenAI的Whisper模型微调，适用于基尼亚语的自动语音识别。
以102个手动标注的.wav文件为训练数据，为低资源本土语言语音识别提供可复现的基准。

💻 使用示例

基础用法

from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio

# 从Hugging Face加载微调后的KinyaWhisper模型和处理器
model = WhisperForConditionalGeneration.from_pretrained("benax-rw/KinyaWhisper")
processor = WhisperProcessor.from_pretrained("benax-rw/KinyaWhisper")

# 加载并预处理音频
waveform, sample_rate = torchaudio.load("your_audio.wav")
inputs = processor(waveform.squeeze(), sampling_rate=sample_rate, return_tensors="pt")

# 生成预测
predicted_ids = model.generate(inputs["input_features"])
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]

print("🗣️ 转录结果:", transcription)

🔧 技术细节

模型：openai/whisper-small
训练轮数：80
批次大小：4
学习率：1e - 5
优化器：Adam
最终损失：0.00024
字错率（WER）：51.85%

⚠️ 重要提示

⚠️ 重要提示

该模型基于小数据集（102个样本）进行训练。它在短而清晰的基尼亚语语音上表现最佳，对于较长或有噪音的音频可能效果不佳。这是一个早期的教育模型，尚不适合用于生产环境。

📚 详细文档

引用信息

如果您使用此模型，请引用：

@misc{baziramwabo2025kinyawhisper,
  author       = {Gabriel Baziramwabo},
  title        = {KinyaWhisper: Fine-Tuning Whisper for Kinyarwanda ASR},
  year         = {2025},
  publisher    = {Hugging Face},
  howpublished = {\url{https://huggingface.co/benax-rw/KinyaWhisper}},
  note         = {Version 1.0}
}