KinyaWhisper開源語音識別系統 - 免費部署精準識別盧旺達語語音

首頁

Kinyawhisper

由benax-rw開發

KinyaWhisper是基於OpenAI Whisper模型微調的盧旺達語自動語音識別(ASR)系統，專為低資源土著語言設計。

語音識別

Transformers

其他開源協議:MIT #盧旺達語ASR #低資源語音識別 #Whisper微調

下載量 149

發布時間 : 4/19/2025

模型概述

該模型在102個手工標註的盧旺達語音頻文件上訓練完成，為低資源語言的語音識別提供了可復現的基準模型。

模型特點

低資源語言支持

專門針對盧旺達語等低資源土著語言優化

輕量級模型

基於whisper-small架構，適合資源有限的環境

可復現基準

提供明確的訓練配置和評估指標

模型能力

盧旺達語語音識別

音頻轉文字

短語音片段處理

使用案例

教育應用

盧旺達語學習輔助

將教學音頻轉換為文字材料

本地化服務

基礎語音交互系統

為盧旺達語地區提供基礎語音指令識別

🚀 基尼亞語語音識別模型KinyaWhisper

KinyaWhisper是OpenAI的Whisper模型針對基尼亞語自動語音識別（ASR）進行微調後的版本。它基於102個手動標註的.wav文件進行訓練，為低資源本土語言的語音識別提供了可復現的基準。

🚀 快速開始

KinyaWhisper是OpenAI的Whisper模型的微調版本，專門用於基尼亞語的自動語音識別（ASR）。它在102個手動標註的.wav文件上進行了訓練，為低資源本土語言的語音識別提供了可復現的基準。

✨ 主要特性

基於OpenAI的Whisper模型微調，適用於基尼亞語的自動語音識別。
以102個手動標註的.wav文件為訓練數據，為低資源本土語言語音識別提供可復現的基準。

💻 使用示例

基礎用法

from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio

# 從Hugging Face加載微調後的KinyaWhisper模型和處理器
model = WhisperForConditionalGeneration.from_pretrained("benax-rw/KinyaWhisper")
processor = WhisperProcessor.from_pretrained("benax-rw/KinyaWhisper")

# 加載並預處理音頻
waveform, sample_rate = torchaudio.load("your_audio.wav")
inputs = processor(waveform.squeeze(), sampling_rate=sample_rate, return_tensors="pt")

# 生成預測
predicted_ids = model.generate(inputs["input_features"])
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]

print("🗣️ 轉錄結果:", transcription)

🔧 技術細節

模型：openai/whisper-small
訓練輪數：80
批次大小：4
學習率：1e - 5
優化器：Adam
最終損失：0.00024
字錯率（WER）：51.85%

⚠️ 重要提示

⚠️ 重要提示

該模型基於小數據集（102個樣本）進行訓練。它在短而清晰的基尼亞語語音上表現最佳，對於較長或有噪音的音頻可能效果不佳。這是一個早期的教育模型，尚不適合用於生產環境。

📚 詳細文檔

引用信息

如果您使用此模型，請引用：

@misc{baziramwabo2025kinyawhisper,
  author       = {Gabriel Baziramwabo},
  title        = {KinyaWhisper: Fine-Tuning Whisper for Kinyarwanda ASR},
  year         = {2025},
  publisher    = {Hugging Face},
  howpublished = {\url{https://huggingface.co/benax-rw/KinyaWhisper}},
  note         = {Version 1.0}
}