🚀 輕聲小語:僧伽羅語語音識別模型
本項目基於微調的 Whisper 小模型,專門針對僧伽羅語進行優化,可用於僧伽羅語的語音轉文字等任務,為僧伽羅語語音處理提供了高效準確的解決方案。
🚀 快速開始
本模型是 openai/whisper-small 在 Lingalingeswaran/asr-sinhala-dataset_json_v1 數據集上的微調版本。以下是使用 Gradio 進行僧伽羅語語音識別的示例代碼:
import gradio as gr
from transformers import pipeline
pipe = pipeline(model="Lingalingeswaran/whisper-small-sinhala")
def transcribe(audio):
text = pipe(audio)["text"]
return text
iface = gr.Interface(
fn=transcribe,
inputs=gr.Audio(sources=["microphone", "upload"], type="filepath"),
outputs="text",
title="Whisper Small Sinhala",
description="Realtime demo for Sinhala speech recognition using a fine-tuned Whisper small model.",
)
if __name__ == "__main__":
iface.launch()
✨ 主要特性
- 針對僧伽羅語進行微調,適用於僧伽羅語的語音轉文字和語言識別任務。
- 基於 Common Voice 11.0 數據集訓練,數據涵蓋多種口音、年齡組和語音風格。
- 旨在降低轉錄錯誤率,提高整體準確性。
📚 詳細文檔
模型描述
此 Whisper 模型使用 Common Voice 11.0 數據集專門針對僧伽羅語進行了微調。它旨在處理語音轉文字轉錄和語言識別等任務,適用於以僧伽羅語為主要語言的應用場景。微調過程著重提升僧伽羅語的性能,目標是降低轉錄錯誤率並提高整體準確性。
預期用途與限制
預期用途
限制
- 在 Common Voice 數據集中未充分體現的語言或方言上,性能可能不佳。
- 在嘈雜環境中,或對於訓練數據中未涵蓋的濃重口音說話者,詞錯誤率(WER)可能較高。
- 該模型針對僧伽羅語進行了優化,在其他語言上的性能可能不理想。
訓練和評估數據
該模型的訓練數據包括來自 Mozilla-foundation/Common Voice 11.0 數據集的僧伽羅語語音記錄。該數據集是一個眾包的轉錄語音集合,確保了說話者口音、年齡組和語音風格的多樣性。
訓練超參數
訓練期間使用了以下超參數:
- 學習率(learning_rate):1e-05
- 訓練批次大小(train_batch_size):16
- 評估批次大小(eval_batch_size):8
- 隨機種子(seed):42
- 優化器(optimizer):使用 OptimizerNames.ADAMW_TORCH,β值為(0.9, 0.999),ε值為 1e-08,無額外優化器參數
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):500
- 訓練步數(training_steps):4000
- 混合精度訓練(mixed_precision_training):原生自動混合精度(Native AMP)
框架版本
- Transformers 4.48.1
- Pytorch 2.5.1+cu121
- Datasets 3.2.0
- Tokenizers 0.21.0
📄 許可證
本項目採用 Apache-2.0 許可證。
屬性 |
詳情 |
模型類型 |
基於 Whisper 小模型微調的僧伽羅語語音識別模型 |
訓練數據 |
Mozilla-foundation/Common Voice 11.0 數據集的僧伽羅語語音記錄 |