whisper-small-sinhala開源僧伽羅語語音識別模型

首頁

Whisper Small Sinhala

由Lingalingeswaran開發

基於OpenAI Whisper-small微調的僧伽羅語語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #僧伽羅語語音識別 #低資源優化 #即時轉錄

下載量 667

發布時間 : 1/25/2025

模型概述

該模型是針對僧伽羅語優化的自動語音識別(ASR)系統，適用於將僧伽羅語語音轉換為文字的應用場景。

模型特點

僧伽羅語優化

專門針對僧伽羅語進行微調，提高了該語言的識別準確率

基於Whisper架構

採用OpenAI Whisper-small模型架構，具有優秀的語音識別能力

開源許可

使用Apache-2.0許可證，允許商業和研究用途

模型能力

僧伽羅語語音識別

即時語音轉文字

音頻文件轉錄

使用案例

語音轉錄

會議記錄

將僧伽羅語會議錄音自動轉換為文字記錄

語音筆記

將僧伽羅語語音筆記轉換為可搜索的文本

輔助技術

語音輸入系統

為僧伽羅語用戶提供語音輸入功能

🚀 輕聲小語：僧伽羅語語音識別模型

本項目基於微調的 Whisper 小模型，專門針對僧伽羅語進行優化，可用於僧伽羅語的語音轉文字等任務，為僧伽羅語語音處理提供了高效準確的解決方案。

🚀 快速開始

本模型是 openai/whisper-small 在 Lingalingeswaran/asr-sinhala-dataset_json_v1 數據集上的微調版本。以下是使用 Gradio 進行僧伽羅語語音識別的示例代碼：

import gradio as gr
from transformers import pipeline

# Initialize the pipeline with the specified model
pipe = pipeline(model="Lingalingeswaran/whisper-small-sinhala")

def transcribe(audio):
    # Transcribe the audio file to text
    text = pipe(audio)["text"]
    return text

# Create the Gradio interface

iface = gr.Interface(
    fn=transcribe,
    inputs=gr.Audio(sources=["microphone", "upload"], type="filepath"),
    outputs="text",
    title="Whisper Small Sinhala",
    description="Realtime demo for Sinhala speech recognition using a fine-tuned Whisper small model.",
)

# Launch the interface
if __name__ == "__main__":
    iface.launch()

✨ 主要特性

針對僧伽羅語進行微調，適用於僧伽羅語的語音轉文字和語言識別任務。
基於 Common Voice 11.0 數據集訓練，數據涵蓋多種口音、年齡組和語音風格。
旨在降低轉錄錯誤率，提高整體準確性。

📚 詳細文檔

模型描述

此 Whisper 模型使用 Common Voice 11.0 數據集專門針對僧伽羅語進行了微調。它旨在處理語音轉文字轉錄和語言識別等任務，適用於以僧伽羅語為主要語言的應用場景。微調過程著重提升僧伽羅語的性能，目標是降低轉錄錯誤率並提高整體準確性。

預期用途與限制

預期用途

僧伽羅語的語音轉文字轉錄。

限制

在 Common Voice 數據集中未充分體現的語言或方言上，性能可能不佳。
在嘈雜環境中，或對於訓練數據中未涵蓋的濃重口音說話者，詞錯誤率（WER）可能較高。
該模型針對僧伽羅語進行了優化，在其他語言上的性能可能不理想。

訓練和評估數據

該模型的訓練數據包括來自 Mozilla-foundation/Common Voice 11.0 數據集的僧伽羅語語音記錄。該數據集是一個眾包的轉錄語音集合，確保了說話者口音、年齡組和語音風格的多樣性。

訓練超參數

訓練期間使用了以下超參數：

學習率（learning_rate）：1e-05
訓練批次大小（train_batch_size）：16
評估批次大小（eval_batch_size）：8
隨機種子（seed）：42
優化器（optimizer）：使用 OptimizerNames.ADAMW_TORCH，β值為(0.9, 0.999)，ε值為 1e-08，無額外優化器參數
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：500
訓練步數（training_steps）：4000
混合精度訓練（mixed_precision_training）：原生自動混合精度（Native AMP）

框架版本

Transformers 4.48.1
Pytorch 2.5.1+cu121
Datasets 3.2.0
Tokenizers 0.21.0

📄 許可證

本項目採用 Apache-2.0 許可證。

屬性	詳情
模型類型	基於 Whisper 小模型微調的僧伽羅語語音識別模型
訓練數據	Mozilla-foundation/Common Voice 11.0 數據集的僧伽羅語語音記錄