whisper-small-sinhala_v3開源語音識別模型 - 免費實現僧伽羅語語音精準轉文本

首頁

Whisper Small Sinhala V3

由Lingalingeswaran開發

該模型是基於openai/whisper-small在僧伽羅語數據集上微調的語音識別模型，支持僧伽羅語語音轉文本任務。

語音識別

Transformers

其他開源協議:Apache-2.0 #僧伽羅語語音識別 #低資源優化 #多場景ASR

下載量 75

發布時間 : 1/26/2025

模型概述

基於Whisper-small架構微調的僧伽羅語自動語音識別(ASR)模型，適用於僧伽羅語語音轉錄場景。

模型特點

僧伽羅語優化

針對僧伽羅語語音特點進行專門微調，提升識別準確率

輕量級模型

基於Whisper-small架構，平衡性能與資源消耗

端到端識別

直接實現語音到文本的轉換，無需中間處理步驟

模型能力

僧伽羅語語音識別

即時語音轉文本

音頻文件轉錄

使用案例

語音轉錄

會議記錄

將僧伽羅語會議錄音自動轉為文字記錄

媒體字幕生成

為僧伽羅語視頻內容自動生成字幕

語音助手

僧伽羅語語音指令識別

用於支持僧伽羅語的語音交互系統

🚀 Whisper Small sinhala v3 - Lingalingeswaran

本模型是基於 openai/whisper-small 在 Lingalingeswaran/asr-sinhala-dataset_json_v1 數據集上進行微調的版本。它在評估集上取得了以下成果：

損失值：0.2086
詞錯誤率（Wer）：46.4577

🚀 快速開始

本模型是在 Lingalingeswaran/asr-sinhala-dataset_json_v1 數據集上對 openai/whisper-small 進行微調得到的。以下是它在評估集上的表現：

損失值：0.2086
詞錯誤率（Wer）：46.4577

💻 使用示例

基礎用法

以下是使用 Gradio 調用該模型進行僧伽羅語語音識別的示例代碼：

import gradio as gr
from transformers import pipeline

# Initialize the pipeline with the specified model
pipe = pipeline(model="Lingalingeswaran/whisper-small-sinhala_v3")

def transcribe(audio):
    # Transcribe the audio file to text
    text = pipe(audio)["text"]
    return text

# Create the Gradio interface

iface = gr.Interface(
    fn=transcribe,
    inputs=gr.Audio(sources=["microphone", "upload"], type="filepath"),
    outputs="text",
    title="Whisper Small Sinhala",
    description="Realtime demo for Sinhala speech recognition using a fine-tuned Whisper small model.",
)

# Launch the interface
if __name__ == "__main__":
    iface.launch()

📚 詳細文檔

模型描述

更多信息待補充。

預期用途和限制

更多信息待補充。

訓練和評估數據

更多信息待補充。

🔧 技術細節

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：1e-05
訓練批次大小：16
評估批次大小：8
隨機種子：42
優化器：使用 OptimizerNames.ADAMW_TORCH，β值為(0.9, 0.999)，ε值為 1e-08，無額外優化器參數
學習率調度器類型：線性
學習率調度器熱身步數：500
訓練步數：3000
混合精度訓練：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
0.1852	1.7606	1000	0.1875	50.9772
0.0602	3.5211	2000	0.1886	47.5774
0.0238	5.2817	3000	0.2086	46.4577

框架版本

Transformers 4.48.1
Pytorch 2.5.1+cu121
Datasets 3.2.0
Tokenizers 0.21.0

📄 許可證

本項目採用 Apache-2.0 許可證。

屬性	詳情
庫名稱	transformers
語言	僧伽羅語（si）
許可證	Apache-2.0
基礎模型	openai/whisper-small
標籤	generated_from_trainer
數據集	Lingalingeswaran/asr-sinhala-dataset_json_v1
評估指標	wer
模型名稱	Whisper Small sinhala v3 - Lingalingeswaran
評估集損失	0.2086
評估集詞錯誤率（Wer）	46.4577