whisper-small-sinhala开源僧伽罗语语音识别模型

首页

Whisper Small Sinhala

由 Lingalingeswaran 开发

基于OpenAI Whisper-small微调的僧伽罗语语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #僧伽罗语语音识别 #低资源优化 #实时转录

下载量 667

发布时间 : 1/25/2025

模型简介

该模型是针对僧伽罗语优化的自动语音识别(ASR)系统，适用于将僧伽罗语语音转换为文字的应用场景。

模型特点

僧伽罗语优化

专门针对僧伽罗语进行微调，提高了该语言的识别准确率

基于Whisper架构

采用OpenAI Whisper-small模型架构，具有优秀的语音识别能力

开源许可

使用Apache-2.0许可证，允许商业和研究用途

模型能力

僧伽罗语语音识别

实时语音转文字

音频文件转录

使用案例

语音转录

会议记录

将僧伽罗语会议录音自动转换为文字记录

语音笔记

将僧伽罗语语音笔记转换为可搜索的文本

辅助技术

语音输入系统

为僧伽罗语用户提供语音输入功能

🚀 轻声小语：僧伽罗语语音识别模型

本项目基于微调的 Whisper 小模型，专门针对僧伽罗语进行优化，可用于僧伽罗语的语音转文字等任务，为僧伽罗语语音处理提供了高效准确的解决方案。

🚀 快速开始

本模型是 openai/whisper-small 在 Lingalingeswaran/asr-sinhala-dataset_json_v1 数据集上的微调版本。以下是使用 Gradio 进行僧伽罗语语音识别的示例代码：

import gradio as gr
from transformers import pipeline

# Initialize the pipeline with the specified model
pipe = pipeline(model="Lingalingeswaran/whisper-small-sinhala")

def transcribe(audio):
    # Transcribe the audio file to text
    text = pipe(audio)["text"]
    return text

# Create the Gradio interface

iface = gr.Interface(
    fn=transcribe,
    inputs=gr.Audio(sources=["microphone", "upload"], type="filepath"),
    outputs="text",
    title="Whisper Small Sinhala",
    description="Realtime demo for Sinhala speech recognition using a fine-tuned Whisper small model.",
)

# Launch the interface
if __name__ == "__main__":
    iface.launch()

✨ 主要特性

针对僧伽罗语进行微调，适用于僧伽罗语的语音转文字和语言识别任务。
基于 Common Voice 11.0 数据集训练，数据涵盖多种口音、年龄组和语音风格。
旨在降低转录错误率，提高整体准确性。

📚 详细文档

模型描述

此 Whisper 模型使用 Common Voice 11.0 数据集专门针对僧伽罗语进行了微调。它旨在处理语音转文字转录和语言识别等任务，适用于以僧伽罗语为主要语言的应用场景。微调过程着重提升僧伽罗语的性能，目标是降低转录错误率并提高整体准确性。

预期用途与限制

预期用途

僧伽罗语的语音转文字转录。

限制

在 Common Voice 数据集中未充分体现的语言或方言上，性能可能不佳。
在嘈杂环境中，或对于训练数据中未涵盖的浓重口音说话者，词错误率（WER）可能较高。
该模型针对僧伽罗语进行了优化，在其他语言上的性能可能不理想。

训练和评估数据

该模型的训练数据包括来自 Mozilla-foundation/Common Voice 11.0 数据集的僧伽罗语语音记录。该数据集是一个众包的转录语音集合，确保了说话者口音、年龄组和语音风格的多样性。

训练超参数

训练期间使用了以下超参数：

学习率（learning_rate）：1e-05
训练批次大小（train_batch_size）：16
评估批次大小（eval_batch_size）：8
随机种子（seed）：42
优化器（optimizer）：使用 OptimizerNames.ADAMW_TORCH，β值为(0.9, 0.999)，ε值为 1e-08，无额外优化器参数
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练步数（training_steps）：4000
混合精度训练（mixed_precision_training）：原生自动混合精度（Native AMP）

框架版本

Transformers 4.48.1
Pytorch 2.5.1+cu121
Datasets 3.2.0
Tokenizers 0.21.0

📄 许可证

本项目采用 Apache-2.0 许可证。

属性	详情
模型类型	基于 Whisper 小模型微调的僧伽罗语语音识别模型
训练数据	Mozilla-foundation/Common Voice 11.0 数据集的僧伽罗语语音记录