🚀 轻声小语:僧伽罗语语音识别模型
本项目基于微调的 Whisper 小模型,专门针对僧伽罗语进行优化,可用于僧伽罗语的语音转文字等任务,为僧伽罗语语音处理提供了高效准确的解决方案。
🚀 快速开始
本模型是 openai/whisper-small 在 Lingalingeswaran/asr-sinhala-dataset_json_v1 数据集上的微调版本。以下是使用 Gradio 进行僧伽罗语语音识别的示例代码:
import gradio as gr
from transformers import pipeline
pipe = pipeline(model="Lingalingeswaran/whisper-small-sinhala")
def transcribe(audio):
text = pipe(audio)["text"]
return text
iface = gr.Interface(
fn=transcribe,
inputs=gr.Audio(sources=["microphone", "upload"], type="filepath"),
outputs="text",
title="Whisper Small Sinhala",
description="Realtime demo for Sinhala speech recognition using a fine-tuned Whisper small model.",
)
if __name__ == "__main__":
iface.launch()
✨ 主要特性
- 针对僧伽罗语进行微调,适用于僧伽罗语的语音转文字和语言识别任务。
- 基于 Common Voice 11.0 数据集训练,数据涵盖多种口音、年龄组和语音风格。
- 旨在降低转录错误率,提高整体准确性。
📚 详细文档
模型描述
此 Whisper 模型使用 Common Voice 11.0 数据集专门针对僧伽罗语进行了微调。它旨在处理语音转文字转录和语言识别等任务,适用于以僧伽罗语为主要语言的应用场景。微调过程着重提升僧伽罗语的性能,目标是降低转录错误率并提高整体准确性。
预期用途与限制
预期用途
限制
- 在 Common Voice 数据集中未充分体现的语言或方言上,性能可能不佳。
- 在嘈杂环境中,或对于训练数据中未涵盖的浓重口音说话者,词错误率(WER)可能较高。
- 该模型针对僧伽罗语进行了优化,在其他语言上的性能可能不理想。
训练和评估数据
该模型的训练数据包括来自 Mozilla-foundation/Common Voice 11.0 数据集的僧伽罗语语音记录。该数据集是一个众包的转录语音集合,确保了说话者口音、年龄组和语音风格的多样性。
训练超参数
训练期间使用了以下超参数:
- 学习率(learning_rate):1e-05
- 训练批次大小(train_batch_size):16
- 评估批次大小(eval_batch_size):8
- 随机种子(seed):42
- 优化器(optimizer):使用 OptimizerNames.ADAMW_TORCH,β值为(0.9, 0.999),ε值为 1e-08,无额外优化器参数
- 学习率调度器类型(lr_scheduler_type):线性
- 学习率调度器热身步数(lr_scheduler_warmup_steps):500
- 训练步数(training_steps):4000
- 混合精度训练(mixed_precision_training):原生自动混合精度(Native AMP)
框架版本
- Transformers 4.48.1
- Pytorch 2.5.1+cu121
- Datasets 3.2.0
- Tokenizers 0.21.0
📄 许可证
本项目采用 Apache-2.0 许可证。
属性 |
详情 |
模型类型 |
基于 Whisper 小模型微调的僧伽罗语语音识别模型 |
训练数据 |
Mozilla-foundation/Common Voice 11.0 数据集的僧伽罗语语音记录 |