🚀 Whisper Small sinhala - Lingalingeswaran
このモデルは、Lingalingeswaran/asr-sinhala-dataset_json_v1データセットでopenai/whisper-smallをファインチューニングしたバージョンです。これは、シンハラ語の音声認識や言語識別などのタスクに特化しており、シンハラ語を主要言語とするアプリケーションに適しています。
🚀 クイックスタート
このモデルは、シンハラ語の音声認識や言語識別などのタスクに使用できます。以下のセクションで詳細を説明します。
✨ 主な機能
- シンハラ語の音声をテキストに変換する機能があります。
- 言語識別機能も備えており、シンハラ語を精度良く識別できます。
- ファインチューニングにより、シンハラ語での性能が向上しています。
📚 ドキュメント
モデルの説明
このWhisperモデルは、Common Voice 11.0データセットを使用して、シンハラ語に特化してファインチューニングされています。音声からテキストへの変換や言語識別などのタスクを処理するように設計されており、シンハラ語を主要言語とするアプリケーションに適しています。ファインチューニングの過程では、シンハラ語での性能向上に焦点を当て、変換の誤り率を減らし、全体的な精度を向上させることを目指しています。
想定される用途と制限
想定される用途
- シンハラ語の音声をテキストに変換することができます。
制限事項
- Common Voiceデータセットに十分に表されていない言語や方言では、性能が低下する可能性があります。
- ノイズの多い環境や、学習データに含まれていない濃いアクセントの話者の音声では、単語誤り率(WER)が高くなる可能性があります。
- このモデルはシンハラ語用に最適化されているため、他の言語での性能は最適ではない場合があります。
学習と評価データ
このモデルの学習データは、Mozilla-foundation/Common Voice 11.0データセットからのシンハラ語の音声録音で構成されています。このデータセットは、話者のアクセント、年齢層、話し方の多様性を保証するために、クラウドソーシングによって収集された音声の転写データです。
学習ハイパーパラメータ
学習時には以下のハイパーパラメータが使用されました。
ハイパーパラメータ |
値 |
learning_rate |
1e-05 |
train_batch_size |
16 |
eval_batch_size |
8 |
seed |
42 |
optimizer |
OptimizerNames.ADAMW_TORCHを使用し、betas=(0.9,0.999)、epsilon=1e-08、optimizer_args=追加のオプティマイザ引数なし |
lr_scheduler_type |
linear |
lr_scheduler_warmup_steps |
500 |
training_steps |
4000 |
mixed_precision_training |
Native AMP |
フレームワークのバージョン
- Transformers 4.48.1
- Pytorch 2.5.1+cu121
- Datasets 3.2.0
- Tokenizers 0.21.0
💻 使用例
基本的な使用法
以下は、Gradioを使用してこのモデルをシンハラ語の音声認識に使用する例です。
import gradio as gr
from transformers import pipeline
pipe = pipeline(model="Lingalingeswaran/whisper-small-sinhala")
def transcribe(audio):
text = pipe(audio)["text"]
return text
iface = gr.Interface(
fn=transcribe,
inputs=gr.Audio(sources=["microphone", "upload"], type="filepath"),
outputs="text",
title="Whisper Small Sinhala",
description="Realtime demo for Sinhala speech recognition using a fine-tuned Whisper small model.",
)
if __name__ == "__main__":
iface.launch()
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。