🚀 Whisper Tamil Small
このモデルは、複数の公開されているASRコーパスから入手可能なタミル語データで、openai/whisper-small をファインチューニングしたバージョンです。Whisperのファインチューニングスプリントの一環としてファインチューニングされました。
注意: このモデルをトレーニングするために使用されたコードは、whisper-finetune リポジトリで再利用可能です。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。
データセット全体での評価
このモデルをデータセット全体で評価するには、whisper-finetune リポジトリにある評価コードを使用できます。同じリポジトリでは、whisper-jaxを使用した高速推論用のスクリプトも提供されています。
単一の音声ファイルの推論
単一の音声ファイルをこのモデルで推論するには、以下のコードスニペットを使用できます。
基本的な使用法
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-tamil-small", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
高度な使用法
whisperモデルの高速推論には、whisper-jax ライブラリを使用できます。以下のコードスニペットを使用する前に、こちら に記載されている必要なインストール手順に従ってください。
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/path/to/audio.format"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-small", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
✨ 主な機能
- 複数の公開ASRコーパスのタミル語データでファインチューニングされたモデル。
- whisper-jaxを使用した高速推論が可能。
📦 インストール
インストールに関する具体的なコマンドはREADMEに記載されていないため、このセクションを省略します。
📚 ドキュメント
トレーニングと評価データ
トレーニングデータ
評価データ
トレーニングハイパーパラメータ
トレーニング中に使用されたハイパーパラメータは以下の通りです。
属性 |
详情 |
学習率 (learning_rate) |
1.7e-05 |
トレーニングバッチサイズ (train_batch_size) |
48 |
評価バッチサイズ (eval_batch_size) |
32 |
シード (seed) |
22 |
オプティマイザ (optimizer) |
adamw_bnb_8bit |
学習率スケジューラのタイプ (lr_scheduler_type) |
linear |
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps) |
17500 |
トレーニングステップ (training_steps) |
29659 (当初は84740ステップに設定) |
混合精度トレーニング (mixed_precision_training) |
True |
🔧 技術詳細
このモデルは、openai/whisper-small をベースに、複数の公開ASRコーパスのタミル語データでファインチューニングされました。トレーニングに使用されたコードは whisper-finetune リポジトリで公開されています。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。