🚀 Whisper Telugu Large-v2
このモデルは、複数の公開されている自動音声認識(ASR)コーパスから入手可能なテルグ語データで、openai/whisper-large-v2 をファインチューニングしたバージョンです。Whisperのファインチューニングスプリントの一環としてファインチューニングされました。
注意: このモデルをトレーニングするために使用されたコードは、whisper-finetune リポジトリで再利用可能です。
🚀 クイックスタート
このモデルを使用するには、以下の情報を参考にしてください。
✨ 主な機能
- テルグ語の自動音声認識に特化したファインチューニング済みモデル。
- 複数の公開ASRコーパスのデータを使用してトレーニング。
- whisper-jaxを使用した高速推論のサポート。
📦 インストール
このモデルを使用するために必要な依存関係は、whisper-finetune リポジトリに記載されています。
💻 使用例
基本的な使用法
単一の音声ファイルを認識するには、以下のコードを使用します。
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-telugu-large-v2", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
高度な使用法
whisper-jaxを使用した高速推論には、以下のコードを使用します。ただし、事前に こちら に記載されたインストール手順を実行する必要があります。
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/path/to/audio.format"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-telugu-large-v2", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
📚 ドキュメント
トレーニングと評価データ
トレーニングデータ
評価データ
トレーニングハイパーパラメータ
トレーニング中に使用されたハイパーパラメータは以下の通りです。
パラメータ |
値 |
learning_rate |
0.75e-05 |
train_batch_size |
8 |
eval_batch_size |
32 |
seed |
22 |
optimizer |
adamw_bnb_8bit |
lr_scheduler_type |
linear |
lr_scheduler_warmup_steps |
22000 |
training_steps |
75000 |
mixed_precision_training |
True |
🔧 技術詳細
このモデルは、Whisperの大規模モデルをテルグ語データでファインチューニングしています。トレーニングには、複数の公開ASRコーパスのデータを使用しており、特定のハイパーパラメータを設定して最適化しています。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
謝辞
この研究は Speech Lab, IIT Madras で行われました。
この研究のコンピューティングリソースは、インド政府の電子情報技術省(MeitY)の「Bhashini: National Language translation Mission」プロジェクトによって提供されました。