🚀 Whisper Hindi Small
このモデルは、複数の公開されている自動音声認識(ASR)コーパスから入手可能なヒンディー語データで、openai/whisper-small をファインチューニングしたバージョンです。Whisperのファインチューニングスプリントの一環としてファインチューニングされました。
⚠️ 重要提示
このモデルを訓練するために使用されたコードは、whisper-finetune リポジトリで再利用可能です。
🚀 クイックスタート
このモデルを使用するには、以下の情報を参考にしてください。
✨ 主な機能
- ヒンディー語の自動音声認識に特化したファインチューニング済みモデルです。
- 複数の公開ASRコーパスのデータを使用して訓練されています。
- 高速な推論を行うためのスクリプトも提供されています。
📦 インストール
モデルを評価するためのコードや、高速推論用のスクリプトは、whisper-finetune リポジトリにあります。必要に応じてインストールしてください。
💻 使用例
基本的な使用法
単一の音声ファイルをこのモデルで文字起こしするには、次のコードスニペットを使用できます。
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-hindi-small", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="hi", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
高度な使用法
Whisperモデルの高速推論には、whisper-jax ライブラリを使用できます。以下のコードスニペットを使用する前に、こちら に記載されている必要なインストール手順に従ってください。
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/path/to/audio.format"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-hindi-small", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="hi", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
📚 ドキュメント
訓練と評価データ
訓練データ
評価データ
訓練ハイパーパラメータ
訓練中に使用されたハイパーパラメータは次の通りです。
属性 |
詳情 |
学習率 (learning_rate) |
1.75e-05 |
訓練バッチサイズ (train_batch_size) |
48 |
評価バッチサイズ (eval_batch_size) |
32 |
シード (seed) |
22 |
オプティマイザ (optimizer) |
adamw_bnb_8bit |
学習率スケジューラのタイプ (lr_scheduler_type) |
linear |
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps) |
20000 |
訓練ステップ (training_steps) |
19377 (最初は129180ステップに設定) |
混合精度訓練 (mixed_precision_training) |
True |
謝辞
この研究は、Speech Lab, IIT Madras で行われました。計算リソースは、インド政府の電子情報技術省(MeitY)の「Bhashini: National Language translation Mission」プロジェクトによって提供されました。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。