🚀 タミル語ミディアムWhisperモデル
このモデルは、複数の公開されている自動音声認識(ASR)コーパスのタミル語データを使用して、openai/whisper-medium を微調整したバージョンです。Whisper微調整スプリントプロジェクトの一部として開発されました。
⚠️ 重要提示
このモデルを訓練するコードは、whisper-finetune リポジトリで再利用できます。
🚀 クイックスタート
このモデルは、データセット全体の評価に使用できます。評価コードは whisper-finetune リポジトリで見つけることができます。また、このリポジトリには whisper-jax
を使用した高速推論用のスクリプトも提供されています。
✨ 主な機能
- 複数の公開ASRコーパスのタミル語データを使用して
openai/whisper-medium
を微調整。
- Whisper微調整スプリントプロジェクトの一部として訓練。
- 評価コードと高速推論スクリプトを提供。
📦 インストール
ドキュメントに具体的なインストール手順は記載されていません。whisper-finetune リポジトリを参照してください。
💻 使用例
基本的な使用法
このモデルを使用して単一の音声ファイルを推論するには、以下のコードを使用します。
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-tamil-medium", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
高度な使用法
whisper-jax
を使用して高速推論を行うには、ここ で説明されている手順で必要なインストールを行った後、以下のコードを使用します。
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/path/to/audio.format"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-medium", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
📚 ドキュメント
訓練と評価データ
訓練データ
評価データ
訓練ハイパーパラメータ
訓練に使用されたハイパーパラメータは以下の通りです。
属性 |
詳細 |
学習率 |
1e-05 |
訓練バッチサイズ |
24 |
評価バッチサイズ |
48 |
乱数シード |
22 |
オプティマイザ |
adamw_bnb_8bit |
学習率スケジューラタイプ |
linear |
学習率スケジューラウォームアップステップ |
17500 |
訓練ステップ |
33892(初期設定は84730ステップ) |
混合精度訓練 |
True |
🔧 技術詳細
このモデルは、複数の公開ASRコーパスのタミル語データを使用して openai/whisper-medium
を微調整したものです。訓練コードは whisper-finetune リポジトリで再利用できます。評価コードと高速推論スクリプトも同じリポジトリで見つけることができます。
📄 ライセンス
このモデルはApache-2.0ライセンスで提供されています。
謝辞
この研究は インド工科大学マドラス校音声実験室 によって行われました。計算リソースは、インド電子情報技術省(MeitY)の「Bhashini:国家言語翻訳タスク」プロジェクトによって提供されました。