🚀 Wishper Large V3 - ローマ字表記のテルグ語音声認識モデル
このモデルは、テルグ語のローマ字表記1.0データセットで openai/whisper-large-v3 をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- eval_loss: 1.5009
- eval_wer: 68.1275
- eval_runtime: 591.6137
- eval_samples_per_second: 0.798
- eval_steps_per_second: 0.1
- epoch: 8.6207
- step: 1000
✨ 主な機能
このモデルは、多くの人が日常生活で使用するローマ字表記でテルグ語の会話を文字起こしするように訓練されています。
📚 詳細ドキュメント
想定される用途と制限
制限事項: 時々、音声を直接英語に翻訳してしまうことがあります。この問題の修正に取り組んでいます。
訓練と評価データ
GPT-4 APIを使用して、google-fleurs
のテルグ語ラベルをローマ字表記に変換しました。スクリプトが英語のアルファベットであるため、英語のトークナイザーを使用してモデルを訓練しました。
訓練ハイパーパラメータ
訓練中に使用されたハイパーパラメータは以下の通りです。
- learning_rate: 1e-05
- train_batch_size: 20
- eval_batch_size: 8
- seed: 42
- optimizer: Adam (betas=(0.9,0.999), epsilon=1e-08)
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 500
- training_steps: 2000
- mixed_precision_training: Native AMP
フレームワークバージョン
- Transformers 4.40.1
- Pytorch 2.2.0+cu121
- Datasets 2.19.1
- Tokenizers 0.19.1
📦 インストール
このモデルの使用には、必要なライブラリをインストールする必要があります。以下のコードを参考にしてください。
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "jayasuryajsk/whisper-large-v3-Telugu-Romanized"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id, torch_dtype=torch_dtype
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
"automatic-speech-recognition",
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
max_new_tokens=128,
chunk_length_s=30,
batch_size=16,
return_timestamps=True,
torch_dtype=torch_dtype,
device=device,
)
result = pipe("recording.mp3", generate_kwargs={"language": "english"})
print(result["text"])
このコードは、Google Colabで試すことができます。こちらのリンク からアクセスできます。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。