whisper-large-v3-Telugu-Romanizedオープンソースモデル - ローマ字化されたテルグ語の音声認識を無料でサポート

ホーム

Whisper Large V3 Telugu Romanized

jayasuryajskによって開発

openai/whisper-large-v3をファインチューニングしたローマ字化テルグ語音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #テルグ語ローマ字化転写 #会話音声認識 #多言語音声書き起こし

ダウンロード数 18

リリース時間 : 5/6/2024

モデル概要

このモデルはローマ字化スクリプトのテルグ語日常会話の書き起こしに特化しており、Whisper Large V3アーキテクチャを基にファインチューニングされています

モデル特徴

ローマ字化テルグ語サポート

英字で記述されたローマ字化テルグ語を特別に処理

Whisper Large V3ベース

強力なWhisper Large V3アーキテクチャを活用したファインチューニング

日常会話最適化

日常的な口語会話シーン向けに最適化

モデル能力

テルグ語音声認識

ローマ字化テキスト出力

長音声処理

使用事例

音声書き起こし

日常会話の書き起こし

ローマ字化テルグ語の日常会話をテキストに変換

🚀 Wishper Large V3 - ローマ字表記のテルグ語音声認識モデル

このモデルは、テルグ語のローマ字表記1.0データセットで openai/whisper-large-v3 をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

eval_loss: 1.5009
eval_wer: 68.1275
eval_runtime: 591.6137
eval_samples_per_second: 0.798
eval_steps_per_second: 0.1
epoch: 8.6207
step: 1000

✨ 主な機能

このモデルは、多くの人が日常生活で使用するローマ字表記でテルグ語の会話を文字起こしするように訓練されています。

📚 詳細ドキュメント

想定される用途と制限

制限事項: 時々、音声を直接英語に翻訳してしまうことがあります。この問題の修正に取り組んでいます。

訓練と評価データ

GPT-4 APIを使用して、google-fleurs のテルグ語ラベルをローマ字表記に変換しました。スクリプトが英語のアルファベットであるため、英語のトークナイザーを使用してモデルを訓練しました。

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 1e-05
train_batch_size: 20
eval_batch_size: 8
seed: 42
optimizer: Adam (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
training_steps: 2000
mixed_precision_training: Native AMP

フレームワークバージョン

Transformers 4.40.1
Pytorch 2.2.0+cu121
Datasets 2.19.1
Tokenizers 0.19.1

📦 インストール

このモデルの使用には、必要なライブラリをインストールする必要があります。以下のコードを参考にしてください。

from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
import torch

device = "cuda" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "jayasuryajsk/whisper-large-v3-Telugu-Romanized"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)
result = pipe("recording.mp3", generate_kwargs={"language": "english"})
print(result["text"])