🚀 威仕普大模型V3 - 羅馬化泰盧固語口語識別模型
本模型是基於 openai/whisper-large-v3 在泰盧固語羅馬化1.0數據集上進行微調的版本。它能有效解決泰盧固語口語識別及轉寫問題,為泰盧固語語音處理提供了高效準確的解決方案。
🚀 快速開始
本模型是 openai/whisper-large-v3 在泰盧固語羅馬化1.0數據集上的微調版本。在評估集上取得了以下結果:
- 評估損失(eval_loss):1.5009
- 評估字錯率(eval_wer):68.1275
- 評估運行時間(eval_runtime):591.6137
- 每秒評估樣本數(eval_samples_per_second):0.798
- 每秒評估步數(eval_steps_per_second):0.1
- 訓練輪數(epoch):8.6207
- 訓練步數(step):1000
✨ 主要特性
- 針對性訓練:該模型經過專門訓練,可將泰盧固語對話轉錄為羅馬化文字,這種文字是大多數人日常生活中常用的書寫形式。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
基礎用法
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "jayasuryajsk/whisper-large-v3-Telugu-Romanized"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id, torch_dtype=torch_dtype
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
"automatic-speech-recognition",
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
max_new_tokens=128,
chunk_length_s=30,
batch_size=16,
return_timestamps=True,
torch_dtype=torch_dtype,
device=device,
)
result = pipe("recording.mp3", generate_kwargs={"language": "english"})
print(result["text"])
你可以在 這裡 進行嘗試。
📚 詳細文檔
預期用途與侷限性
- 侷限性:有時,模型會直接將音頻翻譯成英語,目前正在努力修復這個問題。
訓練和評估數據
使用GPT 4 API將 google-fleurs
泰盧固語標籤轉換為羅馬化文字。由於文字是英文字母,因此使用英語分詞器來訓練模型。
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):1e-05
- 訓練批次大小(train_batch_size):20
- 評估批次大小(eval_batch_size):8
- 隨機種子(seed):42
- 優化器(optimizer):Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):500
- 訓練步數(training_steps):2000
- 混合精度訓練(mixed_precision_training):Native AMP
框架版本
- Transformers:4.40.1
- Pytorch:2.2.0+cu121
- Datasets:2.19.1
- Tokenizers:0.19.1
📄 許可證
本模型採用Apache 2.0許可證。
屬性 |
詳情 |
模型類型 |
基於openai/whisper-large-v3微調的語音識別模型 |
訓練數據 |
jayasuryajsk/google-fleurs-te-romanized |