🚀 泰米爾語大模型 Whisper Tamil Large-v2
本模型是專為泰米爾語語音識別任務打造的強大工具。它基於 openai/whisper-large-v2 進行微調,利用多個公開可用的自動語音識別(ASR)語料庫中的泰米爾語數據進行訓練。作為 Whisper 微調衝刺項目的一部分,該模型在泰米爾語語音識別方面表現出色。
📄 許可證
本模型採用 Apache-2.0 許可證。
📊 模型指標
屬性 |
詳情 |
模型類型 |
Whisper Tamil Large-v2 |
訓練數據 |
來自多個公開可用的 ASR 語料庫的泰米爾語數據 |
評估指標 |
在多個數據集上的字錯誤率(WER) |
🏆 評估結果
任務 |
數據集 |
WER |
自動語音識別 |
google/fleurs (ta_in 測試集) |
7.5 |
自動語音識別 |
mozilla-foundation/common_voice_11_0 (ta 測試集) |
6.61 |
🚀 快速開始
評估整個數據集
若要在整個數據集上評估此模型,可使用 whisper-finetune 倉庫中的評估代碼。
快速推理
同一倉庫還提供了使用 whisper-jax 進行快速推理的腳本。
單音頻文件推理
若要使用此模型對單個音頻文件進行推理,可使用以下代碼片段:
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-tamil-large-v2", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")
>>> print('轉錄結果: ', transcribe(audio)["text"])
更快推理
若要實現更快的推理,可使用 whisper-jax 庫。在使用以下代碼片段之前,請按照 此處 所述完成必要的安裝步驟:
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/path/to/audio.format"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-large-v2", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")
>>> print('轉錄結果: ', transcribe(audio)["text"])
📦 訓練和評估數據
訓練數據
評估數據
🔧 訓練超參數
以下是訓練過程中使用的超參數:
- 學習率:0.75e-05
- 訓練批次大小:8
- 評估批次大小:24
- 隨機種子:22
- 優化器:adamw_bnb_8bit
- 學習率調度器類型:線性
- 學習率調度器熱身步數:22000
- 訓練步數:52500(初始設置為 76000 步)
- 混合精度訓練:是
🙏 致謝
本工作由 印度理工學院馬德拉斯分校語音實驗室 完成。
本工作的計算資源由印度電子和信息技術部(MeitY)的“Bhashini:國家語言翻譯任務”項目資助。
⚠️ 重要提示
訓練此模型所使用的代碼可在 whisper-finetune 倉庫中重複使用。