🚀 耳語卡納達語微型模型
該模型是基於多種公開可用的自動語音識別(ASR)語料庫中的卡納達語數據,對 openai/whisper-tiny 進行微調後的版本。它是耳語微調衝刺項目的一部分。
注意:訓練該模型的代碼可在 whisper-finetune 倉庫中複用。
🚀 快速開始
本模型可用於卡納達語的自動語音識別任務,能對卡納達語語音進行轉錄。
✨ 主要特性
- 基於公開的卡納達語數據對
openai/whisper-tiny
進行微調,適用於卡納達語的自動語音識別。
- 提供了訓練代碼和評估代碼,方便複用和評估。
- 支持使用
whisper-jax
進行快速推理。
📦 安裝指南
原文檔未提及具體安裝步驟,此處跳過。
💻 使用示例
基礎用法
若要對單個音頻文件進行推理,可使用以下代碼片段:
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-kannada-tiny", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="kn", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
高級用法
若要對整個數據集進行評估,可使用 whisper-finetune 倉庫中的評估代碼。
若要使用 whisper-jax
進行快速推理,請先按照 此處 提到的必要安裝步驟進行安裝,然後使用以下代碼片段:
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/path/to/audio.format"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-kannada-tiny", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="kn", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
📚 詳細文檔
訓練和評估數據
訓練數據
評估數據
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:5e-05
- 訓練批次大小:88
- 評估批次大小:88
- 隨機種子:22
- 優化器:adamw_bnb_8bit
- 學習率調度器類型:線性
- 學習率調度器熱身步數:10000
- 訓練步數:15008(收斂後終止,初始設置為 51570 步)
- 混合精度訓練:True
模型評估指標
屬性 |
詳情 |
模型類型 |
Whisper Kannada Tiny - Vasista Sai Lodagala |
任務類型 |
自動語音識別 |
數據集 |
google/fleurs (kn_in 配置,測試分割) |
評估指標 |
WER(字錯誤率),值為 13.38 |
🔧 技術細節
本模型是對 openai/whisper-tiny
在卡納達語數據上進行微調得到的。微調過程中使用了特定的超參數,以適應卡納達語的自動語音識別任務。訓練代碼和評估代碼可在 whisper-finetune 倉庫中找到。
📄 許可證
本模型採用 Apache-2.0 許可證。
致謝
本工作由 印度理工學院馬德拉斯分校語音實驗室 完成。
本工作的計算資源由印度電子和信息技術部(MeitY)的 “Bhashini:國家語言翻譯任務” 項目資助。