🚀 耳語泰盧固語基礎模型
本模型是基於多種公開可用的自動語音識別(ASR)語料庫中的泰盧固語數據,對 openai/whisper-base 進行微調後的版本。它是“耳語微調衝刺”項目的一部分。
注意:訓練此模型的代碼可在 whisper-finetune 倉庫中複用。
🚀 快速開始
本模型是基於多個公開可用的自動語音識別語料庫中的泰盧固語數據,對 openai/whisper-base 進行微調得到的。它是耳語微調項目的一部分。
✨ 主要特性
- 基於公開的泰盧固語數據對
openai/whisper-base
進行微調。
- 提供了評估和推理的代碼,支持使用
whisper-jax
進行快速推理。
📦 安裝指南
暫未提及具體安裝步驟,可參考 whisper-finetune 倉庫中的相關說明。
💻 使用示例
基礎用法
若要使用此模型對單個音頻文件進行推理,可使用以下代碼片段:
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-telugu-base", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
高級用法
若要對耳語模型進行快速推理,可使用 whisper-jax 庫。請先按照 此處 提到的必要安裝步驟操作,再使用以下代碼片段:
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/path/to/audio.format"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-telugu-base", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
📚 詳細文檔
若要在整個數據集上評估此模型,可使用 whisper-finetune 倉庫中的評估代碼。該倉庫還提供了使用 whisper-jax
進行快速推理的腳本。
🔧 技術細節
訓練和評估數據
- 訓練數據:
- CSTD IIIT - H ASR 語料庫
- [ULCA ASR 語料庫](https://github.com/Open - Speech - EkStep/ULCA - asr - dataset - corpus#telugu - labelled - total - duration - is - 102593 - hours)
- Shrutilipi ASR 語料庫
- [微軟語音語料庫(印度語言)](https://msropendata.com/datasets/7230b4b1 - 912d - 400e - be58 - f84e0512985e)
- Google/Fleurs 訓練 + 開發集
- Babel ASR 語料庫
- 評估數據:
- [微軟語音語料庫(印度語言)測試集](https://msropendata.com/datasets/7230b4b1 - 912d - 400e - be58 - f84e0512985e)
- Google/Fleurs 測試集
- OpenSLR
- Babel 測試集
訓練超參數
- 學習率:3.3e - 05
- 訓練批次大小:80
- 評估批次大小:88
- 隨機種子:22
- 優化器:adamw_bnb_8bit
- 學習率調度器類型:線性
- 學習率調度器熱身步數:15000
- 訓練步數:24174(收斂時終止,初始設置為 85952 步)
- 混合精度訓練:True
📄 許可證
本項目採用 Apache - 2.0 許可證。
👏 致謝
本工作在 印度理工學院馬德拉斯分校語音實驗室 完成。本工作的計算資源由印度電子和信息技術部(MeitY)的“Bhashini:國家語言翻譯任務”項目資助。
📊 模型信息
屬性 |
詳情 |
模型類型 |
耳語泰盧固語基礎模型 |
訓練數據 |
CSTD IIIT - H ASR 語料庫、ULCA ASR 語料庫、Shrutilipi ASR 語料庫、微軟語音語料庫(印度語言)、Google/Fleurs 訓練 + 開發集、Babel ASR 語料庫 |
評估數據 |
微軟語音語料庫(印度語言)測試集、Google/Fleurs 測試集、OpenSLR、Babel 測試集 |
學習率 |
3.3e - 05 |
訓練批次大小 |
80 |
評估批次大小 |
88 |
隨機種子 |
22 |
優化器 |
adamw_bnb_8bit |
學習率調度器類型 |
線性 |
學習率調度器熱身步數 |
15000 |
訓練步數 |
24174(收斂時終止,初始設置為 85952 步) |
混合精度訓練 |
是 |