🚀 Whisper Telugu Large-v2
本模型是基於Transformer架構的語音識別模型,在多種公開可用的泰盧固語自動語音識別(ASR)語料庫上微調而成,可用於泰盧固語的語音識別任務。
🚀 快速開始
本模型是 openai/whisper-large-v2 在多個公開可用的泰盧固語ASR語料庫數據上的微調版本。它是 Whisper 微調衝刺項目的一部分。
注意:訓練此模型的代碼可在 whisper-finetune 倉庫中複用。
✨ 主要特性
- 基於 Whisper-large-v2 模型微調,適用於泰盧固語語音識別。
- 提供了在整個數據集上的評估代碼,以及使用 whisper-jax 進行快速推理的腳本。
📦 安裝指南
文檔未提及安裝步驟,可參考 whisper-finetune 倉庫獲取安裝相關信息。
💻 使用示例
基礎用法
若要使用此模型對單個音頻文件進行推理,可使用以下代碼片段:
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-telugu-large-v2", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
高級用法
若要對整個數據集評估此模型,可使用 whisper-finetune 倉庫中的評估代碼。該倉庫還提供了使用 whisper-jax 進行快速推理的腳本。
對於 Whisper 模型的快速推理,可使用 whisper-jax 庫。在使用以下代碼片段之前,請按照 此處 提到的必要安裝步驟進行操作:
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/path/to/audio.format"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-telugu-large-v2", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
📚 詳細文檔
訓練和評估數據
訓練超參數
訓練期間使用了以下超參數:
屬性 |
詳情 |
學習率 |
0.75e-05 |
訓練批次大小 |
8 |
評估批次大小 |
32 |
隨機種子 |
22 |
優化器 |
adamw_bnb_8bit |
學習率調度器類型 |
linear |
學習率調度器熱身步數 |
22000 |
訓練步數 |
75000 |
混合精度訓練 |
True |
🔧 技術細節
本模型是在多個公開可用的泰盧固語ASR語料庫上對 openai/whisper-large-v2 進行微調得到的。通過調整一系列超參數,如學習率、批次大小等,使得模型在泰盧固語語音識別任務上取得了較好的效果。評估指標採用了詞錯誤率(WER),在測試集上的WER為 9.65。
📄 許可證
本項目採用 Apache-2.0 許可證。
📚 模型索引
名稱 |
結果 |
Whisper Telugu Large-v2 - Vasista Sai Lodagala |
任務類型:自動語音識別;數據集:google/fleurs (te_in 配置,測試集);評估指標:WER=9.65 |
🎉 致謝
本工作由 印度理工學院馬德拉斯分校語音實驗室 完成。
本工作的計算資源由印度電子和信息技術部(MeitY)的“Bhashini:國家語言翻譯任務”項目資助。