whisper-tamil-medium開源模型 - 免費支持泰米爾語語音識別的實用工具

首頁

Whisper Tamil Medium

由vasista22開發

基於多個公開泰米爾語ASR語料庫微調的Whisper-medium模型，支持泰米爾語語音識別

語音識別

Transformers

其他開源協議:Apache-2.0 #泰米爾語語音識別 #多語料庫微調 #低資源優化

下載量 1,731

發布時間 : 12/21/2022

模型概述

該模型是對openai/whisper-medium進行泰米爾語微調的版本，專門用於泰米爾語語音識別任務，是Whisper微調衝刺項目的一部分。

模型特點

多語料庫微調

基於6個公開泰米爾語ASR語料庫訓練，數據來源豐富

高效推理支持

提供whisper-jax實現支持快速批量推理

完整評估方案

包含在多個測試集上的評估代碼和結果

模型能力

泰米爾語語音識別

長音頻處理（支持分塊）

批量推理

使用案例

語音轉錄

泰米爾語會議記錄

將泰米爾語會議錄音轉為文字記錄

教育內容轉錄

轉錄泰米爾語教學音頻內容

🚀 泰米爾語中型Whisper模型

本模型是基於多個公開可用的自動語音識別（ASR）語料庫中的泰米爾語數據，對 openai/whisper-medium 進行微調後的版本。它是Whisper微調衝刺項目的一部分。

注意：訓練此模型的代碼可在 whisper-finetune 倉庫中複用。

🚀 快速開始

本模型可用於對整個數據集進行評估，評估代碼可在 whisper-finetune 倉庫中找到。該倉庫還提供了使用 whisper-jax 進行快速推理的腳本。

✨ 主要特性

基於多個公開的ASR語料庫中的泰米爾語數據對 openai/whisper-medium 進行微調。
作為Whisper微調衝刺項目的一部分進行訓練。
提供了評估代碼和快速推理腳本。

📦 安裝指南

文檔未提及具體安裝步驟，可參考 whisper-finetune 倉庫獲取相關信息。

💻 使用示例

基礎用法

若要使用此模型對單個音頻文件進行推理，可使用以下代碼片段：

>>> import torch
>>> from transformers import pipeline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-tamil-medium", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高級用法

若要使用 whisper-jax 進行快速推理，請先按照此處提到的步驟進行必要的安裝，然後使用以下代碼片段：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-medium", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

📚 詳細文檔

訓練和評估數據

訓練數據

評估數據

訓練超參數

訓練過程中使用了以下超參數：

屬性	詳情
學習率	1e-05
訓練批次大小	24
評估批次大小	48
隨機種子	22
優化器	adamw_bnb_8bit
學習率調度器類型	linear
學習率調度器熱身步數	17500
訓練步數	33892（初始設置為84730步）
混合精度訓練	True