whisper-kannada-tiny開源語音識別模型 - 免費實現卡納達語自動語音識別

首頁

Whisper Kannada Tiny

由vasista22開發

基於openai/whisper-tiny微調的卡納達語自動語音識別模型，在多個公開卡納達語ASR語料庫上訓練

語音識別其他開源協議:Apache-2.0 #卡納達語語音識別 #低詞錯誤率 #多數據集微調

下載量 119

發布時間 : 12/19/2022

模型概述

專為卡納達語優化的自動語音識別模型，適用於語音轉文本任務

模型特點

卡納達語優化

專門針對卡納達語語音特徵進行微調

多數據集訓練

使用多個公開卡納達語ASR語料庫進行訓練

高效推理

支持whisper-jax實現快速批量推理

模型能力

卡納達語語音識別

長音頻處理(支持分塊)

即時轉錄

使用案例

語音轉錄

會議記錄

將卡納達語會議錄音轉為文字記錄

詞錯誤率13.38%(在Fleurs測試集)

媒體字幕生成

為卡納達語視頻內容生成字幕

🚀 耳語卡納達語微型模型

該模型是基於多種公開可用的自動語音識別（ASR）語料庫中的卡納達語數據，對 openai/whisper-tiny 進行微調後的版本。它是耳語微調衝刺項目的一部分。

注意：訓練該模型的代碼可在 whisper-finetune 倉庫中複用。

🚀 快速開始

本模型可用於卡納達語的自動語音識別任務，能對卡納達語語音進行轉錄。

✨ 主要特性

基於公開的卡納達語數據對 openai/whisper-tiny 進行微調，適用於卡納達語的自動語音識別。
提供了訓練代碼和評估代碼，方便複用和評估。
支持使用 whisper-jax 進行快速推理。

📦 安裝指南

原文檔未提及具體安裝步驟，此處跳過。

💻 使用示例

基礎用法

若要對單個音頻文件進行推理，可使用以下代碼片段：

>>> import torch
>>> from transformers import pipeline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-kannada-tiny", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="kn", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高級用法

若要對整個數據集進行評估，可使用 whisper-finetune 倉庫中的評估代碼。

若要使用 whisper-jax 進行快速推理，請先按照此處提到的必要安裝步驟進行安裝，然後使用以下代碼片段：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-kannada-tiny", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="kn", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

📚 詳細文檔

訓練和評估數據

訓練數據

評估數據

訓練超參數

訓練過程中使用了以下超參數：

學習率：5e-05
訓練批次大小：88
評估批次大小：88
隨機種子：22
優化器：adamw_bnb_8bit
學習率調度器類型：線性
學習率調度器熱身步數：10000
訓練步數：15008（收斂後終止，初始設置為 51570 步）
混合精度訓練：True

模型評估指標

屬性	詳情
模型類型	Whisper Kannada Tiny - Vasista Sai Lodagala
任務類型	自動語音識別
數據集	google/fleurs (kn_in 配置，測試分割)
評估指標	WER（字錯誤率），值為 13.38