whisper-telugu-medium開源語音識別模型 - 精準識別泰盧固語語音內容

首頁

Whisper Telugu Medium

由vasista22開發

基於OpenAI Whisper-medium微調的泰盧固語語音識別模型，在多個公開泰盧固語ASR數據集上訓練

語音識別其他開源協議:Apache-2.0 #泰盧固語語音識別 #低詞錯誤率 #多數據集微調

下載量 228

發布時間 : 12/20/2022

模型概述

該模型是針對泰盧固語優化的自動語音識別(ASR)模型，能夠將泰盧固語語音準確轉錄為文本

模型特點

多數據集訓練

融合了CSTD IIIT-H、ULCA、Shrutilipi等多個權威泰盧固語ASR數據集

高性能

在Fleurs測試集上達到9.47%的詞錯誤率(WER)

高效推理支持

提供標準transformers和whisper-jax兩種推理方案，支持GPU加速

模型能力

泰盧固語語音識別

長音頻處理(支持分塊處理)

多場景語音轉錄

使用案例

語音轉錄

會議記錄

將泰盧固語會議錄音轉為文字記錄

高準確率的轉錄文本

媒體字幕生成

為泰盧固語視頻內容自動生成字幕

同步準確的文字字幕

語音助手

泰盧固語語音交互

構建支持泰盧固語的語音助手應用

自然流暢的語音交互體驗

🚀 耳語泰盧固語中型模型

本模型是基於多個公開可用的自動語音識別（ASR）語料庫中的泰盧固語數據，對 openai/whisper-medium 進行微調後的版本。它是耳語微調衝刺項目的一部分。

注意：訓練此模型的代碼可在 whisper-finetune 倉庫中複用。

🚀 快速開始

本模型可用於泰盧固語的自動語音識別任務。你可以使用提供的代碼示例進行推理和評估。

✨ 主要特性

基於公開的泰盧固語數據對 openai/whisper-medium 模型進行微調。
提供了評估代碼和推理腳本，支持快速評估和推理。
支持使用 whisper-jax 庫進行更快的推理。

📦 安裝指南

若要評估此模型或進行推理，可參考 whisper-finetune 倉庫中的說明進行安裝。

💻 使用示例

基礎用法

若要使用此模型對單個音頻文件進行轉錄，可使用以下代碼片段：

>>> import torch
>>> from transformers import pipeline

>>> # 待轉錄音頻文件的路徑
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-telugu-medium", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")

>>> print('轉錄結果: ', transcribe(audio)["text"])

高級用法

若要對耳語模型進行更快的推理，可使用 whisper-jax 庫。請按照此處所述的必要安裝步驟操作，然後使用以下代碼片段：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # 待轉錄音頻文件的路徑
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-telugu-medium", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")

>>> print('轉錄結果: ', transcribe(audio)["text"])

📚 詳細文檔

訓練和評估數據

屬性	詳情
訓練數據	CSTD IIIT - H ASR 語料庫、[ULCA ASR 語料庫](https://github.com/Open - Speech - EkStep/ULCA - asr - dataset - corpus#telugu - labelled - total - duration - is - 102593 - hours)、Shrutilipi ASR 語料庫、[微軟語音語料庫（印度語言）](https://msropendata.com/datasets/7230b4b1 - 912d - 400e - be58 - f84e0512985e)、Google/Fleurs 訓練+開發集、Babel ASR 語料庫
評估數據	[微軟語音語料庫（印度語言）測試集](https://msropendata.com/datasets/7230b4b1 - 912d - 400e - be58 - f84e0512985e)、Google/Fleurs 測試集、OpenSLR、Babel 測試集

訓練超參數

屬性	詳情
學習率	1e - 05
訓練批次大小	24
評估批次大小	48
隨機種子	22
優化器	adamw_bnb_8bit
學習率調度器類型	linear
學習率調度器熱身步數	15000
訓練步數	35808（收斂時終止，初始設置為 89520 步）
混合精度訓練	True