whisper-telugu-large-v2開源語音識別模型 - 精準識別泰盧固語語音內容

首頁

Whisper Telugu Large V2

由vasista22開發

基於OpenAI Whisper-large-v2微調的泰盧固語自動語音識別模型，在多個公開泰盧固語數據集上訓練

語音識別其他開源協議:Apache-2.0 #泰盧固語語音識別 #低詞錯誤率 #多語料庫訓練

下載量 156

發布時間 : 12/20/2022

模型概述

專門針對泰盧固語優化的語音識別模型，能夠準確將泰盧固語語音轉換為文本

模型特點

泰盧固語優化

專門針對泰盧固語進行微調，提供更準確的語音識別效果

多數據集訓練

在多個公開泰盧固語ASR語料庫上訓練，包括CSTD IIIT-H、ULCA、Shrutilipi等

高效推理支持

支持使用whisper-jax進行加速推理

模型能力

泰盧固語語音識別

長音頻處理（支持分塊處理）

多領域語音轉錄

使用案例

語音轉錄

會議記錄

將泰盧固語會議錄音轉換為文字記錄

媒體字幕生成

為泰盧固語視頻內容生成字幕

語音助手

泰盧固語語音交互

支持泰盧固語語音命令識別

🚀 Whisper Telugu Large-v2

本模型是基於Transformer架構的語音識別模型，在多種公開可用的泰盧固語自動語音識別（ASR）語料庫上微調而成，可用於泰盧固語的語音識別任務。

🚀 快速開始

本模型是 openai/whisper-large-v2 在多個公開可用的泰盧固語ASR語料庫數據上的微調版本。它是 Whisper 微調衝刺項目的一部分。

注意：訓練此模型的代碼可在 whisper-finetune 倉庫中複用。

✨ 主要特性

基於 Whisper-large-v2 模型微調，適用於泰盧固語語音識別。
提供了在整個數據集上的評估代碼，以及使用 whisper-jax 進行快速推理的腳本。

📦 安裝指南

文檔未提及安裝步驟，可參考 whisper-finetune 倉庫獲取安裝相關信息。

💻 使用示例

基礎用法

若要使用此模型對單個音頻文件進行推理，可使用以下代碼片段：

>>> import torch
>>> from transformers import pipeline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-telugu-large-v2", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高級用法

若要對整個數據集評估此模型，可使用 whisper-finetune 倉庫中的評估代碼。該倉庫還提供了使用 whisper-jax 進行快速推理的腳本。

對於 Whisper 模型的快速推理，可使用 whisper-jax 庫。在使用以下代碼片段之前，請按照此處提到的必要安裝步驟進行操作：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-telugu-large-v2", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

📚 詳細文檔

訓練和評估數據

訓練數據：
- CSTD IIIT-H ASR 語料庫
- ULCA ASR 語料庫
- Shrutilipi ASR 語料庫
- Microsoft 語音語料庫（印度語言）
- Google/Fleurs 訓練+開發集
- Babel ASR 語料庫
評估數據：
- Microsoft 語音語料庫（印度語言）測試集
- Google/Fleurs 測試集
- OpenSLR
- Babel 測試集

訓練超參數

訓練期間使用了以下超參數：

屬性	詳情
學習率	0.75e-05
訓練批次大小	8
評估批次大小	32
隨機種子	22
優化器	adamw_bnb_8bit
學習率調度器類型	linear
學習率調度器熱身步數	22000
訓練步數	75000
混合精度訓練	True

🔧 技術細節

本模型是在多個公開可用的泰盧固語ASR語料庫上對 openai/whisper-large-v2 進行微調得到的。通過調整一系列超參數，如學習率、批次大小等，使得模型在泰盧固語語音識別任務上取得了較好的效果。評估指標採用了詞錯誤率（WER），在測試集上的WER為 9.65。

📄 許可證

本項目採用 Apache-2.0 許可證。

📚 模型索引

名稱	結果
Whisper Telugu Large-v2 - Vasista Sai Lodagala	任務類型：自動語音識別；數據集：google/fleurs (te_in 配置，測試集)；評估指標：WER=9.65