whisper-hindi-large-v2開源模型 - 免費支持印地語語音精準識別

首頁

Whisper Hindi Large V2

由vasista22開發

基於OpenAI Whisper-large-v2微調的印地語語音識別模型，在多個公開印地語ASR語料庫上訓練

語音識別其他開源協議:Apache-2.0 #印地語語音識別 #低詞錯誤率 #多語料庫微調

下載量 1,488

發布時間 : 1/14/2023

模型概述

該模型是針對印地語優化的自動語音識別(ASR)模型，能夠將印地語語音準確轉錄為文本。

模型特點

高精度印地語識別

在Fleurs測試集上達到6.8%的詞錯誤率(WER)

多數據集訓練

使用GramVaani、ULCA、Shrutilipi等多個印地語ASR數據集進行訓練

快速推理支持

支持使用whisper-jax進行加速推理

模型能力

印地語語音識別

長音頻處理(支持分塊處理)

語音轉文本

使用案例

語音轉錄

印地語語音轉文字

將印地語語音內容轉換為文字記錄

在Fleurs測試集上WER 6.8%，Common Voice 11.0測試集上WER 10.98%

語音助手

印地語語音指令識別

用於印地語語音助手系統的語音指令識別

🚀 Whisper Hindi Large-v2

本模型是在多個公開可用的印地語自動語音識別（ASR）語料庫數據上，對 openai/whisper-large-v2 進行微調得到的。它是 Whisper 微調衝刺項目的一部分。

模型指標

屬性	詳情
支持語言	印地語
許可證	Apache-2.0
標籤	whisper-event
評估指標	詞錯誤率（WER）

模型評估結果

任務	數據集	評估指標	值
自動語音識別	google/fleurs (hi_in 配置，測試集)	WER	6.8
自動語音識別	mozilla-foundation/common_voice_11_0 (hi 配置，測試集)	WER	10.98

🚀 快速開始

本模型可用於印地語的自動語音識別任務。訓練此模型的代碼可在 whisper-finetune 倉庫中複用。

💻 使用示例

基礎用法

若要使用此模型對單個音頻文件進行轉錄，可使用以下代碼片段：

>>> import torch
>>> from transformers import pipeline

>>> # 待轉錄音頻文件的路徑
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-hindi-large-v2", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="hi", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高級用法

若要對整個數據集評估此模型，可使用 whisper-finetune 倉庫中的評估代碼。該倉庫還提供了使用 whisper-jax 進行快速推理的腳本。

為了使用 whisper-jax 庫進行更快的推理，請先按照此處提到的必要安裝步驟進行操作，然後使用以下代碼片段：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # 待轉錄音頻文件的路徑
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-hindi-large-v2", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="hi", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])