indic_whisper_hi_multi_gpu開源語音識別模型 - 針對印度語言優化識別超精準

首頁

Indic Whisper Hi Multi Gpu

由parthiv11開發

IndicWhisper是針對印度語言優化的尖端語音識別模型，在印度語言各類基準測試中表現優異。

語音識別其他開源協議:MIT #印度語語音識別 #JAX加速 #低詞錯誤率

下載量 72

發布時間 : 2/28/2024

模型概述

基於JAX加速的IndicWhisper是針對印度語言優化的語音識別模型，顯著優於其他公開模型，是印度語語音識別任務的理想選擇。

模型特點

JAX加速

集成JAX加速支持，可顯著提升TPU/GPU運算性能，相較原PyTorch實現提速70倍以上。

多基準測試表現優異

在Vistaar基準測試的印地語子集中，平均詞錯誤率顯著優於其他公開模型。

印度語言優化

專門針對印度語言進行優化，在各類印度語言基準測試中表現驚豔。

模型能力

印地語語音識別

多語言支持

高性能計算

使用案例

語音識別

印地語語音轉文本

將印地語語音內容轉換為文本

詞錯誤率顯著低於其他公開模型

🚀 印度語Whisper模型（JAX加速版）

印度語Whisper是一款在印度語言上進行微調的先進語音識別模型。本倉庫包含了模型訓練和評估的代碼，以及可直接使用的預訓練檢查點，能有效解決印度語言語音識別問題，為相關任務提供強大支持。

🚀 快速開始

印度語Whisper在印度語言的各種基準測試中實現了令人印象深刻的詞錯誤率（WER）。它的性能優於其他公開可用的模型，是印度語言語音識別任務的寶貴工具。

在Vistaar基準測試（印地語子集）上的性能

模型	常規測試集	困難測試集	FLEURS數據集	CommonVoice數據集	IndicTTS數據集	MUCS數據集	Gramvaani數據集	平均成績
Google STT	14.3	16.7	19.4	20.8	18.3	17.8	59.9	23.9
IndicWav2vec	12.2	16.2	18.3	20.2	15	22.9	42.1	21
Azure STT	13.6	15.1	24.3	14.6	15.2	15.1	42.3	20
Nvidia-medium	14	15.6	19.4	20.4	12.3	12.4	41.3	19.4
Nvidia-large	12.7	14.2	15.7	21.2	12.2	11.8	42.6	18.6
IndicWhisper	10.3	12.0	11.4	15.0	7.6	12	26.8	13.6

✨ 主要特性

新特性：JAX模式

我們最近增加了對JAX模式的支持，這顯著提升了模型在TPU和GPU上的性能。此特性特別適用於高性能計算環境，在速度和效率方面進行了優化。

本倉庫基於AI4 Bharat的🤗 印度語Whisper實現，為印度語Whisper模型提供了優化後的JAX模型。與原始的印度語Whisper PyTorch代碼相比，JAX實現的性能提升了70倍以上，使其成為目前最快的Whisper實現。

💻 使用示例

基礎用法

from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
import jax.numpy as jnp

pipeline = FlaxWhisperPipline('parthiv11/indic_whisper_hi_multi_gpu', dtype=jnp.bfloat16)
transcript= pipeline('sample.mp3')