indic_whisper_hi_multi_gpu开源语音识别模型 - 针对印度语言优化识别超精准

首页

Indic Whisper Hi Multi Gpu

由 parthiv11 开发

IndicWhisper是针对印度语言优化的尖端语音识别模型，在印度语言各类基准测试中表现优异。

语音识别其他开源协议:MIT #印度语语音识别 #JAX加速 #低词错误率

下载量 72

发布时间 : 2/28/2024

模型简介

基于JAX加速的IndicWhisper是针对印度语言优化的语音识别模型，显著优于其他公开模型，是印度语语音识别任务的理想选择。

模型特点

JAX加速

集成JAX加速支持，可显著提升TPU/GPU运算性能，相较原PyTorch实现提速70倍以上。

多基准测试表现优异

在Vistaar基准测试的印地语子集中，平均词错误率显著优于其他公开模型。

印度语言优化

专门针对印度语言进行优化，在各类印度语言基准测试中表现惊艳。

模型能力

印地语语音识别

多语言支持

高性能计算

使用案例

语音识别

印地语语音转文本

将印地语语音内容转换为文本

词错误率显著低于其他公开模型

🚀 印度语Whisper模型（JAX加速版）

印度语Whisper是一款在印度语言上进行微调的先进语音识别模型。本仓库包含了模型训练和评估的代码，以及可直接使用的预训练检查点，能有效解决印度语言语音识别问题，为相关任务提供强大支持。

🚀 快速开始

印度语Whisper在印度语言的各种基准测试中实现了令人印象深刻的词错误率（WER）。它的性能优于其他公开可用的模型，是印度语言语音识别任务的宝贵工具。

在Vistaar基准测试（印地语子集）上的性能

模型	常规测试集	困难测试集	FLEURS数据集	CommonVoice数据集	IndicTTS数据集	MUCS数据集	Gramvaani数据集	平均成绩
Google STT	14.3	16.7	19.4	20.8	18.3	17.8	59.9	23.9
IndicWav2vec	12.2	16.2	18.3	20.2	15	22.9	42.1	21
Azure STT	13.6	15.1	24.3	14.6	15.2	15.1	42.3	20
Nvidia-medium	14	15.6	19.4	20.4	12.3	12.4	41.3	19.4
Nvidia-large	12.7	14.2	15.7	21.2	12.2	11.8	42.6	18.6
IndicWhisper	10.3	12.0	11.4	15.0	7.6	12	26.8	13.6

✨ 主要特性

新特性：JAX模式

我们最近增加了对JAX模式的支持，这显著提升了模型在TPU和GPU上的性能。此特性特别适用于高性能计算环境，在速度和效率方面进行了优化。

本仓库基于AI4 Bharat的🤗 印度语Whisper实现，为印度语Whisper模型提供了优化后的JAX模型。与原始的印度语Whisper PyTorch代码相比，JAX实现的性能提升了70倍以上，使其成为目前最快的Whisper实现。

💻 使用示例

基础用法

from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
import jax.numpy as jnp

pipeline = FlaxWhisperPipline('parthiv11/indic_whisper_hi_multi_gpu', dtype=jnp.bfloat16)
transcript= pipeline('sample.mp3')