🚀 印度语Whisper模型(JAX加速版)
印度语Whisper是一款在印度语言上进行微调的先进语音识别模型。本仓库包含了模型训练和评估的代码,以及可直接使用的预训练检查点,能有效解决印度语言语音识别问题,为相关任务提供强大支持。
🚀 快速开始
印度语Whisper在印度语言的各种基准测试中实现了令人印象深刻的词错误率(WER)。它的性能优于其他公开可用的模型,是印度语言语音识别任务的宝贵工具。
在Vistaar基准测试(印地语子集)上的性能
模型 |
常规测试集 |
困难测试集 |
FLEURS数据集 |
CommonVoice数据集 |
IndicTTS数据集 |
MUCS数据集 |
Gramvaani数据集 |
平均成绩 |
Google STT |
14.3 |
16.7 |
19.4 |
20.8 |
18.3 |
17.8 |
59.9 |
23.9 |
IndicWav2vec |
12.2 |
16.2 |
18.3 |
20.2 |
15 |
22.9 |
42.1 |
21 |
Azure STT |
13.6 |
15.1 |
24.3 |
14.6 |
15.2 |
15.1 |
42.3 |
20 |
Nvidia-medium |
14 |
15.6 |
19.4 |
20.4 |
12.3 |
12.4 |
41.3 |
19.4 |
Nvidia-large |
12.7 |
14.2 |
15.7 |
21.2 |
12.2 |
11.8 |
42.6 |
18.6 |
IndicWhisper |
10.3 |
12.0 |
11.4 |
15.0 |
7.6 |
12 |
26.8 |
13.6 |
✨ 主要特性
新特性:JAX模式
我们最近增加了对JAX模式的支持,这显著提升了模型在TPU和GPU上的性能。此特性特别适用于高性能计算环境,在速度和效率方面进行了优化。
本仓库基于AI4 Bharat的🤗 印度语Whisper实现,为印度语Whisper模型提供了优化后的JAX模型。与原始的印度语Whisper PyTorch代码相比,JAX实现的性能提升了70倍以上,使其成为目前最快的Whisper实现。
💻 使用示例
基础用法
from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
import jax.numpy as jnp
pipeline = FlaxWhisperPipline('parthiv11/indic_whisper_hi_multi_gpu', dtype=jnp.bfloat16)
transcript= pipeline('sample.mp3')
致谢
我们要感谢以下组织的支持:
- EkStep基金会提供的慷慨资助,促成了印度理工学院马德拉斯分校AI4Bharat中心的成立。
- 电子和信息技术部(NLTM)在Bhashini项目下提供的资助,用于支持印度语言数据集和模型的创建。
- 印度先进计算发展中心(C - DAC),为我们的模型训练提供了Param Siddhi超级计算机的使用权限。
- 微软提供的资助,用于创建印度语言的数据集、工具和资源。
- github上的JAX指南。
📄 许可证
印度语Whisper和相关的Vistaar基准测试采用MIT许可证。此许可证适用于本仓库中包含的所有微调语言模型。
贡献者
- Kaushal Bhogale(AI4Bharat)
- Sai Narayan Sundaresan(印度理工学院卡拉格普尔分校,AI4Bharat)
- Abhigyan Raman(AI4Bharat)
- Tahir Javed(印度理工学院马德拉斯分校,AI4Bharat)
- Mitesh Khapra(印度理工学院马德拉斯分校,AI4Bharat,RBCDSAI)
- Pratyush Kumar(微软,AI4Bharat)
🤝 贡献
我们欢迎社区的贡献,以进一步改进印度语Whisper。如果您有任何想法、错误修复或改进建议,请随时提交拉取请求。
感谢您对印度语Whisper的关注!我们希望它能成为您印度语言语音识别需求的宝贵工具。