🚀 带JAX的IndicWhisper(更快)
IndicWhisper是一款在印度语言上进行微调的先进语音识别模型。本仓库包含用于训练和评估该模型的代码,以及可立即使用的预训练检查点。
🚀 快速开始
IndicWhisper是一款在印度语言上进行微调的先进语音识别模型。本仓库包含用于训练和评估该模型的代码,以及可立即使用的预训练检查点。
✨ 主要特性
- IndicWhisper在印度语言的各种基准测试中实现了令人印象深刻的单词错误率(WER),优于其他公开可用的模型,是印度语言语音识别任务的宝贵工具。
- 新增JAX模式支持,显著提升了在TPU和GPU上的性能,适用于高性能计算环境,在速度和效率方面进行了优化。
📚 详细文档
概述
IndicWhisper在印度语言的各种基准测试中实现了令人印象深刻的单词错误率(WER)。它优于其他公开可用的模型,是印度语言语音识别任务的宝贵资产。
在Vistaar基准测试(印地语子集)上的性能
模型 |
朗读文本 |
困难朗读文本 |
FLEURS |
通用语音 |
IndicTTS |
MUCS |
Gramvaani |
平均值 |
Google STT |
14.3 |
16.7 |
19.4 |
20.8 |
18.3 |
17.8 |
59.9 |
23.9 |
IndicWav2vec |
12.2 |
16.2 |
18.3 |
20.2 |
15 |
22.9 |
42.1 |
21 |
Azure STT |
13.6 |
15.1 |
24.3 |
14.6 |
15.2 |
15.1 |
42.3 |
20 |
Nvidia-medium |
14 |
15.6 |
19.4 |
20.4 |
12.3 |
12.4 |
41.3 |
19.4 |
Nvidia-large |
12.7 |
14.2 |
15.7 |
21.2 |
12.2 |
11.8 |
42.6 |
18.6 |
IndicWhisper |
10.3 |
12.0 |
11.4 |
15.0 |
7.6 |
12 |
26.8 |
13.6 |
💻 使用示例
基础用法
from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
import jax.numpy as jnp
pipeline = FlaxWhisperPipline('parthiv11/indic_whisper_nodcil', dtype=jnp.bfloat16)
transcript= pipeline('sample.mp3')
致谢
我们要感谢以下组织的支持:
- EkStep基金会提供的慷慨资助,促成了印度理工学院马德拉斯分校AI4Bharat中心的成立。
- 电子和信息技术部(NLTM)的资助,支持了Bhashini项目下印度语言数据集和模型的创建。
- 印度先进计算发展中心(C - DAC),为我们训练模型提供了Param Siddhi超级计算机的使用权限。
- 微软的资助,用于创建印度语言的数据集、工具和资源。
- github上的JAX指南。
📄 许可证
IndicWhisper和相关的Vistaar基准测试采用MIT许可证。此许可证适用于本仓库中包含的所有微调语言模型。
贡献者
- Kaushal Bhogale(AI4Bharat)
- Sai Narayan Sundaresan(印度理工学院卡拉格普尔分校,AI4Bharat)
- Abhigyan Raman(AI4Bharat)
- Tahir Javed(印度理工学院马德拉斯分校,AI4Bharat)
- Mitesh Khapra(印度理工学院马德拉斯分校,AI4Bharat,RBCDSAI)
- Pratyush Kumar(微软,AI4Bharat)
贡献
我们欢迎社区的贡献,以进一步改进IndicWhisper。如果您有任何想法、错误修复或增强功能,请随时提交拉取请求。
感谢您对IndicWhisper的关注!我们希望它能成为您印度语言语音识别需求的宝贵工具。