🚀 印度語Whisper模型(JAX加速版)
印度語Whisper是一款在印度語言上進行微調的先進語音識別模型。本倉庫包含了模型訓練和評估的代碼,以及可直接使用的預訓練檢查點,能有效解決印度語言語音識別問題,為相關任務提供強大支持。
🚀 快速開始
印度語Whisper在印度語言的各種基準測試中實現了令人印象深刻的詞錯誤率(WER)。它的性能優於其他公開可用的模型,是印度語言語音識別任務的寶貴工具。
在Vistaar基準測試(印地語子集)上的性能
模型 |
常規測試集 |
困難測試集 |
FLEURS數據集 |
CommonVoice數據集 |
IndicTTS數據集 |
MUCS數據集 |
Gramvaani數據集 |
平均成績 |
Google STT |
14.3 |
16.7 |
19.4 |
20.8 |
18.3 |
17.8 |
59.9 |
23.9 |
IndicWav2vec |
12.2 |
16.2 |
18.3 |
20.2 |
15 |
22.9 |
42.1 |
21 |
Azure STT |
13.6 |
15.1 |
24.3 |
14.6 |
15.2 |
15.1 |
42.3 |
20 |
Nvidia-medium |
14 |
15.6 |
19.4 |
20.4 |
12.3 |
12.4 |
41.3 |
19.4 |
Nvidia-large |
12.7 |
14.2 |
15.7 |
21.2 |
12.2 |
11.8 |
42.6 |
18.6 |
IndicWhisper |
10.3 |
12.0 |
11.4 |
15.0 |
7.6 |
12 |
26.8 |
13.6 |
✨ 主要特性
新特性:JAX模式
我們最近增加了對JAX模式的支持,這顯著提升了模型在TPU和GPU上的性能。此特性特別適用於高性能計算環境,在速度和效率方面進行了優化。
本倉庫基於AI4 Bharat的🤗 印度語Whisper實現,為印度語Whisper模型提供了優化後的JAX模型。與原始的印度語Whisper PyTorch代碼相比,JAX實現的性能提升了70倍以上,使其成為目前最快的Whisper實現。
💻 使用示例
基礎用法
from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
import jax.numpy as jnp
pipeline = FlaxWhisperPipline('parthiv11/indic_whisper_hi_multi_gpu', dtype=jnp.bfloat16)
transcript= pipeline('sample.mp3')
致謝
我們要感謝以下組織的支持:
- EkStep基金會提供的慷慨資助,促成了印度理工學院馬德拉斯分校AI4Bharat中心的成立。
- 電子和信息技術部(NLTM)在Bhashini項目下提供的資助,用於支持印度語言數據集和模型的創建。
- 印度先進計算發展中心(C - DAC),為我們的模型訓練提供了Param Siddhi超級計算機的使用權限。
- 微軟提供的資助,用於創建印度語言的數據集、工具和資源。
- github上的JAX指南。
📄 許可證
印度語Whisper和相關的Vistaar基準測試採用MIT許可證。此許可證適用於本倉庫中包含的所有微調語言模型。
貢獻者
- Kaushal Bhogale(AI4Bharat)
- Sai Narayan Sundaresan(印度理工學院卡拉格普爾分校,AI4Bharat)
- Abhigyan Raman(AI4Bharat)
- Tahir Javed(印度理工學院馬德拉斯分校,AI4Bharat)
- Mitesh Khapra(印度理工學院馬德拉斯分校,AI4Bharat,RBCDSAI)
- Pratyush Kumar(微軟,AI4Bharat)
🤝 貢獻
我們歡迎社區的貢獻,以進一步改進印度語Whisper。如果您有任何想法、錯誤修復或改進建議,請隨時提交拉取請求。
感謝您對印度語Whisper的關注!我們希望它能成為您印度語言語音識別需求的寶貴工具。