🚀 AudioX: 多言語音声テキスト変換モデル
AudioXは、Jivi AIによって開発された最先端のインド多言語自動音声認識(ASR)モデルファミリーです。AudioX-NorthとAudioX-Southの2つの特殊なバリアントで構成されており、それぞれが異なるインドの言語セットに最適化されており、より高い精度を実現します。AudioX-Northはヒンディー語、グジャラート語、マラーティー語をサポートし、AudioX-Southはタミル語、テルグ語、カンナダ語、マラヤーラム語をカバーします。オープンソースのASRデータセットと独自の音声データを組み合わせて学習されたAudioXモデルは、アクセントや音響条件に関係なく堅牢な文字起こし機能を提供し、サポートされている言語全体で業界をリードするパフォーマンスを発揮します。

✨ 主な機能
インドの言語に特化した設計
AudioXは、多様なインドの言語入力を扱うように設計されており、音声アシスタント、文字起こしツール、カスタマーサービス自動化、多言語コンテンツ作成などの実世界のアプリケーションをサポートします。地域のアクセントやさまざまな音質にわたって高い精度を提供します。
学習プロセス
AudioXは、オープンソースの音声認識バックボーンの上で教師あり学習を使用して微調整されています。学習パイプラインには、ドメイン適応、言語バランシング、ノイズ増強が組み込まれており、実世界のシナリオでの堅牢性を実現しています。
データ準備
このモデルは以下のデータで学習されています。
- オープンソースの多言語ASRコーパス
- 独自のインド語の医療データセット
このハイブリッドアプローチにより、方言や音響条件にわたるモデルの汎化能力が向上します。
ベンチマーク
AudioXは、複数のインドの言語でトップクラスのパフォーマンスを達成しており、オープンソースと商用の両方のASRモデルを上回っています。
私たちは、AI4BharatのVistaarスイートが提供する公式の評価スクリプトを使用して、VistaarベンチマークでAudioXを評価し、多様な言語シナリオでの厳格で標準化された比較を保証しています。
プロバイダー |
モデル |
ヒンディー語 |
グジャラート語 |
マラーティー語 |
タミル語 |
テルグ語 |
カンナダ語 |
マラヤーラム語 |
平均WER |
Jivi AI |
AudioX |
12.14 |
18.66 |
18.68 |
21.79 |
24.63 |
17.61 |
26.92 |
20.1 |
ElevenLabs |
Scribe-v1 |
13.64 |
17.96 |
16.51 |
24.84 |
24.89 |
17.65 |
28.88 |
20.6 |
Sarvam |
saarika:v2 |
14.28 |
19.47 |
18.34 |
25.73 |
26.80 |
18.95 |
32.64 |
22.3 |
AI4Bharat |
IndicWhisper |
13.59 |
22.84 |
18.25 |
25.27 |
28.82 |
18.33 |
32.34 |
22.8 |
Microsoft |
Azure STT |
20.03 |
31.62 |
27.36 |
31.53 |
31.38 |
26.45 |
41.84 |
30.0 |
OpenAI |
gpt-4o-transcribe |
18.65 |
31.32 |
25.21 |
39.10 |
33.94 |
32.88 |
46.11 |
32.5 |
Google |
Google STT |
23.89 |
36.48 |
26.48 |
33.62 |
42.42 |
31.48 |
47.90 |
34.6 |
OpenAI |
Whisper Large v3 |
32.00 |
53.75 |
78.28 |
52.44 |
179.58 |
67.02 |
142.98 |
86.6 |
📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、transformers
と librosa
をインストールできます。
pip install transformers librosa
💻 使用例
基本的な使用法
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import librosa
device = "cuda"
processor = WhisperProcessor.from_pretrained("jiviai/audioX-north-v1")
model = WhisperForConditionalGeneration.from_pretrained("jiviai/audioX-north-v1").to(device)
model.config.forced_decoder_ids = None
audio_path = "sample.wav"
audio_np, sr = librosa.load(audio_path, sr=None)
if sr != 16000:
audio_np = librosa.resample(audio_np, orig_sr=sr, target_sr=16000)
input_features = processor(audio_np, sampling_rate=16000, return_tensors="pt").to(device).input_features
predicted_ids = model.generate(input_features, task="transcribe", language="hi")
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print(transcription)
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。