audioX-north-v1オープンソース多言語自動音声認識モデル - 無料でデプロイし、インド語を正確に認識可能

ホーム

Audiox North V1

jiviaiによって開発

AudioXはJivi AIが開発した多言語自動音声認識モデルで、ヒンディー語、グジャラート語、マラーティー語などインドの言語に最適化されています。

音声認識

Safetensors

その他オープンソースライセンス:Apache-2.0 #インド多言語ASR #医療シナリオ最適化 #低WER転写

ダウンロード数 810

リリース時間 : 2/16/2025

モデル概要

AudioXはインドの言語向けに設計された自動音声認識モデルシリーズで、異なる言語グループに最適化されたバリエーションを含み、高精度な音声からテキストへの変換サービスを提供します。

モデル特徴

多言語サポート

ヒンディー語、グジャラート語、マラーティー語など複数のインド言語をサポートするよう特別に最適化

高精度

Vistaar Benchmarkで優れた性能を発揮し、複数の商用ASRモデルを凌駕

頑健性

異なる地域のアクセントや音響条件下の音声入力を処理可能

混合トレーニングデータ

オープンソースASRコーパスと独自の医療データセットを組み合わせてトレーニング

モデル能力

音声からテキストへの変換

多言語音声認識

アクセント適応

使用事例

音声アシスタント

多言語音声インタラクション

インドの多言語ユーザー向けに音声インタラクションをサポート

転写サービス

医療記録転写

医師と患者の会話をテキスト記録に転写

カスタマーサービス

自動化カスタマーサポートシステム

多言語顧客の音声クエリを処理

🚀 AudioX: 多言語音声テキスト変換モデル

AudioXは、Jivi AIによって開発された最先端のインド多言語自動音声認識（ASR）モデルファミリーです。AudioX-NorthとAudioX-Southの2つの特殊なバリアントで構成されており、それぞれが異なるインドの言語セットに最適化されており、より高い精度を実現します。AudioX-Northはヒンディー語、グジャラート語、マラーティー語をサポートし、AudioX-Southはタミル語、テルグ語、カンナダ語、マラヤーラム語をカバーします。オープンソースのASRデータセットと独自の音声データを組み合わせて学習されたAudioXモデルは、アクセントや音響条件に関係なく堅牢な文字起こし機能を提供し、サポートされている言語全体で業界をリードするパフォーマンスを発揮します。 AudioX

✨ 主な機能

インドの言語に特化した設計

AudioXは、多様なインドの言語入力を扱うように設計されており、音声アシスタント、文字起こしツール、カスタマーサービス自動化、多言語コンテンツ作成などの実世界のアプリケーションをサポートします。地域のアクセントやさまざまな音質にわたって高い精度を提供します。

学習プロセス

AudioXは、オープンソースの音声認識バックボーンの上で教師あり学習を使用して微調整されています。学習パイプラインには、ドメイン適応、言語バランシング、ノイズ増強が組み込まれており、実世界のシナリオでの堅牢性を実現しています。

データ準備

このモデルは以下のデータで学習されています。

オープンソースの多言語ASRコーパス
独自のインド語の医療データセット

このハイブリッドアプローチにより、方言や音響条件にわたるモデルの汎化能力が向上します。

ベンチマーク

AudioXは、複数のインドの言語でトップクラスのパフォーマンスを達成しており、オープンソースと商用の両方のASRモデルを上回っています。私たちは、AI4BharatのVistaarスイートが提供する公式の評価スクリプトを使用して、VistaarベンチマークでAudioXを評価し、多様な言語シナリオでの厳格で標準化された比較を保証しています。

プロバイダー	モデル	ヒンディー語	グジャラート語	マラーティー語	タミル語	テルグ語	カンナダ語	マラヤーラム語	平均WER
Jivi AI	AudioX	12.14	18.66	18.68	21.79	24.63	17.61	26.92	20.1
ElevenLabs	Scribe-v1	13.64	17.96	16.51	24.84	24.89	17.65	28.88	20.6
Sarvam	saarika:v2	14.28	19.47	18.34	25.73	26.80	18.95	32.64	22.3
AI4Bharat	IndicWhisper	13.59	22.84	18.25	25.27	28.82	18.33	32.34	22.8
Microsoft	Azure STT	20.03	31.62	27.36	31.53	31.38	26.45	41.84	30.0
OpenAI	gpt-4o-transcribe	18.65	31.32	25.21	39.10	33.94	32.88	46.11	32.5
Google	Google STT	23.89	36.48	26.48	33.62	42.42	31.48	47.90	34.6
OpenAI	Whisper Large v3	32.00	53.75	78.28	52.44	179.58	67.02	142.98	86.6

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、transformers と librosa をインストールできます。

pip install transformers librosa

💻 使用例

基本的な使用法

from transformers import WhisperProcessor, WhisperForConditionalGeneration
import librosa

# モデルとプロセッサーをロード
device = "cuda"
processor = WhisperProcessor.from_pretrained("jiviai/audioX-north-v1")
model = WhisperForConditionalGeneration.from_pretrained("jiviai/audioX-north-v1").to(device)
model.config.forced_decoder_ids = None

# 音声をロードして前処理
audio_path = "sample.wav"
audio_np, sr = librosa.load(audio_path, sr=None)
if sr != 16000:
    audio_np = librosa.resample(audio_np, orig_sr=sr, target_sr=16000)

input_features = processor(audio_np, sampling_rate=16000, return_tensors="pt").to(device).input_features

# 予測を生成
# ISO 639-1言語コードを使用: 北部の場合は "hi", "mr", "gu"; 南部の場合は "ta", "te", "kn", "ml"
# または、自動言語検出の場合は言語引数を省略
predicted_ids = model.generate(input_features, task="transcribe", language="hi")

# 予測をデコード
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print(transcription)