🚀 MahaDhwani Pretrained Conformer
これは、MahaDhwaniデータセットで学習された自己教師付きの事前学習済みConformerエンコーダモデルです。このモデルは、自動音声認識タスクに役立ちます。
🚀 クイックスタート
このモデルを使用するには、まずAI4Bharat NeMoをインストールする必要があります。以下のコマンドを使用してインストールすることをおすすめします。
git clone https://github.com/AI4Bharat/NeMo.git && cd NeMo && git checkout nemo-v2 && bash reinstall.sh
✨ 主な機能
- 多言語対応:インドの22の公用語の学習データを含んでいます。
- 特定の入力形式:16000 KHzのモノラルチャンネルオーディオ(wavファイル)を入力として受け付けます。
- Conformerエンコーダ埋め込み出力:与えられたオーディオサンプルに対してConformerエンコーダの埋め込みを出力します。
📦 インストール
git clone https://github.com/AI4Bharat/NeMo.git && cd NeMo && git checkout nemo-v2 && bash reinstall.sh
💻 使用例
基本的な使用法
Huggingfaceからモデルをダウンロードして読み込みます。
import pydub
import numpy as np
import torch
import nemo.collections.asr as nemo_asr
model = nemo_asr.models.ASRModel.from_pretrained("ai4bharat/MahaDhwani_pretrained_conformer")
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.freeze()
model = model.to(device)
ターミナルで以下のコマンドを実行して、オーディオファイルを準備します。これにより、オーディオが16000 Hzでモノラルチャンネルに変換されます。
ffmpeg -i sample_audio.wav -ac 1 -ar 16000 sample_audio_infer_ready.wav
高度な使用法
推論を行います。
wavpath = 'sample.wav'
wav = pydub.AudioSegment.from_file(wavpath).set_frame_rate(16000).set_channels(1)
sarray = wav.get_array_of_samples()
fp_arr = np.array(sarray).T.astype(np.float64)
fp_arr = fp_arr.reshape((1,-1))
feature = torch.from_numpy(fp_arr).float().to(device='cuda')
length=torch.tensor([fp_arr.shape[1]]).to(device='cuda')
spectrograms, spec_masks, encoded, encoded_len = model(input_signal=feature,input_signal_length=length)
📚 ドキュメント
言語
インドの22の公用語の学習データを含んでいます。
入力
このモデルは、16000 KHzのモノラルチャンネルオーディオ(wavファイル)を入力として受け付けます。
出力
このモデルは、与えられたオーディオサンプルに対してConformerエンコーダの埋め込みを出力します。
🔧 技術詳細
このモデルはConformer-Largeモデルで、エンコーダとして1億2000万のパラメータを持っています。モデルは17個のConformerブロックから構成され、モデル次元は512です。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。