MahaDhwani_pretrained_conformerオープンソースモデル - 22種類のインド語の自動音声認識を無料でサポート

ホーム

Mahadhwani Pretrained Conformer

ai4bharatによって開発

自己教師付き学習に基づく事前学習Conformerエンコーダモデルで、インドの22種類の指定言語の自動音声認識タスクをサポートします。

音声認識オープンソースライセンス:MIT #多言語音声認識 #自己教師付き事前学習 #Conformerエンコーダ

ダウンロード数 349

リリース時間 : 12/13/2024

モデル概要

このモデルは事前学習されたConformerエンコーダで、主に自動音声認識タスクに使用され、多言語処理をサポートします。

モデル特徴

多言語サポート

モデルの学習データには、インドの22種類の指定言語のデータが含まれています。

高効率エンコーダ

Conformer-Largeアーキテクチャを使用し、1.2億パラメータのエンコーダです。

自己教師付き学習

自己教師付き学習方法を採用して事前学習を行います。

モデル能力

音声認識

多言語処理

音声特徴抽出

使用事例

音声認識

多言語音声をテキストに変換

インドの複数の言語の音声をテキストに変換します。

🚀 MahaDhwani Pretrained Conformer

これは、MahaDhwaniデータセットで学習された自己教師付きの事前学習済みConformerエンコーダモデルです。このモデルは、自動音声認識タスクに役立ちます。

🚀 クイックスタート

このモデルを使用するには、まずAI4Bharat NeMoをインストールする必要があります。以下のコマンドを使用してインストールすることをおすすめします。

git clone https://github.com/AI4Bharat/NeMo.git && cd NeMo && git checkout nemo-v2 && bash reinstall.sh

✨ 主な機能

多言語対応：インドの22の公用語の学習データを含んでいます。
特定の入力形式：16000 KHzのモノラルチャンネルオーディオ（wavファイル）を入力として受け付けます。
Conformerエンコーダ埋め込み出力：与えられたオーディオサンプルに対してConformerエンコーダの埋め込みを出力します。

📦 インストール

git clone https://github.com/AI4Bharat/NeMo.git && cd NeMo && git checkout nemo-v2 && bash reinstall.sh

💻 使用例

基本的な使用法

Huggingfaceからモデルをダウンロードして読み込みます。

import pydub
import numpy as np
import torch
import nemo.collections.asr as nemo_asr

model = nemo_asr.models.ASRModel.from_pretrained("ai4bharat/MahaDhwani_pretrained_conformer")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.freeze() # inference mode
model = model.to(device) # transfer model to device

ターミナルで以下のコマンドを実行して、オーディオファイルを準備します。これにより、オーディオが16000 Hzでモノラルチャンネルに変換されます。

ffmpeg -i sample_audio.wav -ac 1 -ar 16000 sample_audio_infer_ready.wav

高度な使用法

推論を行います。

wavpath = 'sample.wav'
wav = pydub.AudioSegment.from_file(wavpath).set_frame_rate(16000).set_channels(1)
sarray = wav.get_array_of_samples()
fp_arr = np.array(sarray).T.astype(np.float64)
fp_arr = fp_arr.reshape((1,-1))
feature = torch.from_numpy(fp_arr).float().to(device='cuda')
length=torch.tensor([fp_arr.shape[1]]).to(device='cuda')

spectrograms, spec_masks, encoded, encoded_len = model(input_signal=feature,input_signal_length=length)