indicconformer_stt_sa_hybrid_ctc_rnnt_largeオープンソースモデル - サンスクリット語の音声内容を無料で高精度に認識

ホーム

Indicconformer Stt Sa Hybrid Ctc Rnnt Large

ai4bharatによって開発

Conformer-Largeアーキテクチャに基づく混合CTC-RNNT音声認識モデル、サンスクリット専用設計

音声認識その他オープンソースライセンス:MIT #サンスクリット音声認識 #混合CTC-RNNTデコーディング #Conformer大規模モデル

ダウンロード数 25

リリース時間 : 9/5/2024

モデル概要

IndicConformerは高性能な自動音声認識(ASR)モデルで、混合CTC-RNNTデコーディングアーキテクチャを採用し、サンスクリット音声からテキストへの変換タスクをサポートします。

モデル特徴

混合デコーディングアーキテクチャ

CTCとRNNTの2つのデコーディング方式を同時にサポートし、より柔軟な推論選択を提供

大容量モデル

Conformer-Largeアーキテクチャを採用し、1.2億パラメータを含み、強力な音声特徴抽出能力を備える

専門言語サポート

サンスクリットに特化して最適化された音声認識モデル

モデル能力

サンスクリット音声認識

音声からテキストへの変換

16kHzモノラル音声処理をサポート

使用事例

学術研究

サンスクリット文献のデジタル化

サンスクリット音声記録を検索可能なテキスト形式に変換

文化保護

サンスクリット口承伝統の保存

サンスクリットの口承伝統や宗教経典を転写

🚀 IndicConformer

IndicConformerは、ハイブリッドCTC - RNNTコンフォーマーの自動音声認識（ASR）モデルです。このモデルは、サンスクリット語の音声を高精度に認識し、文字起こしを行うことができます。

🚀 クイックスタート

IndicConformerは、ハイブリッドCTC - RNNTコンフォーマーの自動音声認識（ASR）モデルです。以下に、このモデルの基本的な使い方を説明します。

✨ 主な機能

言語対応：サンスクリット語に対応しています。
入力形式：16000 KHzのモノラルチャンネルオーディオ（wavファイル）を入力として受け付けます。
出力形式：与えられたオーディオサンプルに対して、文字起こしされた音声を文字列として提供します。

📦 インストール

モデルをロード、トレーニング、ファインチューニングするには、AI4Bharat NeMoをインストールする必要があります。以下のコマンドを使用してインストールすることをおすすめします。

git clone https://github.com/AI4Bharat/NeMo.git && cd NeMo && git checkout nemo-v2 && bash reinstall.sh

💻 使用例

基本的な使用法

Huggingfaceからモデルをダウンロードしてロードします。

import torch
import nemo.collections.asr as nemo_asr

model = nemo_asr.models.ASRModel.from_pretrained("ai4bharat/indicconformer_stt_sa_hybrid_rnnt_large")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.freeze() # inference mode
model = model.to(device) # transfer model to device

ターミナルで以下のコマンドを実行して、オーディオファイルを準備します。これにより、オーディオが16000 Hzかつモノラルチャンネルに変換されます。

ffmpeg -i sample_audio.wav -ac 1 -ar 16000 sample_audio_infer_ready.wav

高度な使用法

CTCデコーダを使用した推論

model.cur_decoder = "ctc"
ctc_text = model.transcribe(['sample_audio_infer_ready.wav'], batch_size=1,logprobs=False, language_id='sa')[0]
print(ctc_text)

RNNTデコーダを使用した推論

model.cur_decoder = "rnnt"
rnnt_text = model.transcribe(['sample_audio_infer_ready.wav'], batch_size=1, language_id='sa')[0]
print(rnnt_text)

📚 ドキュメント

モデルアーキテクチャ

このモデルは、コンフォーマー-Largeモデルで、エンコーダとして1億2000万のパラメータを持ち、ハイブリッドCTC - RNNTデコーダを備えています。モデルは17個のコンフォーマーブロックで構成され、モデル次元は512です。

📄 ライセンス

このプロジェクトはMITライセンスの下でライセンスされています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご