🚀 NVIDIA Conformer-Transducer Large (ca-es)
このプロジェクトの「stt_ca-es_conformer_transducer_large」音響モデルは、「NVIDIA/stt_es_conformer_transducer_large」 をベースに構築されており、カタルーニャ語とスペイン語のバイリンガルの自動音声認識タスクに適しており、関連する音声処理シーンに有効な解決策を提供します。
🚀 クイックスタート
インストール
このモデルを使用するには、NVIDIA NeMo をインストールする必要があります。最新バージョンの PyTorch をインストールした後にインストールすることをおすすめします。
pip install nemo_toolkit['all']
推論例
このモデルを使用してカタルーニャ語またはスペイン語の音声を文字起こしするには、以下の例を参考にしてください。
import nemo.collections.asr as nemo_asr
nemo_asr_model = nemo_asr.models.EncDecRNNTBPEModel.restore_from(model)
transcription = nemo_asr_model.transcribe([audio_path])[0].text
print(transcription)
✨ 主な機能
- バイリンガル対応:カタルーニャ語とスペイン語の自動音声認識が可能です。
- モデル規模:Conformer - Transducer の「大型」バリアントで、約 1.2 億個のパラメータを持っています。
- 文字起こし能力:カタルーニャ語とスペイン語の音声ファイルを句読点のない純粋なテキストに文字起こしできます。
📦 インストール
このモデルを使用するには、NVIDIA NeMo をインストールする必要があります。最新バージョンの PyTorch をインストールした後、以下のインストールコマンドを実行することをおすすめします。
pip install nemo_toolkit['all']
💻 使用例
基本的な使用法
import nemo.collections.asr as nemo_asr
nemo_asr_model = nemo_asr.models.EncDecRNNTBPEModel.restore_from(model)
transcription = nemo_asr_model.transcribe([audio_path])[0].text
print(transcription)
📚 ドキュメント
モデルの説明
このモデルは、音声を小文字のカタルーニャ語とスペイン語のアルファベット(スペースを含む)に文字起こしできます。7426 時間のカタルーニャ語 - スペイン語のバイリンガルデータセットで微調整されています。完全なアーキテクチャの詳細については、モデルアーキテクチャ セクションと NeMo ドキュメント を参照してください。
想定される用途と制限
このモデルは、カタルーニャ語とスペイン語の自動音声認識(ASR)に使用でき、カタルーニャ語とスペイン語の音声ファイルを句読点のない純粋なテキストに文字起こしすることを目的としています。
学習の詳細
学習データ
このモデルは、合計約 7000 時間のカタルーニャ語とスペイン語のバイリンガルデータセットで学習されており、以下のデータセットが含まれています。
学習過程
このモデルは、ベースモデル 「Nvidia/stt_es_conformer_transducer_large」 を微調整して得られたもので、微調整の過程はこの チュートリアル を参考にしています。
引用
このモデルがあなたの研究に役立った場合は、以下の内容を引用してください。
@misc{conformer-transducer-BSC-2024,
title={Bilingual ca-es ASR Model: stt_ca-es_conformer_transducer_large.},
author={Messaoudi, Abir; Külebi, Baybars},
organization={Barcelona Supercomputing Center},
url={https://huggingface.co/projecte-aina/stt_ca-es_conformer_transducer_large},
year={2024}
}
追加情報
作成者
微調整は 2024 年に Abir Messaoudi によって、バルセロナスーパーコンピューティングセンター の 言語技術部門 で行われました。
カタルーニャ語のバレンシア方言データに関しては、CENID が ILENIA プロジェクトの枠内で協力しています。
連絡先
詳細情報が必要な場合は、langtech@bsc.es までメールを送信してください。
著作権
著作権所有 (c) 2024、バルセロナスーパーコンピューティングセンター言語技術部門。
ライセンス
CC - BY - 4.0
資金援助
この研究は、Ministerio para la Transformación Digital y de la Función Pública によって資金提供されており、資金は欧州連合の NextGenerationEU 計画から提供されており、プロジェクト番号は 2022/TL22/00215337 です。
モデルの学習は、バルセロナスーパーコンピューティングセンター が MareNostrum 5 を通じて提供する計算時間のおかげで可能になりました。
📄 ライセンス
このプロジェクトは CC - BY - 4.0 ライセンスの下で提供されています。