🚀 QuartzNet 15x5 CTC Bambara
このモデルは、NVIDIAのstt_fr_quartznet15x5
を微調整し、バンバラ語の自動音声認識(ASR) に最適化したものです。このモデルは句読点や大文字を記述できません。文字エンコーディング方式を利用し、bam-asr-allデータセットのトレーニングセットに含まれる標準文字セットでテキストを文字起こしします。
このモデルは、NVIDIA NeMoを使用して微調整され、CTC(Connectionist Temporal Classification)損失を用いてトレーニングされています。
🚀 クイックスタート
モデルの微調整と使用
モデルを微調整または使用するには、NVIDIA NeMoをインストールします。最新のPyTorchバージョンをセットアップした後にインストールすることをおすすめします。
pip install nemo_toolkit['asr']
モデルの読み込み
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="RobotsMali/stt-bm-quartznet15x5")
音声の文字起こし
asr_model.transcribe(['sample_audio.wav'])
✨ 主な機能
- バンバラ語の自動音声認識に最適化されたQuartzNet 15x5モデル。
- CTC損失を用いたトレーニングにより、高精度な音声認識が可能。
📦 インストール
モデルを微調整または使用するには、以下のコマンドでNVIDIA NeMoをインストールします。
pip install nemo_toolkit['asr']
💻 使用例
基本的な使用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="RobotsMali/stt-bm-quartznet15x5")
asr_model.transcribe(['sample_audio.wav'])
📚 ドキュメント
入力
このモデルは、16 kHzのモノラルチャンネル音声(wavファイル) を入力として受け付けます。
出力
このモデルは、与えられた音声サンプルに対して文字起こしされた音声を文字列として提供します。
モデルアーキテクチャ
QuartzNetは、音声認識に最適化された1次元時間チャネル分離可能畳み込みから構成される畳み込みアーキテクチャです。QuartzNetに関する詳細情報は、こちらで確認できます: QuartzNet Model。
トレーニング
NeMoツールキットを使用して、stt_fr_quartznet15x5
モデルを25939ステップ微調整しました。このモデルは、このベースコンフィグでトレーニングされています。完全なトレーニング構成、スクリプト、および実験ログは、こちらで入手できます:
🔗 Bambara-ASR Experiments
データセット
このモデルは、bam-asr-earlyデータセットで微調整されています。このデータセットは、37時間の文字起こしされたバンバラ語の音声データから構成されており、主にJeli-ASRデータセット(約87%)に由来しています。
パフォーマンス
自動音声認識モデルのパフォーマンスは、単語誤り率(WER%) を使用して測定されます。
バージョン |
トークナイザー |
語彙サイズ |
bam-asr-all (テストセット) |
V2 |
文字単位 |
45 |
46.5 |
これらは、外部LMなしの貪欲なWERの数値です。
🔧 技術詳細
- モデルタイプ: QuartzNet 15x5 CTC
- トレーニングデータ: bam-asr-earlyデータセット
- 損失関数: CTC (Connectionist Temporal Classification) Loss
- 微調整ステップ数: 25939ステップ
モデル指標
Property |
Details |
Model Type |
QuartzNet 15x5 CTC |
Training Data |
RobotsMali/bam-asr-early |
パフォーマンス指標
自動音声認識モデルのパフォーマンスは、単語誤り率(WER%)を使用して測定されます。
Version |
Tokenizer |
Vocabulary Size |
bam-asr-all (test set) |
V2 |
Character-wise |
45 |
46.5 |
これらは、外部LMなしの貪欲なWERの数値です。
📄 ライセンス
このモデルは、CC-BY-4.0ライセンスの下で公開されています。このモデルを使用することで、ライセンスの条件に同意したことになります。
重要なリンク
注意事項
⚠️ 重要提示
このモデルとその関連リソースは、継続的な研究努力の一環であり、将来のバージョンでの改善と改良が期待されています。ユーザーは以下の点に注意する必要があります。
- このモデルは、すべての話し方の条件や方言に対して十分に汎化できない可能性があります。
- コミュニティからのフィードバックを歓迎し、モデルをさらに改良するための貢献を奨励しています。