stt-bm-quartznet15x5-V0オープンソースバンバラ語音声認識モデル - 音声からテキストへのタスクを無料で処理

ホーム

Stt Bm Quartznet15x5 V0

RobotsMaliによって開発

これはNVIDIA NeMoフレームワークを基に微調整されたバンバラ語自動音声認識モデルで、バンバラ語音声をテキストに変換するタスクに適しています。

音声認識

PyTorch

その他#バンバラ語音声認識 #低リソース言語最適化 #CTC損失トレーニング

ダウンロード数 88

リリース時間 : 2/7/2025

モデル概要

このモデルはNVIDIA stt_fr_quartznet15x5の微調整バージョンで、バンバラ語自動音声認識のために最適化され、CTC損失関数を用いてトレーニングされています。

モデル特徴

バンバラ語最適化

バンバラ語音声認識に特化して微調整・最適化されています

軽量アーキテクチャ

パラメータがわずか19MのQuartzNet 15x5アーキテクチャを採用し、リソースが限られた環境に適しています

継続的改善

継続的な研究プロジェクトの一部であり、将来のバージョンでさらなる最適化が予定されています

モデル能力

バンバラ語音声認識

16kHzモノラル音声処理

使用事例

音声からテキストへ

バンバラ語音声書き起こし

バンバラ語音声をテキストに変換します

テストセットで46.5%のWERを達成

🚀 QuartzNet 15x5 CTC Bambara

このモデルは、NVIDIAのstt_fr_quartznet15x5を微調整し、バンバラ語の自動音声認識（ASR） に最適化したものです。このモデルは句読点や大文字を記述できません。文字エンコーディング方式を利用し、bam-asr-allデータセットのトレーニングセットに含まれる標準文字セットでテキストを文字起こしします。

このモデルは、NVIDIA NeMoを使用して微調整され、CTC（Connectionist Temporal Classification）損失を用いてトレーニングされています。

🚀 クイックスタート

モデルの微調整と使用

モデルを微調整または使用するには、NVIDIA NeMoをインストールします。最新のPyTorchバージョンをセットアップした後にインストールすることをおすすめします。

pip install nemo_toolkit['asr']

モデルの読み込み

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="RobotsMali/stt-bm-quartznet15x5")

音声の文字起こし

# テスト用の音声ファイル sample_audio.wav があると仮定
asr_model.transcribe(['sample_audio.wav'])

✨ 主な機能

バンバラ語の自動音声認識に最適化されたQuartzNet 15x5モデル。
CTC損失を用いたトレーニングにより、高精度な音声認識が可能。

📦 インストール

モデルを微調整または使用するには、以下のコマンドでNVIDIA NeMoをインストールします。

pip install nemo_toolkit['asr']

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="RobotsMali/stt-bm-quartznet15x5")
# テスト用の音声ファイル sample_audio.wav があると仮定
asr_model.transcribe(['sample_audio.wav'])

📚 ドキュメント

入力

このモデルは、16 kHzのモノラルチャンネル音声（wavファイル） を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して文字起こしされた音声を文字列として提供します。

モデルアーキテクチャ

QuartzNetは、音声認識に最適化された1次元時間チャネル分離可能畳み込みから構成される畳み込みアーキテクチャです。QuartzNetに関する詳細情報は、こちらで確認できます: QuartzNet Model。

トレーニング

NeMoツールキットを使用して、stt_fr_quartznet15x5モデルを25939ステップ微調整しました。このモデルは、このベースコンフィグでトレーニングされています。完全なトレーニング構成、スクリプト、および実験ログは、こちらで入手できます:

🔗 Bambara-ASR Experiments

データセット

このモデルは、bam-asr-earlyデータセットで微調整されています。このデータセットは、37時間の文字起こしされたバンバラ語の音声データから構成されており、主にJeli-ASRデータセット（約87％）に由来しています。

パフォーマンス

自動音声認識モデルのパフォーマンスは、単語誤り率（WER%） を使用して測定されます。

バージョン	トークナイザー	語彙サイズ	bam-asr-all (テストセット)
V2	文字単位	45	46.5

これらは、外部LMなしの貪欲なWERの数値です。

🔧 技術詳細

モデルタイプ: QuartzNet 15x5 CTC
トレーニングデータ: bam-asr-earlyデータセット
損失関数: CTC (Connectionist Temporal Classification) Loss
微調整ステップ数: 25939ステップ

モデル指標

Property	Details
Model Type	QuartzNet 15x5 CTC
Training Data	RobotsMali/bam-asr-early

パフォーマンス指標

自動音声認識モデルのパフォーマンスは、単語誤り率（WER%）を使用して測定されます。

Version	Tokenizer	Vocabulary Size	bam-asr-all (test set)
V2	Character-wise	45	46.5

これらは、外部LMなしの貪欲なWERの数値です。

📄 ライセンス

このモデルは、CC-BY-4.0ライセンスの下で公開されています。このモデルを使用することで、ライセンスの条件に同意したことになります。

重要なリンク

注意事項

⚠️ 重要提示

このモデルとその関連リソースは、継続的な研究努力の一環であり、将来のバージョンでの改善と改良が期待されています。ユーザーは以下の点に注意する必要があります。

このモデルは、すべての話し方の条件や方言に対して十分に汎化できない可能性があります。

コミュニティからのフィードバックを歓迎し、モデルをさらに改良するための貢献を奨励しています。