S

Stt Bm Quartznet15x5 V0

RobotsMaliによって開発
これはNVIDIA NeMoフレームワークを基に微調整されたバンバラ語自動音声認識モデルで、バンバラ語音声をテキストに変換するタスクに適しています。
ダウンロード数 88
リリース時間 : 2/7/2025

モデル概要

このモデルはNVIDIA stt_fr_quartznet15x5の微調整バージョンで、バンバラ語自動音声認識のために最適化され、CTC損失関数を用いてトレーニングされています。

モデル特徴

バンバラ語最適化
バンバラ語音声認識に特化して微調整・最適化されています
軽量アーキテクチャ
パラメータがわずか19MのQuartzNet 15x5アーキテクチャを採用し、リソースが限られた環境に適しています
継続的改善
継続的な研究プロジェクトの一部であり、将来のバージョンでさらなる最適化が予定されています

モデル能力

バンバラ語音声認識
16kHzモノラル音声処理

使用事例

音声からテキストへ
バンバラ語音声書き起こし
バンバラ語音声をテキストに変換します
テストセットで46.5%のWERを達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase