whisper-small-tajikオープンソースモデル - 無料で高精度なタジキ語自動音声認識を実現

Whisper Small Tajik

abduazizによって開発

OpenAI Whisper-smallをファインチューニングしたタジク語自動音声認識モデルで、Google Fleursデータセットでトレーニングされ、単語誤り率24.26%です。

ダウンロード数 25

リリース時間 : 1/20/2025

モデル概要

このモデルはタジク語に最適化された自動音声認識(ASR)モデルで、タジク語音声をテキストに変換するのに適しています。

タジク語最適化

タジク語に特化してファインチューニングされており、元のWhisperモデルと比べて現地言語の認識能力が向上しています

効率的なトレーニング

比較的小さなトレーニングバッチ(16)と勾配蓄積(2ステップ)を使用して効率的にトレーニングされています

最適化された学習率スケジューリング

0.1比率のウォームアップを伴うcosine学習率スケジューラーを採用し、トレーニングプロセスを最適化しています

タジク語音声認識

音声からテキストへの変換

音声文字起こし

タジク語会議議事録

タジク語の会議録音を自動的に文字記録に変換します

単語誤り率約24.26%

音声アシスタント

タジク語音声アシスタントアプリケーションの音声認識モジュールとして使用できます

教育

言語学習アプリケーション

学習者がタジク語の発音の正確さをチェックするのを支援します

このモデルは、Google Fleursデータセットでopenai/whisper-smallをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルを使用することで、タジク語の自動音声認識を行うことができます。

必要なライブラリをインストールするには、以下のコマンドを実行します。

pip install transformers datasets torch tokenizers

モデル名	タスク	データセット	評価指標	値
Whisper Small Tajik	自動音声認識 (Automatic Speech Recognition)	Google Fleurs (config: tg, split: test)	Wer	24.260635774157837

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 1e-05
学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配蓄積ステップ (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): adamw_torch (betas=(0.9,0.999), epsilon=1e-08, 追加のオプティマイザ引数なし)
学習率スケジューラの種類 (lr_scheduler_type): cosine
学習率スケジューラのウォームアップ比率 (lr_scheduler_warmup_ratio): 0.1
エポック数 (num_epochs): 10
混合精度学習 (mixed_precision_training): Native AMP

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
2.7687	1.0	79	0.5778	39.6568
0.7193	2.0	158	0.3890	28.3568
0.3659	3.0	237	0.3611	26.0636
0.2021	4.0	316	0.3629	25.1068
0.1099	5.0	395	0.3740	25.3044
0.0597	6.0	474	0.3887	24.3081
0.0339	7.0	553	0.4005	24.6639
0.0213	8.0	632	0.4082	24.3239
0.0158	9.0	711	0.4131	24.2685
0.014	10.0	790	0.4141	24.2606