whisper-uzオープンソースウズベク語音声認識モデル - 無料で精度の高い音声内容認識機能

Whisper Uz

jamshidahmadovによって開発

Whisper Baseをファインチューニングしたウズベク語音声認識モデル、Common Voiceデータセットでトレーニング済み

ダウンロード数 1,179

リリース時間 : 12/16/2024

モデル概要

このモデルはウズベク語に最適化された音声認識(ASR)モデルで、OpenAIのWhisper Baseアーキテクチャを基にファインチューニングされており、ウズベク語の音声からテキストへの変換タスクに適しています

ウズベク語最適化

ウズベク語に特化してファインチューニングされており、より高い音声認識精度を提供します

低い単語誤り率

評価データセットで14.0135の単語誤り率(WER)を達成し、優れた性能を示しています

複数データセットでのトレーニング

Common Voice 17.0とUzbekVoiceデータセットを組み合わせてトレーニングされており、より広範な音声シナリオをカバーしています

ウズベク語音声認識

音声からテキストへの変換

自動音声書き起こし

音声書き起こし

会議議事録

ウズベク語の会議録音を自動的に文字記録に変換

14.01%の単語誤り率

メディア字幕生成

ウズベク語の動画コンテンツに自動的に字幕を生成

音声アシスタント

ウズベク語音声コマンド認識

ウズベク語をサポートするインテリジェント音声アシスタントに使用

このモデルは、Common Voiceデータセット上でWhisper Baseをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

このREADMEには具体的なコード例が記載されていないため、このセクションは省略されます。

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 1e-05
訓練バッチサイズ (train_batch_size): 8
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総訓練バッチサイズ (total_train_batch_size): 16
オプティマイザ (optimizer): betas=(0.9,0.999)、epsilon=1e-08のadamw_torchを使用。追加のオプティマイザ引数はなし
学習率スケジューラの種類 (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
学習ステップ数 (training_steps): 2000
混合精度学習 (mixed_precision_training): Native AMP