wav2vec2-large-xls-r-300m-turkish-colabオープンソース音声認識モデル

ホーム

Wav2vec2 Large Xls R 300m Turkish Colab

dennisowusukによって開発

このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voiceトルコ語データセットでファインチューニングした音声認識モデルで、評価セットで30.95%の単語誤り率を達成しました。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #トルコ語音声認識 #多言語対応 #低い単語誤り率

ダウンロード数 15

リリース時間 : 3/28/2022

モデル概要

これはトルコ語に最適化された音声認識モデルで、wav2vec2-xls-r-300mアーキテクチャを基にファインチューニングされており、トルコ語の音声テキスト変換タスクに適しています。

モデル特徴

トルコ語最適化

トルコ語専用にファインチューニングされており、common_voiceトルコ語データセットで良好な性能を発揮します

大規模モデルベースのファインチューニング

3億パラメータのwav2vec2-xls-r-300mモデルを基にファインチューニングされており、強力な音声特徴抽出能力を備えています

低い単語誤り率

評価セットで30.95%の単語誤り率を達成し、トルコ語認識において良好な効果を示しています

モデル能力

トルコ語音声認識

音声テキスト変換

音声内容分析

使用事例

音声文字起こし

トルコ語会議議事録

トルコ語の会議録音を自動的に文字記録に変換します

文字起こし精度は約69.05%

音声アシスタント

トルコ語音声アシスタントの音声認識モジュールとして使用

教育

言語学習アプリ

トルコ語学習者の発音チェックや文字起こし精度の確認を支援

🚀 wav2vec2-large-xls-r-300m-turkish-colab

このモデルは、common_voiceデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています：

損失: 0.3863
単語誤り率 (Wer): 0.3095

🚀 クイックスタート

このモデルは、音声認識タスクに使用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。

📚 ドキュメント

モデルの説明

詳細な情報は後日提供予定です。

想定される用途と制限

詳細な情報は後日提供予定です。

学習と評価データ

詳細な情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです：

学習率 (learning_rate): 0.0003
学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形 (linear)
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 30
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.8284	3.67	400	0.6782	0.6739
0.4174	7.34	800	0.4524	0.4811
0.2015	11.01	1200	0.4736	0.4311
0.1371	14.68	1600	0.4254	0.3929
0.0997	18.35	2000	0.4254	0.3636
0.082	22.02	2400	0.3807	0.3474
0.0665	25.69	2800	0.3987	0.3236
0.0523	29.36	3200	0.3863	0.3095