aradia-ctc-hubert-ftオープンソースアラビア語自動音声認識モデル

ホーム

Aradia Ctc Hubert Ft

abdusahによって開発

HuBERTアーキテクチャに基づくアラビア語自動音声認識モデル、300時間のアラビア語音声データセットでファインチューニング済み

音声認識

Transformers

#アラビア語音声認識 #HuBERTファインチューニング #大規模音声データセット

ダウンロード数 30

リリース時間 : 3/31/2022

モデル概要

このモデルはHuBERTアーキテクチャに基づきCTC損失関数で最適化されたアラビア語自動音声認識モデルで、300時間の大規模アラビア語音声データセットでファインチューニングされており、主にアラビア語音声をテキストに変換するために使用されます。

モデル特徴

大規模アラビア語トレーニング

300時間のアラビア語音声データセットでトレーニングされ、幅広い音声シナリオをカバー

HuBERTアーキテクチャ最適化

HuBERT自己教師あり学習アーキテクチャに基づき、CTC損失関数を組み合わせて最適化

比較的低い単語誤り率

評価データセットで0.3737の単語誤り率(WER)を達成

モデル能力

アラビア語音声認識

連続音声テキスト変換

大規模音声処理

使用事例

音声文字起こし

アラビア語会議議事録

アラビア語会議録音を自動的に文字記録に変換

単語誤り率約37%

音声アシスタント

アラビア語音声アシスタントに音声認識機能を提供

教育

言語学習アプリケーション

学習者がアラビア語の発音とリスニングを練習するのを支援

🚀 aradia-ctc-hubert-ft

このモデルは、ABDUSAHMBZUAI/ARABIC_SPEECH_MASSIVE_300HRS - NAデータセット上で/l/users/abdulwahab.sahyoun/aradia/aradia-ctc-hubert-ftをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.8536
単語誤り率 (Wer): 0.3737

📚 詳細ドキュメント

モデルの説明

このモデルは、自動音声認識タスクに特化したモデルです。元のモデルを特定のデータセットでファインチューニングすることで、特定の音声データに対する性能を向上させています。

想定される用途と制限

このモデルは、アラビア語の自動音声認識に使用することを想定しています。ただし、特定のデータセットで訓練されているため、そのデータセットと異なる音声データ（例えば、異なるアクセントや環境音のある音声）に対しては性能が低下する可能性があります。

訓練と評価データ

このモデルは、ABDUSAHMBZUAI/ARABIC_SPEECH_MASSIVE_300HRS - NAデータセットを使用して訓練および評価されました。

訓練手順

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0003
訓練バッチサイズ (train_batch_size): 32
評価バッチサイズ (eval_batch_size): 32
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総訓練バッチサイズ (total_train_batch_size): 64
オプティマイザ (optimizer): Adam（ベータ=(0.9, 0.999)、イプシロン=1e-08）
学習率スケジューラの種類 (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 30.0
混合精度訓練 (mixed_precision_training): Native AMP

訓練結果

訓練損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
No log	0.43	100	3.6934	1.0
No log	0.87	200	3.0763	1.0
No log	1.3	300	2.9737	1.0
No log	1.74	400	2.5734	1.0
5.0957	2.17	500	1.1900	0.9011
5.0957	2.61	600	0.9726	0.7572
5.0957	3.04	700	0.8960	0.6209
5.0957	3.48	800	0.7851	0.5515
5.0957	3.91	900	0.7271	0.5115
1.0312	4.35	1000	0.7053	0.4955
1.0312	4.78	1100	0.6823	0.4737
1.0312	5.22	1200	0.6768	0.4595
1.0312	5.65	1300	0.6635	0.4488
1.0312	6.09	1400	0.6602	0.4390
0.6815	6.52	1500	0.6464	0.4310
0.6815	6.95	1600	0.6455	0.4394
0.6815	7.39	1700	0.6630	0.4312
0.6815	7.82	1800	0.6521	0.4126
0.6815	8.26	1900	0.6282	0.4284
0.544	8.69	2000	0.6248	0.4178
0.544	9.13	2100	0.6510	0.4104
0.544	9.56	2200	0.6527	0.4013
0.544	10.0	2300	0.6511	0.4064
0.544	10.43	2400	0.6734	0.4061
0.4478	10.87	2500	0.6756	0.4145
0.4478	11.3	2600	0.6727	0.3990
0.4478	11.74	2700	0.6619	0.4007
0.4478	12.17	2800	0.6614	0.4019
0.4478	12.61	2900	0.6695	0.4004
0.3919	13.04	3000	0.6778	0.3966
0.3919	13.48	3100	0.6872	0.3971
0.3919	13.91	3200	0.6882	0.3945
0.3919	14.35	3300	0.7177	0.4010
0.3919	14.78	3400	0.6888	0.4043
0.3767	15.22	3500	0.7124	0.4202
0.3767	15.65	3600	0.7276	0.4120
0.3767	16.09	3700	0.7265	0.4034
0.3767	16.52	3800	0.7392	0.4077
0.3767	16.95	3900	0.7403	0.3965
0.3603	17.39	4000	0.7445	0.4016
0.3603	17.82	4100	0.7579	0.4012
0.3603	18.26	4200	0.7225	0.3963
0.3603	18.69	4300	0.7355	0.3951
0.3603	19.13	4400	0.7482	0.3925
0.3153	19.56	4500	0.7723	0.3972
0.3153	20.0	4600	0.7469	0.3898
0.3153	20.43	4700	0.7800	0.3944
0.3153	20.87	4800	0.7827	0.3897
0.3153	21.3	4900	0.7935	0.3914
0.286	21.74	5000	0.7984	0.3750
0.286	22.17	5100	0.7945	0.3830
0.286	22.61	5200	0.8011	0.3775
0.286	23.04	5300	0.7978	0.3824
0.286	23.48	5400	0.8161	0.3833
0.2615	23.91	5500	0.7823	0.3858
0.2615	24.35	5600	0.8312	0.3863
0.2615	24.78	5700	0.8427	0.3819
0.2615	25.22	5800	0.8432	0.3802
0.2615	25.65	5900	0.8286	0.3794
0.2408	26.09	6000	0.8224	0.3824
0.2408	26.52	6100	0.8228	0.3823
0.2408	26.95	6200	0.8324	0.3795
0.2408	27.39	6300	0.8564	0.3744
0.2408	27.82	6400	0.8629	0.3774
0.2254	28.26	6500	0.8545	0.3778
0.2254	28.69	6600	0.8492	0.3767
0.2254	29.13	6700	0.8511	0.3751
0.2254	29.56	6800	0.8491	0.3753
0.2254	30.0	6900	0.8536	0.3737

フレームワークバージョン

Transformers: 4.18.0.dev0
Pytorch: 1.10.2+cu113
Datasets: 1.18.4
Tokenizers: 0.11.6

情報テーブル

属性	詳情
モデルタイプ	自動音声認識用のファインチューニング済みモデル
訓練データ	ABDUSAHMBZUAI/ARABIC_SPEECH_MASSIVE_300HRS - NAデータセット