wav2vec2-xlsr-georgianオープンソースモデル - グルジア語をサポートする自動音声認識

ホーム

Wav2vec2 Xlsr Georgian

sammy786によって開発

このモデルはfacebook/wav2vec2-xls-r-1bをジョージア語データセットでファインチューニングした自動音声認識モデルです

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ジョージア語音声認識 #マルチシナリオ音声書き起こし #低単語誤り率

ダウンロード数 19

リリース時間 : 3/2/2022

モデル概要

wav2vec2-xls-r-1bアーキテクチャに基づくジョージア語自動音声認識モデルで、Common Voice 8データセットでファインチューニングされています

モデル特徴

高性能音声認識

Common Voice 8ジョージア語テストセットで23.9%の単語誤り率(WER)を達成

大規模事前学習

10億パラメータのwav2vec2-xls-r-1bモデルをベースにファインチューニング

マルチシナリオ適応

会話やロバスト音声イベントデータセットで評価済み

モデル能力

ジョージア語音声テキスト変換

自動音声認識

会話音声処理

使用事例

音声書き起こし

ジョージア語音声文字起こし

ジョージア語音声をテキストに変換

Common VoiceテストセットでWER 23.9%

対話システム

ジョージア語対話処理

ジョージア語会話音声を処理

ロバスト音声イベントテストセットでWER 74.41%

🚀 sammy786/wav2vec2-xlsr-georgian

このモデルは、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - kaデータセットでfacebook/wav2vec2-xls - r - 1bをファインチューニングしたバージョンです。評価セット（トレインデータセットの10％を他のデータセットとdevデータセットと結合したもの）で以下の結果を達成しています。

損失: 10.54
単語誤り率（Wer）: 27.53

✨ 主な機能

このモデルは自動音声認識（Automatic Speech Recognition）に特化しており、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - kaデータセットでファインチューニングされた結果、特定の評価セットで良好な性能を示しています。

📦 インストール

インストールに関する具体的な手順は提供されていません。

📚 ドキュメント

モデルの説明

"facebook/wav2vec2-xls - r - 1b" がファインチューニングされました。

想定される用途と制限

詳細な情報は必要です。

トレーニングと評価データ

トレーニングデータ - Common voice Finnishのtrain.tsv、dev.tsvおよびother.tsv

トレーニング手順

トレーニングデータセットを作成するために、可能なすべてのデータセットを追加し、90 - 10の分割を行いました。

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

学習率（learning_rate）: 0.000045637994662983496
トレーニングバッチサイズ（train_batch_size）: 8
評価バッチサイズ（eval_batch_size）: 16
シード（seed）: 13
勾配累積ステップ（gradient_accumulation_steps）: 4
総トレーニングバッチサイズ（total_train_batch_size）: 32
オプティマイザ（optimizer）: Adam（ベータ=(0.9, 0.999)、イプシロン=1e - 08）
学習率スケジューラの種類（lr_scheduler_type）: cosine_with_restarts
学習率スケジューラのウォームアップステップ（lr_scheduler_warmup_steps）: 500
エポック数（num_epochs）: 30
混合精度トレーニング（mixed_precision_training）: Native AMP

トレーニング結果

ステップ	トレーニング損失	検証損失	単語誤り率（Wer）
200	4.152100	0.823672	0.967814
400	0.889500	0.196740	0.444792
600	0.493700	0.155659	0.366115
800	0.328000	0.138066	0.358069
1000	0.260600	0.119236	0.324989
1200	0.217200	0.114050	0.313366
1400	0.188800	0.112600	0.302190
1600	0.166900	0.111154	0.295485
1800	0.155500	0.109963	0.286544
2000	0.140400	0.107587	0.277604
2200	0.142600	0.105662	0.277157
2400	0.135400	0.105414	0.275369

フレームワークのバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

評価コマンド

`mozilla - foundation/common_voice_8_0` の `test` スプリットで評価する場合

python eval.py --model_id sammy786/wav2vec2-xlsr-georgian --dataset mozilla-foundation/common_voice_8_0 --config ka --split test

🔧 技術詳細

このモデルは自動音声認識のために設計されており、"facebook/wav2vec2-xls - r - 1b" をベースにMOZILLA - FOUNDATION/COMMON_VOICE_8_0 - kaデータセットでファインチューニングされました。トレーニングデータセットの作成には、可能なすべてのデータセットを結合し、90 - 10の分割を行いました。トレーニングには特定のハイパーパラメータが使用され、混合精度トレーニングも適用されています。

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

📊 モデルの指標

タスク	データセット	評価指標	値
自動音声認識	Common Voice 8（MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - ka）	テスト単語誤り率（Test WER）	23.9
自動音声認識	Common Voice 8（MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - ka）	テスト文字誤り率（Test CER）	3.59
自動音声認識	Robust Speech Event - Dev Data	テスト単語誤り率（Test WER）	75.07
自動音声認識	Robust Speech Event - Test Data	テスト単語誤り率（Test WER）	74.41