wav2vec2 - xlsr - インターリングアオープンソースモデル - 无料で国际语の自动音声认识を実现！

ホーム

Wav2vec2 Xlsr Interlingua

sammy786によって開発

このモデルはfacebook/wav2vec2-xls-r-1bをMOZILLA-FOUNDATION/COMMON_VOICE_8_0 - iaデータセットでファインチューニングしたバージョンで、国際語の自動音声認識に使用されます。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #国際語音声認識 #低単語誤り率 #多言語サポート

ダウンロード数 183

リリース時間 : 3/2/2022

モデル概要

これは国際語に最適化された自動音声認識モデルで、wav2vec2-xls-r-1bアーキテクチャを基にファインチューニングされ、Common Voice 8データセットで訓練され、国際語の音声からテキストへの変換タスクをサポートします。

モデル特徴

高性能国際語認識

Common Voice 8国際語テストセットで16.81%の単語誤り率(WER)と4.76%の文字誤り率(CER)を達成

大規模事前訓練モデルベース

facebook/wav2vec2-xls-r-1bモデルを基にファインチューニングされ、強力な音声特徴抽出能力を継承

最適化された訓練プロセス

cosine_with_restarts学習率スケジューリングと混合精度訓練を採用し、効率的で安定した訓練プロセス

モデル能力

国際語音声認識

音声からテキストへ

頑健な音声イベント処理

使用事例

音声文字起こし

国際語音声文字起こし

国際語の音声コンテンツをテキストに変換

16.81% WER

対話システム

国際語対話理解

国際語対話システムの音声入力処理に使用

🚀 sammy786/wav2vec2-xlsr-interlingua

このモデルは、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - iaデータセット上でfacebook/wav2vec2-xls - r - 1bをファインチューニングしたバージョンです。評価セット（トレインデータセットの10％を他のデータセットとdevデータセットと結合したもの）で以下の結果を達成しています。

損失: 5.44
単語誤り率 (Wer): 19.78

🚀 クイックスタート

このモデルは自動音声認識タスクに使用できます。以下の評価コマンドを使って、mozilla - foundation/common_voice_8_0データセットで評価できます。

python eval.py --model_id sammy786/wav2vec2-xlsr-interlingua --dataset mozilla-foundation/common_voice_8_0 --config ia --split test

✨ 主な機能

自動音声認識タスクに対応。
MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - iaデータセットでファインチューニングされている。

📚 ドキュメント

モデルの説明

"facebook/wav2vec2-xls - r - 1b"をファインチューニングしています。

想定される用途と制限

詳細な情報は必要です。

トレーニングと評価データ

トレーニングデータ - Common voice Finnish train.tsv、dev.tsvおよびother.tsv

トレーニング手順

トレーニングデータセットを作成するために、可能なすべてのデータセットを追加し、90 - 10の分割を使用しました。

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 0.000045637994662983496
トレーニングバッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 16
シード (seed): 13
勾配累積ステップ (gradient_accumulation_steps): 2
総トレーニングバッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam（ベータ=(0.9, 0.999)、イプシロン=1e - 08）
学習率スケジューラの種類 (lr_scheduler_type): cosine_with_restarts
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 30
混合精度トレーニング (mixed_precision_training): Native AMP

トレーニング結果

ステップ	トレーニング損失	検証損失	単語誤り率 (Wer)
200	4.649200	0.483339	0.511322
400	0.764700	0.133428	0.251288
600	0.563700	0.099292	0.227745
800	0.438800	0.087545	0.217445
1000	0.406800	0.072313	0.213848
1200	0.237500	0.066965	0.213766
1400	0.177800	0.064419	0.208126
1600	0.157100	0.065962	0.214011
1800	0.146600	0.059477	0.202076
2000	0.132800	0.055015	0.201831
2200	0.122000	0.055421	0.201749
2400	0.115700	0.054462	0.197826