wav2vec2-xlsr-エストニア語オープンソース音声認識モデル

ホーム

Wav2vec2 Xlsr Estonian

sammy786によって開発

これはfacebook/wav2vec2-xls-r-1bモデルをエストニア語データセットでファインチューニングした自動音声認識モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #エストニア語音声認識 #XLS-Rファインチューニングモデル #マルチシナリオ音声書き起こし

ダウンロード数 21

リリース時間 : 3/2/2022

モデル概要

このモデルはエストニア語の自動音声認識(ASR)タスク向けに最適化されており、Mozilla Common Voice 8.0データセットでトレーニングされています。

モデル特徴

高性能音声認識

Common Voiceテストセットで23.61%のWERと4.6%のCERを達成

大規模事前学習モデルのファインチューニング

10億パラメータのwav2vec2-xls-r-1bモデルを基にファインチューニング

マルチシナリオ適応能力

標準音声とロバスト音声イベントデータセットの両方で評価済み

モデル能力

エストニア語音声認識

会話音声のテキスト変換

ロバスト音声処理

使用事例

音声書き起こし

音声アシスタント

エストニア語音声アシスタントの開発に使用

会議議事録

エストニア語の会議内容を自動でテキストに変換

音声分析

音声コンテンツ分析

エストニア語音声コンテンツの分析

🚀 sammy786/wav2vec2-xlsr-estonian

このモデルは、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - etデータセット上でfacebook/wav2vec2 - xls - r - 1bをファインチューニングしたバージョンです。評価セット（トレインデータセットの10％を他のデータセットとdevデータセットと結合したもの）で以下の結果を達成しています。

損失: 17.94
単語誤り率（Wer）: 30.38

📚 ドキュメント

モデルの説明

"facebook/wav2vec2 - xls - r - 1b"をファインチューニングしました。

想定される用途と制限

詳細情報が必要です。

トレーニングと評価データ

トレーニングデータ - Common voice Finnishのtrain.tsv、dev.tsv、およびother.tsv

トレーニング手順

トレーニングデータセットを作成するために、可能なすべてのデータセットを追加し、90 - 10の分割を行いました。

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

学習率: 0.000045637994662983496
トレーニングバッチサイズ: 8
評価バッチサイズ: 16
シード: 13
勾配累積ステップ: 2
総トレーニングバッチサイズ: 32
オプティマイザ: Adam（ベータ=(0.9, 0.999)、イプシロン = 1e - 08）
学習率スケジューラのタイプ: cosine_with_restarts
学習率スケジューラのウォームアップステップ: 500
エポック数: 30
混合精度トレーニング: Native AMP

トレーニング結果

ステップ	トレーニング損失	検証損失	単語誤り率（Wer）
200	3.729100	1.096018	0.959867
400	0.996900	0.310228	0.443600
600	0.762900	0.210873	0.346117
800	0.621400	0.200381	0.331513
1000	0.408000	0.196382	0.322014
1200	0.320200	0.176281	0.312515
1400	0.315300	0.179433	0.303847
1600	0.445800	0.420985	0.315839
1800	0.644600	0.433833	0.354904
2000	0.550900	0.327117	0.336500
2200	0.498600	0.289830	0.325457
2400	0.488300	0.294309	0.314177
2600	0.491700	0.311175	0.318689
2800	0.508500	0.314744	0.320470
3000	0.499900	0.314834	0.320589

フレームワークバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

評価コマンド

mozilla - foundation/common_voice_8_0のtestスプリットで評価するには

python eval.py --model_id sammy786/wav2vec2-xlsr-estonian --dataset mozilla-foundation/common_voice_8_0 --config et --split test

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

🔍 モデル情報

プロパティ	詳細
モデルタイプ	自動音声認識
トレーニングデータ	Common voice Finnishのtrain.tsv、dev.tsv、およびother.tsv
タグ	自動音声認識、mozilla - foundation/common_voice_8_0、generated_from_trainer、et、robust - speech - event、model_for_talk、hf - asr - leaderboard