wav2vec2-xls-r-300m-rm-vallader-d1オープンソースモデル - ロマンシュ語

ホーム

Wav2vec2 Xls R 300m Rm Vallader D1

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをロマンシュ語-ヴァラダー語データセットでファインチューニングした自動音声認識モデルです。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #ロマンシュ語音声認識 #低単語誤り率 #多言語サポート

ダウンロード数 23

リリース時間 : 3/2/2022

モデル概要

このモデルはロマンシュ語-ヴァラダー語の自動音声認識タスク専用で、Common Voice 8データセットで良好な性能を発揮しました。

モデル特徴

多言語サポート

ロマンシュ語-ヴァラダー語に最適化された音声認識能力

効率的なトレーニング

事前学習済みモデルを基にしたファインチューニングで、トレーニング効率が高い

良好な性能

Common Voice 8テストセットで26.47%の単語誤り率(WER)と5.86%の文字誤り率(CER)を達成

モデル能力

音声からテキストへの変換

ロマンシュ語-ヴァラダー語認識

使用事例

音声文字起こし

音声コンテンツの文字起こし

ロマンシュ語-ヴァラダー語の音声コンテンツをテキストに変換

26.47% WER

音声アシスタント

ローカライズされた音声アシスタント

ロマンシュ語-ヴァラダー語圏向けの音声アシスタントアプリケーション開発

🚀 wav2vec2-xls-r-300m-rm-vallader-d1

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - RM-VALLADERデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたものです。評価セットでは以下の結果を達成しています。

🚀 クイックスタート

このモデルは自動音声認識タスクに使用できます。以下に評価コマンドの例を示します。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。

pip install transformers datasets torch tokenizers

💻 使用例

基本的な使用法

以下は、モデルを評価するためのコマンドの例です。

mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-xls-r-300m-rm-vallader-d1 --dataset mozilla-foundation/common_voice_8_0 --config rm-vallader --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合

Romansh-Vallader言語はspeech-recognition-community-v2/dev_dataに見つかりません。

📚 ドキュメント

評価結果

このモデルは以下の評価結果を達成しています。

タスク	データセット	評価指標	値
自動音声認識	Common Voice 8	Test WER	0.26472007722007723
自動音声認識	Common Voice 8	Test CER	0.05860608074430969
自動音声認識	Robust Speech Event - Dev Data	Test WER	NA
自動音声認識	Robust Speech Event - Dev Data	Test CER	NA

訓練ハイパーパラメータ

訓練時に使用されたハイパーパラメータは以下の通りです。

パラメータ	値
学習率	7.5e-05
訓練バッチサイズ	32
評価バッチサイズ	16
シード	42
オプティマイザ	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類	線形
学習率スケジューラのウォームアップステップ	500
エポック数	100.0
混合精度訓練	Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失	Wer
2.927	15.15	500	2.9196	1.0
1.3835	30.3	1000	0.5879	0.5866
0.7415	45.45	1500	0.3077	0.3316
0.5575	60.61	2000	0.2735	0.2954
0.4581	75.76	2500	0.2707	0.2802
0.3977	90.91	3000	0.2785	0.2809