wav2vec2-xlsr-romansh_sursilvanオープンソース音声認識モデル - ロマンシュ語-サーシルヴァン方言を高精度で認識

Wav2vec2 Xlsr Romansh Sursilvan

sammy786によって開発

このモデルは、facebook/wav2vec2-xls-r-1bをロマンシュ語-スルシルヴァン方言データセットでファインチューニングした自動音声認識モデルで、Common Voice 8テストセットで13.82%の単語誤り率(WER)を達成しました。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #ロマンシュ語音声認識 #低単語誤り率(WER13.82)#XLS-R1Bファインチューニング

ダウンロード数 18

リリース時間 : 3/2/2022

モデル概要

これはロマンシュ語-スルシルヴァン方言に最適化された自動音声認識モデルで、Facebookのwav2vec2-xls-r-1bアーキテクチャを基にファインチューニングされています。

モデル特徴

低単語誤り率

ロマンシュ語-スルシルヴァン方言テストセットで13.82%の単語誤り率(WER)と3.02%の文字誤り率(CER)を達成

大規模モデルベースのファインチューニング

facebook/wav2vec2-xls-r-1b大規模モデルを基にファインチューニングし、その強力な音声特徴抽出能力を継承

複数データセットでのトレーニング

Common Voiceフィンランド語train.tsv、dev.tsv、other.tsvなど複数のデータセットを統合してトレーニング

モデル能力

ロマンシュ語-スルシルヴァン方言音声認識

ロバストな音声イベント検出

会話音声処理

使用事例

音声文字起こし

ロマンシュ語-スルシルヴァン方言音声からテキストへ

ロマンシュ語-スルシルヴァン方言の音声内容をテキストに変換

単語誤り率13.82%、文字誤り率3.02%

音声アシスタント

ロマンシュ語-スルシルヴァン方言音声アシスタント

ロマンシュ語-スルシルヴァン方言の音声インタラクションシステムをサポート

🚀 sammy786/wav2vec2-xlsr-romansh_sursilvan

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - rm-sursilvデータセットでfacebook/wav2vec2-xls-r-1bをファインチューニングしたバージョンです。評価セット（トレーニングデータセットの10％を他のデータセットとdevデータセットと結合したもの）で以下の結果を達成しています。

損失: 16.38
Wer: 21.25

📚 ドキュメント

モデルの説明

"facebook/wav2vec2-xls-r-1b"をファインチューニングしました。

想定される用途と制限

詳細情報が必要です。

トレーニングと評価データ

トレーニングデータ - Common voice Finnish train.tsv、dev.tsv、およびother.tsv

トレーニング手順

トレーニングデータセットを作成するために、すべての可能なデータセットを追加し、90-10分割を使用しました。

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

learning_rate: 0.000045637994662983496
train_batch_size: 16
eval_batch_size: 16
seed: 13
gradient_accumulation_steps: 2
total_train_batch_size: 32
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine_with_restarts
lr_scheduler_warmup_steps: 500
num_epochs: 40
mixed_precision_training: Native AMP

トレーニング結果

Step	Training Loss	Validation Loss	Wer
200	4.825500	2.932350	1.000000
400	1.325600	0.292645	0.415436
600	0.709800	0.219167	0.324451
800	0.576800	0.174390	0.275477
1000	0.538100	0.183737	0.272116
1200	0.475200	0.159078	0.253871
1400	0.420400	0.167277	0.240907
1600	0.393500	0.167216	0.247269
1800	0.407500	0.178282	0.239827
2000	0.374400	0.184590	0.239467
2200	0.382600	0.164106	0.227824
2400	0.363100	0.162543	0.228544
2600	0.199000	0.172903	0.231665
2800	0.150800	0.160117	0.222662
3000	0.101100	0.169553	0.222662
3200	0.104200	0.161056	0.220622
3400	0.096900	0.161562	0.216781
3600	0.092200	0.163880	0.212580
3800	0.089200	0.162288	0.214140
4000	0.076200	0.160470	0.213540
4200	0.087900	0.162827	0.213060
4400	0.066200	0.161096	0.213300
4600	0.076000	0.162060	0.213660
4800	0.071400	0.162045	0.213300

フレームワークバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

評価コマンド

mozilla-foundation/common_voice_8_0のtestスプリットで評価するには

python eval.py --model_id sammy786/wav2vec2-xlsr-romansh_sursilvan --dataset mozilla-foundation/common_voice_8_0 --config rm-sursilv --split test

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

属性	详情
モデルタイプ	自動音声認識
トレーニングデータ	Common voice Finnish train.tsv、dev.tsv、およびother.tsv

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご