wav2vec2-xlsr-53-rm-vallader-with-lmオープンソースモデル - ロマンシュ語ヴァラディル方言の音声認識をサポート

Wav2vec2 Xlsr 53 Rm Vallader With Lm

anuragshasによって開発

wav2vec2 - xlsr - 53をベースにした、言語モデルを搭載したロマンシュ語ヴァラディア方言の音声認識モデル

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

このモデルはwav2vec2 - xlsr - 53アーキテクチャに基づく音声認識モデルで、ロマンシュ語のヴァラディア方言に特化して微調整され、認識精度を向上させるために言語モデルが統合されています。

多言語事前学習の基礎

wav2vec2 - xlsr - 53アーキテクチャに基づいており、このアーキテクチャは53種類の言語で事前学習されています。

方言固有の最適化

ロマンシュ語のヴァラディア方言に特化して微調整されています。

言語モデルの統合

認識精度を向上させるために言語モデルが統合されています。

比較的高い認識精度

評価セットで32.06%の単語誤り率を達成しています。

音声認識

方言音声処理

音声からテキストへの変換

音声書き起こし

ヴァラディア方言の音声録音の書き起こし

ロマンシュ語のヴァラディア方言の音声録音をテキストに変換する

単語誤り率32.06%

言語研究

方言音声分析

言語学研究においてヴァラディア方言の音声特徴を分析するために使用する

学習損失	エポック数	ステップ数	検証損失	単語誤り率（Wer）
0.2379	3.12	100	0.4041	0.3396
0.103	6.25	200	0.4400	0.3337
0.0664	9.38	300	0.4239	0.3315
0.0578	12.5	400	0.4303	0.3267
0.0446	15.62	500	0.4575	0.3274
0.041	18.75	600	0.4451	0.3223
0.0402	21.88	700	0.4507	0.3206
0.0374	25.0	800	0.4649	0.3208
0.0371	28.12	900	0.4552	0.3206