wav2vec2-xls-r-300m-hyオープンソースモデル - 無料でアルメニア語の音声を正確に文字起こしする

ホーム

Wav2vec2 Xls R 300m Hy

arampachaによって開発

facebook/wav2vec2-xls-r-300mモデルをアルメニア語データセットでファインチューニングした自動音声認識(ASR)モデルで、アルメニア語音声からテキストへの変換タスクをサポートします。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #アルメニア語音声認識 #低文字誤り率 #マルチシナリオロバスト性

ダウンロード数 25

リリース時間 : 3/2/2022

モデル概要

このモデルはアルメニア語に特化して最適化された音声認識モデルで、Common Voice hy-AMデータセットにおいて13.19%の単語誤り率(WER)と2.79%の文字誤り率(CER)を達成しました。

モデル特徴

低単語誤り率

Common Voice hy-AMテストセットで13.19%の単語誤り率(WER)を達成

低文字誤り率

Common Voice hy-AMテストセットで2.79%の文字誤り率(CER)を達成

アルメニア語最適化

アルメニア語の音声特性に特化してファインチューニング

XLS-Rアーキテクチャ採用

Facebookの先進的なwav2vec2-xls-r-300mアーキテクチャを採用

モデル能力

アルメニア語音声認識

音声からテキストへの変換

ロバストな音声処理

使用事例

音声文字起こし

アルメニア語音声文字起こし

アルメニア語の音声コンテンツをテキストに変換

単語誤り率13.19%、文字誤り率2.79%

音声アシスタント

アルメニア語音声コマンド認識

アルメニア語音声アシスタントや制御システムの音声コマンド認識に使用

🚀 wav2vec2-xls-r-300m-hy

このモデルは自動音声認識に特化したもので、特定のデータセットで微調整され、高い精度を達成しています。

🚀 クイックスタート

このモデルは facebook/wav2vec2-xls-r-300m を /WORKSPACE/DATA/HY/NOIZY_STUDENT_3/ - NA データセットで微調整したものです。評価セットでは以下の結果を達成しています。

損失: 0.2293
単語誤り率 (WER): 0.3333
文字誤り率 (CER): 0.0602

✨ 主な機能

自動音声認識タスクに特化したモデルです。
特定のデータセットで微調整され、高い精度を達成しています。

📚 ドキュメント

モデル情報

プロパティ	詳細
モデルタイプ	自動音声認識
学習データセット	common_voice

評価結果

Common Voice hy-AM データセット
- 単語誤り率 (WER LM): 13.192818110850899
- 文字誤り率 (CER LM): 2.787051087506323
Robust Speech Event - Dev Data データセット
- テスト WER: 22.246048764990867
- テスト CER: 7.59406739840239

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 7e-05
学習バッチサイズ: 64
評価バッチサイズ: 64
シード: 842
勾配累積ステップ: 2
総学習バッチサイズ: 128
オプティマイザ: Adam (betas=(0.9,0.98), epsilon=1e-08)
学習率スケジューラタイプ: cosine
学習率スケジューラウォームアップ率: 0.1
学習ステップ: 4000
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
3.1471	7.02	400	3.1599	1.0	1.0
1.8691	14.04	800	0.7674	0.7361	0.1686
1.3227	21.05	1200	0.3849	0.5336	0.1007
1.163	28.07	1600	0.3015	0.4559	0.0823
1.0768	35.09	2000	0.2721	0.4032	0.0728
1.0224	42.11	2400	0.2586	0.3825	0.0691
0.9817	49.12	2800	0.2458	0.3653	0.0653
0.941	56.14	3200	0.2306	0.3388	0.0605
0.9235	63.16	3600	0.2315	0.3380	0.0615
0.9141	70.18	4000	0.2293	0.3333	0.0602