wav2vec2_common_voice_accents_3オープンソース音声認識モデル

ホーム

Wav2vec2 Common Voice Accents 3

willcaiによって開発

facebook/wav2vec2-xls-r-300mをCommon Voiceデータセットでファインチューニングした音声認識モデル

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #多言語アクセント音声認識 #XLS-Rアーキテクチャのファインチューニング #低損失音声モデル

ダウンロード数 16

リリース時間 : 3/16/2022

モデル概要

これは多言語アクセント音声認識に最適化されたモデルで、wav2vec2-xls-r-300mアーキテクチャを基にファインチューニングされており、一般的な音声認識タスクに適しています

モデル特徴

多言語アクセント対応

Common Voiceデータセットでファインチューニングされており、様々なアクセントの音声を認識可能

効率的なトレーニング

混合精度トレーニングと分散トレーニング技術を使用し、トレーニング効率を向上

低い検証損失

30エポックのトレーニング後、検証損失は0.0042まで低下し、優れた性能を発揮

モデル能力

音声認識

多言語アクセント音声処理

音響特徴抽出

使用事例

音声テキスト変換

会議議事録

会議録音を自動的にテキスト記録に変換

高精度な文字起こし

音声アシスタント

音声アシスタントの基礎認識エンジンとして使用

多様なアクセントのユーザー入力に対応

音声分析

アクセント識別

音声中の異なるアクセント特徴を識別・分析

言語学研究や市場分析に活用可能

🚀 wav2vec2_common_voice_accents_3

このモデルは、facebook/wav2vec2-xls-r-300m を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.0042

🚀 クイックスタート

このモデルは、音声関連のタスクに使用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。

📚 ドキュメント

モデルの説明

このモデルは、音声データを処理するために、事前学習済みのモデルをファインチューニングしたものです。詳細な情報は今後の更新で提供される予定です。

想定される用途と制限

このモデルの想定される用途や制限に関する詳細情報は、今後の更新で提供される予定です。

学習と評価データ

学習と評価に使用されたデータに関する詳細情報は、今後の更新で提供される予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 0.0003
学習バッチサイズ: 48
評価バッチサイズ: 4
シード: 42
分散タイプ: マルチGPU
デバイス数: 8
総学習バッチサイズ: 384
総評価バッチサイズ: 32
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラのタイプ: 線形
学習率スケジューラのウォームアップステップ: 500
エポック数: 30
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失
4.584	1.27	400	1.1439
0.481	2.55	800	0.1986
0.2384	3.82	1200	0.1060
0.1872	5.1	1600	0.1016
0.158	6.37	2000	0.0942
0.1427	7.64	2400	0.0646
0.1306	8.92	2800	0.0612
0.1197	10.19	3200	0.0423
0.1129	11.46	3600	0.0381
0.1054	12.74	4000	0.0326
0.0964	14.01	4400	0.0293
0.0871	15.29	4800	0.0239
0.0816	16.56	5200	0.0168
0.0763	17.83	5600	0.0202
0.0704	19.11	6000	0.0224
0.0669	20.38	6400	0.0208
0.063	21.66	6800	0.0074
0.0585	22.93	7200	0.0126
0.0548	24.2	7600	0.0086
0.0512	25.48	8000	0.0080
0.0487	26.75	8400	0.0052
0.0455	28.03	8800	0.0062
0.0433	29.3	9200	0.0042