wav2vec2-large-xls-r-300m-bulgarianオープンソースモデル - ブルガリア語の音声認識を高精度で実現

ホーム

Wav2vec2 Large Xls R 300m Bulgarian

infinitejoyによって開発

facebook/wav2vec2 - xls - r - 300mをMOZILLA - FOUNDATION/COMMON_VOICE_7_0 - BGデータセットでファインチューニングしたブルガリア語音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ブルガリア語音声認識 #多シーン音声文字起こし #低リソース言語最適化

ダウンロード数 10.59k

リリース時間 : 3/2/2022

モデル概要

これはブルガリア語の自動音声認識(ASR)に使用するモデルで、XLS - Rアーキテクチャに基づき、Common Voice 7.0のブルガリア語データセットでファインチューニングされています。

モデル特徴

多言語事前学習

XLS - R - 300M多言語モデルをファインチューニングしており、強力な音声表現能力を持っています。

ブルガリア語最適化

ブルガリア語に特化してファインチューニングされており、特定の言語特性に適応しています。

中規模

300Mのパラメータ規模で、性能とリソース消費のバランスを取っています。

モデル能力

ブルガリア語音声認識

音声をテキストに変換

対話文字起こし

使用事例

音声文字起こし

音声メモの文字起こし

ブルガリア語の音声メモをテキストに変換します。

Common Voice 7テストセットでWER 46.68%

カスタマーサービス対話記録

ブルガリア語のカスタマーサービス対話内容を自動記録します。

ロバスト音声イベントテストデータでWER 64.08%

支援技術

音声制御アプリケーション

ブルガリア語ユーザーに音声制御インターフェースを提供します。

🚀 wav2vec2-large-xls-r-300m-bulgarian

このモデルは、facebook/wav2vec2-xls-r-300mをMOZILLA - FOUNDATION/COMMON_VOICE_7_0 - BGデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を得ています。

損失：0.4487
単語誤り率（Wer）：0.4674

🚀 クイックスタート

このモデルを使うことで、保加リア語の自動音声認識を行うことができます。

📚 ドキュメント

モデル情報

属性	詳細
サポート言語	ブルガリア語（bg）
ライセンス	Apache - 2.0
タグ	自動音声認識、mozilla - foundation/common_voice_7_0、generated_from_trainer、bg、robust - speech - event、model_for_talk、hf - asr - leaderboard
データセット	mozilla - foundation/common_voice_7_0

モデル評価結果

タスク	データセット	テスト単語誤り率（WER）	テスト文字誤り率（CER）
自動音声認識	Common Voice 7	46.68	10.75
自動音声認識	Robust Speech Event - Dev Data	63.68	19.88
自動音声認識	Robust Speech Event - Test Data	64.08	未提及

学習過程

学習ハイパーパラメータ

学習時には以下のハイパーパラメータを使用しました。

学習率：7e - 05
学習バッチサイズ：32
評価バッチサイズ：32
乱数シード：42
オプティマイザ：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学習率スケジューラタイプ：線形
学習率スケジューラウォームアップステップ数：500
学習エポック数：100.0
混合精度学習：Native AMP

学習結果

学習損失	エポック数	ステップ数	検証損失	単語誤り率（Wer）
2.9774	6.33	500	2.9769	1.0
1.3453	12.66	1000	0.6523	0.6980
1.1658	18.99	1500	0.5636	0.6359
1.0797	25.32	2000	0.5004	0.5759
1.044	31.65	2500	0.4958	0.5569
0.9915	37.97	3000	0.4971	0.5350
0.9429	44.3	3500	0.4829	0.5229
0.9266	50.63	4000	0.4515	0.5074
0.8965	56.96	4500	0.4599	0.5039
0.878	63.29	5000	0.4735	0.4954
0.8494	69.62	5500	0.4460	0.4878
0.8343	75.95	6000	0.4510	0.4795
0.8236	82.28	6500	0.4538	0.4789
0.8069	88.61	7000	0.4526	0.4748
0.7958	94.94	7500	0.4496	0.4700