xls - asr - vi - 40h - 1Bオープンソースベトナム語音声認識モデル

ホーム

Xls Asr Vi 40h 1B

geninhuによって開発

facebook/wav2vec2-xls-r-1bをベースに、40時間のFPTオープン音声データセット(FOSD)と公共音声データセット7.0で微調整したベトナム語自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ベトナム語音声認識 #低リソース最適化 #多データセット訓練

ダウンロード数 23

リリース時間 : 3/2/2022

モデル概要

このモデルはベトナム語の自動音声認識(ASR)タスクに最適化されたモデルで、限られたデータセットでも優れた性能を発揮し、言語モデル統合をサポートして認識精度を向上させます。

モデル特徴

効率的な微調整

40時間のベトナム語データのみを使用して大規模事前学習モデルを微調整し、効率的なリソース利用を実現

言語モデルサポート

4-gram言語モデルの統合をサポートし、単語誤り率(WER)と文字誤り率(CER)を大幅に低下させる

多データセット検証

VIVOS、公共音声7.0、公共音声8.0などの複数のベトナム語データセットで全面的に評価

モデル能力

ベトナム語音声認識

音声からテキストへの変換

言語モデル統合のサポート

使用事例

音声文字起こし

ベトナム語音声の文字起こし

ベトナム語の音声内容をテキストに変換

公共音声7.0テストセットで25.846%のWERを達成

音声アシスタント

ベトナム語音声指令の認識

ベトナム語音声アシスタントのフロントエンド音声認識に使用

🚀 xls-asr-vi-40h-1B

このモデルは、facebook/wav2vec2-xls-r-1b を40時間のFPTオープン音声データセット（FOSD）とCommon Voice 7.0でファインチューニングしたバージョンです。

🚀 クイックスタート

このセクションでは、関連する内容はまだ提供されていません。

✨ 主な機能

事前学習モデル facebook/wav2vec2-xls-r-1b をベースにファインチューニングされており、ベトナム語の自動音声認識タスクに適しています。
複数の音声データセットで評価され、良好な単語誤り率（WER）と文字誤り率（CER）を示しています。

📚 ドキュメント

ベンチマークテストのWER結果

	VIVOS	COMMON VOICE 7.0	COMMON VOICE 8.0
言語モデルなし	25.93	34.21
4-gram言語モデルあり	24.11	25.84	31.158

ベンチマークテストのCER結果

	VIVOS	COMMON VOICE 7.0	COMMON VOICE 8.0
言語モデルなし	9.24	19.94
4-gram言語モデルあり	10.37	12.96	16.179

評価

eval.py ファイルを使用して評価を行ってください：

python eval.py --model_id geninhu/xls-asr-vi-40h-1B --dataset mozilla-foundation/common_voice_7_0 --config vi --split test --log_outputs

トレーニングプロセス

トレーニングハイパーパラメータ

トレーニングプロセスでは、以下のハイパーパラメータが使用されました：

学習率：5e-05
トレーニングバッチサイズ：16
評価バッチサイズ：16
ランダムシード：42
勾配累積ステップ数：2
総トレーニングバッチサイズ：32
オプティマイザ：Adam，β=(0.9, 0.999)，ε=1e-08
学習率スケジューラタイプ：線形
学習率スケジューラウォームアップステップ数：1500
トレーニングエポック数：10.0
混合精度トレーニング：Native AMP

トレーニング結果

トレーニング損失	エポック数	ステップ数	検証損失	単語誤り率（WER）
4.6222	1.85	1500	5.9479	0.5474
1.1362	3.7	3000	7.9799	0.5094
0.7814	5.56	4500	5.0330	0.4724
0.6281	7.41	6000	2.3484	0.5020
0.5472	9.26	7500	2.2495	0.4793
0.4827	11.11	9000	1.1530	0.4768
0.4327	12.96	10500	1.6160	0.4646
0.3989	14.81	12000	3.2633	0.4703
0.3522	16.67	13500	2.2337	0.4708
0.3201	18.52	15000	3.6879	0.4565
0.2899	20.37	16500	5.4389	0.4599
0.2776	22.22	18000	3.5284	0.4537
0.2574	24.07	19500	2.1759	0.4649
0.2378	25.93	21000	3.3901	0.4448
0.217	27.78	22500	1.1632	0.4565
0.2115	29.63	24000	1.7441	0.4232
0.1959	31.48	25500	3.4992	0.4304
0.187	33.33	27000	3.6163	0.4369
0.1748	35.19	28500	3.6038	0.4467
0.17	37.04	30000	2.9708	0.4362
0.159	38.89	31500	3.2045	0.4279
0.153	40.74	33000	3.2427	0.4287
0.1463	42.59	34500	3.5439	0.4270
0.139	44.44	36000	3.9381	0.4150
0.1352	46.3	37500	4.1744	0.4092
0.1369	48.15	39000	4.2279	0.4154
0.1273	50.0	40500	4.1691	0.4133