wavLM-VLSP-viオープンソースベトナム語自動音声認識モデル - 無料で高精度な音声から文字への変換を実現

Wavlm VLSP Vi

phongdtdによって開発

microsoft/wavlm-base-plusをベースに、PHONGDTD/VINDATAVLSP - NAデータセットで微調整したベトナム語自動音声認識モデル

ダウンロード数 21

リリース時間 : 3/2/2022

モデル概要

このモデルは、ベトナム語の自動音声認識(ASR)タスクに最適化されたモデルで、WavLMアーキテクチャを基に微調整されています。

ベトナム語最適化

ベトナム語音声認識タスクに特化して微調整されています。

WavLMアーキテクチャベース

マイクロソフトのWavLM-base-plusをベースモデルとして使用し、強力な音声表現能力を持っています。

マルチGPU訓練

分散型マルチGPU訓練方式を採用し、訓練効率を向上させています。

ベトナム語音声をテキストに変換

連続音声認識

音声文字起こし

ベトナム語会議記録

ベトナム語の会議録音を文字記録に変換します。

音声アシスタント

ベトナム語音声アシスタントに音声認識機能を提供します。

このモデルは、microsoft/wavlm-base-plus を PHONGDTD/VINDATAVLSP - NA データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を得ています：

このモデルは、事前学習モデル microsoft/wavlm-base-plus を特定のデータセットでファインチューニングして作成されており、自動音声認識関連のタスクに使用できます。

このモデルは、microsoft/wavlm-base-plus をベースに、PHONGDTD/VINDATAVLSP - NA データセットに対してファインチューニングを行って得られたものです。

訓練過程では以下のハイパーパラメータが使用されました：

属性	詳細
学習率（learning_rate）	0.0003
訓練バッチサイズ（train_batch_size）	4
評価バッチサイズ（eval_batch_size）	8
乱数シード（seed）	42
分散型の種類（distributed_type）	マルチGPU（multi - GPU）
デバイス数（num_devices）	2
総訓練バッチサイズ（total_train_batch_size）	8
総評価バッチサイズ（total_eval_batch_size）	16
オプティマイザ（optimizer）	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学習率スケジューラの種類（lr_scheduler_type）	線形（linear）
学習率スケジューラのウォームアップステップ数（lr_scheduler_warmup_steps）	500
訓練エポック数（num_epochs）	50.0
混合精度訓練（mixed_precision_training）	ネイティブ自動混合精度（Native AMP）

訓練損失（Training Loss）	エポック（Epoch）	ステップ（Step）	検証損失（Validation Loss）	単語誤り率（Wer）	文字誤り率（Cer）
3.4482	9.41	40000	3.4480	0.9999	0.9974
3.4619	18.81	80000	3.4514	0.9999	0.9974
3.7961	28.22	120000	3.8732	0.9999	0.9974
24.3843	37.62	160000	22.5457	0.9999	0.9973
48.5691	47.03	200000	45.8892	0.9999	0.9973