Wavlm Vindata Demo Dist
microsoft/wavlm-baseをベトナム語データセットでファインチューニングした自動音声認識モデル
ダウンロード数 17
リリース時間 : 3/2/2022
モデル概要
このモデルはWavLMアーキテクチャに基づく自動音声認識(ASR)モデルで、ベトナム語音声認識タスクに特化してファインチューニングされています。
モデル特徴
ベトナム語音声認識最適化
ベトナム語データセットで特化してファインチューニングされ、ベトナム語の音声特性に最適化されています
WavLMアーキテクチャベース
マイクロソフトのWavLM-baseをベースモデルとして採用し、強力な音声表現能力を備えています
マルチGPUトレーニング
複数GPUを使用した分散トレーニングにより、トレーニング効率が向上しています
モデル能力
ベトナム語音声からテキストへの変換
連続音声認識
音声内容理解
使用事例
音声文字起こし
ベトナム語会議議事録
ベトナム語の会議録音を自動的に文字記録に変換
音声アシスタント
ベトナム語音声アシスタントに音声認識機能を提供
メディア処理
動画字幕生成
ベトナム語の動画コンテンツに自動的に字幕を生成
🚀 wavlm-vindata-demo-dist
このモデルは、microsoft/wavlm-base を PHONGDTD/VINDATAVLSP - NA データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 3.4439
- 単語誤り率 (Wer): 1.0
🚀 クイックスタート
このモデルは、自動音声認識タスクに特化した、微調整されたバージョンです。
🔧 技術詳細
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率 (learning_rate): 0.0003
- 学習バッチサイズ (train_batch_size): 1
- 評価バッチサイズ (eval_batch_size): 8
- 乱数シード (seed): 42
- 分散型学習タイプ (distributed_type): マルチGPU
- デバイス数 (num_devices): 2
- 総学習バッチサイズ (total_train_batch_size): 2
- 総評価バッチサイズ (total_eval_batch_size): 16
- オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類 (lr_scheduler_type): 線形
- 学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
- エポック数 (num_epochs): 15.0
- 混合精度学習 (mixed_precision_training): Native AMP
学習結果
学習損失 | エポック | ステップ | 検証損失 | 単語誤り率 (Wer) |
---|---|---|---|---|
4.0704 | 0.01 | 100 | 3.8768 | 1.0 |
3.6236 | 0.01 | 200 | 3.4611 | 1.0 |
6.597 | 0.02 | 300 | 3.4557 | 1.0 |
3.4744 | 0.03 | 400 | 3.4567 | 1.0 |
5.3992 | 0.04 | 500 | 3.4631 | 1.0 |
4.5348 | 0.04 | 600 | 3.4651 | 1.0 |
3.2457 | 0.05 | 700 | 3.4917 | 1.0 |
3.9245 | 0.06 | 800 | 3.4680 | 1.0 |
3.2904 | 0.07 | 900 | 3.4518 | 1.0 |
3.4768 | 0.07 | 1000 | 3.4506 | 1.0 |
3.2418 | 0.08 | 1100 | 3.4474 | 1.0 |
3.3111 | 0.09 | 1200 | 3.4684 | 1.0 |
3.986 | 0.09 | 1300 | 3.4465 | 1.0 |
4.3206 | 0.1 | 1400 | 3.4723 | 1.0 |
4.682 | 0.11 | 1500 | 3.4732 | 1.0 |
4.858 | 0.12 | 1600 | 3.4416 | 1.0 |
3.2949 | 0.12 | 1700 | 3.4481 | 1.0 |
3.4435 | 0.13 | 1800 | 3.4570 | 1.0 |
5.0695 | 0.14 | 1900 | 3.4448 | 1.0 |
3.4962 | 0.14 | 2000 | 3.4416 | 1.0 |
3.4891 | 0.15 | 2100 | 3.4455 | 1.0 |
4.1281 | 0.16 | 2200 | 3.4447 | 1.0 |
3.5956 | 0.17 | 2300 | 3.4512 | 1.0 |
3.6312 | 0.17 | 2400 | 3.4484 | 1.0 |
4.5383 | 0.18 | 2500 | 3.4435 | 1.0 |
6.1329 | 0.19 | 2600 | 3.4530 | 1.0 |
3.709 | 0.2 | 2700 | 3.4466 | 1.0 |
3.289 | 0.2 | 2800 | 3.4463 | 1.0 |
4.3301 | 0.21 | 2900 | 3.4418 | 1.0 |
4.6656 | 0.22 | 3000 | 3.4447 | 1.0 |
3.4288 | 0.22 | 3100 | 3.4715 | 1.0 |
3.5506 | 0.23 | 3200 | 3.4437 | 1.0 |
3.7497 | 0.24 | 3300 | 3.4910 | 1.0 |
3.5198 | 0.25 | 3400 | 3.4574 | 1.0 |
3.4183 | 0.25 | 3500 | 3.4607 | 1.0 |
4.5573 | 0.26 | 3600 | 3.4421 | 1.0 |
3.5737 | 0.27 | 3700 | 3.4481 | 1.0 |
4.9008 | 0.28 | 3800 | 3.4411 | 1.0 |
4.8725 | 0.28 | 3900 | 3.4422 | 1.0 |
3.5799 | 0.29 | 4000 | 3.4659 | 1.0 |
3.3257 | 0.3 | 4100 | 3.4519 | 1.0 |
3.6887 | 0.3 | 4200 | 3.4827 | 1.0 |
3.3037 | 0.31 | 4300 | 3.4632 | 1.0 |
5.5543 | 0.32 | 4400 | 3.4480 | 1.0 |
3.2898 | 0.33 | 4500 | 3.4404 | 1.0 |
3.2794 | 0.33 | 4600 | 3.4633 | 1.0 |
3.7896 | 0.34 | 4700 | 3.4439 | 1.0 |
3.6662 | 0.35 | 4800 | 3.4587 | 1.0 |
3.588 | 0.35 | 4900 | 3.4520 | 1.0 |
4.0535 | 0.36 | 5000 | 3.4450 | 1.0 |
3.4335 | 0.37 | 5100 | 3.4577 | 1.0 |
3.6317 | 0.38 | 5200 | 3.4443 | 1.0 |
5.2564 | 0.38 | 5300 | 3.4505 | 1.0 |
3.8781 | 0.39 | 5400 | 3.4418 | 1.0 |
4.6269 | 0.4 | 5500 | 3.4425 | 1.0 |
3.6095 | 0.41 | 5600 | 3.4581 | 1.0 |
4.6164 | 0.41 | 5700 | 3.4404 | 1.0 |
3.117 | 0.42 | 5800 | 3.4596 | 1.0 |
4.3939 | 0.43 | 5900 | 3.4401 | 1.0 |
3.5856 | 0.43 | 6000 | 3.4413 | 1.0 |
3.5187 | 0.44 | 6100 | 3.4452 | 1.0 |
4.7991 | 0.45 | 6200 | 3.4481 | 1.0 |
3.3905 | 0.46 | 6300 | 3.4420 | 1.0 |
3.5086 | 0.46 | 6400 | 3.4494 | 1.0 |
4.8217 | 0.47 | 6500 | 3.4477 | 1.0 |
3.3193 | 0.48 | 6600 | 3.4382 | 1.0 |
5.3482 | 0.49 | 6700 | 3.4580 | 1.0 |
3.3947 | 0.49 | 6800 | 3.4767 | 1.0 |
6.3352 | 0.5 | 6900 | 3.4476 | 1.0 |
3.4448 | 0.51 | 7000 | 3.4557 | 1.0 |
3.5358 | 0.51 | 7100 | 3.4438 | 1.0 |
3.3499 | 0.52 | 7200 | 3.4445 | 1.0 |
3.6932 | 0.53 | 7300 | 3.4463 | 1.0 |
6.9058 | 0.54 | 7400 | 3.4482 | 1.0 |
4.5514 | 0.54 | 7500 | 3.4422 | 1.0 |
3.517 | 0.55 | 7600 | 3.4505 | 1.0 |
7.4479 | 0.56 | 7700 | 3.4461 | 1.0 |
3.3761 | 0.56 | 7800 | 3.4511 | 1.0 |
4.5925 | 0.57 | 7900 | 3.4389 | 1.0 |
5.2682 | 0.58 | 8000 | 3.4563 | 1.0 |
5.6748 | 0.59 | 8100 | 3.4601 | 1.0 |
4.4335 | 0.59 | 8200 | 3.4439 | 1.0 |
5.1686 | 0.6 | 8300 | 3.4444 | 1.0 |
3.5245 | 0.61 | 8400 | 3.4629 | 1.0 |
4.9426 | 0.62 | 8500 | 3.4389 | 1.0 |
4.4654 | 0.62 | 8600 | 3.4427 | 1.0 |
3.5626 | 0.63 | 8700 | 3.4521 | 1.0 |
4.7086 | 0.64 | 8800 | 3.4489 | 1.0 |
3.238 | 0.64 | 8900 | 3.4478 | 1.0 |
4.2738 | 0.65 | 9000 | 3.4510 | 1.0 |
3.4468 | 0.66 | 9100 | 3.4411 | 1.0 |
3.2292 | 0.67 | 9200 | 3.4416 | 1.0 |
3.4972 | 0.67 | 9300 | 3.4643 | 1.0 |
7.3434 | 0.68 | 9400 | 3.4587 | 1.0 |
3.708 | 0.69 | 9500 | 3.4799 | 1.0 |
4.6466 | 0.69 | 9600 | 3.4490 | 1.0 |
3.3347 | 0.7 | 9700 | 3.4532 | 1.0 |
5.1486 | 0.71 | 9800 | 3.4427 | 1.0 |
3.6456 | 0.72 | 9900 | 3.4492 | 1.0 |
5.3904 | 0.72 | 10000 | 3.4497 | 1.0 |
4.8832 | 0.73 | 10100 | 3.4476 | 1.0 |
3.4482 | 0.74 | 10200 | 3.4539 | 1.0 |
3.617 | 0.75 | 10300 | 3.4547 | 1.0 |
5.4691 | 0.75 | 10400 | 3.4663 | 1.0 |
4.2759 | 0.76 | 10500 | 3.4401 | 1.0 |
8.2106 | 0.77 | 10600 | 3.4404 | 1.0 |
3.4894 | 0.77 | 10700 | 3.4426 | 1.0 |
3.6875 | 0.78 | 10800 | 3.4439 | 1.0 |
3.3277 | 0.79 | 10900 | 3.4446 | 1.0 |
4.5175 | 0.8 | 11000 | 3.4456 | 1.0 |
5.2161 | 0.8 | 11100 | 3.4388 | 1.0 |
3.5234 | 0.81 | 11200 | 3.4418 | 1.0 |
4.2212 | 0.82 | 11300 | 3.4392 | 1.0 |
3.6923 | 0.83 | 11400 | 3.4494 | 1.0 |
3.4863 | 0.83 | 11500 | 3.4572 | 1.0 |
6.3201 | 0.84 | 11600 | 3.4377 | 1.0 |
3.7543 | 0.85 | 11700 | 3.4533 | 1.0 |
3.3959 | 0.85 | 11800 | 3.4600 | 1.0 |
3.5691 | 0.86 | 11900 | 3.4673 | 1.0 |
3.49 | 0.87 | 12000 | 3.4407 | 1.0 |
7.1165 | 0.88 | 12100 | 3.4427 | 1.0 |
6.731 | 0.88 | 12200 | 3.4394 | 1.0 |
4.4682 | 0.89 | 12300 | 3.4407 | 1.0 |
3.3696 | 0.9 | 12400 | 3.4415 | 1.0 |
4.0241 | 0.9 | 12500 | 3.4454 | 1.0 |
3.521 | 0.91 | 12600 | 3.4379 | 1.0 |
5.5273 | 0.92 | 12700 | 3.4423 | 1.0 |
3.4781 | 0.93 | 12800 | 3.4635 | 1.0 |
3.4542 | 0.93 | 12900 | 3.4411 | 1.0 |
3.2363 | 0.94 | 13000 | 3.4396 | 1.0 |
5.3009 | 0.95 | 13100 | 3.4458 | 1.0 |
3.498 | 0.96 | 13200 | 3.4398 | 1.0 |
6.3325 | 0.96 | 13300 | 3.4514 | 1.0 |
3.5368 | 0.97 | 13400 | 3.4437 | 1.0 |
5.1164 | 0.98 | 13500 | 3.4623 | 1.0 |
3.6144 | 0.98 | 13600 | 3.4512 | 1.0 |
6.6018 | 0.99 | 13700 | 3.4493 | 1.0 |
3.7539 | 1.0 | 13800 | 3.4597 | 1.0 |
3.2903 | 1.01 | 13900 | 3.4813 | 1.0 |
3.3243 | 1.01 | 14000 | 3.4510 | 1.0 |
3.3485 | 1.02 | 14100 | 3.4389 | 1.0 |
3.6197 | 1.03 | 14200 | 3.4519 | 1.0 |
3.322 | 1.04 | 14300 | 3.4399 | 1.0 |
3.2897 | 1.04 | 14400 | 3.4378 | 1.0 |
3.3969 | 1.05 | 14500 | 3.4476 | 1.0 |
3.3289 | 1.06 | 14600 | 3.4646 | 1.0 |
3.3556 | 1.06 | 14700 | 3.4520 | 1.0 |
3.2527 | 1.07 | 14800 | 3.4575 | 1.0 |
3.4003 | 1.08 | 14900 | 3.4443 | 1.0 |
3.3171 | 1.09 | 15000 | 3.4434 | 1.0 |
3.4034 | 1.09 | 15100 | 3.4448 | 1.0 |
3.4363 | 1.1 | 15200 | 3.4560 | 1.0 |
3.3969 | 1.11 | 15300 | 3.4405 | 1.0 |
3.4134 | 1.11 | 15400 | 3.4408 | 1.0 |
3.5059 | 1.12 | 15500 | 3.4395 | 1.0 |
3.3963 | 1.13 | 15600 | 3.4488 | 1.0 |
3.2937 | 1.14 | 15700 | 3.4482 | 1.0 |
3.5635 | 1.14 | 15800 | 3.4621 | 1.0 |
3.4463 | 1.15 | 15900 | 3.4433 | 1.0 |
3.2588 | 1.16 | 16000 | 3.4434 | 1.0 |
3.3617 | 1.17 | 16100 | 3.4542 | 1.0 |
3.3721 | 1.17 | 16200 | 3.4388 | 1.0 |
3.3867 | 1.18 | 16300 | 3.4577 | 1.0 |
3.34 | 1.19 | 16400 | 3.4510 | 1.0 |
3.3676 | 1.19 | 16500 | 3.4434 | 1.0 |
3.5519 | 1.2 | 16600 | 3.4410 | 1.0 |
3.3129 | 1.21 | 16700 | 3.4507 | 1.0 |
3.3368 | 1.22 | 16800 | 3.4718 | 1.0 |
3.3107 | 1.22 | 16900 | 3.4439 | 1.0 |
3.2987 | 1.23 | 17000 | 3.4471 | 1.0 |
3.3102 | 1.24 | 17100 | 3.4435 | 1.0 |
3.2089 | 1.25 | 17200 | 3.4432 | 1.0 |
3.415 | 1.25 | 17300 | 3.4472 | 1.0 |
3.2884 | 1.26 | 17400 | 3.4388 | 1.0 |
3.3837 | 1.27 | 17500 | 3.4444 | 1.0 |
3.3181 | 1.27 | 17600 | 3.4438 | 1.0 |
3.3071 | 1.28 | 17700 | 3.4406 | 1.0 |
3.389 | 1.29 | 17800 | 3.4573 | 1.0 |
3.3246 | 1.3 | 17900 | 3.4580 | 1.0 |
3.3122 | 1.3 | 18000 | 3.4455 | 1.0 |
3.282 | 1.31 | 18100 | 3.4606 | 1.0 |
3.2671 | 1.32 | 18200 | 3.4378 | 1.0 |
3.3441 | 1.32 | 18300 | 3.4432 | 1.0 |
3.3115 | 1.33 | 18400 | 3.4458 | 1.0 |
3.3542 | 1.34 | 18500 | 3.4617 | 1.0 |
3.3924 | 1.35 | 18600 | 3.4549 | 1.0 |
3.4895 | 1.35 | 18700 | 3.4557 | 1.0 |
3.4071 | 1.36 | 18800 | 3.4462 | 1.0 |
3.3373 | 1.37 | 18900 | 3.4606 | 1.0 |
3.3497 | 1.38 | 19000 | 3.4458 | 1.0 |
3.3088 | 1.38 | 19100 | 3.4712 | 1.0 |
3.333 | 1.39 | 19200 | 3.4483 | 1.0 |
3.3773 | 1.4 | 19300 | 3.4455 | 1.0 |
3.357 | 1.4 | 19400 | 3.4379 | 1.0 |
3.3506 | 1.41 | 19500 | 3.4477 | 1.0 |
3.2944 | 1.42 | 19600 | 3.4478 | 1.0 |
3.241 | 1.43 | 19700 | 3.4492 | 1.0 |
3.4317 | 1.43 | 19800 | 3.4441 | 1.0 |
3.3478 | 1.44 | 19900 | 3.4385 | 1.0 |
3.3952 | 1.45 | 20000 | 3.4437 | 1.0 |
3.4808 | 1.46 | 20100 | 3.4644 | 1.0 |
3.3625 | 1.46 | 20200 | 3.4529 | 1.0 |
3.4842 | 1.47 | 20300 | 3.4524 | 1.0 |
3.3887 | 1.48 | 20400 | 3.4551 | 1.0 |
3.3198 | 1.48 | 20500 | 3.4433 | 1.0 |
3.3397 | 1.49 | 20600 | 3.4448 | 1.0 |
3.3173 | 1.5 | 20700 | 3.4590 | 1.0 |
3.3687 | 1.51 | 20800 | 3.4720 | 1.0 |
3.257 | 1.51 | 20900 | 3.4461 | 1.0 |
3.4451 | 1.52 | 21000 | 3.4541 | 1.0 |
3.2979 | 1.53 | 21100 | 3.4556 | 1.0 |
3.3566 | 1.53 | 21200 | 3.4438 | 1.0 |
3.3466 | 1.54 | 21300 | 3.4422 | 1.0 |
3.308 | 1.55 | 21400 | 3.4637 | 1.0 |
3.3952 | 1.56 | 21500 | 3.4435 | 1.0 |
3.4009 | 1.56 | 21600 | 3.4434 | 1.0 |
3.7952 | 1.57 | 21700 | 3.4675 | 1.0 |
3.3891 | 1.58 | 21800 | 3.4565 | 1.0 |
3.31 | 1.59 | 21900 | 3.4538 | 1.0 |
3.3186 | 1.59 | 22000 | 3.4492 | 1.0 |
3.3512 | 1.6 | 22100 | 3.4381 | 1.0 |
3.309 | 1.61 | 22200 | 3.4558 | 1.0 |
3.597 | 1.61 | 22300 | 3.4484 | 1.0 |
3.4474 | 1.62 | 22400 | 3.4574 | 1.0 |
3.3316 | 1.63 | 22500 | 3.4498 | 1.0 |
3.3909 | 1.64 | 22600 | 3.4384 | 1.0 |
3.6999 | 1.64 | 22700 | 3.4503 | 1.0 |
3.6071 | 1.65 | 22800 | 3.4578 | 1.0 |
3.2812 | 1.66 | 22900 | 3.4563 | 1.0 |
3.2921 | 1.67 | 23000 | 3.4564 | 1.0 |
3.3291 | 1.67 | 23100 | 3.4445 | 1.0 |
Voice Activity Detection
MIT
pyannote.audio 2.1バージョンに基づく音声活動検出モデルで、音声中の音声活動時間帯を識別するために使用されます
音声認識
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
これはポルトガル語音声認識タスク向けにファインチューニングされたXLSR-53大規模モデルで、Common Voice 6.1データセットでトレーニングされ、ポルトガル語音声からテキストへの変換をサポートします。
音声認識 その他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
WhisperはOpenAIが提案した先進的な自動音声認識(ASR)および音声翻訳モデルで、500万時間以上の注釈付きデータで訓練されており、強力なデータセット間およびドメイン間の汎化能力を持っています。
音声認識 複数言語対応
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、ゼロショット設定において強力な汎化能力を発揮します。
音声認識
Transformers 複数言語対応

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたロシア語音声認識モデル、16kHzサンプリングレートの音声入力をサポート
音声認識 その他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングした中国語音声認識モデルで、16kHzサンプリングレートの音声入力をサポートしています。
音声認識 中国語
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
facebook/wav2vec2-large-xlsr-53をファインチューニングしたオランダ語音声認識モデルで、Common VoiceとCSS10データセットでトレーニングされ、16kHz音声入力に対応しています。
音声認識 その他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをベースにファインチューニングした日本語音声認識モデルで、16kHzサンプリングレートの音声入力をサポート
音声認識 日本語
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
Hugging Faceの事前学習モデルを基にしたテキストと音声の強制アライメントツールで、多言語対応かつメモリ効率に優れています
音声認識
Transformers 複数言語対応

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
facebook/wav2vec2-large-xlsr - 53をベースに微調整されたアラビア語音声認識モデルで、Common Voiceとアラビア語音声コーパスで訓練されました。
音声認識 アラビア語
W
jonatasgrosman
2.3M
37
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98