Wav2vec2 1b Npsc Nst Bokmaal
W
Wav2vec2 1b Npsc Nst Bokmaal
NbAiLabによって開発
このモデルは、ノルウェー語Bokmål方言の音声データセットでfacebook/wav2vec2-xls-r-1bを微調整した自動音声認識(ASR)モデルです
ダウンロード数 30
リリース時間 : 5/23/2022
モデル概要
ノルウェー語Bokmål方言に最適化された音声認識モデルで、wav2vec2-xls-r-1bアーキテクチャを基に微調整されており、高い認識精度を有します
モデル特徴
高精度
評価セットで0.0345の低い単語誤り率(WER)を達成
大規模事前学習
10億パラメータの大規模wav2vec2-xls-rモデルを基に微調整
ノルウェー語最適化
ノルウェー語Bokmål方言に特化して最適化
モデル能力
ノルウェー語音声認識
音声からテキストへの変換
音声内容の理解
使用事例
音声書き起こし
ノルウェー語会議議事録
ノルウェー語の会議録音を自動的に文字記録に変換
高精度な書き起こし結果
音声アシスタント
ノルウェー語音声アシスタントに音声認識機能を提供
教育
言語学習アプリ
学習者がノルウェー語の発音とリスニングを練習するのを支援
🚀 wav2vec2-1b-npsc-nst-bokmaal
このモデルは、facebook/wav2vec2-xls-r-1b をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 0.0636
- 単語誤り率 (Wer): 0.0345
🚀 クイックスタート
このモデルは音声関連のタスクに使用できます。具体的な使用方法については、以下のセクションを参照してください。
🔧 技術詳細
トレーニングハイパーパラメータ
トレーニング中に以下のハイパーパラメータが使用されました。
- 学習率 (learning_rate): 2e-05
- トレーニングバッチサイズ (train_batch_size): 12
- 評価バッチサイズ (eval_batch_size): 12
- 乱数シード (seed): 42
- 勾配累積ステップ数 (gradient_accumulation_steps): 2
- 総トレーニングバッチサイズ (total_train_batch_size): 24
- オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類 (lr_scheduler_type): linear
- 学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 2000
- エポック数 (num_epochs): 40.0
- 混合精度トレーニング (mixed_precision_training): Native AMP
トレーニング結果
トレーニング損失 | エポック | ステップ | 検証損失 | 単語誤り率 (Wer) |
---|---|---|---|---|
2.9289 | 0.04 | 500 | 2.7971 | 1.0 |
0.7651 | 0.08 | 1000 | 0.5766 | 0.5701 |
0.518 | 0.12 | 1500 | 0.3660 | 0.3564 |
0.5481 | 0.16 | 2000 | 0.2730 | 0.2557 |
0.4286 | 0.2 | 2500 | 0.2282 | 0.2385 |
0.4543 | 0.24 | 3000 | 0.1852 | 0.1843 |
0.4064 | 0.28 | 3500 | 0.1574 | 0.1544 |
0.3308 | 0.32 | 4000 | 0.1558 | 0.1404 |
0.3005 | 0.36 | 4500 | 0.1417 | 0.1349 |
0.2898 | 0.4 | 5000 | 0.1304 | 0.1301 |
0.2739 | 0.44 | 5500 | 0.1316 | 0.1258 |
0.2429 | 0.48 | 6000 | 0.1222 | 0.1221 |
0.2405 | 0.52 | 6500 | 0.1224 | 0.1147 |
0.2681 | 0.56 | 7000 | 0.1162 | 0.1119 |
0.2382 | 0.6 | 7500 | 0.1251 | 0.1338 |
0.2193 | 0.64 | 8000 | 0.1121 | 0.1087 |
0.2235 | 0.68 | 8500 | 0.1058 | 0.1059 |
0.2124 | 0.72 | 9000 | 0.1106 | 0.1060 |
0.2076 | 0.76 | 9500 | 0.1023 | 0.1003 |
0.2082 | 0.8 | 10000 | 0.0985 | 0.1037 |
0.2272 | 0.84 | 10500 | 0.0990 | 0.1019 |
0.1903 | 0.88 | 11000 | 0.0982 | 0.0978 |
0.2044 | 0.92 | 11500 | 0.0966 | 0.0991 |
0.1976 | 0.96 | 12000 | 0.0925 | 0.0958 |
0.1966 | 1.0 | 12500 | 0.0924 | 0.0929 |
0.1959 | 1.04 | 13000 | 0.0888 | 0.0918 |
0.1727 | 1.08 | 13500 | 0.0901 | 0.0943 |
0.1853 | 1.12 | 14000 | 0.0934 | 0.0890 |
0.1791 | 1.16 | 14500 | 0.0935 | 0.0914 |
0.1872 | 1.2 | 15000 | 0.0851 | 0.0883 |
0.1821 | 1.24 | 15500 | 0.0857 | 0.0873 |
0.1756 | 1.28 | 16000 | 0.0884 | 0.0890 |
0.1666 | 1.32 | 16500 | 0.0871 | 0.0849 |
0.1708 | 1.36 | 17000 | 0.0837 | 0.0863 |
0.1653 | 1.4 | 17500 | 0.0831 | 0.0849 |
0.1734 | 1.44 | 18000 | 0.0808 | 0.0850 |
0.1643 | 1.48 | 18500 | 0.0814 | 0.0835 |
0.1635 | 1.52 | 19000 | 0.0810 | 0.0816 |
0.1611 | 1.56 | 19500 | 0.0827 | 0.0829 |
0.1633 | 1.6 | 20000 | 0.0797 | 0.0820 |
0.1626 | 1.64 | 20500 | 0.0789 | 0.0820 |
0.1618 | 1.68 | 21000 | 0.0766 | 0.0817 |
0.1634 | 1.72 | 21500 | 0.0783 | 0.0832 |
0.1761 | 1.76 | 22000 | 0.0787 | 0.0817 |
0.1518 | 1.8 | 22500 | 0.0775 | 0.0817 |
0.1492 | 1.84 | 23000 | 0.0785 | 0.0802 |
0.1652 | 1.88 | 23500 | 0.0759 | 0.0783 |
0.1545 | 1.92 | 24000 | 0.0758 | 0.0788 |
0.1548 | 1.96 | 24500 | 0.0774 | 0.0816 |
0.1641 | 2.0 | 25000 | 0.0734 | 0.0780 |
0.1506 | 2.04 | 25500 | 0.0718 | 0.0748 |
0.1474 | 2.08 | 26000 | 0.0748 | 0.0746 |
0.137 | 2.12 | 26500 | 0.0736 | 0.0744 |
0.1483 | 2.16 | 27000 | 0.0744 | 0.0763 |
0.1472 | 2.2 | 27500 | 0.0728 | 0.0736 |
0.143 | 2.24 | 28000 | 0.0708 | 0.0767 |
0.1467 | 2.28 | 28500 | 0.0721 | 0.0737 |
0.1286 | 2.32 | 29000 | 0.0701 | 0.0748 |
0.1407 | 2.36 | 29500 | 0.0695 | 0.0740 |
0.1377 | 2.4 | 30000 | 0.0674 | 0.0725 |
0.1344 | 2.44 | 30500 | 0.0696 | 0.0711 |
0.1337 | 2.48 | 31000 | 0.0686 | 0.0733 |
0.1384 | 2.52 | 31500 | 0.0686 | 0.0710 |
0.1355 | 2.56 | 32000 | 0.0667 | 0.0721 |
0.1334 | 2.6 | 32500 | 0.0665 | 0.0712 |
0.1401 | 2.64 | 33000 | 0.0694 | 0.0719 |
0.1368 | 2.68 | 33500 | 0.0689 | 0.0692 |
0.1259 | 2.72 | 34000 | 0.0669 | 0.0701 |
0.1354 | 2.76 | 34500 | 0.0672 | 0.0691 |
0.1319 | 2.8 | 35000 | 0.0707 | 0.0702 |
0.1408 | 2.84 | 35500 | 0.0650 | 0.0685 |
0.1355 | 2.88 | 36000 | 0.0671 | 0.0696 |
0.1252 | 2.92 | 36500 | 0.0655 | 0.0671 |
0.155 | 2.96 | 37000 | 0.0662 | 0.0679 |
0.1266 | 3.0 | 37500 | 0.0654 | 0.0669 |
0.1183 | 3.04 | 38000 | 0.0655 | 0.0664 |
0.1213 | 3.08 | 38500 | 0.0668 | 0.0665 |
0.1099 | 3.12 | 39000 | 0.0662 | 0.0660 |
0.1196 | 3.16 | 39500 | 0.0652 | 0.0657 |
0.1253 | 3.2 | 40000 | 0.0674 | 0.0655 |
0.1172 | 3.24 | 40500 | 0.0656 | 0.0654 |
0.1207 | 3.28 | 41000 | 0.0640 | 0.0660 |
0.1228 | 3.32 | 41500 | 0.0668 | 0.0658 |
0.1203 | 3.36 | 42000 | 0.0640 | 0.0642 |
0.1284 | 3.4 | 42500 | 0.0650 | 0.0664 |
0.1058 | 3.44 | 43000 | 0.0618 | 0.0648 |
0.1236 | 3.48 | 43500 | 0.0638 | 0.0649 |
0.1149 | 3.52 | 44000 | 0.0636 | 0.0653 |
0.1203 | 3.56 | 44500 | 0.0633 | 0.0644 |
0.114 | 3.6 | 45000 | 0.0624 | 0.0635 |
0.1201 | 3.64 | 45500 | 0.0608 | 0.0638 |
0.121 | 3.68 | 46000 | 0.0610 | 0.0631 |
0.1125 | 3.72 | 46500 | 0.0603 | 0.0634 |
0.1149 | 3.76 | 47000 | 0.0616 | 0.0644 |
0.1119 | 3.8 | 47500 | 0.0623 | 0.0638 |
0.124 | 3.84 | 48000 | 0.0610 | 0.0629 |
0.1113 | 3.88 | 48500 | 0.0612 | 0.0616 |
0.116 | 3.92 | 49000 | 0.0607 | 0.0641 |
0.1096 | 3.96 | 49500 | 0.0603 | 0.0626 |
0.1144 | 4.0 | 50000 | 0.0607 | 0.0617 |
0.1052 | 4.04 | 50500 | 0.0597 | 0.0612 |
0.1163 | 4.08 | 51000 | 0.0607 | 0.0631 |
0.1031 | 4.12 | 51500 | 0.0605 | 0.0609 |
0.1087 | 4.16 | 52000 | 0.0617 | 0.0621 |
0.1132 | 4.2 | 52500 | 0.0618 | 0.0611 |
0.0956 | 4.24 | 53000 | 0.0619 | 0.0615 |
0.1055 | 4.28 | 53500 | 0.0602 | 0.0607 |
0.1088 | 4.32 | 54000 | 0.0608 | 0.0595 |
0.1153 | 4.36 | 54500 | 0.0598 | 0.0605 |
0.0997 | 4.4 | 55000 | 0.0590 | 0.0605 |
0.1092 | 4.44 | 55500 | 0.0597 | 0.0606 |
0.1112 | 4.48 | 56000 | 0.0602 | 0.0594 |
0.0959 | 4.52 | 56500 | 0.0595 | 0.0591 |
0.1072 | 4.56 | 57000 | 0.0592 | 0.0602 |
0.1068 | 4.6 | 57500 | 0.0586 | 0.0594 |
0.111 | 4.64 | 58000 | 0.0570 | 0.0587 |
0.1 | 4.68 | 58500 | 0.0594 | 0.0596 |
0.1082 | 4.72 | 59000 | 0.0589 | 0.0590 |
0.1023 | 4.76 | 59500 | 0.0574 | 0.0590 |
0.1053 | 4.8 | 60000 | 0.0575 | 0.0588 |
0.0984 | 4.84 | 60500 | 0.0575 | 0.0583 |
0.0995 | 4.88 | 61000 | 0.0597 | 0.0591 |
0.0955 | 4.92 | 61500 | 0.0560 | 0.0590 |
0.1186 | 4.96 | 62000 | 0.0591 | 0.0577 |
0.0976 | 5.0 | 62500 | 0.0573 | 0.0585 |
0.1049 | 5.04 | 63000 | 0.0578 | 0.0572 |
0.0953 | 5.08 | 63500 | 0.0587 | 0.0574 |
0.0976 | 5.12 | 64000 | 0.0567 | 0.0589 |
0.1019 | 5.16 | 64500 | 0.0583 | 0.0582 |
0.0986 | 5.2 | 65000 | 0.0577 | 0.0571 |
0.0985 | 5.24 | 65500 | 0.0572 | 0.0577 |
0.103 | 5.28 | 66000 | 0.0581 | 0.0593 |
0.101 | 5.32 | 66500 | 0.0575 | 0.0579 |
0.1085 | 5.36 | 67000 | 0.0582 | 0.0583 |
0.1029 | 5.4 | 67500 | 0.0565 | 0.0581 |
0.0954 | 5.44 | 68000 | 0.0560 | 0.0582 |
0.0974 | 5.48 | 68500 | 0.0565 | 0.0577 |
0.0929 | 5.52 | 69000 | 0.0573 | 0.0575 |
0.099 | 5.56 | 69500 | 0.0565 | 0.0561 |
0.1009 | 5.6 | 70000 | 0.0566 | 0.0563 |
0.2268 | 5.64 | 70500 | 0.0564 | 0.0569 |
0.0974 | 5.68 | 71000 | 0.0565 | 0.0567 |
0.1101 | 5.72 | 71500 | 0.0573 | 0.0559 |
0.088 | 5.76 | 72000 | 0.0576 | 0.0551 |
0.1106 | 5.8 | 72500 | 0.0553 | 0.0559 |
0.0934 | 5.84 | 73000 | 0.0548 | 0.0561 |
0.0949 | 5.88 | 73500 | 0.0552 | 0.0560 |
0.0906 | 5.92 | 74000 | 0.0538 | 0.0570 |
0.1038 | 5.96 | 74500 | 0.0563 | 0.0563 |
0.1056 | 6.0 | 75000 | 0.0564 | 0.0556 |
0.0983 | 6.04 | 75500 | 0.0570 | 0.0560 |
0.0917 | 6.08 | 76000 | 0.0563 | 0.0560 |
0.096 | 6.12 | 76500 | 0.0558 | 0.0549 |
0.0971 | 6.16 | 77000 | 0.0569 | 0.0564 |
0.0917 | 6.2 | 77500 | 0.0569 | 0.0552 |
0.0896 | 6.24 | 78000 | 0.0568 | 0.0550 |
0.0886 | 6.28 | 78500 | 0.0550 | 0.0550 |
0.0917 | 6.32 | 79000 | 0.0554 | 0.0562 |
0.0839 | 6.36 | 79500 | 0.0551 | 0.0570 |
0.0856 | 6.4 | 80000 | 0.0533 | 0.0545 |
0.0939 | 6.44 | 80500 | 0.0564 | 0.0545 |
0.0868 | 6.48 | 81000 | 0.0556 | 0.0557 |
0.0882 | 6.52 | 81500 | 0.0547 | 0.0544 |
0.0925 | 6.56 | 82000 | 0.0577 | 0.0557 |
0.0866 | 6.6 | 82500 | 0.0534 | 0.0555 |
0.091 | 6.64 | 83000 | 0.0565 | 0.0552 |
0.1033 | 6.68 | 83500 | 0.0539 | 0.0551 |
0.0953 | 6.72 | 84000 | 0.0527 | 0.0545 |
0.0866 | 6.76 | 84500 | 0.0547 | 0.0546 |
0.0912 | 6.8 | 85000 | 0.0547 | 0.0557 |
0.0901 | 6.84 | 85500 | 0.0533 | 0.0544 |
0.0859 | 6.88 | 86000 | 0.0556 | 0.0540 |
0.2118 | 6.92 | 86500 | 0.0527 | 0.0545 |
0.0868 | 6.96 | 87000 | 0.0546 | 0.0537 |
0.097 | 7.0 | 87500 | 0.0520 | 0.0557 |
0.0835 | 7.04 | 88000 | 0.0542 | 0.0538 |
0.084 | 7.08 | 88500 | 0.0545 | 0.0543 |
0.0983 | 7.12 | 89000 | 0.0528 | 0.0557 |
0.09 | 7.16 | 89500 | 0.0542 | 0.0540 |
0.0879 | 7.2 | 90000 | 0.0559 | 0.0533 |
0.0818 | 7.24 | 90500 | 0.0546 | 0.0529 |
0.0849 | 7.28 | 91000 | 0.0535 | 0.0533 |
0.0777 | 7.32 | 91500 | 0.0548 | 0.0544 |
0.0887 | 7.36 | 92000 | 0.0545 | 0.0533 |
0.0886 | 7.4 | 92500 | 0.0545 | 0.0527 |
0.0752 | 7.44 | 93000 | 0.0552 | 0.0531 |
0.0819 | 7.48 | 93500 | 0.0525 | 0.0532 |
0.0753 | 7.52 | 94000 | 0.0522 | 0.0515 |
0.0834 | 7.56 | 94500 | 0.0521 | 0.0525 |
0.0895 | 7.6 | 95000 | 0.0540 | 0.0537 |
0.0865 | 7.64 | 95500 | 0.0532 | 0.0530 |
0.0828 | 7.68 | 96000 | 0.0532 | 0.0528 |
0.0836 | 7.72 | 96500 | 0.0545 | 0.0532 |
0.0852 | 7.76 | 97000 | 0.0555 | 0.0515 |
0.0853 | 7.8 | 97500 | 0.0536 | 0.0523 |
0.0854 | 7.85 | 98000 | 0.0517 | 0.0523 |
0.0729 | 7.89 | 98500 | 0.0541 | 0.0523 |
0.0831 | 7.93 | 99000 | 0.0541 | 0.0520 |
0.0884 | 7.97 | 99500 | 0.0526 | 0.0525 |
0.0796 | 8.01 | 100000 | 0.0545 | 0.0521 |
0.0797 | 8.05 | 100500 | 0.0513 | 0.0513 |
0.0792 | 8.09 | 101000 | 0.0531 | 0.0518 |
0.0816 | 8.13 | 101500 | 0.0517 | 0.0516 |
0.0761 | 8.17 | 102000 | 0.0522 | 0.0514 |
0.0752 | 8.21 | 102500 | 0.0538 | 0.0524 |
0.0801 | 8.25 | 103000 | 0.0520 | 0.0519 |
0.0734 | 8.29 | 103500 | 0.0525 | 0.0513 |
0.0752 | 8.33 | 104000 | 0.0532 | 0.0514 |
0.0792 | 8.37 | 104500 | 0.0513 | 0.0525 |
0.0776 | 8.41 | 105000 | 0.0527 | 0.0514 |
0.0741 | 8.45 | 105500 | 0.0520 | 0.0516 |
0.0843 | 8.49 | 106000 | 0.0546 | 0.0511 |
0.0801 | 8.53 | 106500 | 0.0511 | 0.0513 |
0.1934 | 8.57 | 107000 | 0.0505 | 0.0513 |
0.0747 | 8.61 | 107500 | 0.0524 | 0.0507 |
0.0721 | 8.65 | 108000 | 0.0536 | 0.0505 |
0.0798 | 8.69 | 108500 | 0.0519 | 0.0520 |
0.0721 | 8.73 | 109000 | 0.0532 | 0.0501 |
0.0771 | 8.77 | 109500 | 0.0515 | 0.0509 |
0.0771 | 8.81 | 110000 | 0.0549 | 0.0507 |
0.0836 |
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
Voice Activity Detection
MIT
pyannote.audio 2.1バージョンに基づく音声活動検出モデルで、音声中の音声活動時間帯を識別するために使用されます
音声認識
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
これはポルトガル語音声認識タスク向けにファインチューニングされたXLSR-53大規模モデルで、Common Voice 6.1データセットでトレーニングされ、ポルトガル語音声からテキストへの変換をサポートします。
音声認識 その他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
WhisperはOpenAIが提案した先進的な自動音声認識(ASR)および音声翻訳モデルで、500万時間以上の注釈付きデータで訓練されており、強力なデータセット間およびドメイン間の汎化能力を持っています。
音声認識 複数言語対応
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、ゼロショット設定において強力な汎化能力を発揮します。
音声認識
Transformers 複数言語対応

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたロシア語音声認識モデル、16kHzサンプリングレートの音声入力をサポート
音声認識 その他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングした中国語音声認識モデルで、16kHzサンプリングレートの音声入力をサポートしています。
音声認識 中国語
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
facebook/wav2vec2-large-xlsr-53をファインチューニングしたオランダ語音声認識モデルで、Common VoiceとCSS10データセットでトレーニングされ、16kHz音声入力に対応しています。
音声認識 その他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをベースにファインチューニングした日本語音声認識モデルで、16kHzサンプリングレートの音声入力をサポート
音声認識 日本語
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
Hugging Faceの事前学習モデルを基にしたテキストと音声の強制アライメントツールで、多言語対応かつメモリ効率に優れています
音声認識
Transformers 複数言語対応

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
facebook/wav2vec2-large-xlsr - 53をベースに微調整されたアラビア語音声認識モデルで、Common Voiceとアラビア語音声コーパスで訓練されました。
音声認識 アラビア語
W
jonatasgrosman
2.3M
37
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98