Wav2vec2 Base Ft Cv3 V3
W
Wav2vec2 Base Ft Cv3 V3
由danieleV9H開發
該模型是基於facebook/wav2vec2-base在Common Voice 3.0英語數據集上微調的語音識別模型,在測試集上取得了0.247的詞錯誤率。
下載量 120
發布時間 : 6/25/2022
模型概述
一個用於英語語音識別的微調模型,基於wav2vec2架構,在Common Voice數據集上訓練。
模型特點
低詞錯誤率
在Common Voice測試集上取得了0.247的詞錯誤率,表現良好。
基於wav2vec2架構
採用Facebook的wav2vec2-base作為基礎模型,具有強大的語音特徵提取能力。
線性學習率調度
訓練過程中使用線性學習率調度策略,有助於模型穩定收斂。
模型能力
英語語音識別
音頻轉文本
使用案例
語音轉錄
語音備忘錄轉錄
將用戶的語音備忘錄自動轉換為文本
準確率約75.3%(基於1-WER計算)
會議記錄
自動生成會議語音記錄的文本版本
🚀 wav2vec2-base-ft-cv3-v3
該模型是在 “mozilla-foundation/common_voice_3_0 english” 數據集上對 facebook/wav2vec2-base 進行微調的版本。訓練使用了 “train” 和 “validation” 分割集,而 “test” 分割集用於驗證。該模型在評估集上取得了以下結果:
- 損失值:0.5787
- 字錯率(Wer):0.2470
📚 詳細文檔
訓練和評估數據
更多信息待補充。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):5e - 05
- 訓練批次大小(train_batch_size):16
- 評估批次大小(eval_batch_size):16
- 隨機種子(seed):42
- 優化器(optimizer):Adam,β值為 (0.9, 0.999),ε值為 1e - 08
- 學習率調度器類型(lr_scheduler_type):線性
- 訓練輪數(num_epochs):12
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
訓練損失 | 輪數 | 步數 | 驗證損失 | 字錯率(Wer) |
---|---|---|---|---|
3.5935 | 0.1 | 500 | 3.0085 | 1.0 |
1.6296 | 0.21 | 1000 | 1.0879 | 0.5895 |
0.7154 | 0.31 | 1500 | 0.8224 | 0.4839 |
0.6387 | 0.42 | 2000 | 0.7290 | 0.4302 |
0.5322 | 0.52 | 2500 | 0.6864 | 0.4044 |
0.497 | 0.63 | 3000 | 0.6294 | 0.3746 |
0.4659 | 0.73 | 3500 | 0.6388 | 0.3745 |
0.4452 | 0.84 | 4000 | 0.6122 | 0.3570 |
0.4356 | 0.94 | 4500 | 0.5770 | 0.3443 |
0.3976 | 1.05 | 5000 | 0.6145 | 0.3296 |
0.3767 | 1.15 | 5500 | 0.6099 | 0.3325 |
0.3704 | 1.25 | 6000 | 0.5998 | 0.3263 |
0.3541 | 1.36 | 6500 | 0.6070 | 0.3250 |
0.3592 | 1.46 | 7000 | 0.6076 | 0.3352 |
0.3508 | 1.57 | 7500 | 0.5712 | 0.3239 |
0.3437 | 1.67 | 8000 | 0.5729 | 0.3202 |
0.352 | 1.78 | 8500 | 0.5465 | 0.3100 |
0.34 | 1.88 | 9000 | 0.5418 | 0.3059 |
0.4086 | 1.99 | 9500 | 0.5189 | 0.3053 |
0.2968 | 2.09 | 10000 | 0.5373 | 0.3076 |
0.2968 | 2.2 | 10500 | 0.5602 | 0.3061 |
0.2956 | 2.3 | 11000 | 0.5651 | 0.3051 |
0.2863 | 2.41 | 11500 | 0.5476 | 0.2982 |
0.2852 | 2.51 | 12000 | 0.5579 | 0.2954 |
0.292 | 2.61 | 12500 | 0.5451 | 0.2953 |
0.2877 | 2.72 | 13000 | 0.5468 | 0.2905 |
0.285 | 2.82 | 13500 | 0.5283 | 0.2908 |
0.2872 | 2.93 | 14000 | 0.5240 | 0.2867 |
0.3286 | 3.03 | 14500 | 0.5078 | 0.2846 |
0.2526 | 3.14 | 15000 | 0.5373 | 0.2836 |
0.2494 | 3.24 | 15500 | 0.5566 | 0.2861 |
0.2534 | 3.35 | 16000 | 0.5378 | 0.2859 |
0.2435 | 3.45 | 16500 | 0.5225 | 0.2813 |
0.3144 | 3.56 | 17000 | 0.5203 | 0.2808 |
0.2501 | 3.66 | 17500 | 0.5176 | 0.2785 |
0.2469 | 3.76 | 18000 | 0.5022 | 0.2795 |
0.242 | 3.87 | 18500 | 0.5228 | 0.2757 |
0.242 | 3.97 | 19000 | 0.5024 | 0.2788 |
0.2205 | 4.08 | 19500 | 0.5318 | 0.2729 |
0.2149 | 4.18 | 20000 | 0.5492 | 0.2763 |
0.2186 | 4.29 | 20500 | 0.5599 | 0.2769 |
0.2191 | 4.39 | 21000 | 0.5493 | 0.2695 |
0.218 | 4.5 | 21500 | 0.5385 | 0.2709 |
0.2046 | 4.6 | 22000 | 0.5326 | 0.2718 |
0.2064 | 4.71 | 22500 | 0.5591 | 0.2725 |
0.2066 | 4.81 | 23000 | 0.5283 | 0.2700 |
0.2102 | 4.92 | 23500 | 0.5456 | 0.2713 |
0.3345 | 5.02 | 24000 | 0.5474 | 0.2698 |
0.1891 | 5.12 | 24500 | 0.5466 | 0.2672 |
0.1954 | 5.23 | 25000 | 0.5691 | 0.2731 |
0.1971 | 5.33 | 25500 | 0.5595 | 0.2741 |
0.1995 | 5.44 | 26000 | 0.5609 | 0.2716 |
0.1911 | 5.54 | 26500 | 0.5513 | 0.2684 |
0.1954 | 5.65 | 27000 | 0.5282 | 0.2683 |
0.193 | 5.75 | 27500 | 0.5460 | 0.2644 |
0.1974 | 5.86 | 28000 | 0.5415 | 0.2650 |
0.1947 | 5.96 | 28500 | 0.5227 | 0.2656 |
0.1836 | 6.07 | 29000 | 0.5361 | 0.2743 |
0.1741 | 6.17 | 29500 | 0.5637 | 0.2649 |
0.1776 | 6.27 | 30000 | 0.5705 | 0.2680 |
0.1747 | 6.38 | 30500 | 0.5587 | 0.2667 |
0.1761 | 6.48 | 31000 | 0.5480 | 0.2683 |
0.1715 | 6.59 | 31500 | 0.5547 | 0.2627 |
0.2424 | 6.69 | 32000 | 0.5254 | 0.2610 |
0.1756 | 6.8 | 32500 | 0.5301 | 0.2633 |
0.1761 | 6.9 | 33000 | 0.5267 | 0.2658 |
0.1751 | 7.01 | 33500 | 0.5611 | 0.2677 |
0.1653 | 7.11 | 34000 | 0.5617 | 0.2663 |
0.1591 | 7.22 | 34500 | 0.5435 | 0.2642 |
0.1559 | 7.32 | 35000 | 0.5608 | 0.2611 |
0.1604 | 7.43 | 35500 | 0.5477 | 0.2611 |
0.162 | 7.53 | 36000 | 0.5257 | 0.2559 |
0.1579 | 7.63 | 36500 | 0.5398 | 0.2570 |
0.162 | 7.74 | 37000 | 0.5566 | 0.2605 |
0.2351 | 7.84 | 37500 | 0.5371 | 0.2564 |
0.1566 | 7.95 | 38000 | 0.5507 | 0.2565 |
0.1515 | 8.05 | 38500 | 0.5640 | 0.2544 |
0.1459 | 8.16 | 39000 | 0.5739 | 0.2523 |
0.1463 | 8.26 | 39500 | 0.5596 | 0.2522 |
0.1466 | 8.37 | 40000 | 0.5522 | 0.2537 |
0.2372 | 8.47 | 40500 | 0.5567 | 0.2520 |
0.1488 | 8.58 | 41000 | 0.5546 | 0.2506 |
0.1492 | 8.68 | 41500 | 0.5533 | 0.2518 |
0.1454 | 8.78 | 42000 | 0.5488 | 0.2508 |
0.148 | 8.89 | 42500 | 0.5635 | 0.2526 |
0.1424 | 8.99 | 43000 | 0.5513 | 0.2509 |
0.1356 | 9.1 | 43500 | 0.5534 | 0.2527 |
0.1346 | 9.2 | 44000 | 0.5735 | 0.2497 |
0.1346 | 9.31 | 44500 | 0.5710 | 0.2489 |
0.1401 | 9.41 | 45000 | 0.5561 | 0.2491 |
0.2212 | 9.52 | 45500 | 0.5564 | 0.2482 |
0.1369 | 9.62 | 46000 | 0.5658 | 0.2484 |
0.1323 | 9.73 | 46500 | 0.5582 | 0.2495 |
0.1369 | 9.83 | 47000 | 0.5560 | 0.2503 |
0.1368 | 9.94 | 47500 | 0.5552 | 0.2489 |
0.1333 | 10.04 | 48000 | 0.5953 | 0.2491 |
0.1305 | 10.14 | 48500 | 0.5818 | 0.2520 |
0.1316 | 10.25 | 49000 | 0.5773 | 0.2506 |
0.1334 | 10.35 | 49500 | 0.5882 | 0.2485 |
0.1351 | 10.46 | 50000 | 0.5750 | 0.2483 |
0.1337 | 10.56 | 50500 | 0.5910 | 0.2486 |
0.2241 | 10.67 | 51000 | 0.5732 | 0.2491 |
0.1327 | 10.77 | 51500 | 0.5839 | 0.2493 |
0.1364 | 10.88 | 52000 | 0.5724 | 0.2464 |
0.1305 | 10.98 | 52500 | 0.5758 | 0.2468 |
0.128 | 11.09 | 53000 | 0.5811 | 0.2482 |
0.1267 | 11.19 | 53500 | 0.5903 | 0.2483 |
0.1262 | 11.29 | 54000 | 0.5792 | 0.2483 |
0.1291 | 11.4 | 54500 | 0.5735 | 0.2497 |
0.1228 | 11.5 | 55000 | 0.5920 | 0.2494 |
0.1249 | 11.61 | 55500 | 0.5907 | 0.2488 |
0.1266 | 11.71 | 56000 | 0.5786 | 0.2486 |
0.1235 | 11.82 | 56500 | 0.5790 | 0.2473 |
0.1243 | 11.92 | 57000 | 0.5787 | 0.2470 |
框架版本
- Transformers 4.19.2
- Pytorch 1.11.0+cu113
- Datasets 2.2.0
- Tokenizers 0.12.1
📄 許可證
本項目採用 Apache - 2.0 許可證。
Voice Activity Detection
MIT
基於pyannote.audio 2.1版本的語音活動檢測模型,用於識別音頻中的語音活動時間段
語音識別
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
這是一個針對葡萄牙語語音識別任務微調的XLSR-53大模型,基於Common Voice 6.1數據集訓練,支持葡萄牙語語音轉文本。
語音識別 其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
語音識別 支持多種語言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,經過超過500萬小時標記數據的訓練,在零樣本設置下展現出強大的泛化能力。
語音識別
Transformers 支持多種語言

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的俄語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的中文語音識別模型,支持16kHz採樣率的語音輸入。
語音識別 中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型,在Common Voice和CSS10數據集上訓練,支持16kHz音頻輸入。
語音識別 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的日語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 日語
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基於Hugging Face預訓練模型的文本與音頻強制對齊工具,支持多種語言,內存效率高
語音識別
Transformers 支持多種語言

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的阿拉伯語語音識別模型,在Common Voice和阿拉伯語語音語料庫上訓練
語音識別 阿拉伯語
W
jonatasgrosman
2.3M
37
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98