wav2vec2-xls-r-1b-ka開源自動語音識別模型 - 免費部署實現格魯吉亞語語音識別

首頁

Wav2vec2 Xls R 1b Ka

由arampacha開發

基於facebook/wav2vec2-xls-r-1b在格魯吉亞語數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #格魯吉亞語語音識別 #低詞錯誤率 #多場景適配

下載量 25

發布時間 : 3/2/2022

模型概述

該模型是針對格魯吉亞語優化的自動語音識別(ASR)模型，在Mozilla Common Voice和魯棒語音事件數據集上表現出色

模型特點

高性能語音識別

在格魯吉亞語語音識別任務中取得低詞錯誤率(WER)和字符錯誤率(CER)

大規模預訓練基礎

基於10億參數的wav2vec2-xls-r模型微調，具備強大的語音特徵提取能力

多數據集驗證

在Common Voice和魯棒語音事件等多個數據集上進行了性能驗證

模型能力

格魯吉亞語語音識別

語音轉文本

魯棒語音處理

使用案例

語音轉錄

格魯吉亞語語音轉寫

將格魯吉亞語語音內容轉換為文本

詞錯誤率7.4%，字符錯誤率1.19%

語音助手

格魯吉亞語語音交互

支持格魯吉亞語語音命令識別

在魯棒語音事件數據集上詞錯誤率21.58-22.61%

🚀 wav2vec2-xls-r-1b-ka

本模型是基於自動語音識別技術的模型，它在特定數據集上對 facebook/wav2vec2-xls-r-1b 進行微調，在評估集上取得了較好的結果，可用於語音識別相關任務。

📄 許可證

本項目採用 Apache-2.0 許可證。

📋 模型信息

屬性	詳情
模型類型	自動語音識別模型
訓練數據	common_voice
標籤	automatic-speech-recognition、mozilla-foundation/common_voice_8_0、generated_from_trainer、robust-speech-event、hf-asr-leaderboard

📊 模型評估結果

1. Common Voice ka 數據集

指標	值
WER LM	7.39778066580026
CER LM	1.1882089427096434

2. Robust Speech Event - Dev Data 數據集

指標	值
Test WER	22.61

3. Robust Speech Event - Test Data 數據集

指標	值
Test WER	21.58

模型在評估集的結果

Loss: 0.1022
Wer: 0.1527
Cer: 0.0221

🔧 訓練過程

訓練超參數

學習率（learning_rate）: 7e-05
訓練批次大小（train_batch_size）: 16
評估批次大小（eval_batch_size）: 64
隨機種子（seed）: 42
梯度累積步數（gradient_accumulation_steps）: 8
總訓練批次大小（total_train_batch_size）: 128
優化器（optimizer）: Adam（betas=(0.9,0.98)，epsilon=1e-08）
學習率調度器類型（lr_scheduler_type）: cosine
學習率調度器熱身比例（lr_scheduler_warmup_ratio）: 0.1
訓練步數（training_steps）: 4000
混合精度訓練（mixed_precision_training）: Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	Wer	Cer
1.2839	6.45	400	0.2229	0.3609	0.0557
0.9775	12.9	800	0.1271	0.2202	0.0317
0.9045	19.35	1200	0.1268	0.2030	0.0294
0.8652	25.8	1600	0.1211	0.1940	0.0287
0.8505	32.26	2000	0.1192	0.1912	0.0276
0.8168	38.7	2400	0.1086	0.1763	0.0260
0.7737	45.16	2800	0.1098	0.1753	0.0256
0.744	51.61	3200	0.1054	0.1646	0.0239
0.7114	58.06	3600	0.1034	0.1573	0.0228
0.6773	64.51	4000	0.1022	0.1527	0.0221