wav2vec2-xlsr-romansh_sursilvan開源語音識別模型 - 精準識別羅曼什語-蘇塞爾瓦方言

首頁

Wav2vec2 Xlsr Romansh Sursilvan

由sammy786開發

該模型是基於facebook/wav2vec2-xls-r-1b在羅曼什語-蘇塞爾瓦方言數據集上微調的自動語音識別模型，在Common Voice 8測試集上取得13.82%的詞錯誤率(WER)。

語音識別

Transformers

開源協議:Apache-2.0 #羅曼什語語音識別 #低詞錯誤率(WER13.82)#XLS-R1B微調

下載量 18

發布時間 : 3/2/2022

模型概述

這是一個針對羅曼什語-蘇塞爾瓦方言優化的自動語音識別模型，基於Facebook的wav2vec2-xls-r-1b架構微調而成。

模型特點

低詞錯誤率

在羅曼什語-蘇塞爾瓦方言測試集上取得13.82%的詞錯誤率(WER)和3.02%的字錯誤率(CER)

基於大模型微調

基於facebook/wav2vec2-xls-r-1b大模型微調，繼承了其強大的語音特徵提取能力

多數據集訓練

合併了Common Voice芬蘭語train.tsv、dev.tsv和other.tsv等多個數據集進行訓練

模型能力

羅曼什語-蘇塞爾瓦方言語音識別

魯棒語音事件檢測

對話語音處理

使用案例

語音轉錄

羅曼什語-蘇塞爾瓦方言語音轉文字

將羅曼什語-蘇塞爾瓦方言的語音內容轉換為文字

詞錯誤率13.82%，字錯誤率3.02%

語音助手

羅曼什語-蘇塞爾瓦方言語音助手

支持羅曼什語-蘇塞爾瓦方言的語音交互系統

🚀 sammy786/wav2vec2-xlsr-romansh_sursilvan

這個模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - rm-sursilv 數據集上的微調版本。它在評估集（訓練數據集的 10% 與其他和開發數據集合並）上取得了以下結果：

損失：16.38
字錯率（Wer）：21.25

✨ 主要特性

基於預訓練模型 "facebook/wav2vec2-xls-r-1b" 進行微調。
在特定數據集上進行訓練，以適應相關語音識別任務。

📚 詳細文檔

模型描述

對 "facebook/wav2vec2-xls-r-1b" 進行了微調。

預期用途與限制

需要更多信息。

訓練和評估數據

訓練數據：Common voice Finnish train.tsv、dev.tsv 和 other.tsv

訓練過程

為創建訓練數據集，將所有可能的數據集進行合併，並採用 90 - 10 的分割方式。

訓練超參數

訓練期間使用了以下超參數：

學習率（learning_rate）：0.000045637994662983496
訓練批次大小（train_batch_size）：16
評估批次大小（eval_batch_size）：16
隨機種子（seed）：13
梯度累積步數（gradient_accumulation_steps）：2
總訓練批次大小（total_train_batch_size）：32
優化器（optimizer）：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
學習率調度器類型（lr_scheduler_type）：cosine_with_restarts
學習率調度器熱身步數（lr_scheduler_warmup_steps）：500
訓練輪數（num_epochs）：40
混合精度訓練（mixed_precision_training）：Native AMP

訓練結果

步驟	訓練損失	驗證損失	字錯率（Wer）
200	4.825500	2.932350	1.000000
400	1.325600	0.292645	0.415436
600	0.709800	0.219167	0.324451
800	0.576800	0.174390	0.275477
1000	0.538100	0.183737	0.272116
1200	0.475200	0.159078	0.253871
1400	0.420400	0.167277	0.240907
1600	0.393500	0.167216	0.247269
1800	0.407500	0.178282	0.239827
2000	0.374400	0.184590	0.239467
2200	0.382600	0.164106	0.227824
2400	0.363100	0.162543	0.228544
2600	0.199000	0.172903	0.231665
2800	0.150800	0.160117	0.222662
3000	0.101100	0.169553	0.222662
3200	0.104200	0.161056	0.220622
3400	0.096900	0.161562	0.216781
3600	0.092200	0.163880	0.212580
3800	0.089200	0.162288	0.214140
4000	0.076200	0.160470	0.213540
4200	0.087900	0.162827	0.213060
4400	0.066200	0.161096	0.213300
4600	0.076000	0.162060	0.213660
4800	0.071400	0.162045	0.213300

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

評估命令

在 mozilla-foundation/common_voice_8_0 數據集的 test 分割上進行評估：

python eval.py --model_id sammy786/wav2vec2-xlsr-romansh_sursilvan --dataset mozilla-foundation/common_voice_8_0 --config rm-sursilv --split test

📄 許可證

本模型採用 Apache-2.0 許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫