wav2vec2-xls-r-300m-rm-sursilv-d11開源語音識別模型 - 精準識別羅曼什語-蘇塞爾瓦方言

首頁

Wav2vec2 Xls R 300m Rm Sursilv D11

由DrishtiSharma開發

該模型是基於facebook/wav2vec2-xls-r-300m在羅曼什語-蘇塞爾瓦方言數據集上微調的自動語音識別模型，在Common Voice 8測試集上取得了24.09%的詞錯誤率(WER)。

語音識別

Transformers

開源協議:Apache-2.0 #羅曼什語語音識別 #低詞錯誤率(WER)#Common Voice適配

下載量 20

發布時間 : 3/2/2022

模型概述

這是一個用於羅曼什語-蘇塞爾瓦方言的自動語音識別模型，基於wav2vec2-xls-r-300m架構微調而成，適用於將語音轉換為文本的任務。

模型特點

低資源語言支持

專門針對羅曼什語-蘇塞爾瓦方言這一低資源語言進行優化

高性能

在Common Voice 8測試集上取得了24.09%的詞錯誤率(WER)和4.98%的字錯誤率(CER)

基於XLS-R架構

使用Facebook的wav2vec2-xls-r-300m作為基礎模型，具有強大的語音特徵提取能力

模型能力

語音識別

語音轉文本

羅曼什語-蘇塞爾瓦方言處理

使用案例

語音轉錄

羅曼什語語音轉錄

將羅曼什語-蘇塞爾瓦方言的語音內容轉換為文本

在Common Voice 8測試集上WER為24.09%

語音輔助技術

羅曼什語語音助手

為羅曼什語使用者開發語音控制應用

🚀 wav2vec2-xls-r-300m-rm-sursilv-d11模型

本模型是基於MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - RM - SURSILV數據集對facebook/wav2vec2-xls-r-300m進行微調後的版本。它在語音識別任務中表現出色，能夠有效處理相關語音數據。

✨ 主要特性

基於預訓練模型facebook/wav2vec2-xls-r-300m進行微調，在特定數據集上優化了性能。
支持自動語音識別任務，可用於語音識別相關應用。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

💻 使用示例

文檔未提及使用示例代碼，暫不展示。

📚 詳細文檔

評估結果

該模型在評估集上取得了以下結果：

損失值（Loss）: 0.2511
字錯率（Wer）: 0.2415

評估命令

在mozilla-foundation/common_voice_8_0測試分割集上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-xls-r-300m-rm-sursilv-d11 --dataset mozilla-foundation/common_voice_8_0 --config rm-sursilv --split test --log_outputs

在speech-recognition-community-v2/dev_data上進行評估羅曼什 - 蘇爾西爾夫語（Romansh - Sursilv）在speech-recognition-community-v2/dev_data中不可用。

訓練超參數

訓練過程中使用了以下超參數：

參數	詳情
學習率（learning_rate）	7e - 05
訓練批次大小（train_batch_size）	32
評估批次大小（eval_batch_size）	16
隨機種子（seed）	42
優化器（optimizer）	Adam（betas=(0.9, 0.999)，epsilon = 1e - 08）
學習率調度器類型（lr_scheduler_type）	線性（linear）
學習率調度器熱身步數（lr_scheduler_warmup_steps）	2000
訓練輪數（num_epochs）	125.0
混合精度訓練（mixed_precision_training）	原生自動混合精度（Native AMP）

訓練結果

訓練損失（Training Loss）	輪數（Epoch）	步數（Step）	驗證損失（Validation Loss）	字錯率（Wer）
2.3958	17.44	1500	0.6808	0.6521
0.9663	34.88	3000	0.3023	0.3718
0.7963	52.33	4500	0.2588	0.3046
0.6893	69.77	6000	0.2436	0.2718
0.6148	87.21	7500	0.2521	0.2572
0.5556	104.65	9000	0.2490	0.2442
0.5258	122.09	10500	0.2515	0.2442